Robots.txt
robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern anweist, welche Seiten oder Dateien sie anfordern dürfen oder nicht anfordern dürfen. Sie ist die erste Verteidigungslinie bei der Steuerung der Interaktion von Bots mit Ihrer Website-Infrastruktur und hilft bei der Optimierung des Crawl-Budgets.
Bots zu Ihren besten Inhalten leiten
Google weist Ihrer Website ein begrenztes „Crawl-Budget“ zu – die Anzahl der Seiten, die seine Bots pro Tag crawlen werden. Wenn Bots Zeit mit dem Crawlen von Admin-Panels, druckfreundlichen Duplikatseiten oder Warenkorb-/Kassenseiten verschwenden, verpassen sie möglicherweise Ihre wertvollen übersetzten Produktseiten. robots.txt teilt Bots mit: „Verschwenden Sie keine Zeit mit /admin/, konzentrieren Sie sich stattdessen auf /en/, /fr/, /de/.“ Für internationale Websites sollten Sie das Crawling von Seiten mit automatischer Spracherkennungsumleitung, API-Endpunkten und technischen URLs, die nicht indexiert werden müssen, verbieten. Blockieren Sie jedoch NIEMALS versehentlich Ihre Sprachverzeichnisse – das ist ein katastrophaler Fehler, der die gesamte internationale SEO zunichtemacht.
Crawling-Zugriff erlauben vs. verweigern
Auswirkungen in der Praxis
Website hat keine robots.txt, Bots crawlen 10.000 Warenkorb-URLs
Crawl-Budget verschwendet, Produktseiten werden langsam gecrawlt
Neue Produkte erscheinen erst nach Wochen in der Suche
Robots.txt hinzufügen: Disallow /cart/, /checkout/, /api/
Bots konzentrieren sich zu 100 % auf Produkt- und Sprachseiten
Neue Produkte innerhalb von 24 Stunden indexiert