Inhalt
- Was ist die robots.txt?
- Der Grundaufbau einer robots.txt
- robots.txt und Wildcards
- Anwendungsmöglichkeiten einer robots.txt-Datei
- Best Practice für die robots.txt
- Anleitung zum Schreiben von robots.txt-Regeln
- Robots.txt und KI (AI) – Update 2024
dotflow®
dotflow ist die B2B B2B Digitalagentur für smartes Online-Marketing und überzeugende Websites.

Was ist die robots.txt?
Die robots.txt ist eine reine Textdatei, die dem Robots Exclusion Standard (REP) entspricht. Sie befindet sich im Root-Verzeichnis und beinhaltet Regeln, an denen sich alle Suchmaschinen halten müssen. Über die Regeln kann das Indexierungs- und Crawlverhalten einer Suchmaschine gezielt gesteuert werden.
Der Grundaufbau einer robots.txt
User-agent: Googlebot
Disallow: /nogooglebot/
Disallow:/wp-admin/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Jede robots.txt liegt im Stammverzeichnis bzw. im Root einer Website und kann unter der URL www.example.com/robots.txt aufgerufen werden.
Das robots.txt-Protokoll bietet vielfältige Möglichkeiten zur Steuerung des Zugriffs durch Webcrawler. So können beispielsweise ganze Verzeichnisse von der Indexierung ausgeschlossen werden, wie es in der dritten Zeile des Beispiels geschieht. Darüber hinaus ist es möglich, bestimmte Bots – etwa ChatGPT oder andere Crawler – gezielt zu blockieren.
Das Kommando Disallow gibt an, dass der genannte Bereich von Suchmaschinen-Crawlern nicht erfasst werden soll. Dabei ist zu beachten, dass diese Bereiche dennoch prinzipiell öffentlich zugänglich bleiben. Das bedeutet, dass Nutzer weiterhin auf diese Dateien und Verzeichnisse zugreifen können.
Das Robots Exclusion Protocol dient ausschließlich dazu, Webcrawler von Suchmaschinen auszuschließen. Es verhindert jedoch nicht, dass Menschen oder andere Programme die entsprechenden Inhalte aufrufen.
Praxistipp
Die Angabe der Sitemap in der robots.txt-Datei erleichtert Suchmaschinen das Auffinden aller wichtigen Seiten einer Website, da sie den Crawlern direkt die URL der Sitemap bereitstellt und so eine effizientere Indexierung ermöglicht.
robots.txt und Wildcards
Google erkennt in der robots.txt auch sogenannte Wildcards, mit denen sich mehrere URLs nach einem bestimmten Schema in einer einzigen Zeile von der Indexierung ausschließen lassen. Beim Einsatz dieser Funktion ist jedoch besondere Vorsicht geboten.
Andernfalls kann es schnell passieren, dass unbeabsichtigt größere Teile der Website aus dem Index entfernt werden. Der Stern (*) steht für eine beliebige Anzahl von Zeichen innerhalb der URL. Das Dollarzeichen ($) markiert das Ende einer URL. Möchten Sie beispielsweise alle GIF-Dateien von der Indexierung ausschließen, nutzen Sie folgende Anweisung:
Disallow: /*.gif$
Diese Regel verhindert, dass Suchmaschinen GIF-Dateien erfassen, unabhängig davon, in welchem Verzeichnis sie sich befinden.
Anwendungsmöglichkeiten einer robots.txt-Datei
- Keyword-Rankings steuern: Verhindert, dass PDFs oder irrelevante Seiten auf wichtige Suchbegriffe ranken und potenziellen Traffic falsch leiten.
- Duplicate Content vermeiden: Schließt doppelte Inhalte von der Indexierung aus, um Ranking-Abstrafungen zu verhindern.
- (Web) Scraping erschweren: Blockiert unerwünschte Bots, die Inhalte oder Kontaktdaten automatisiert extrahieren.
- Crawling-Budget optimieren: Spart Ressourcen, indem unwichtige Seiten vom Crawling ausgeschlossen werden.
Best Practice für die robots.txt
Eine robots.txt-Datei kann mit nahezu jedem Texteditor erstellt werden. Gängige Programme sind beispielsweise Editor, TextEdit, vi oder Emacs. Es wird jedoch dringend davon abgeraten, ein Textverarbeitungsprogramm zu verwenden, da diese Dateien häufig in einem eigenen Format gespeichert werden.
- Die Datei muss den Namen „robots.txt“ tragen.
- Es darf pro Website nur eine einzige robots.txt-Datei geben.
- Die robots.txt-Datei muss sich im Stammverzeichnis der Website befinden, für die sie gilt.
- Beispiel: Um das Crawling für alle URLs unter
https://www.example.com/
zu steuern, muss sich die Datei unterhttps://www.example.com/robots.txt
befinden. - Eine Platzierung in einem Unterverzeichnis (
https://www.example.com/pages/robots.txt
) ist nicht zulässig. - Falls kein Zugriff auf das Stammverzeichnis möglich ist, kann eine alternative Methode über die Meta-Tags genutzt werden.
- Die Datei kann auch für Subdomains (
https://site.example.com/robots.txt
) oder nicht standardmäßige Ports (https://example.com:8181/robots.txt
) erstellt werden. - Eine robots.txt-Datei gilt nur für das Protokoll, den Host und den Port, unter dem sie veröffentlicht wurde.
- Beispiel: Die Datei https://example.com/robots.txt gilt nur für
https://example.com/
und nicht fürhttps://m.example.com/
oder http://example.com/ - Die Datei muss eine UTF-8-codierte Textdatei sein (was auch ASCII umfasst). Zeichen außerhalb dieses Bereichs könnten von Google ignoriert werden, sodass die Regeln nicht greifen.
Anleitung zum Schreiben von robots.txt-Regeln
Die robots.txt-Datei enthält Regeln, die Webcrawler steuern und festlegen, welche Bereiche der Website gecrawlt werden dürfen. Dabei gelten folgende Prinzipien:
- Eine robots.txt-Datei besteht aus einer oder mehreren Gruppen (Regelsätzen).
- Jede Gruppe beginnt mit einer
User-agent
-Zeile, die festlegt, für welchen Crawler die Regeln gelten.
Eine Gruppe enthält Anweisungen dazu:
- Welche Crawler betroffen sind (User-agent).
- Auf welche Dateien oder Verzeichnisse der Crawler zugreifen darf (Allow).
- Welche Dateien oder Verzeichnisse gesperrt sind (Disallow).
- Crawler verarbeiten die Regeln von oben nach unten.
- Falls mehrere Gruppen für denselben Crawler existieren, werden sie vor der Verarbeitung zu einer einzigen Gruppe zusammengeführt.
- Standardmäßig dürfen Crawler alle Seiten indexieren, sofern keine Disallow-Regel dies untersagt.
- Regeln sind groß- und kleinschreibungssensitiv
- Das Zeichen # markiert Kommentare, die bei der Verarbeitung ignoriert werden.
Robots.txt und KI (AI) – Update 2024
Mit dem Aufstieg fortschrittlicher KI-Technologien wie denen von OpenAI und Google stellt sich eine zentrale Frage für die robots.txt-Gestaltung: Soll KI Zugriff auf Ihre Inhalte erhalten oder nicht?
Einerseits kann die Einbindung in KI-generierte Antworten die Reichweite und Markenbekanntheit steigern. Andererseits besteht das Risiko, dass Suchmaschinen Inhalte direkt präsentieren, wodurch potenzieller Traffic und Einnahmen entfallen.
Die Entscheidung hängt von Ihren Geschäftszielen ab: Fördert KI Ihre Sichtbarkeit oder gefährdet sie wertvollen Website-Traffic? Diese strategische Abwägung sollte in die Planung Ihrer robots.txt-Datei einfließen, um die langfristigen Ziele Ihrer Online-Präsenz zu sichern.
Anwendbares Fachwissen, Tipps und Tools für B2B Marketer aufbereitet in unserem Newsletter.
Abonnieren Sie unseren B2B Newsletter
Häufige Fragen zu robots.txt
Wo muss die robots.txt liegen?
Die robots.txt Datei muss im Hauptverzeichnis (Root-Verzeichnis) Ihrer Website platziert werden. Dadurch können Suchmaschinen-Crawler sie leicht finden und Ihre Anweisungen zur Indexierung der Website-Inhalte befolgen.
Kann robots.txt meine Platzierung in Suchmaschinen verbessern?
Eine gut optimierte robots.txt-Datei kann sich positiv auf Ihr Suchmaschinen-Ranking auswirken, indem sie Crawler zu relevanten Inhalten führt.
Welche Folgen hat das Blockieren wichtiger Seiten in der robots.txt
Das Blockieren wichtiger Seiten führt zu einer Verschlechterung der Platzierung und Sichtbarkeit in den Suchmaschinen.