robots.txt

Die robots.txt Datei ist ein wertvoller Bestandteil jeder Website und zählt somit auch zu den notwendigen Basic-Skills eines jeden SEO-Experten und Webentwicklers – egal ob intern oder in einer SEO-Agentur. Sie dient nicht nur zur Steuerung der Indexierung einer Suchmaschine, sondern kann auch gezielt zum Einsparen von wertvollem Crawling-Budget verwendet werden und somit den Suchmaschinen Raum zu geben, den wichtigsten Seiten Ihrer Webpräsenz mehr Aufmerksamkeit zu schenken und diese zu bewerten und idealerweise im google Ranking zu platzieren.

Inhalt
  • Was ist die robots.txt?
  • Anwendungsmöglichkeiten einer robots.txt-Datei
  • Hintergrundwissen: REP als Protokoll hinter der robots Datei
  • Aufbau einer Robots.txt
  • Robots.txt Datei erstellen
  • Robots.txt vs. .htacess – Was sind die Unterschiede?
  • Fazit

dotflow®

dotflow ist die B2B B2B Digitalagentur für smartes Online-Marketing und überzeugende Websites.

Kostenloses Beratungsgespräch
robots.txt

Was ist die robots.txt?

Die Robots.txt ist eine Textdatei, die es den Administratoren einer Website erlaubt, das Indexierungsverhalten einer Suchmaschine gezielt zu steuern. Durch die sinnvolle Konfiguration der Robots-Datei, können Webmaster somit einzelne URLs (Unterseiten), Bots (z.B. google, KI aber auch Konkurrenten) und sogar ganze Verzeichnisse einer Website vom Crawlen* ausschließen. Sie gilt als erste Anlaufstelle eines jeden Bots und ist somit ausschlaggebend dafür, ob Ihre Website von Nutzern gefunden werden soll oder nicht.

Was ist Crawling?
Crawling ist der Prozess, bei dem Crawler (auch Spider oder Bots) Webseiten durchsuchen, um Daten zu sammeln und Links zu folgen, hauptsächlich für die Indexierung durch Suchmaschinen.

Was bedeutet Indexierung?
Indexierung ist der Vorgang, durch den Webseiten von Suchmaschinen erfasst und in deren strukturiertes Verzeichnis eingegliedert werden, wodurch sie in Suchergebnissen erscheinen können.

Summary

  • Die robots.txt ist eine Textdatei innerhalb einer Website, die Suchmaschinen Anweisungen gibt, welche Seiten gefunden werden dürfen und welche nicht
  • Durch die korrekte Einrichtung wird es Bots und Dritt Anbietern verboten, gewisse Inhalte zu durchsuchen
  • Falsches einrichten kann zu Duplicate Content und somit auch zu Rankingproblemen bei der Suchmaschine führen oder aber, dass Bereiche Ihrer Website in prominenten Suchen gefunden werden (z.B. Ihre AGB, Produktblätter, Marketing PDF die nur gegen Mailadresse versendet werden sollen, Datenschutzerklärungen oder ein Impressum)

Die robots.txt ist ein sehr relevanter Faktor für den Erfolg einer Website (egal ob B2B oder B2C).

Anwendungsmöglichkeiten einer robots.txt-Datei

Die Anwendungsmöglichkeiten einer Robots.txt Datei erstrecken sich über verschiedene Bereiche, um die Kontrolle über die Indexierung und das Crawling von Website-Inhalten zu optimieren. Hier sind einige wichtige Anwendungs-Szenarien für die Praxis:
Stellen Sie sich zum tieferen Verständnis die folgende Frage – wer nutzt meine Website? Wen davon möchte ich in der Nutzung beschränken?
Beispiele? Nicht nur Ihre potenziellen Kunden, oder Bewerber – auch Tools, die Konkurrenz, google und Co besuchen Ihre Seite. Mit der robots.txt Datei können wir die Nutzung einschränken oder Beeinflussen.

robots.txt website user

Seiten-Hierarchie erkennen:
Durch die Einbindung Ihrer Sitemap als Link in der Robots.txt kann die Suchmaschine alle relevanten URLs erkennen und diese in das umfassende Verzeichnis (Index) von Google oder anderen Suchmaschinen aufnehmen. Das erlaubt Nutzern letztendlich Ihre URLs unter Eingabe eines Keywords bei einer Sucheingabe zu finden.

Keyword-Rankings steuern:
Gerade im E-Commerce, aber auch bei B2B-Herstellern mit reinen Produktkatalogen, existieren parallel zu den Produkten auch entsprechende PDF-Dateien wie z.B. Produktdatenblätter etc. Da die Conversion, sprich ein Kauf oder eine Anfrage des Produkts, selbstverständlich auf der Landingpage stattfindet – nicht aber in einer PDF, wäre es fatal, wenn Ihre Dateien auf starke Suchbegriffe der Landingpage in den Suchmaschinen erscheinen und das Ranking somit an der falschen Position entsteht. Mit der Robots-Datei können Sie gezielt Verzeichnisse inklusive PDFs von dem besagten Ranking ausschließen (NoIndex Tag).

Duplicate Content vermeiden:
Sie besitzen bereits hochwertigen Content mit guten Rankings und möchten zum selben Thema einen Blog schreiben oder dem Content als Futter für B2B Social-Media weitere Inhalte schaffen? In diesem Fall können Sie die neue URL über die disallow Funktion in der Robots.txt vom Ranking ausschließen. Der Artikel kann in dem Fall immer noch über die Navigation Ihrer Website gefunden werden, wird jedoch organisch bei der Suche in Google ausgeschlossen. Duplicate Content führt wenn nicht korrekt bereinigt zu Abstrafungen im Ranking.

(Web) Scraping verhindern:
Es existieren diverse Tools im Internet, welche von Marketern oder (mit deutlich anderer Intention) von Hackern verwendet werden, um in der Masse diverse Seiten zu extrahieren. So werden von Shops ganze Produkte inklusive Preise extrahiert, um Preisstrategien zu entwickeln. Auch kann es passieren, dass Inhalte (Content) vollständig kopiert und auf eine Fremdsprache übersetzt wird, um diesen für die eigene Website zu nutzen, oder Branchenlisting ausgelesen und für neue Listings verwendet werden.

Im Rahmen der Websecurity, nutzen Hacker dieses Verfahren gerne, um Kontaktdaten wie E-Mail-Adressen zu extrahieren. Weitere Infos dazu finden Sie hier bei unserem Partner, der Cybersecurity Plattform enginsight.

Crawling-Budget einsparen:
Die Summe an URLs welche z.B. der Googlebot crawlen kann, ist in der Anzahl begrenzt. Unwichtige Verzeichnisse, die keinerlei Mehrwert für den Kunden bieten sollten daher grundsätzlich gesperrt werden. Dazu zählen beispielsweise:

  • Ihre Datenschutzerklärung
  • Ihr Impressum (wer das sucht, findet es eh – ansonsten liegt die Gefahr darin, dass Auto-Abmahner oder aber Vertriebler zu einfach an Ihre Daten kommen und Sie unnütz kontaktiert werden)
  • Ihre AGB oder AEB
  • Mediatheken (Sie nutzen z.B. PDF Dateien mit Ratgebern oder Ähnlichem in Ihrer Content-Marketing Strategie und wollen diese nur gegen Ausfüllen eines Kontaktformulares preisgeben? Dann sollte die Datei nicht öffentlich indexiert in der Suchmaschine auffindbar sein)
Praxistipp

Stellen Sie die interne Verlinkung dieser Seiten auf no-follow, um keine unnötige Linkkraft (Linkjuice) zu verschwenden und den Suchmaschinen noch deutlicher zu untersagen, die entsprechenden Seiten aufzufinden, für wichtig zu deklarieren oder in den Suchergebnisseiten für Suchanfragen als Ergebnis zu platzieren.
Für einen Check Ihrer Robots.txt empfiehlt sich ein Technical SEO-Audit.

Hintergrundwissen: REP als Protokoll hinter der robots Datei

Das „Robots Exclusion Standard Protokoll“ (REP) regelt den Umgang von Suchmaschinen-Crawlern mit der robots.txt Datei einer Website.

Es entstand aus der Notwendigkeit, eine Balance zwischen der effizienten Indexierung von Webinhalten und dem Schutz der Ressourcen von Webseitenbetreibern zu schaffen sprich Webmastern Kontrolle über das Crawling ihrer Seiten gibt und Serverbelastungen zu minimiert.

Aufbau einer Robots.txt

Eine robots.txt ist eine Textdatei, die sich in Datensätze, auch Records genannt, gliedert. Jeder Record beginnt mit einem „User-agent“-Eintrag, der einen spezifischen Crawler identifiziert, gefolgt von „Disallow“-Einträgen, die festlegen, welche Seiten oder Verzeichnisse nicht durchsucht werden dürfen. Welche Befehle und Syntax Sie in der robots Datei finden, zeigen wir Ihnen folgend anhand von Beispielen.

Syntax-Übersicht einer Robots.txt

#
Kennzeichnet ein Kommentar und wird von der Suchmaschine vollständig ignoriert.

$

User-Agent blockiert alle URLs mit exakten Pfadnamen. Das „$“ stellt sicher, dass nur die URLs, die genau mit „/verzeichnis/“ enden, betroffen sind, und nicht URLs, die zusätzliche Zeichen oder Unterverzeichnisse enthalten

User-Agent*

Erlaubt Befehle für alle Robots. User-Agent Gibt an, für welchen Crawler/Bot die angegebenen Regeln gelten sollen. 

Allow

Erlaubt den Zugriff auf bestimmte Bereiche der Website für den angegebenen User-Agent.

Disallow

Verbietet den Zugriff auf bestimmte Bereiche der Website für den angegebenen User-Agent.

Disallow: /

Blockiert den Zugriff auf die gesamte Website für den angegebenen User-Agent.

crawl-delay:
Legt fest, wie lange ein Crawler zwischen Anfragen warten soll, um die Serverlast zu reduzieren.

Eine beispielhafte robots.txt-Datei:
# Das ist die robots.txt von dotflow
User-Agent* 

Disallow: /datenschutz/
Allow: /landingpage/

User-Agent: GPTBot
Disallow: /
Crawl-delay: 5
Disallow: /nur-diese-url-sperren/$

Robots.txt Datei erstellen

Wichtige Keyfacts vorab:

  • Es darf nur eine Robots.txt pro Website existieren
  • Die Datei darf sich nicht im Unterverzeichnis einer Website befinden
  • Die Robots-Datei muss immer im Hauptverzeichnis (Root) der Website als Textdatei gespeichert werden
  • Je nach Art der Website wird ein Plugin oder ein Texteditor zur Erstellung oder Bearbeitung benötigt

Schritt 1: Frage – Wie ist Ihre Website aufgebaut?

Bevor die Robots.txt erstellt werden kann, muss die Architektur der Seite geklärt sein.
Grundlegend gibt es zwei verschiedene Arten, wie eine Website aufgebaut sein kann:

1. Über ein CMS (Content-Management-System) wie WordPress mit Plugin
Sollten Sie ein CMS nutzen, schauen Sie bitte nicht nur welches (Beispielsweise WordPress, Typo3 oder Contao) sondern googlen Sie kurz, ob es ein führendes Plugin (Erweiterung) zur Erstellung oder Bearbeitung der robots Datei gibt. Für WordPress beispielsweise lassen sich Befehle wie no-index oder index via SEO-Plugins wie yoast oder rankmath ergänzen. Grundlegend sollte auch jede WordPress Seite standardmäßig auch ohne Ihr zutun eine robots txt Datei haben.

2. Direkt beim Websitehost
Sollten Sie kein CMS nutzen, kann es sein, dass Sie die robots.txt als Text Datei manuell erstellen oder bearbeiten und dann über z.B. FTP Zugriff auf dem Server ablegen oder updaten müssen.

Schritt 2: Textdatei erstellen oder bearbeiten

Wenn Sie die Robots.txt selbst bei Ihren Websitehost erstellen und hochladen möchten, benötigen Sie zuallererst einen gängigen Texteditor zur Speicherung von UTF-8 Formaten. Anschließend muss die Datei unter exakten Namen als „robots.txt“ gespeichert und beim Hosting-Provider hochgeladen werden.

Die gängigste und zeitgleich auch einfachste Methode ist es eine Robots.txt mittels CMS und Plugin zu erstellen. Die wichtigsten Plugins für WordPress sind wie in Schritt 1 geschildert rankmath oder yoast.

Sie suchen Unterstützung?

Sie wünschen sich Unterstützung um Ihre robots.txt korrekt zu erstellen, einzurichten, zu bearbeiten oder zu testen oder wollen im SEO durchstarten? Wir freuen uns auf Ihre Kontaktaufnahme!

Jetzt Kontakt aufnehmen

Schritt 3: User-Agent einstellen

Geben Sie an, für welchen User Agent die folgenden Regeln gelten. Soll jeder Bot Ihre Website crawlen können? Oder wollen Sie bestimmte Suchmaschinen daran hintern Ihre Website zu indizieren? Orientieren Sie sich dabei an die User-Agent-Befehle aus der oben geführten Syntax Liste.

Was sind User-Agents?
User Agents sind vielfältige Programme, die im Internet navigieren, um Daten zu sammeln oder Aktionen auszuführen. Neben bekannten Webbrowsern wie Google Chrome, Mozilla Firefox, Safari und Opera umfasst dies auch:

Webanwendungen:
Zum Beispiel Plattformen für digitales Kampagnenmanagement, Tools zur Besucheranalyse und Systeme für das Content-Management, die im Onlinemarketing eine zentrale Rolle spielen.

SEO Tools:
Fortgeschrittene Analysewerkzeuge wie Sistrix und Semrush, die für tiefgreifende SEO-Analysen und Wettbewerbsforschung eingesetzt werden.

Künstliche Intelligenz:
Bots, die Webinhalte auslesen, um darauf basierend eigenständig Inhalte zu generieren oder Entscheidungen zu treffen, was besonders in Bereichen wie automatisiertem Content-Marketing oder datengesteuerten Strategieentwicklungen zum Einsatz kommt.

Konkurrenz und Web-Scraping:
Spezialisierte Bots, die von Wettbewerbern für das Sammeln von Markt- und Wettbewerbsinformationen durch Web-Scraping eingesetzt werden.

Crawler:
Beispiele hierfür sind Bots wie DuckDuckGoBot, Baidu Spider und Yandex Bot, die das Internet durchforsten, um Daten für ihre Suchindizes zu sammeln.

Link Checker:
Tools wie Link Valet, die auf die Überprüfung von Webseitenlinks spezialisiert sind.

Schritt 4: Disallow einstellen (optional)

Das Einsetzen von „Disallow“ in Ihrer robots.txt ist eine optionale Maßnahme, die Ihnen erlaubt, bestimmte Teile Ihrer Website vor dem Zugriff durch Suchmaschinen-Crawler zu schützen. Indem Sie „Disallow“-Anweisungen hinzufügen, können Sie gezielt verhindern, dass spezifische Seiten oder Verzeichnisse gecrawlt und indexiert werden.

Zum Beispiel, um den Zugriff auf ein internes Verzeichnis zu blockieren, könnten Sie folgende Zeile verwenden:
Disallow: /internes-verzeichnis/.
Um Suchmaschinen daran zu hindern, eine bestimmte Datei zu indexieren, könnten Sie schreiben: Disallow: /private-datei.html.
Diese Anweisungen bieten Ihnen die Möglichkeit, sensiblen oder nicht für die Öffentlichkeit bestimmten Content zu verbergen, wobei zu beachten ist, dass nicht alle Bots diese Anfragen respektieren.

Achtung: Den disallow dürfen Sie nicht einsetzen, um parallel zu einem canonical tag den Suchmaschinen Signale für die Originale Variante einer Seite zu senden.

Schritt 5: Robots.txt Datei testen

Um sicherzugehen, dass Ihre robots.txt Datei korrekt funktioniert oder updatet wurde, ist es wichtig, sie nach Fertigstellung zu testen. Dabei geht es vor allem darum zu kontrollieren, ob die von Ihnen bestimmten Seiten wie gewünscht für Suchmaschinen zugänglich oder gesperrt sind.
Ein praktisches Werkzeug hierfür ist der „robots.txt Tester“ in der Google Search Console, aber auch das Tool von ryte.

Robots.txt vs. .htaccess – Was sind die Unterschiede?

Neben der Robots.txt ist auch die .htaccess-Datei ein essentieller Bestandteil für die Konfiguration und Optimierung einer Website. Die .htaccess, ist eine Konfigurationsdatei für Webserver und bietet eine Vielzahl von Direktiven zur Steuerung von Sicherheitsaspekten, Umleitungen und anderen Funktionen. Sie ermöglicht eine granulare Steuerung auf Verzeichnisebene, was die Anpassung und Verbesserung der Website-Sicherheit und -Funktionalität erheblich erleichtert.

Definition Wo zu finden Ziel Auswirkung
Robots.txt Die Robots.txt ist eine Datei zur Steuerung von Suchmaschinen-Crawlern, die bestimmt, welche Teile einer Webseite von den Crawlern durchsucht werden dürfen. Im Hauptverzeichnis (Root) der Website. Kontrolle über das Crawling-Verhalten von Suchmaschinen. Die Robots.txt steuert, welche Inhalte von Suchmaschinen durchsucht und in den Suchergebnissen angezeigt werden.
.htaccess Die .htaccess-Datei ist eine Konfigurationsdatei, die auf Webservern verwendet wird und eine Vielzahl von Anweisungen enthält, um Sicherheitsaspekte, Weiterleitungen und andere Funktionen zu steuern. Die .htaccess befindet sich im Hauptverzeichnis oder einem Unterverzeichnis der Website. Je nach Funktionsbefehl beeinflusst die .htaccess die Sicherheit der gesamten Seite oder einzelne Verzeichnisse.

Robots.txt und KI (AI) – Update 2024

robots.txt ki scraping

Last but definitively not least:
Mit dem Aufstieg fortschrittlicher KI-Technologien von Entwicklern wie OpenAI, Google und diversen SEO-Tools, die auf Content Creation spezialisiert sind, steht die digitale Welt vor einer neuen Herausforderung: dem Umgang mit KI-gesteuertem Content Scraping. Diese KI-Systeme sind darauf programmiert, enorme Mengen an Online-Inhalten zu sammeln und zu analysieren, um Texte, Bilder und Videos zu generieren. Dies wirft eine wichtige Frage für die Gestaltung der robots.txt Datei auf: Sollte man KI den Zugriff auf die eigenen Inhalte erlauben oder nicht?

Diese Entscheidung hängt stark von Ihren individuellen Geschäftszielen und der Art der Inhalte ab, die Ihre Website bietet. Einerseits kann die Einbindung Ihres Contents in KI-generierte Antworten und Materialien die Sichtbarkeit und Reichweite erhöhen. Andererseits besteht die Gefahr, dass Suchmaschinen direkt Antworten liefern, die auf Ihrem Content basieren, ohne dass die Nutzer Ihre Website besuchen. Das könnte potenziell Traffic und damit verbundene Einnahmen verringern.

Es ist also Ihre strategische Überlegung notwendig: Kann die Präsenz in KI-generierten Inhalten die Markenbekanntheit und Autorität stärken, oder überwiegen die Risiken eines möglichen Verlusts an direktem Website-Traffic? Diese Überlegungen sollten in die Planung und Implementierung der robots.txt einfließen, um sicherzustellen, dass sie den langfristigen Zielen Ihrer Online-Präsenz dient.

Fazit

Eine sorgfältig konfigurierte und regelmäßig getestete robots.txt Datei ist unerlässlich für jede Website. Sie ermöglicht nicht nur eine gezielte Steuerung des Suchmaschinen-Crawlings, sondern schützt auch sensible Inhalte und optimiert die SEO-Leistung. Durch kontinuierliche Pflege und Überprüfung dieser Datei können Webmaster sicherstellen, dass ihre Website effizient von Suchmaschinen erfasst wird, was die Sichtbarkeit und den Traffic positiv beeinflusst.

P.S Sie müssen z.B. in einem Notfall oder einer Wartung kurzfristig und nur temporär Crawler umleiten? In unserem Beitrag zum Thema 302-redirect erfahren Sie alles dazu. Sie müssen eine Seite dauerhaft umziehen? Dann könnte Sie unser Beitrag zu 301 Weiterleitung unterstützen.

An­wend­ba­res Fach­wis­sen, Tipps und Tools für B2B Mar­ke­ter auf­be­rei­tet in un­se­rem News­let­ter.

Abonnieren Sie unseren B2B Newsletter

Bitte aktiviere JavaScript in deinem Browser, um dieses Formular fertigzustellen.

Häufige Fragen zu robots.txt

Wo muss die robots.txt liegen?

Die robots.txt Datei muss im Hauptverzeichnis (Root-Verzeichnis) Ihrer Website platziert werden. Dadurch können Suchmaschinen-Crawler sie leicht finden und Ihre Anweisungen zur Indexierung der Website-Inhalte befolgen.

Kann robots.txt meine Platzierung in Suchmaschinen verbessern?

Eine gut optimierte robots.txt-Datei kann sich positiv auf Ihr Suchmaschinen-Ranking auswirken, indem sie Crawler zu relevanten Inhalten führt.

Welche Folgen hat das Blockieren wichtiger Seiten in der robots.txt

Das Blockieren wichtiger Seiten führt zu einer Verschlechterung der Platzierung und Sichtbarkeit in den Suchmaschinen.


Quellen