KI klaut Ihren Content!(?)

robots.txt ki scraping
Geschrieben von
Johannes Wiese
Beitrag vom
Lesezeit
12 Minuten

Künstliche Intelligenz ist DAS Thema – und das in fast allen Bereichen der Arbeitswelt.
Fast jeder von uns hat mittlerweile wenigstens von ChatGPT oder OpenAI gehört. KI entwickelt sich rasend schnell, man kommt kaum hinterher, selbst wir als Agentur in einer Branche wie der digitalen Kommunikation wo Wandel seit Jahren Alltag ist.
Was hat das aber mit meinem Content zu tun?

Real Talk KI:
KI-Software nutzt schon heute Ihren Content, lernt und erstellt damit neue Inhalte.
Geht das nun zu Ihren Lasten? Entgeht Ihnen etwas oder hat das vielleicht sogar Vorteile? Können wir sagen: KI klaut Ihren Content?
Der Foren-Betreiber Reddit hat zuletzt 60 Millionen dafür bekommen, dass KI mit den dort liegenden Informationen lernen darf.
Haben Sie schon eine Überweisung von OpenAI erhalten?
Vermutlich nicht. Sollten Sie dann nicht Ihre Inhalte vor den Künstlichen Intelligenzen schützen? Lassen Sie uns in diesem Beitrag einmal etwas detaillierter auf das Thema schauen.

Was Sie erwartet, ist kein wissenschaftlich zutiefst detaillierter Inhalt, sondern ein Gedankenanstoß mit einigen wertvollen Hintergründen samt Gaststimme eines Machine Learning Experten aus der KI-Szene in Vancouver Kanada. Am Ende werden Sie Perspektiven gegen und für KI-Blocking kennen und sich einfacher entscheiden können.

Inhaltsverzeichnis

  1. Content Marketing. Was ist es, was bringt es, warum sollte ich mir Gedanken machen, dass jemand meinen Content nutzt?
  2. Wie genau nutzt und profitiert KI-Software Ihren Content?
  3. Wie könnten Sie Ihren Content vor KI schützen?
  4. Ausblick und Gedanken zu Suchmaschinen in nicht allzu ferner Zukunft
  5. Vorteile und Nachteile KI auszusperren
  6. Fazit

B2B Content Marketing

Was ist es, was bringt es, warum sollte ich mir Gedanken machen, dass jemand meinen Content nutzt?

Insbesondere B2B Firmen mit langen Sales-Zyklen, Spezialisten in Nischen – egal ob Hersteller oder Dienstleister zementieren mit Inhalten z.B. auf ihren Websites den eigenen Expertenstatus, begleiten die Customer Journey und erzeugen Anfragen durch Website Besucher, die über Suchmaschinen auf die Website treffen.
Dafür wird Zeit und Geld investiert, um die Erstellung hochwertiger Inhalte zu ermöglichen. Bilder, Videos, Texte, Landingpages und insbesondere Ratgeber, Whitepaper oder Produktinformationen werden von den Firmen selbst oder durch Agenturen erstellt, optimiert und verknüpft.

Ein sehr erfolgreiches Beispiel fast nach Lehrbuch ist die deutsche Firma Personio.

personio content hub

Die deutsche Firma personio betreibt unter personio.de/hr-lexikon/ einen sogenannten Content-Hub mit hunderten Fachartikeln.
Diese Artikel sind über Jahre entstanden und sind sehr clever vernetzt. Sie zeigen den Suchmaschinen welchen semantischen Raum bzw. welche inhaltliche Schublade Personio bedient. Was genau erreicht Personio damit?

  • Sie erzeugen unglaubliche Reichweite (Websitebesucher durch Suchmaschinenplatzierungen)
  • Sie verschaffen sich sehr hohe thematische Autorität bei z.B. google
  • Sie verdienen schlicht Geld und das nachhaltig
  • Sie ersparen sich sehr hohe Summen an google-Ad Kosten die für vergleichbaren Traffic anfallen würden

Das Lexikon In Zahlen (Quelle: sistrix Schätzung im März 2024, echte Zahlen sicherlich noch höher)

Responsive Tabelle mit vollständigem Padding
Metrik Wert
Monatliche Besucher Lexikon 1,3 Millionen Klicks – Websitezugriffe
Keyword Rankings Fast 250.000 Keywords in den Top 100 Ergebnissen
Was hätte dieser Traffic in Google Ads gekostet (pro Monat) 1,6 Millionen €
Erstellungskosten (unsere Schätzung) Über 600 Ratgeber Artikel mit sicher über 5-6 Stunden Aufwand teilweise sicher mehrere Tage pro Artikel (Text + Bild) – das können entspannt 700 Personen-Tage sein. Rechnen Sie selbst.

Das ist eine mehr als solide Content-Marketing / SEO Strategie mit sicher sehr gutem, nachhaltigen Return of Invest. Chapeau Personio! Dieses Lexikon ist ein Unternehmens-Asset, dass den Unternehmenswert beeinflusst und verlässlich Anfragen für den Vertrieb schaffen, auch ohne monatlich Werbung zu bezahlen.

Aber zurück zu Ihnen:
Vielleicht investieren Sie nicht dieselbe Menge Zeit oder Geld in Content wie Personio, zu verschenken haben Sie aber sicher nichts und die Mehrwerte eines guten Content-Marketings für Autorität, Suchmaschinen Dominanz und Umsatz sollten offensichtlich sein. Sie haben nicht nur informative, überzeugende Ratgeber, sondern haben auch Material, dass abgewandelt auf z.B. LinkedIn teilen können um noch mehr Reichweite und Expertenstatus zu generieren.

Wer nutzt Ihren Content? Im Idealfall vor Allem an Ihren Produkten oder Dienstleistung interessierte Menschen. Grundlegend treiben sich auf Ihrer Website auch Suchmaschinen Crawler, Ihre Konkurrenz oder eine Armada an Webtools rum.

robots.txt website user

(Abbildung: Website Besucher – Ratgeber robots.txt dotflow® B2B Digitalagentur)

Stellen wir uns nun vor, eine KI besucht diese Website vergleichbar den Suchmaschinen, die auf diesem Weg Ihre Inhalte kennenlernen, einordnen und bei Gefallen in Form von Rankings an eigene Nutzer belohnt.

Die KI geht Ihre gesamten Inhalte durch, „scraped“ diese, spricht liest sie aus und speichert sie in eigenen Datenbanken und kann ab diesem Punkt aus Ihren Inhalten abgewandelt eigene Inhalte erstellen für sich oder wer weiß wen noch. Ganz ohne 600 Tage Zeiteinsatz oder einen Obolus zahlen zu müssen, in fast obszöner Geschwindigkeit. Eine Frechheit sollten wir denken.
Würden Sie kostenlos intensive Beratungen geben oder Vorträge halten und das vielleicht auch noch für Ihre Konkurrenz?

Wie genau nutzt und profitiert KI-Software Ihren Content?

Das KI das Netz samt aller öffentlich verfügbaren Informationen ausliest ist noch weltnah und gesichert bekannt. Das einzige Limit das KI-Software dabei hat, ist Computing Power und Zeit. Sie wird sich also zumindest versuchen, auf hochwertige Quellen zu fokussieren und erst später unbekanntere oder gar weniger vertrauenswürdige Quellen anschauen.

Was aber genau passiert, wenn die Daten erhoben wurden oder passiert das vielleicht sogar in Echtzeit?

Exkurs: Wie erhebt KI Informationen, wie werden die KI Modelle angelernt?

Mit Dr. Eric Drechsler (Experte Machine Learning, AI aus Vancouver, Kanada. Zum LinkedIn-Profil)

Ablauf von Datenerhebung bis Nutzung der Informationen durch KI-Software

  1. Datenerhebung und Kategorisierung
  2. Selbstständiges Training auf Basis der Datensets
  3. Betreutes Nachttraining (Supervised Finetunding)
  4. Nachgelagertes Lernen unter Feedback von Menschen (Reinforcement Learning)
  5. Neue Daten werden erhoben – dauerhafte Iteration

Die Datenerhebung der KI-Software (vor dem Lernen)
KI-Software aller Art durchforstet das Internet und seine Instanzen wie z.B. Websites, Foren oder Social Media Netzwerke.
Natürlich unter vorheriger Anleitung der Software-Firmen. Die KI verfolgt einen Plan. Das tut sie aber nicht in Echtzeit, wenn der Nutzer der KI-Software z.B. eine Frage oder Aufgabe eingibt.
Das kann man sich eher wie eine Art „Schnappschuss bzw. Snapshot“ vorstellen. Die Ergebnisse, die die KI dem KI Tool Nutzer ausgibt, basieren auf den Informationen, die Sie zum exakten Zeitpunkt des Snapshot erfasst und damit gelernt hat.
Beim Besuch der Websites „scraped“ die KI-Software den Inhalt, kategorisiert, clustert und speichert diese Informationen egal welcher Medienform (Bilder, Texte, Videos, Audio und und und).

Was die KI-Software dann mit den Informationen macht, ist vermutlich die größte Black-Box.

Die Trainingsphasen (Machine Learning)
Jede KI-Software / -Modell hat in Details verschiedene Herangehensweisen. Grundlegend kann man aber sagen, dass die neuen Informationen auf Basis von durch die Entwickler vorgegebenen Parametern auf ihre Qualität geprüft
(z.B. Autor/Quelle und deren Vertrauenswürdigkeit , Wiederholung der Information in verschiedenen Quellen etc.) um möglichst wenig Fehlinformationen zum Anlernen zu verwenden. Auf Basis der Daten lernt die KI dann (Machine Learning) und verarbeitet die Informationen auch im Sinne des unterliegenden Modelltyps.
ChatGPT als KI-Service basiert zum Beispiel auf einem LLM (Large Language Model. Dieses Model wird auf Basis der vorher erhobenen Daten erstmalig trainiert, dann durch Anweisungen nachtrainiert um nicht nur die Inhalte zu haben sondern auch auf Fragen oder Aufgaben zu reagieren – Wie Sie früher in einer Mathe-Sachaufgabenstellung in der Sie die klare Aufgabe erst klar sehen mussten um diese dann zu lösen.

Wichtig sind aber auch die Phasen des betreuten Nachtrainierens Supervised Finetunigs  und des Reinforcement Learning durch menschliches Feedback) – GPT bedeutet dabei: Generative Pre-trained Transformer.

Das Datenmodell nutzt in der Arbeit mit dem Software-Nutzer die zur Verfügung gestellten Informationen und die Rechenpower um auf die Fragen/Wünsche des Nutzers mit statistisch bestmöglichen Antworten zu reagieren.

Nun wissen wir in Ansätzen, was in der Black-Box KI/Model mit den erhobenen Inhalten passiert. Wie Sie also sehen, basiert das Skill-Set der KI zu einem nicht unwesentlichen Teil auf Experten-Wissen in Form von Informationen, aber natürlich auch auf Milliarden von Parametern und Rechenpower.

Wie könnten Sie Ihren Content vor KI schützen?

Wenn Sie die KI-Softwares in Zukunft von Ihrem Content fernhalten wollen, gibt es neben der Möglichkeit schlicht keinen Content mehr zu erstellen oder auf der Website vorzuhalten (schade für Ihre potenziellen Kunden, thematisch interessierte Menschen und somit Ihren Umsatz) auch die Möglichkeit, KI technisch mitzuteilen, dass Sie ihr verbieten, Ihren Content zu erfassen.

Und das mittels der auf der Website hinterlegten robots.txt Datei. Diese Datei dient grundlegend dazu, die Suchmaschinen Crawler und damit die Indexierung Ihrer Website aktiv zu steuern (Welche Seiten soll die Suchmaschine sich anschauen, welche in die Suchergebnisse bringen – z.B. müssen die AGB unbedingt indexiert werden?) In aller Kürze:
In der robots.txt Datei legen wir fest, welche sogenannten User-Agents was tun dürfen. User-Agents können dabei Suchmaschinen-Crawler, Tools oder auch GPTBot sein.
Wir können also dem GPTBot verbieten (oder zumindest eine dringende Empfehlung aussprechen) unsere hochwertigen Content-Seiten wie Ratgeber etc. nicht auszulesen.
Tiefer in die Materie gehen wir auf den beiden Ratgeberseiten zu robots.txt und User-Agents.
Wenn wir diese Anweisungen unterbringen, haben wir schon viel getan und werden unser Ziel vermutlich erreichen.

Die Frage ist nur, ist das im wirtschaftlichen Ergebnis für Sie wirklich das Beste? Die logische Antwort erscheint das JA zu sein.

Ausblick und Gedanken zu Suchmaschinen in nicht allzu ferner Zukunft

Um die Perspektive aber zu wechseln, schauen wir uns nun die absehbare Zukunft der Nutzung von KI in den Suchmaschinen an und das am Beispiel google. Google muss, da Microsoft strategisch an der Firma OpenAI beteiligt ist und somit für die eigenen Dienste wie auch Bing einsetzt, mit eigenen Möglichkeiten aufwarten.
Das tut sie auch mit google gemini (ehemals BARD).

Wie werden Suchmaschinen genutzt? Sie gehen auf google, nutzen eine Search Query wie „301 Weiterleitung WordPress“.
Nun präsentiert google Ihnen die aus eigener Ansicht relevantesten Suchergebnisse in der Ansicht und dazu noch ein paar Ads.
Und genau diese Ads auszustrahlen ist dabei das Geschäftsmodel von google. Der Klick, der Sie dann auf eine der Websitetreffer bringt, ist ein Nebeneffekt. Wir haben unterschiedliche Ziele.

Vielleicht kennen Sie das Beispiel: Statt einem Listing an Websitetreffer sehen Sie: Bilder, FAQ Daten oder Maps die Ihnen alle notwendigen Infos noch in der Suchmaschine bringen – kein Klick für den Websitebetreiber, die Ads sind aber ausgespielt – eine No Click Search – vertretbar für google, schlecht für die Websiteanbieter, die so keinen Interessenten auf der Website haben.

In Zukunft spricht google in Erweiterung dessen mit dem google SGE (Search Generative Experience) über eine grundlegende Veränderung der Funktionsweise der Suchmaschine. (Wir schneiden das Thema wirklich nur grob an)

google io 2023 google sge

Sie geben Ihre Suche ein, die KI von google versteht den Kontext und generiert aus verschiedenen Quellen ein auf Ihre Frage einzigartiges Ergebnis in Textform. Immerhin zeigt sie wohl neben dem Ergebnis die genutzten Quellen an).
Ein Klick wird nun noch unwahrscheinlicher, obwohl unter diesem Text weiter Websitetreffer angezeigt werden.
Und hier schließt sich der Kreis – Teuer erschaffene Inhalte, wie die von personio helfen google Antworten zu generieren und nebenbei Ads auszuspielen sprich Geld zu verdienen, helfen aber weniger dabei Klicks für die Content-Ersteller zu generieren.

Jedoch:
Will google natürlich nicht peinlich berührt schlechte Ergebnisse ausrollen.
Und hier ist die Chance. Wird Ihr hochwertiger Content von den Suchmaschinen zur Antwortgenerierung verwendet (insbesondere im komplexen B2B Bereich) werden Sie in den Quellen genannt, erfahren das Authoritäts-Upgrade und erhöhen die Wahrscheinlichkeit auf den Klick des Nutzers. Hier gar nicht präsent zu sein, weil Sie die KI von Ihrem Content ausschließen, erscheint noch wagemutiger als es nicht zu tun.
Wollen Sie wirklich unsichtbar sein im größten Traffic-Lieferant des Onlinemarketing? Und unter uns – Sind wir sicher, dass wir tatsächlich so einzigartigen Content haben, der so innovativ und bahnbrechend ist, dass die Suchmaschine oder KI ihn nicht auf vergleichbaren Seiten auch bekommt?

Wir können nun nachdem wir besser verstehen das

  • Content teuer ist, aber den Umsatz und die Autorität steigert
  • KI unsere Inhalte nutzt und wie sie das tut
  • die Zukunft quasi unumgänglich die Suchen verändert

die Vor- und Nachteile des Sperrens von KI-Software von unserem Content aufstellen.

Vorteile und Nachteile KI auszusperren

Vorteile und Nachteile des Sperrens
Vorteile des Sperrens Nachteile des Sperrens
Unser Content dient nicht der kostenlosen Weiterbildung der KI-Software. In der Suchmaschine der Zukunft gibt es gesenkte Chancen als Quelle in der durch KI generierte Antwort auf die Search Query des Nutzers zu erscheinen.
Diese kann unsere Inhalte nicht nutzen, um wertschöpfend Content für sich selbst oder andere Firmen zu erstellen. Vermutlich generieren wir weniger Klicks auf die eigene Website.

Fazit

Es ist gut zu wissen, dass wir wenn wir wollen KI-Software beeinflussen können ob und wie sie unseren Content nutzen darf (wenn die KI diesen folgt, was die Hersteller oft betonen zu tun). Gleichzeitig muss das nicht unbedingt gut sein. Am Ende muss daher jeder für sich entscheiden, ob die KI-Software in der Zukunft auf die unter Ressourceneinsatz erstellten Content zugreifen darf.

Weiterführende Gedanken:
Eine logische Ableitung kann sein, dass von den Anbietern wahrgenommene Autorität auf einem Thema durch eine Person oder Firma und hochwertiger Content in Zukunft noch deutlich an Wert gewinnt. Denn die KI wird nicht mit durchschnittlichem oder gar schlechten Material hausieren gehen oder lernen.

Wer in der Zukunft noch Reichweite über organische Suchen will und den Vortritt nicht der Konkurrenz überlassen will, sollte sich kurzfristig mit dem Aufbau hochwertigen Contents auseinandersetzen.

Über

Johannes Wiese
Gründer und Geschäftsführer der B2B-Agentur dotflow mit einem Faible für digitales B2B Marketing, Sport und neue digitale Geschäftsmodelle.
Zurück zur Blogübersicht
Zurück zur Blogübersicht
Ak­tu­el­les B2B-Mar­ke­ting­wis­sen an­wend­bar auf­be­rei­tet

Der B2B-Blog für Sales & Marketing

Google Consent Mode v2 – Pflicht ab März 2024

Inhaltsverzeichnis Seit 2018 sind im Rahmen der DSGVO alle Webseitenbetreiber aus Ländern der Europäischen Union dazu verpflichtet, sogenannte Cookie-Banner…
weiterlesen

7 Tipps für Ihre digitale B2B-Weihnachtskommunikation

Die Adventszeit steht bevor – schon wieder! Wenn Stollen und Lebkuchen die Regale füllen, ist es höchste Zeit, Ihre Gedanken zu den alljährlichen…
weiterlesen

4 Tipps für Ihre B2B Karriereseite

Sie haben in ihrem Unternehmen eine Corporate Website oder planen diese gerade. Sonst würden Sie diesem Blog vermutlich nicht ihre kostbare Zeit widmen….
weiterlesen
zum B2B-Marketing Blog