Opt-out: So verhindern Sie, dass KI-Unternehmen Ihre Online-Inhalte zum Trainieren ihrer Modelle verwenden

Ein US-Unternehmen hat einen Button entwickelt, mit dem Websitebesitzer KI-Crawler blockieren können. Hier erfahren Sie, wie Sie KI von Websites und sozialen Medien blockieren können.

Wir haben einen Werbeblocker und jetzt gibt es einen Block für künstliche Intelligenz (KI).

Das US-amerikanische Cybersicherheitsunternehmen Cloudflare hat eine Schaltfläche für Website-Kunden entwickelt, mit der diese die Verwendung ihrer Daten durch KI-Crawler blockieren können: Internet-Bots, die das Web durchsuchen, um Trainingsdaten zu sammeln.

„Wir haben den Leuten geholfen, sich vor dem Scraping ihrer Websites durch Bots zu schützen (…), daher glaube ich wirklich, dass KI die neue Generation von Inhaltseigentümern ist, die kontrollieren wollen, wie ihre Inhalte verwendet werden“, sagte John Graham-Cumming, der technische Leiter des Unternehmens, in einem Interview mit Euronews Next.

Wenn eine Verbindung zu einer von Cloudflare gehosteten Website hergestellt wird, können sie sehen, wer die Website aufrufen möchte, einschließlich aller KI-Crawler, die sich identifizieren. Der Blocker reagiert, indem er ihnen einen Fehler anzeigt.

Einige KI-Bots geben sich beim Zugriff auf die Website als menschliche Benutzer aus, daher hat Cloudflare ein maschinelles Lernmodell entwickelt, das bewertet, wie wahrscheinlich es ist, dass eine Website-Anfrage von einem menschlichen oder Roboter-Benutzer stammt, sagte Graham-Cumming.

Der CTO konnte nicht sagen, welche Kunden den neuen Button verwenden, sagte aber, er sei „sehr beliebt“ und zwar bei einer großen Bandbreite kleiner und großer Unternehmen.

Laut einer Studie der Data Provenance Initiative, einer Gruppe unabhängiger KI-Forscher, wird das Blockieren von KI-Crawlern im Allgemeinen immer beliebter.

Ihre jüngste Analyse von über 14.000 Webdomänen ergab, dass fünf Prozent aller in den öffentlichen Internetdatenbanken von C4, RefinedWeb und Dolma gesammelten Daten jetzt eingeschränkt. Forscher weisen jedoch darauf hin, dass diese Zahl auf 25 Prozent ansteigt, wenn man die qualitativ hochwertigsten Quellen betrachtet.

Möglichkeiten zum Blockieren von KI-Crawlern

Es gibt Möglichkeiten, KI-Crawlern den Zugriff auf Ihre Inhalte manuell zu verweigern.

Raptive, ein US-Unternehmen, das sich für Kreative einsetzt, schrieb in einem Führung dass Website-Hosts manuell Befehle zu robots.txt hinzufügen könnten, der Datei, die Suchmaschinen mitteilt, wer auf Ihre Site zugreifen kann.

Dazu fügen Sie den User-Agent als Namen beliebter KI-Unternehmen wie Anthropic hinzu und fügen dann „disallow“ mit einem Doppelpunkt und einem Bindestrich hinzu.

Anschließend leert der Website-Host den Cache und fügt /robots.txt am Ende der Website-Domain in der Suchleiste hinzu.

„Das Hinzufügen eines Eintrags zur robots.txt-Datei Ihrer Site (…) ist die Industriestandardmethode, um anzugeben, welchen Crawlern Sie Zugriff auf Ihre Site gewähren“, heißt es in dem Handbuch von Raptive.

Es gibt einige KI-, Content-Unternehmen und Social-Media-Plattformen, die ebenfalls eine Sperre zulassen.

Vor dem geplanten Start im Juni gab Meta AI seinen Nutzern die Möglichkeit, sich von einer neuen Richtlinie abzumelden, nach der öffentliche Posts zum Trainieren ihrer KI-Modelle verwendet werden. Im Juni verpflichtete sich das Unternehmen gegenüber der Europäischen Kommission, keine Nutzerdaten für „undefinierte Techniken der künstlichen Intelligenz“ zu verwenden.

Im Jahr 2023 veröffentlichte OpenAI Zeichenfolgen von Code für Website-Benutzer, um drei Arten von Bots von Websites zu blockieren: OAI-SearchBot, ChatGPT-User und GPTBot.

OpenAI arbeitet außerdem am Media Manager, einem Tool, mit dem Entwickler besser kontrollieren können, welche Inhalte zum Trainieren generativer KI verwendet werden.

„Dies wird (…) das erste Tool seiner Art sein, das uns hilft, urheberrechtlich geschützte Texte, Bilder, Audio- und Videodateien aus mehreren Quellen zu identifizieren und die Präferenzen des Urhebers widerzuspiegeln“, sagte OpenAI in einem Mai Blog Post.

Einige Websites, wie Quadratischer Raum Und Unterstapelhaben einfache Befehle oder Schalter, um das KI-Crawling auszuschalten. Andere, wie TumblrUnd WordPressverfügen über Optionen zum „Verhindern der Freigabe durch Dritte“, die Sie aktivieren können, um KI-Training zu vermeiden.

Benutzer können sich vom AI Scraping mit Slack abmelden, indem sie ihrem Support-Team eine E-Mail senden.

Industriestandard in Arbeit

Websites können KI-Crawler aufgrund einer seit langem bestehenden Internet-Regulierung namens „Robots Exclusion Protocol“ identifizieren.

Martijn Koster, ein niederländischer Softwareentwickler, entwickelte das Protokoll 1994, um die Überlastung seiner eigenen Website durch Crawler zu verhindern. Später wurde es von Suchmaschinen übernommen, um „ihre Serverressourcen besser zu verwalten“, heißt es in einem Blogbeitrag von Google Search Central, einer Website für Entwickler.

Allerdings handelt es sich dabei nicht um einen offiziellen Internetstandard, was laut Google bedeutet, dass die Entwickler das Protokoll „im Laufe der Jahre etwas unterschiedlich interpretiert haben“.

Ein aktuelles Beispiel ist Perplexity, ein US-amerikanisches KI-Unternehmen, das Chatbots betreibt und gegen das von Amazon ermittelt wird, weil es ohne Genehmigung Online-Nachrichteninhalte übernimmt, um seine Bots zu trainieren.

„Wir haben keine Branchenvereinbarung darüber, wie das in der Welt der KI anzuwenden ist“, sagte Graham-Cumming von Cloudflare. „Die guten (Unternehmen) respektieren das Protokoll, aber sie müssen es eigentlich nicht.“

„Wir brauchen etwas im gesamten Internet … das ganz klar macht, ob Sie diese Website nach Daten durchsuchen dürfen oder nicht.“

Das Internet Architecture Board (IAB) veranstaltet im September zweitägige Workshops, bei denen Graham-Cunning glaubt, dass dort ein Industriestandard festgelegt werden soll. Euronews Next hat das IAB um Bestätigung gebeten.

Opt-out: So verhindern Sie, dass KI-Unternehmen Ihre Online-Inhalte zum Trainieren ihrer Modelle verwenden

Die Testsieger der Stiftung Warentest

Schreibe einen Kommentar Antworten abbrechen