In einer neuen Studie hat das Stanford Internet Observatory mehr als 3.200 Bilder von mutmaßlichem Kindesmissbrauch in der riesigen KI-Datenbank LAION gefunden.
Im Fundament populärer Bildgeneratoren mit künstlicher Intelligenz (KI) verbergen sich Tausende von Bildern von sexuellem Kindesmissbrauch, so ein neuer Bericht Das fordert Unternehmen dazu auf, Maßnahmen zu ergreifen, um einen schädlichen Fehler in der von ihnen entwickelten Technologie zu beheben.
Dieselben Bilder haben es KI-Systemen erleichtert, realistische und explizite Bilder von falschen Kindern zu erstellen und Social-Media-Fotos von vollständig bekleideten echten Teenagern in Akte umzuwandeln, was sehr beunruhigend ist Schulen und Strafverfolgung auf der ganzen Welt.
Bis vor Kurzem dachten Anti-Missbrauchsforscher, dass die einzige Möglichkeit, mit der einige unkontrollierte KI-Tools missbräuchliche Bilder von Kindern erzeugen könnten, im Wesentlichen darin bestehe, das zu kombinieren, was sie aus zwei separaten Kategorien von Online-Bildern gelernt haben – Erwachsenenpornografie und harmlosen Fotos von Kindern.
Aber das Stanford Internet Observatory hat mehr als 3.200 Bilder von mutmaßlichem sexuellem Kindesmissbrauch in der riesigen KI-Datenbank LAION gefunden, einem Index von Online-Bildern und Bildunterschriften, der zur Schulung führender KI-Bildmacher wie Stable Diffusion verwendet wird.
Die an der Stanford University ansässige Überwachungsgruppe arbeitete mit dem Canadian Centre for Child Protection und anderen Wohltätigkeitsorganisationen zur Missbrauchsbekämpfung zusammen, um das illegale Material zu identifizieren und die Originalfotolinks den Strafverfolgungsbehörden zu melden.
Die Antwort kam sofort. Am Vorabend der Veröffentlichung des Berichts des Stanford Internet Observatory am Mittwoch teilte LAION der Associated Press mit, dass es seine Datensätze vorübergehend entfernen werde.
LAION, das für das gemeinnützige Large-scale Artificial Intelligence Open Network steht, sagte in einer Erklärung, dass es „eine Null-Toleranz-Politik gegenüber illegalen Inhalten verfolgt und wir mit größter Vorsicht die LAION-Datensätze entfernt haben, um sicherzustellen, dass dies der Fall ist.“ sicher, bevor Sie sie erneut veröffentlichen.
„Das können wir nicht zurücknehmen“
Während die Bilder nur einen Bruchteil des LAION-Index von rund 5,8 Milliarden Bildern ausmachen, ist es laut der Stanford-Gruppe wahrscheinlich, dass sie die Fähigkeit von KI-Tools beeinflussen, schädliche Ergebnisse zu erzeugen, und den früheren Missbrauch realer Opfer, die mehrfach auftauchen, verstärken.
Es ist kein leicht zu behebendes Problem und geht darauf zurück, dass viele generative KI-Projekte „effektiv auf den Markt gebracht“ und allgemein zugänglich gemacht wurden, weil das Feld so wettbewerbsintensiv ist, sagte David Thiel, Cheftechnologe des Stanford Internet Observatory, der den Bericht verfasst hat.
„Eine ganze Internet-Suche durchzuführen und diesen Datensatz zum Trainieren von Modellen zu verwenden, hätte eher auf einen Forschungsbetrieb beschränkt werden sollen, und das hätte es auch nicht sein sollen.“ Open-Source ohne viel strengere Aufmerksamkeit“, sagte Thiel in einem Interview.
Ein prominenter LAION-Benutzer, der die Entwicklung des Datensatzes mitgeprägt hat, ist das in London ansässige Startup Stability AI, Hersteller der Text-zu-Bild-Modelle Stable Diffusion.
Neue Versionen von Stable Diffusion haben es viel schwieriger gemacht, schädliche Inhalte zu erstellen, aber eine ältere Version, die letztes Jahr eingeführt wurde – die Stability AI nach eigenen Angaben nicht veröffentlicht hat – ist immer noch in andere Anwendungen und Tools integriert und bleibt „das beliebteste Modell zum Generieren“. explizite Bilder“, so der Stanford-Bericht.
„Das können wir nicht zurücknehmen. Dieses Modell liegt in den Händen vieler Menschen auf ihren lokalen Rechnern“, sagte Lloyd Richardson, Direktor für Informationstechnologie beim Canadian Centre for Child Protection, das Kanadas Hotline für die Meldung von sexueller Ausbeutung im Internet betreibt.
Stability AI sagte am Mittwoch, dass es nur gefilterte Versionen von Stable Diffusion hoste und dass „Stability AI seit der Übernahme der exklusiven Entwicklung von Stable Diffusion proaktive Schritte unternommen hat, um das Risiko eines Missbrauchs zu mindern“.
„Diese Filter verhindern, dass unsichere Inhalte die Modelle erreichen“, sagte das Unternehmen in einer vorbereiteten Erklärung.
„Indem wir diese Inhalte entfernen, bevor sie das Modell erreichen, können wir dazu beitragen, zu verhindern, dass das Modell unsichere Inhalte generiert.“
LAION war die Idee eines deutschen Forschers und Lehrers, Christoph Schuhmann, der der AP Anfang des Jahres sagte, dass einer der Gründe dafür, eine so große visuelle Datenbank öffentlich zugänglich zu machen, darin bestehe, sicherzustellen, dass die Zukunft der KI-Entwicklung nicht von einem kontrolliert wird Handvoll mächtiger Unternehmen.
„Es wird viel sicherer und fairer sein, wenn wir es demokratisieren können, sodass die gesamte Forschungsgemeinschaft und die gesamte Öffentlichkeit davon profitieren können“, sagte er.
Ein Großteil der Daten von LAION stammt aus einer anderen Quelle, Common Crawl, einem Repository mit Daten, die ständig aus dem offenen Internet durchforstet werden. Rich Skrenta, Geschäftsführer von Common Crawl, sagte jedoch, dass es „obligatorisch“ für LAION sei, die erfassten Daten vor der Verwendung zu scannen und zu filtern davon.
LAION gab diese Woche bekannt, dass es „strenge Filter“ entwickelt habe, um illegale Inhalte vor der Veröffentlichung seiner Datensätze zu erkennen und zu entfernen, und arbeite weiterhin an der Verbesserung dieser Filter. Im Stanford-Bericht wird anerkannt, dass die Entwickler von LAION einige Versuche unternommen haben, explizite Inhalte „Minderjährige“ herauszufiltern, hätten aber möglicherweise bessere Arbeit geleistet, wenn sie sich früher mit Kindersicherheitsexperten beraten hätten.
Viele Text-zu-Bild-Generatoren sind auf irgendeine Weise von der LAION-Datenbank abgeleitet, wobei nicht immer klar ist, um welche es sich handelt. OpenAI, Hersteller von DALL-E und ChatGPT, gab an, LAION nicht zu verwenden und seine Modelle so optimiert zu haben, dass Anfragen nach sexuellen Inhalten mit Minderjährigen abgelehnt werden.
Google hat sein Text-zu-Bild-Imagen-Modell auf der Grundlage eines LAION-Datensatzes erstellt, sich jedoch nach einem Jahr gegen die Veröffentlichung im Jahr 2022 entschieden Prüfung der Datenbank „Eine breite Palette unangemessener Inhalte aufgedeckt, darunter pornografische Bilder, rassistische Beleidigungen und schädliche soziale Stereotypen.“
Gesetz zum Schutz der Online-Privatsphäre von Kindern
Der Versuch, die Daten rückwirkend zu bereinigen, ist schwierig, daher fordert das Stanford Internet Observatory drastischere Maßnahmen.
Eine Möglichkeit besteht darin, dass jeder, der Trainingseinheiten für LAION‐5B – benannt nach den mehr als 5 Milliarden darin enthaltenen Bild-Text-Paaren – erstellt hat, diese „löscht oder mit Vermittlern zusammenarbeitet, um das Material zu bereinigen“.
Eine andere besteht darin, eine ältere Version von Stable Diffusion effektiv aus allen außer den dunkelsten Ecken des Internets verschwinden zu lassen.
„Legitime Plattformen können aufhören, Versionen davon zum Download anzubieten“, insbesondere wenn sie häufig zur Generierung missbräuchlicher Bilder verwendet werden und keine Schutzmaßnahmen haben, um sie zu blockieren, sagte Thiel.
Als Beispiel nannte Thiel CivitAI, eine Plattform, die von Menschen bevorzugt wird, die KI-generierte Pornografie herstellen, der es aber seiner Meinung nach an Sicherheitsmaßnahmen mangelt, um sie gegen die Erstellung von Bildern von Kindern abzuwägen. Der Bericht fordert außerdem das KI-Unternehmen Hugging Face, das die Trainingsdaten für Modelle verteilt, auf, bessere Methoden zur Meldung und Entfernung von Links zu beleidigendem Material zu implementieren.
Hugging Face sagte, es arbeite regelmäßig mit Aufsichtsbehörden und Kindersicherheitsgruppen zusammen, um missbräuchliches Material zu identifizieren und zu entfernen. CivitAI antwortete nicht auf auf seiner Webseite eingereichte Kommentaranfragen.
Der Stanford-Bericht stellt auch die Frage, ob Fotos von Kindern – selbst die harmlosesten – ohne sie in KI-Systeme eingespeist werden sollten Zustimmung der Familie aufgrund von Schutzmaßnahmen im Bundesgesetz zum Schutz der Online-Privatsphäre von Kindern.
Rebecca Portnoff, Direktorin für Datenwissenschaft bei der Organisation Thorn, die sich gegen sexuellen Missbrauch von Kindern einsetzt, sagte, ihre Organisation habe Untersuchungen durchgeführt, die zeigten, dass die Verbreitung von KI-generierten Bildern bei Tätern gering sei, aber stetig zunehme.
Entwickler können diese Schäden abmildern, indem sie sicherstellen, dass die Datensätze, die sie zur Entwicklung von KI-Modellen verwenden, frei von Missbrauchsmaterialien sind.
Portnoff sagte, es gebe auch Möglichkeiten, schädliche Nutzungen später einzudämmen, nachdem Modelle bereits im Umlauf seien.
Technologieunternehmen und Kindersicherheitsgruppen weisen Videos und Bildern derzeit einen „Hash“ – einzigartige digitale Signaturen – zu, um Materialien über Kindesmissbrauch aufzuspüren und zu entfernen. Laut Portnoff lässt sich das gleiche Konzept auch auf KI-Modelle anwenden, die missbraucht werden.
„Das passiert derzeit nicht“, sagte sie. „Aber es ist etwas, das meiner Meinung nach getan werden kann und sollte.“