KI trainieren: Gefälschte Daten sind billiger als echte Daten

Wandbild der Flugwissenschaft, Sky Harbor Airport
Bitte teilen Sie diese Geschichte!
Technokraten waren schon immer datensüchtig, aber jetzt gibt es nicht mehr genug reale Daten, um die Lust auf mehr zu stillen. Die Antwort? Erstellen Sie gefälschte Daten, die von anderen KI-Programmen „synthetisiert“ werden, um sie in andere erstklassige KI-Algorithmen einzuspeisen, die für bestimmte Ergebnisse „trainiert“ werden. Sind also gefälschte Daten wirklich besser als echte Daten? Du entscheidest. ⁃ TN-Editor

Babys lernen zu sprechen, indem sie hören, wie andere Menschen – meistens ihre Eltern – wiederholt Geräusche produzieren. Langsam, durch Wiederholung und Entdeckung von Mustern, beginnen Säuglinge, diese Klänge mit Bedeutungen zu verbinden. Durch viel Übung schaffen sie es schließlich, ähnliche Geräusche zu erzeugen, die Menschen um sie herum verstehen können.

Maschinelles Lernen Algorithmen funktionieren auf die gleiche Weise, aber anstatt ein paar Eltern zu haben, von denen sie kopieren können, verwenden sie Daten, die von Tausenden von Menschen sorgfältig kategorisiert werden, die sie manuell überprüfen müssen technische Daten und sagen Sie der Maschine, was es bedeutet.

Dieser langwierige und zeitaufwändige Prozess ist jedoch nicht das einzige Problem mit realen Daten, die zum Trainieren von Algorithmen für maschinelles Lernen verwendet werden.

Nehmen Sie die Betrugserkennung bei Versicherungsansprüchen. Damit ein Algorithmus einen Betrugsfall genau von berechtigten Behauptungen unterscheiden kann, muss er beides sehen. Tausende und Abertausende von beidem. Und weil AI Systeme werden oft von Dritten bereitgestellt – also nicht von der Versicherungsgesellschaft selbst betrieben – diese Dritten müssen Zugriff auf all diese sensiblen Daten erhalten. Sie verstehen, wohin das führt, denn dasselbe gilt für Krankenakten und Finanzdaten.

Eher esoterisch, aber genauso besorgniserregend sind all die Algorithmen, die auf Text, Bilder und Videos trainiert wurden. Abgesehen von Fragen des Urheberrechtszufolge werden sich Schöpfer haben Uneinigkeit geäußert mit ihrer Arbeit, die in einen Datensatz gesaugt wird, um zu trainieren eine Maschine, die möglicherweise (einen Teil) ihrer Arbeit übernimmt. Und das setzt voraus, dass ihre Kreationen nicht rassistisch oder auf andere Weise problematisch sind – was wiederum zu problematischen Ergebnissen führen könnte.

Und was ist, wenn einfach nicht genügend Daten verfügbar sind, um eine KI für alle Eventualitäten zu trainieren? In einem 2016 Bericht der RAND Corporationberechneten die Autoren, wie viele Kilometer „eine Flotte von 100 autonomen Fahrzeugen, die 24 Stunden am Tag, 365 Tage im Jahr mit einer Durchschnittsgeschwindigkeit von 25 Meilen pro Stunde fahren“, fahren müsste, um nachzuweisen, dass ihre Ausfallrate (was zu Todesfälle oder Verletzungen), war zuverlässig niedriger als die des Menschen. Ihre Antwort? 500 Jahre und 11 Milliarden Meilen.

Sie müssen kein Superhirn sein, um herauszufinden, dass der aktuelle Prozess nicht ideal ist. Also was können wir tun? Wie können wir genügend, die Privatsphäre respektierende, unproblematische, alle Eventualitäten abdeckende und genau gekennzeichnete Daten erstellen? Sie haben es erraten: mehr KI.

Gefälschte Daten können KIs dabei helfen, mit echten Daten umzugehen

Schon vor dem RAND-Bericht war für Unternehmen, die am autonomen Fahren arbeiten, völlig klar, dass sie erbärmlich unzureichend ausgestattet waren, um genügend Daten zu sammeln, um Algorithmen zuverlässig zu trainieren, um unter allen Bedingungen und Umständen sicher zu fahren.

Nehmen Sie Waymo, das Unternehmen für autonomes Fahren von Alphabet. Anstatt sich ausschließlich auf ihre realen Fahrzeuge zu verlassen, schufen sie eine vollständig simulierte Welt, in der simulierte Autos mit simulierten Sensoren endlos herumfahren und auf ihrem simulierten Weg echte Daten sammeln konnten. Nach Angaben des Unternehmens, hatte es bis 2020 Daten über 15 Milliarden Meilen simuliertes Fahren gesammelt – im Vergleich zu mageren 20 Millionen Meilen realer Fahrten.

Im Sprachgebrauch der KI nennt man dies synthetische Daten oder „auf eine bestimmte Situation anwendbare Daten, die nicht durch direkte Messung gewonnen werden“, wenn Sie technisch werden wollen. Oder weniger technisch: KIs produzieren gefälschte Daten, damit andere KIs schneller etwas über die reale Welt lernen können.

Ein Beispiel ist Task2Sim, ein vom MIT-IBM Watson AI Lab entwickeltes KI-Modell, das synthetische Daten für das Training von Klassifikatoren erstellt. Anstatt dem Klassifikator beizubringen, ein Objekt nach dem anderen zu erkennen, erstellt das Modell Bilder, die verwendet werden können, um mehrere Aufgaben zu lehren. Das Skalierbarkeit dieses Modelltyps macht das Sammeln von Daten für datenhungrige Unternehmen weniger zeitaufwändig und kostengünstiger.

Hinzu kommt Rogerio Feris, an IBM Forscher, der das Papier zu Task2Sim mitverfasst hat, sagte:

Das Schöne an synthetischen Bildern ist, dass Sie ihre Parameter steuern können – den Hintergrund, die Beleuchtung und die Art und Weise, wie Objekte gestellt werden.

Dank all der oben aufgeführten Bedenken ist die Produktion aller Arten von synthetischen Daten in den letzten Jahren explodiert Dutzende von Startups in diesem Bereich blühen auf und Investitionen in Höhe von Hunderten von Millionen Dollar zu tätigen.

Die generierten synthetischen Daten reichen von „menschlichen Daten“ wie Gesundheits- oder Finanzdaten über synthetisierte Bilder einer Vielzahl menschlicher Gesichter bis hin zu abstrakteren Datensätzen wie genomischen Daten, die die Struktur der DNA nachahmen.

Wie man wirklich gefälschte Daten erstellt

Es gibt mehrere Möglichkeiten, wie diese synthetische Datengenerierung erfolgt, von denen die gebräuchlichste und etablierteste GAN oder Generative Adversarial Networks genannt wird.

Bei einem GAN treten zwei AIs gegeneinander an. Eine KI erstellt einen synthetischen Datensatz, während die andere versucht festzustellen, ob die generierten Daten echt sind. Das Feedback von Letzterem schleift sich zurück in die Erstere und „trainiert“ sie, um bei der Erstellung überzeugender gefälschter Daten genauer zu werden. Wahrscheinlich haben Sie schon einen von vielen gesehen dieses-X-existiert-nicht Websites – von Menschen über Katzen bis hin zu Gebäuden – die ihre Bilder auf der Grundlage von GANs generieren.

In letzter Zeit haben mehr Methoden zur Erzeugung synthetischer Daten an Boden gewonnen. Die ersten sind bekannt als Diffusionsmodelle, in dem KIs darauf trainiert werden, bestimmte Arten von Daten zu rekonstruieren, während immer mehr Rauschen – Daten, die die Trainingsdaten allmählich verfälschen – zu den realen Daten hinzugefügt wird. Schließlich kann die KI mit zufälligen Daten gefüttert werden, die sie wieder in ein Format zurückarbeitet, in dem sie ursprünglich trainiert wurde.

Gefälschte Daten sind wie echte Daten ohne die Echtheit

Synthetische Daten, wie auch immer sie erstellt werden, bieten eine Reihe sehr konkreter Vorteile gegenüber der Verwendung von Daten aus der realen Welt. Erstens ist es einfacher, viel mehr davon zu sammeln, weil man sich nicht darauf verlassen muss, dass Menschen es erschaffen. Zweitens sind die synthetischen Daten perfekt beschriftet, sodass Sie sich nicht auf arbeitsintensive Rechenzentren verlassen müssen, um Daten (manchmal falsch) zu beschriften. Drittens kann es die Privatsphäre und das Urheberrecht schützen, da die Daten, nun ja, synthetisch sind. Und schließlich, und vielleicht am wichtigsten, kann es voreingenommene Ergebnisse reduzieren.

Da KI eine immer größere Rolle in Technologie und Gesellschaft spielt, sind die Erwartungen in Bezug auf synthetische Daten ziemlich optimistisch. Gartner hat das bekanntlich geschätzt Bis 60 werden 2024 % der Trainingsdaten synthetische Daten sein. Marktanalyst Cognilytica bewertete den Markt der synthetischen Datengenerierung auf 110 Millionen US-Dollar im Jahr 2021 und wächst auf 1.15 Milliarden US-Dollar bis 2027.

Daten gelten als das wertvollste Gut im digitalen Zeitalter. Big Tech hat auf Bergen von Benutzerdaten gesessen, die ihm einen Vorteil gegenüber kleineren Konkurrenten im KI-Bereich verschafften. Synthetische Daten können kleineren Spielern die Möglichkeit geben, den Spieß umzudrehen.

Wie Sie vielleicht vermuten, dreht sich die große Frage bei synthetischen Daten um die sogenannte Wiedergabetreue – oder wie genau sie mit realen Daten übereinstimmt. Die Jury steht noch aus, aber Forschung scheint zu zeigen dass die Kombination synthetischer Daten mit realen Daten statistisch fundierte Ergebnisse liefert. In diesem Jahr zeigten Forscher des MIT und des MIT-IBM AI Watson Lab, dass ein Bildklassifizierer, der mit synthetischen Daten in Kombination mit realen Daten vortrainiert wurde, durchgeführt sowie ein ausschließlich auf realen Daten trainierter Bildklassifikator.

Alles in allem scheinen die künstlichen und realen Ampeln grün zu sein, da synthetische Daten in naher Zukunft beim Training datenschutzfreundlicher und sicherer KI-Modelle dominieren werden, und damit steht eine mögliche Zukunft intelligenterer KIs für uns kurz bevor .

Lesen Sie die ganze Geschichte hier…

Über den Herausgeber

Patrick Wood
Patrick Wood ist ein führender und kritischer Experte für nachhaltige Entwicklung, grüne Wirtschaft, Agenda 21, Agenda 2030 und historische Technokratie. Er ist Autor von Technocracy Rising: Das trojanische Pferd der globalen Transformation (2015) und Co-Autor von Trilaterals Over Washington, Band I und II (1978-1980) mit dem verstorbenen Antony C. Sutton.
Abonnieren
Benachrichtigung von
Gast

3 Kommentare
Älteste
Neueste Am meisten gewählt
Inline-Feedbacks
Alle Kommentare anzeigen

[…] Technocracy.news […]

[…] KI trainieren: Gefälschte Daten sind billiger als echte Daten […]