At die Höhe Während des Winters des Kalten Krieges verzeichneten FBI - Agenten einen Anruf, bei dem ein Mann ein geheimes Treffen mit der sowjetischen Botschaft in Washington, DC, arrangierte Mann betritt die Botschaft. Zu der Zeit hatten sie keine Möglichkeit, dem Anrufer einen Namen zu geben, nur aus dem Klang seiner Stimme, so dass der Spion anonym blieb. In den nächsten fünf Jahren verkaufte er Einzelheiten über mehrere geheime US-Programme an die UdSSR.
Erst mit 1985 konnte das FBI dank der von einem russischen Überläufer gelieferten Informationen den Anrufer als Ronald Pelton, einen ehemaligen Analysten der National Security Agency, identifizieren. Im nächsten Jahr wurde Pelton wegen Spionage verurteilt.
Heute hätten FBI- und NSA-Agenten Pelton innerhalb von Sekunden nach seinem ersten Anruf bei den Sowjets identifiziert. EIN klassifiziertes NSA-Memo ab Januar 2006 beschreibt, wie NSA-Analysten mithilfe einer „Technologie, die Menschen am Klang ihrer Stimmen erkennt“, alte Audiodateien von Pelton erfolgreich miteinander abgleichen. "Wären solche Technologien vor zwanzig Jahren verfügbar gewesen", heißt es in dem Memo, "hätten Früherkennung und Festnahme möglich sein können, um den erheblichen Schaden zu verringern, den Pelton für die nationale Sicherheit angerichtet hat."
Diese und andere klassifizierte Dokumente, die vom ehemaligen NSA-Auftragnehmer Edward Snowden zur Verfügung gestellt wurden, zeigen, dass die NSA eine Technologie entwickelt hat, die nicht nur private Gespräche aufzeichnet und abschreibt, sondern die Sprecher automatisch identifiziert.
Amerikaner begegnen dieser Technologie, die als Sprechererkennung oder Sprecheridentifikation bezeichnet wird, am häufigsten, wenn sie Amazonas Alexa wecken oder ihre Bank anrufen. Doch ein Jahrzehnt, bevor Sprachbefehle wie „Hallo Siri“ und „OK Google“ zu gängigen Haushaltsphrasen wurden, verwendete die NSA die Sprechererkennung, um Terroristen, Politiker, Drogenlords, Spione und sogar Leiharbeitnehmer zu überwachen.
Die Technologie analysiert die physischen und Verhaltensmerkmale, die die Stimme jeder Person auszeichnen, wie z. B. die Tonhöhe, die Form des Mundes und die Länge des Kehlkopfs. Ein Algorithmus erstellt dann ein dynamisches Computermodell der Stimmmerkmale des Individuums. Dies wird im Volksmund als "Stimmabdruck" bezeichnet. Der gesamte Vorgang - das Aufnehmen einiger gesprochener Wörter, das Umwandeln dieser Wörter in einen Stimmabdruck und das Vergleichen dieser Darstellung mit anderen bereits in der Datenbank gespeicherten "Stimmabdrücken" - kann fast augenblicklich erfolgen. Obwohl bekannt ist, dass die NSA Finger- und Gesichtsabdrücke verwendet, um Ziele zu identifizieren, sind Stimmabdrücke laut einem Dokument der 2008-Agentur „dort, wo die NSA die oberste Instanz ist“.
Es ist nicht schwer zu verstehen warum. Durch das Abfangen und Aufzeichnen von Millionen von Telefongesprächen, Videokonferenzen und Internetanrufen im Ausland - zusätzlich zur Erfassung der Inlandsgespräche von Amerikanern mit oder ohne Haftbefehl - hat die NSA eine beispiellose Sammlung unterschiedlicher Stimmen aufgebaut. Dokumente Aus dem Snowden-Archiv geht hervor, dass Analysten einige dieser Aufzeichnungen Sprechererkennungsalgorithmen zuführten, mit denen Personen mit ihren früheren Äußerungen in Verbindung gebracht werden konnten, selbst wenn sie unbekannte Telefonnummern, geheime Codewörter oder mehrere Sprachen verwendet hatten.
Schon bei der Operation Iraqi Freedom haben Analysten benutzten Sprechererkennung, um zu verifizieren, dass Audio, das „gegen die vorherrschenden Überzeugungen von Saddam Hussein zu stammen schien“, tatsächlich von ihm stammt. Die Memos zeigen ferner, dass NSA-Analysten Stimmabdrücke für Osama bin Laden erstellt haben, dessen Stimme „unverwechselbar und über mehrere Übertragungen hinweg bemerkenswert konsistent“ war ; ”Für Ayman al-Zawahri, den derzeitigen Führer von Al Qaida; und für Abu Musab al-Zarqawi der dritte Kommandeur der Gruppe. Sie benutzten Zarqawis Stimmabdruck, um ihn als Sprecher in online geposteten Audiodateien zu identifizieren.
Die klassifizierten Dokumente von 2004 bis 2012 zeigen, dass die NSA immer raffiniertere Iterationen ihrer Sprechererkennungstechnologie verfeinert. Sie bestätigen die Verwendung der Sprechererkennung bei Operationen zur Terrorismusbekämpfung und bei Drogenkonsumaktionen im Ausland. Und sie schlagen vor, dass die Agentur die Technologie einsetzen wollte, um nicht nur Spione wie Pelton rückwirkend zu identifizieren, sondern auch Whistleblower wie Snowden zu verhindern.
Immer zuhören
Bürgerrechtsexperten sind besorgt, dass diese und andere zunehmende Verwendungszwecke der Sprechererkennung das Recht auf Privatsphäre gefährden. "Dies schafft eine neue Geheimdienst- und Missbrauchsmöglichkeit", erklärte Timothy Edgar, ehemaliger Berater des Weißen Hauses beim Direktor des Nationalen Geheimdienstes. „Unsere Stimme überträgt sich auf alle Arten von Kommunikationskanälen, in denen wir nicht da sind. In Zeiten der Massenüberwachung hat diese Art von Fähigkeit tiefgreifende Auswirkungen auf unsere gesamte Privatsphäre. “
Edgar und andere Experten wiesen auf die relativ stabile Natur der menschlichen Stimme hin, die weitaus schwieriger zu ändern oder zu verschleiern ist als ein Name, eine Adresse, ein Passwort, eine Telefonnummer oder eine PIN. Laut Jamie Williams, einem Anwalt der Electronic Frontier Foundation, ist es „weitaus einfacher“, Personen aufzuspüren. "Sobald Sie die Stimme einer Person identifizieren können", sagte sie, "können Sie sie sofort finden, wenn sie ein Gespräch führt, vorausgesetzt, Sie nehmen es auf oder hören es sich an."
Die Stimme ist eine einzigartige und leicht zugängliche Biometrie: Im Gegensatz zu DNA kann sie ohne Wissen oder Zustimmung eines Subjekts passiv und aus großer Entfernung gesammelt werden. Die Genauigkeit variiert erheblich, je nachdem, wie genau die Bedingungen der gesammelten Stimme mit denen früherer Aufnahmen übereinstimmen. In kontrollierten Umgebungen - mit geringem Hintergrundrauschen, einer vertrauten akustischen Umgebung und einer guten Signalqualität - kann die Technologie jedoch einige gesprochene Sätze verwenden, um Personen genau zuzuordnen. Und je mehr Samples einer bestimmten Stimme in das Computermodell eingespeist werden, desto stärker und „reifer“ wird dieses Modell.