OpenAI hat in der Vergangenheit an dem Sprach-KI-Modell Voice Engine gearbeitet, das unter anderem die Grundlage für Anwendungen wie ChatGPT Voice bildet. Auch das KI-Avatar-Tool Heygen nutzt die Technologie von Voice Engine. Nun hat OpenAI Voice Engine erstmals offiziell präsentiert.
Funktionsweise von Voice Engine
Das Besondere an diesem Modell ist, dass es angeblich anhand einer lediglich 15 Sekunden langen Audiodatei menschliche Stimmen reproduzieren kann, wie der Guardian berichtet. Die von der KI generierten Sprachaufnahmen sollen dann nicht mehr von den Originalsprechern zu unterscheiden sein.
Bedenken und Risiken
Beobachter befürchten, dass die Einführung dieses Tools Missbrauch Tür und Tor öffnen könnte, insbesondere im Hinblick auf die Verbreitung von Falschinformationen. Dies wäre besonders bedenklich im Superwahljahr 2024, in dem wichtige Wahlen in den USA und Europa anstehen.
OpenAI hat das potenzielle Risiko erkannt und begründet damit die Entscheidung, das KI-Modul vorerst nicht öffentlich zugänglich zu machen. In einem Blogbeitrag hat das Unternehmen klargestellt, dass es die Technologie zwar vorstellt, aber noch nicht veröffentlicht. Dies soll der Gesellschaft die Möglichkeit geben, sich gegen potenzielle Herausforderungen durch generative KI-Modelle zu wappnen.
Empfohlene Schutzmaßnahmen
Eine der Empfehlungen von OpenAI ist die Abschaffung der sprachbasierten Authentifizierung als Sicherheitsmaßnahme für den Zugriff auf Bankkonten oder andere sensible Informationen. Außerdem sollten Richtlinien entwickelt werden, um die Stimmen von Einzelpersonen im KI-Bereich zu schützen.
Die von der OpenAI-KI erstellten Sprachaufnahmen werden mit einem Wasserzeichen versehen, um den Ursprung der Audiodateien nachverfolgen zu können. Zudem müssen Nutzer, darunter ausgewählte Organisationen, öffentlich machen, dass sie die KI verwendet haben.
Herausforderungen und Alternativen
Dennoch bleibt fraglich, ob diese Maßnahmen ausreichen, um potenziellen Missbrauch zu verhindern, insbesondere in Bezug auf wichtige Wahlen und sensible Bankkonten. Während OpenAIs Sprach-KI aufgrund ihrer Leistungsfähigkeit herausragt, haben Wettbewerber bereits ähnliche Lösungen auf den Markt gebracht, wie beispielsweise Elevenlabs. Ihr KI-Tool benötigt jedoch mehrere Minuten Audiovorlage, um Stimmen zu klonen.
Schutzfunktion in anderen KI-Tools
Um potenzielle Risiken zu minimieren, hat Elevenlabs in ihr Sprach-KI-Tool eine Schutzfunktion namens No-go-Voices integriert, die verhindern soll, dass Stimmen politischer Kandidaten imitiert werden, die aktiv an wichtigen Wahlen teilnehmen.
Ein Beispiel dafür, wie ein Wahlkampf von KI-Fotos und Deepfakes beeinflusst sein könnte, zeigte sich kürzlich in Argentinien, wo sich politische Lager gegenseitig mithilfe von KI zu diskreditieren versuchten.