Schrift:
Ansicht Home:
Netzwelt

Künstliche Intelligenz

Google-Software filtert einzelne Stimmen aus Geräuschkulisse heraus

Google-Entwicklern ist etwas gelungen, woran viele Audio-Programme scheitern: Die Ingenieure haben mit künstlicher Intelligenz einzelne Stimmen aus Alltagsvideos isoliert. Solche Technik könnte auch missbraucht werden.

AP

Menschenmasse: Was, wenn man irgendwann jede Stimme einzeln hören könnte?

Von
Freitag, 13.04.2018   15:27 Uhr

Musik dröhnt aus den Boxen, die Gäste reden immer lauter, um die anderen zu übertönen. Und obwohl der Schall aus allen Richtungen auf die Ohren prallt, können wir auf einer Party unseren Gesprächspartner meist ziemlich gut verstehen. Der Grund: Das Gehirn filtert die Umgebungsgeräusche gekonnt heraus, damit wir uns auf die Aussagen des Gegenübers konzentrieren können.

Während das Gehirn den sogenannten Cocktailparty-Effekt exzellent beherrscht, bereiten solche Tonaufnahmen klassischer Audio-Software oft Probleme. Wer etwa Störgeräusche aus einer Tonspur digital herausfiltern möchte, damit eine Stimme deutlicher zu hören ist, der bekommt in der Regel ein Ergebnis, das wie die eiernde Aufnahme eines alten Tonbandgeräts klingt.

Google-Entwickler haben nun eine Methode entwickelt, um Sprache in einem Video zu isolieren und Störgeräusche auszublenden. In einem Blogbeitrag beschreiben die Ingenieure, wie sie virtuelle Nervennetze einsetzen, um mit künstlicher Intelligenz eine Stimme von den anderen Geräuschen zu trennen. Und zwar nicht nur über die Tonspur, sondern auch über die bewegten Bilder.

Interessante Beispielvideos

Das Ergebnis beeindruckt. In diesem Beispielvideo filtert die Software etwa die Umgebungsgeräusche in einer Cafeteria heraus:

In einem weiteren Video mit zwei gleichzeitig sprechenden Comedians gelingt es der Software sogar, die Sprachspuren komplett voneinander zu trennen und einzeln hörbar zu machen:

Zwar klingen auch hier die herausgefilterten Stimmen teilweise so, als würde jemand in eine Gießkanne sprechen: Doch die Filterversuche herkömmlicher Software klingen noch viel schlechter.

Mit 100.000 Videos trainiert

Für die Analyse haben die Forscher der Software unter anderem befohlen, auf die Mimik der Personen in den Videos zu achten, um Lippenbewegungen mit Tönen zu kombinieren. Nach eigenen Angaben haben die Google-Mitarbeiter die künstliche Intelligenz mit 100.000 Videos gefüttert, die vor allem Lesungen und Talkrunden zeigten. Daraus wurden einzelne Sprecher herausgepickt, die klar verständlich waren. Die Forscher mischten schließlich Umgebungsgeräusche aus einer Sound-Datenbank hinzu, um die Software zu trainieren.

Die Entwicklung könnte zum Beispiel bei Videokonferenzen eingesetzt werden, um die Sprachqualität zu verbessern. Auch Untertitel könnten damit leichter automatisch generiert werden. Das klappt zwar jetzt schon, doch das automatische Untertiteln von Livestreams befindet sich noch in der Testphase. Derzeit probiert Google die Funktion auf einigen englischsprachigen Videokanälen mit mehr als 10.000 Abonnenten aus. Als häufige Fehlerquelle gibt Google noch immer Unterhaltungen an, bei denen mehrere Personen gleichzeitig reden.

Fotostrecke

Drohnenfotos von Martin Reisch: Die Welt wie im Computerspiel

Software mit Fähigkeiten wie den von Google gezeigten könnte prinzipiell aber auch als Spionagewerkzeug missbraucht werden. So könnten eines Tages vielleicht die Aussagen oder Parolen einzelner Teilnehmer aus dem Video einer Demonstration herausgefiltert werden - Sätze, die sonst einfach in der Soundkulisse untergegangen wären. Auch die Kamera-Überwachung in Fußgängerzonen und öffentlichen Plätzen könnte noch detailliertere Daten als bisher liefen, wenn einzelne Gespräche von Passanten extrahiert werden könnten. Auf eine SPIEGEL-Anfrage zu seinen Ton-Experimenten hat Google bis zum Freitagnachmittag nicht reagiert.

Lesetipp

insgesamt 4 Beiträge
noalk 13.04.2018
1. Könnte?
Zitat: "Solche Technik könnte auch missbraucht werden." - - - Warum Konjunktiv, Herr Breithut? Ich denke, Futurum ("wird") träfe es besser.
Zitat: "Solche Technik könnte auch missbraucht werden." - - - Warum Konjunktiv, Herr Breithut? Ich denke, Futurum ("wird") träfe es besser.
t.malinowski 13.04.2018
2. Korrektur
Google-Entwicklern ist etwas gelungen, woran viele Audio-Programme scheitern: Die Ingenieure haben mit künstlicher Intelligenz einzelne Stimmen aus Alltagsvideos isoliert. Solche Technik KANN NUR missbraucht werden.
Google-Entwicklern ist etwas gelungen, woran viele Audio-Programme scheitern: Die Ingenieure haben mit künstlicher Intelligenz einzelne Stimmen aus Alltagsvideos isoliert. Solche Technik KANN NUR missbraucht werden.
philipkdi 13.04.2018
3. Solche Technik "könnte" auch missbraucht werden?
Lach. Die NSA hat das Zeug schon lange im Einsatz bevor wir Normaltrottel das zu sehen bekommen. Auf welchem Planeten wohnt ihr denn?
Lach. Die NSA hat das Zeug schon lange im Einsatz bevor wir Normaltrottel das zu sehen bekommen. Auf welchem Planeten wohnt ihr denn?
benutzernamexy6e1 14.04.2018
4. Fachbegriff: neuronale Netze
interessanter Artikel. die korrekte Übersetzung von ?artificial neuronal networks" im deutschen ist ?künstliche neuronale Netze?, nicht ?künstliche Nervennetze?. Die besagten Netze sind zusammengebaut aus künstlichen [...]
interessanter Artikel. die korrekte Übersetzung von ?artificial neuronal networks" im deutschen ist ?künstliche neuronale Netze?, nicht ?künstliche Nervennetze?. Die besagten Netze sind zusammengebaut aus künstlichen Neuronen, daher ist der kleine aber feine Unterschied sehr wichtig. vg

Verwandte Artikel

Artikel

© SPIEGEL ONLINE 2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH
TOP