Spracherkennung: Computer lernen das Lippenlesen

Wissenschaftler hoffen unter anderem, dass die Anwendung eine bessere Verständigung von sprach- und hörbehinderten Menschen ermöglicht. Von Kim Alexander Zickenheiner

Dieses Auge erkennt alles: HAL 9000 ist der fiktive Computer des Raumschiffs Discovery in den Filmen „2001: Odyssee im Weltraum“ und „2010: Das Jahr, in dem wir Kontakt aufnehmen“ – der Supercomputer HAL 9000 liest heimlich die Lippenbewegungen von Astronauten durch eine Scheibe. (Foto: IWN)

Dieses Auge erkennt alles: HAL 9000 ist der fiktive Computer des Raumschiffs Discovery in den Filmen „2001: Odyssee im Weltraum“ und „2010: Das Jahr, in dem wir Kontakt aufnehmen“ – der Supercomputer HAL 9000 liest heimlich die Lippenbewegungen von Astronauten durch eine Scheibe. (Foto: IWN)

Was wäre, wenn die Bilder einer Überwachungskamera ausreichen würden, um die Worte eines Verdächtigen zu verstehen? Wenn Piloten im Rauschen des Cockpits lautlose Befehle geben könnten? Die Technik dafür erhoffen sich Forscher von Computern, die von den Lippen lesen können. Doch trotz großer Fortschritte sind die Maschinen noch nicht praxistauglich.

„Ein solches System könnte für eine ganze Reihe von Anwendungen benutzt werden“, sagt Helen Bear von der britischen University of East Anglia. Die Informatikerin und ihr Team haben ein Programm entwickelt, das ihrer Studie zufolge deutlich bessere Ergebnisse als bisherige Ansätze liefert – für eine Anwendung unter realen Bedingungen reicht es aber noch lange nicht.

Die Krux: Auf den Lippen sehen viele Töne praktisch gleich aus. Computer müssen lernen, die feinen Unterschiede zu interpretieren, die Menschen verborgen bleiben. Dafür braucht es kluges Training. „Die Sprache sieht bei uns allen unterschiedlich aus, also brauchen wir Modelle, die bei jedem funktionieren“, sagt Bear.

Lippenleserin Julia Probst
Julia Probst (Foto: Privat/twitter)

Julia Probst (Foto: Privat/twitter)

Deutschlands bekannteste Lippenleserin ist die gehörlose Julia Probst. Bei Twitter hat sie unter dem Namen @EinAugenschmaus den sogenannten „Ableseservice“ eingeführt, der von einer großen Fußballgemeinde genutzt wird. Bei der WM 2014 beispielsweise entlarvte sie die Kommentare von Bundestrainer Joachim Löw: „Das ist so kacke“ (beim Spiel gegen die USA, 1:0), „Was ist das denn?“, „Ich versteh nicht, warum es nicht besser wird.“ (Algerien, 2:1 n.V.). „Neeein. So eine Scheiße!“ (nach einer vergebenen Chance seiner Mannschaft.)
In Südamerika und Spanien ist es längst üblich, dass Sender Lippenleser einsetzen. Und auch in den US-Profiligen ist dies schon seit Jahren die Normalität. „Beim American Football haben die Teams Lippenleser, um sich gegenseitig auszuspionieren“, so Probst in einem Interview mit der „Welt“: „Da erkennt man auch sehr schön, wie die Trainer sich vor den Lippenlesern schützen.“ Sie selbst würde sich dafür nicht engagieren lassen. „Etwas anderes wäre es, wenn auf Gesuch des DFB ein rassistischer Vorfall aufgeklärt werden sollte.“ Am schwersten abzulesen ist laut Probst übrigens Jerome Boateng. Der „sei ein fürchterlicher Nuschler. Aber egal. Hauptsache, er spielt gut“.
(ag)

Vor fast 50 Jahren im Film

Schon 1968 beschrieb der Science-Fiction-Klassiker „2001: Odyssee im Weltraum“ die Idee: Der Supercomputer HAL 9000 liest im Film heimlich die Lippenbewegungen von Astronauten durch eine Scheibe. Sie hatten sich eingeschlossen, damit er ihre Pläne nicht mitbekommt. „Das zeigt, wie alt das Thema ist“, sagt Tanja Schultz, Professorin für Kognitive Systeme an der Universität Bremen.

Das klassische Vorgehen: Der Computer identifiziert auf einem Video den Bereich der Lippen. Während der Sprecher redet, nimmt das Programm Aussehen und Abfolge der Bewegung (Viseme) sowie die geäußerten Laute (Phoneme) auf. Im dritten Schritt wird es mit einem statistischen Modell trainiert: Wie hängen Video und Audio zusammen? Diese Lernstrategien sind ein entscheidender Teil der Forschung. „Menschen können durch gutes Training gut Lippen lesen, aber sie sind nicht perfekt“, sagt Schultz.

Die Laute p, b und m etwa sind auf den Lippen fast nicht zu unterscheiden. Daher braucht das Programm mehr Informationen: Die vorhandenen Wörter einer Sprache schränken die möglichen Phonemketten schon ein. Weitere Hinweise geben erlaubte Satzkonstruktion und Sinn der Aussage. Hilfreich, fast schon unerlässlich: eine Datenbank mit Zusammenhängen von Audio und Text. Ein menschlicher Lippenleser kennt Ausdrücke und Redewendungen seiner Sprache und den Kontext einer Unterhaltung – für Computer ist das schwieriger.

Viele Anwendungen denkbar

Auch von Sprecher zu Sprecher gibt es große Unterschiede. „Salopp gesagt: Manche kriegen die Zähne nicht auseinander“, sagt Schultz. Schon so sollte die Aussprache möglichst deutlich, die Sätze grammatikalisch korrekt und nicht umgangssprachlich sein. „Je spontaner Sprache gesprochen wird, umso schwieriger ist sie zu erkennen.“ Und: Manche Sprachen sind einfacher als andere. Gut ist eine große Zahl an Konsonanten – Vokale ähneln sich stark. Fatal ist es, wenn die Tonhöhe in der Sprache eine Bedeutung ausmacht.

Forscher hoffen: Ein zuverlässiges Programm könnte bei der Aufklärung von Straftaten anhand von Überwachungsvideos helfen, eine bessere Verständigung von sprach- und hörbehinderten Menschen ermöglichen, als digitaler Assistent im Stil von Apples Siri und Microsofts Cortana arbeiten – oder die Identität von Menschen feststellen.

Um Nutzernamen, Geheimwörter und PIN überflüssig zu machen, schlägt Ahmed Hassanat von der jordanischen Mutah-Universität lautlose Passwörter vor: schwer abzufangen und nützlich bei lauter Umgebung. Zur Identifikation am Bankautomaten oder im Online-Shop würde es reichen, allein die Lippen zu bewegen. Nötig wäre nur eine Kamera, kein spezielles Equipment wie etwa für Fingerabdrücke. Experimente zeigten bereits das Potenzial zur praktischen Umsetzung.

Verschiedene Ansätze der Wissenschaftler

Doch noch erreicht kein Programm eine hohe Trefferquote – erst recht nicht, wenn die getesteten Sprecher einfach drauflosreden. Vielversprechend sei der Einsatz lernfähiger künstlicher Intelligenz, die sich an biologische Vorbilder anlehnt, sagt Schultz. Ein Team um Michael Wand von der Fachhochschule der italienischen Schweiz erreicht mit sogenannten tiefen neuronalen Netzen eine deutlich bessere Worterkennung als mit herkömmlichen Methoden, allerdings bei begrenztem Wortschatz.

Und parallel wird auch an anderen Ansätzen geforscht, die ohne Audio-Signal auskommen: Spracherkennung durch Messung der Muskelaktivität in Gesicht und Hals, Ultraschallbilder der Zunge oder Verfolgung der Hirnaktivität selbst – Schultz zufolge aber eher unpraktisch, da bisher nur am offenen Schädel möglich.

(dpa)

Diesen Artikel teilen:
ROLLINGPLANET

ROLLINGPLANET

Wir sind geil aufs Leben, seriös, oft fröhlich und ironisch, manchmal schräg, hin und wieder ungerecht, aber in den seltensten Fällen ideologisch: ROLLINGPLANET, Deutschlands führendes Online-Magazin für Behinderte, Senioren und Freunde. ROLLINGPLANET ist ein ehrenamtlich realisiertes Non-Profit-Projekt. Wir freuen uns, wenn Sie via Facebook, Twitter oder per Mail ROLLINGPLANET empfehlen. Mehr Infos: Über uns

KOMMENTAR SCHREIBEN