Computer lernt das Lippenlesen

Neues aus der Welt der Wissenschaft

ORF ON Science :

News :

Technologie


	Computer lernt das Lippenlesen
		Schottische Wissenschaftler haben die Lippenbewegungen mehrsprachiger Testpersonen analysiert und mit den statistischen Daten einen Computer gefüttert. Der kann nun offenbar anhand der Mimik ablesen, welche Sprache gerade gesprochen wird.

Vieldeutige Blicke

Wer schon einmal bei ohrenbetäubendem Lärm versucht hat ein Gespräch zu führen, weiß: Lippenlesen ist eine Kunst, gesprochene Sprache ohne Akustik ist - zumindest für den Normalverbraucher - fast keine Sprache mehr. Warum wir uns via Hörsinn so viel besser verständigen können als via Sehsinn, ist dennoch nicht ganz klar.

Denn im Prinzip könnte es schlichtweg daran liegen, dass die meisten Leute im Lippenlesen ungeübt sind, schreiben Jacob Newman und Stephen Cox in einer Studie, die sie soeben auf einer Fachkonferenz in Taipe, Tawian, präsentiert haben.

Freilich gibt es auch noch eine andere Erklärung, betonen die beiden Computerwissenschaftler von der University of East Anglia: Wenn man das Gehörte bzw. das Gesehene in seine kleinsten Bedeutungsteile - namens Phoneme und Viseme - zerlegt, dann zeigt sich: Es gibt offenbar viel mehr Phoneme als Viseme, Mimik ist eben bei weitem nicht so eindeutig wie ihr akustisches Gegenstück.

Die frankophone Lippenrundung

Dementsprechend ist die automatisierte Spracherkennung in der Audio-Variante ziemlich weit fortgeschritten, in visueller Hinsicht war sie hingegen bis vor kurzem fast gar nicht vorhanden. Wie Newman und Cox auf der International Conference on Acoustics, Speech and Signal Processing berichten, scheint nun letztere gehörig aufzuholen.

Die beiden haben mehrsprachige Testpersonen ins Labor gebeten und sie einen Text vor einer Videokamera lesen lassen. Und zwar nicht irgendeinen Text, sondern die UN-Deklaration der Menschenrecht, die praktischerweise in 300 Sprachen übersetzt wurde. Die Mimik übersetzten die beiden in Punktbewegungen (siehe Video) und extrahierten daraus charakteristische Bewegungsverläufe, die Sprachen voneinander unterscheiden.

Hier dürfte sich das eine oder andere Klischee durchaus bestätigt haben: "Wir fanden beispielsweise heraus, dass es im Französischen relativ viele Lippenrundungen gibt, im Arabischen hingegen sehr markante Zungenbewegungen", sagt Cox.


	Intuition bestätigt
		Zwei Sprachen im (statischen) Mimik-Vergleich: Französisch links, Englisch rechts. Dennoch zeigte sich, dass der individuelle Anteil der Mimik die "objektiven" Gesichtsbewegungen recht stark überlagert. Das Programm der beiden Computerwissenschaftler kann daher bislang nur unterscheiden, wenn ein und dieselbe Person verschiedene Sprachen spricht - das aber offenbar sehr gut. Die Differenzierung von Englisch, Deutsch und Französisch klappte etwa nach einer Sekunde in ca. 75 Prozent aller Fälle, dauerte die Testsequenz eine Minute, stieg die Trefferrate auf bis zu 95 Prozent an. Dass es sich dabei um keine ganz triviale Aufgabe handelt, kann man an diesem Video ersehen. Preisfrage: Welches Gesicht gehört zu welcher Sprache? Beim zweisprachigen Vergleich war die Erfolgsquote noch größer: Englisch und Arabisch etwa konnte das Programm nach bereits sieben Sekunden fehlerfrei auseinanderhalten. "Das ist eine aufregender Fortschritt der automatisierten Lippenlese-Technologie", sagt Stephen Cox. "Und eine wissenschaftliche Bestätigung für etwas, was wir alle intuitiv erwartet haben. Nämlich die Vermutung, dass Menschenmit unterschiedlichen Sprachen auch ihren Mund unterschiedlich bewegen." Die Auflösung des Video-Rätsels lautet übrigens - von links nach rechts: Deutsch, Englisch, Französisch. Robert Czepel, science.ORF.at, 22.4.09


	Automatic Visual-Only Language Identification


	Stephen Cox


	Mundbild - Wikipedia

ORF ON Science :

News :

Technologie


	Übersicht: Alle ORF-Angebote auf einen Blick

01.01.2010