Thema: Analyse komplexer akustischer Signale und Sprachverstehen bei Mensch und Maschine

 

Anlass: Internationale Tagung im Hanse Wissenschaftskolleg Delmenhorst,

22. bis 24. August 2004

 

Sendung auf NDR Info –Logo am 27.8.2004   Logo  ist ein aktuelles Magazin, das Tagesthemen und neue Entwicklungen aufgreift, aber auch Hintergrundinformationen zu Schwerpunktthemen bietet und die Auswirkungen neuer Forschungen auf das Zusammenleben und Bewusstsein der Menschen ausleuchtet.
Freitags, 21.05 bis 22.00 Uhr, (Wdh: sonntags, 15.05 bis 16.00 Uhr)

© August 2004 Julia Schneidewind

 

BEITRAG LOGO 25.8.04

Den meisten von uns ist gar nicht bewusst, welch komplexe Prozesse vor sich ge­hen, wenn sie sich mit einem Menschen unterhalten, während ein Auto vorbeifährt, nebenan ein Hund kläfft und die Blätter im Wind rauschen. Wie unser Ohr das schafft, die verschiedenen Geräusche zu sortieren und zu filtern, das versucht der Oldenburger Physikprofessor und Mediziner Birger Kollmeier seit Jahren zu entschlüsseln.

 

OT 1: Unser Gehirn ist erst einmal in der Lage Eigenschaften unserer akustischen Umwelt herauszufiltern und diese Eigenschaften zu Objekten zusammenzufügen . Und anhand einer Objektbewertung die auf einer relativ hohen Ebene des Gehirns erfolgt, folgt dann die Sortierung in sinnvoll oder wenig sinnvoll, oder Sprache oder nicht Sprache.

 

Gesprochene Sprache ist eines der wichtigsten menschlichen Kommunikationsmittel. Da die Sprache für uns selbstverständlich ist, machen wir uns über sie normalerweise keine Gedanken. Dabei ist unser Ohr das schnellste Sinnesorgan. Schallsignale treffen unsere Ohren mit einem zeitlichen Unterschied im Bereich von Tausendstelsekunden und das ist von entscheidender Bedeutung für die Ortung und das Verstehen der unterschiedlichsten Geräusche und Töne. Für uns Menschen ist es einfach, Wörter und Sätze zu verstehen. Für Maschinen, wie Computer oder Hörgeräte, leider nicht.

 

OT2: Wenn ein Klang aus verschiedenen Tönen zusammengebaut ist, dann kann der Computer relativ schlecht erkennen, welche dieser Klänge ist jetzt dominant für das Gehör? Unser Gehör macht das automatisch, es kann aus sehr sehr vielen Einzelklängen und Teilklängen einen gewissen Klang mit einer gewissen Tonhöhe herausschälen, aber der Computer ist damit überfordert und es geht jetzt darum : wie können wir die menschliche  Tonhöhenerkennung übertragen auf Rechenverfahren mit denen der Computer eine ähnliche Leistung hat.

 

Tonhöhen und ihr Verständnis sind wesentlich für das Begreifen von Sprache und  Musik. Bei der künstlichen Spracherkennung geht es darum, dass Computer gesprochene Worte verstehen sollen: d.h. der Computer soll direkt angesprochen werden können-  ohne Hilfe von Eingabegeräten wie Maus oder Tastatur. In Science-Fiction Filmen, wie Raumschiff Enterprise, klappt das hervorragend, in der Realität sieht es allerdings ganz anders aus, sagt Birger Kollmeier.

 

OT3: Derzeit gibt es einige kommerzielle Produkte, mit denen der Computer Sprache verstehen kann. Die Spracherkennung ist dabei deutlich schwieriger, als die Sprachsynthese. Also Vorleseautomaten gibt es durchaus schon mit Standardbetriebssystemen, die haben oft einen leichten englische Akzent, das liegt daran, wo sie entwickelt worden sind, aber das Problem ist nicht so stark wie die Spracherkennung, das der Computer eben jeden Sprecher in jeder Stimmungslage und in jeder Umgebungssituationen auch erkennen kann.

 

Die meisten Standardbetriebssyteme können, wenn überhaupt, gerade mal Texte im zweifelhaften Englisch, Japanisch und traditionellen Chinesisch vorlesen.

 

OT4. This is your Computer and I can talk to you-  sometimes.

 

Könnte die natürlich gesprochene Sprache von Computern verstanden werden, würde dies nicht nur den Mensch-Maschine-Dialog erleichtern, sondern auch neue Einsatzgebiete des Computers erschließen: E-Mails könnten dem Computer einfach diktiert werden und Informationsterminals spucken auf Zuruf die gewünschte Information aus. Bisher ist es allerdings niemandem gelungen, so eine Ma­schinen zu bauen, die Sprache, oder Musik von bloßem Lärm unter­scheiden kann. Obwohl es durchaus einige viel versprechende Ansätze gibt, sagt Andrew Oxenham vom Massachusetts Institut of Technology.

 

OT5: Es gibt zwei Systeme. Einmal ein System über das Wetter und ein Flugbuchungssystem…Und es gibt auch Informationen, aber dabei lernt die Maschine. Die arbeiten in dem sie sehr viele Beispiele von vielen tausenden Sprechern angenommen haben und Eigenschaften gelernt haben. Aber auch diese Sprachsysteme sind immer sehr begrenzt, man kann sich auf viele Sprecher gehen, aber dann nur in einem bestimmten Thema, Jeder der da anruft, dessen Sprache wird aufgenommen und wird in diese Maschine eingeführt, so dass die Maschine viele Exemplare der Sprache lernen kann. Und weil es öffentlich ist und jeder dort anrufen kann, hat es eine riesige Datenbank und deshalb kann es gut funktionieren.

 

Das amerikanische Spracherkennungssystem der Universität Boston funktioniert, allerdings nur bei einfachen Themen mit einem sehr begrenzten Vokabular,  wie dem Wetter. Das ist jedoch mehr als die meisten Sprachcomputer in Deutschland leisten. Denn die verstehen gerade mal Zahlen. Wer dem Telefoncomputer umfangreichere Aufgaben stellt, kommt meistens nicht sehr weit. Das liegt unter anderem daran, dass der Computer mit der Vielzahl von Dialekten und  Akzenten oder nuschelig gesprochenen Wörtern vollkommen überfordert ist, sagt Birger Kollmeier:

 

OT6: Im Prinzip versucht man aus der Menge aller gesprochenen Wörter, die dem Computer mal vorgelegen haben, Zurückzuschließen auf ein Wort, was  der Mensch jetzt gerade geäußert hat und das ist eine relativ dumme Strategie, denn der Computer ist nicht in der Lage zu generalisieren und aus einem nur einmal oder zweimal gesprochenem Wort, sich zu merken, wie das Wort in ein einem anderen Zusammenhang klingen kann.

 

Heute arbeiten viele Spracherkennungsprogramme relativ gut, wenn es darum geht, einfache Befehle einer einzigen Person zu verstehen: Die Maschine hat gelernt ihr „Herrchen“ zu verstehen- ähnlich wie bei einem Hund. Spricht eine andere Person mit einer anderen Sprachfärbung, funktioniert das ganze schon weniger gut. Der Computer kann die Aussprache oder den Dialekt nicht in einen sinnvollen Zusammenhang bringen. Doch vor kurzem haben die Wissenschaftler eine neue Spur gefunden:

 

OT 7: Der besondere Trick den wir in der letzten Zeit gefunden haben und der sinnvoll erscheint, ist dass man eine Kombination nimmt von einem Frequenzgehalt, also Tonhöhengehalt zu einem Zeitpunkt, mit einem anderen Frequenzgehalt ein wenig später. Also ein Kombination von 2 Zeitpunkten und 2 Frequenzinhalten. Also es gibt Untersuchungen in Tierexperimenten, wo man festgestellt hat, das die Tiere besonders eine Kombination von 2 bestimmten Frequenzen mit einer Zeitverzögerung besonders gut hören. Das weißt darauf hin, dass das ein genereller Bauplan sein kann, der auch möglicherweise auch für die Spracherkennung von Maschinen sehr nützlich ist.

 

OT8. This is your Computer and I can talk to you-  sometimes.