Thema: Analyse
komplexer akustischer Signale und Sprachverstehen bei Mensch und Maschine
Anlass: Internationale Tagung im Hanse Wissenschaftskolleg Delmenhorst,
22. bis 24. August 2004
Sendung auf NDR Info
–Logo am 27.8.2004 Logo ist ein aktuelles Magazin, das Tagesthemen
und neue Entwicklungen aufgreift, aber auch Hintergrundinformationen zu
Schwerpunktthemen bietet und die Auswirkungen neuer Forschungen auf das
Zusammenleben und Bewusstsein der Menschen ausleuchtet.
Freitags, 21.05 bis 22.00 Uhr, (Wdh: sonntags, 15.05 bis 16.00 Uhr)
© August 2004 Julia Schneidewind
BEITRAG LOGO 25.8.04
Den meisten von uns ist gar nicht bewusst, welch komplexe Prozesse vor sich gehen, wenn sie sich mit einem Menschen unterhalten, während ein Auto vorbeifährt, nebenan ein Hund kläfft und die Blätter im Wind rauschen. Wie unser Ohr das schafft, die verschiedenen Geräusche zu sortieren und zu filtern, das versucht der Oldenburger Physikprofessor und Mediziner Birger Kollmeier seit Jahren zu entschlüsseln.
OT 1: Unser Gehirn
ist erst einmal in der Lage Eigenschaften unserer akustischen Umwelt
herauszufiltern und diese Eigenschaften zu Objekten zusammenzufügen . Und
anhand einer Objektbewertung die auf einer relativ hohen Ebene des Gehirns
erfolgt, folgt dann die Sortierung in sinnvoll oder wenig sinnvoll, oder
Sprache oder nicht Sprache.
Gesprochene Sprache ist eines der wichtigsten menschlichen Kommunikationsmittel. Da die Sprache für uns selbstverständlich ist, machen wir uns über sie normalerweise keine Gedanken. Dabei ist unser Ohr das schnellste Sinnesorgan. Schallsignale treffen unsere Ohren mit einem zeitlichen Unterschied im Bereich von Tausendstelsekunden und das ist von entscheidender Bedeutung für die Ortung und das Verstehen der unterschiedlichsten Geräusche und Töne. Für uns Menschen ist es einfach, Wörter und Sätze zu verstehen. Für Maschinen, wie Computer oder Hörgeräte, leider nicht.
OT2: Wenn ein Klang
aus verschiedenen Tönen zusammengebaut ist, dann kann der Computer relativ
schlecht erkennen, welche dieser Klänge ist jetzt dominant für das Gehör? Unser
Gehör macht das automatisch, es kann aus sehr sehr vielen Einzelklängen und
Teilklängen einen gewissen Klang mit einer gewissen Tonhöhe herausschälen, aber
der Computer ist damit überfordert und es geht jetzt darum : wie können wir die
menschliche Tonhöhenerkennung
übertragen auf Rechenverfahren mit denen der Computer eine ähnliche Leistung
hat.
Tonhöhen und ihr Verständnis sind wesentlich für das Begreifen von Sprache und Musik. Bei der künstlichen Spracherkennung geht es darum, dass Computer gesprochene Worte verstehen sollen: d.h. der Computer soll direkt angesprochen werden können- ohne Hilfe von Eingabegeräten wie Maus oder Tastatur. In Science-Fiction Filmen, wie Raumschiff Enterprise, klappt das hervorragend, in der Realität sieht es allerdings ganz anders aus, sagt Birger Kollmeier.
OT3: Derzeit gibt es
einige kommerzielle Produkte, mit denen der Computer Sprache verstehen kann.
Die Spracherkennung ist dabei deutlich schwieriger, als die Sprachsynthese.
Also Vorleseautomaten gibt es durchaus schon mit Standardbetriebssystemen, die
haben oft einen leichten englische Akzent, das liegt daran, wo sie entwickelt
worden sind, aber das Problem ist nicht so stark wie die Spracherkennung, das
der Computer eben jeden Sprecher in jeder Stimmungslage und in jeder
Umgebungssituationen auch erkennen kann.
Die meisten
Standardbetriebssyteme können, wenn überhaupt, gerade mal Texte im
zweifelhaften Englisch, Japanisch und traditionellen Chinesisch vorlesen.
OT4. This is your Computer and I can talk to you- sometimes.
Könnte die natürlich gesprochene Sprache von Computern verstanden werden, würde dies nicht nur den Mensch-Maschine-Dialog erleichtern, sondern auch neue Einsatzgebiete des Computers erschließen: E-Mails könnten dem Computer einfach diktiert werden und Informationsterminals spucken auf Zuruf die gewünschte Information aus. Bisher ist es allerdings niemandem gelungen, so eine Maschinen zu bauen, die Sprache, oder Musik von bloßem Lärm unterscheiden kann. Obwohl es durchaus einige viel versprechende Ansätze gibt, sagt Andrew Oxenham vom Massachusetts Institut of Technology.
OT5: Es gibt zwei
Systeme. Einmal ein System über das Wetter und ein Flugbuchungssystem…Und es
gibt auch Informationen, aber dabei lernt die Maschine. Die arbeiten in dem sie
sehr viele Beispiele von vielen tausenden Sprechern angenommen haben und
Eigenschaften gelernt haben. Aber auch diese Sprachsysteme sind immer sehr
begrenzt, man kann sich auf viele Sprecher gehen, aber dann nur in einem
bestimmten Thema, Jeder der da anruft, dessen Sprache wird aufgenommen und wird
in diese Maschine eingeführt, so dass die Maschine viele Exemplare der Sprache
lernen kann. Und weil es öffentlich ist und jeder dort anrufen kann, hat es
eine riesige Datenbank und deshalb kann es gut funktionieren.
Das amerikanische
Spracherkennungssystem der Universität Boston funktioniert, allerdings nur bei
einfachen Themen mit einem sehr begrenzten Vokabular, wie dem Wetter. Das ist jedoch mehr als die meisten
Sprachcomputer in Deutschland leisten. Denn die verstehen gerade mal Zahlen.
Wer dem Telefoncomputer umfangreichere Aufgaben stellt, kommt meistens nicht
sehr weit. Das liegt unter anderem daran, dass der Computer mit der Vielzahl
von Dialekten und Akzenten oder
nuschelig gesprochenen Wörtern vollkommen überfordert ist, sagt Birger
Kollmeier:
OT6: Im Prinzip
versucht man aus der Menge aller gesprochenen Wörter, die dem Computer mal
vorgelegen haben, Zurückzuschließen auf ein Wort, was der Mensch jetzt gerade geäußert hat und das
ist eine relativ dumme Strategie, denn der Computer ist nicht in der Lage zu
generalisieren und aus einem nur einmal oder zweimal gesprochenem Wort, sich zu
merken, wie das Wort in ein einem anderen Zusammenhang klingen kann.
Heute arbeiten viele Spracherkennungsprogramme relativ gut, wenn es darum geht, einfache Befehle einer einzigen Person zu verstehen: Die Maschine hat gelernt ihr „Herrchen“ zu verstehen- ähnlich wie bei einem Hund. Spricht eine andere Person mit einer anderen Sprachfärbung, funktioniert das ganze schon weniger gut. Der Computer kann die Aussprache oder den Dialekt nicht in einen sinnvollen Zusammenhang bringen. Doch vor kurzem haben die Wissenschaftler eine neue Spur gefunden:
OT 7: Der besondere Trick den wir in der letzten Zeit gefunden haben und der sinnvoll erscheint, ist dass man eine Kombination nimmt von einem Frequenzgehalt, also Tonhöhengehalt zu einem Zeitpunkt, mit einem anderen Frequenzgehalt ein wenig später. Also ein Kombination von 2 Zeitpunkten und 2 Frequenzinhalten. Also es gibt Untersuchungen in Tierexperimenten, wo man festgestellt hat, das die Tiere besonders eine Kombination von 2 bestimmten Frequenzen mit einer Zeitverzögerung besonders gut hören. Das weißt darauf hin, dass das ein genereller Bauplan sein kann, der auch möglicherweise auch für die Spracherkennung von Maschinen sehr nützlich ist.
OT8. This is
your Computer and I can talk to you- sometimes.