Forschung aktuell • Aus Naturwissenschaft und Technik
Montag bis Freitag • 16:35

 

 

24.8.2004

Helikopter gehorcht aufs Wort

Bericht von der Akustik-Tagung in Delmenhorst

 

 

Gehorchen in Zukunft aufs Wort (Foto: AP)
Gehorchen in Zukunft aufs Wort (Foto: AP)

Spracherkennung. - Heute geht in Delmenhorst bei Bremen die seit Sonntag stattfindende internationale Tagung über die Analyse komplexer akustischer Signale und Sprachverstehen bei Mensch und Maschine zu Ende. 55 Teilnehmer aus den Computerwissenschaften, Neurowissenschaften, der Sprachforschung wie der Physik, den Ingenieurwissenschaften, der Biologie und der Medizin haben eine Zwischenbilanz gezogen, wie weit Forschung eigentlich gekommen ist bei der Entwicklung von maschinellen Hörsystemen, die Sprache vollkommen korrekt verarbeiten. Insbesondere die Militärs sind an solchen sprachverarbeitenden Systemen enorm interessiert.

Hubschrauber-Piloten brauchen ein gutes Gehör. Nicht selten sind die Anweisungen der Flugaufsicht auch beim Tragen geschlossener Kopfhörer kaum zu verstehen. Das Knattern der Hubschrauber-Rotoren, verzerrte Stimmen durch Frequenzüberlagerungen und mehrere Funkgespräche auf einer Frequenz lassen das Hören zur Schwerstarbeit werden. Die Hubschrauber-Steuerung per Spracheingabe galt unter diesen schlechten akustischen Bedingungen als eine unerreichbare Vision der Piloten und Planer der amerikanischen Luftwaffe. Diese Vision ist jetzt ein Stück näher gerückt. Die automatische Spracherkennung bietet mittlerweile sogar Systeme, die beim Diktat die Hörqualitäten einer gut ausgebildeten Sekretärin erreichen. Dem Hubschrauberpiloten, der seinen Helikopter per Spracheingabe steuern möchte, hat das aber bislang nicht geholfen. Andrew Oxenham.

Leider ist es immer noch der Fall, dass sobald Störquellen vorhanden sind, fast alle Algorithmen zusammen fallen und nicht mehr gut funktionieren können. Wir wollen durch Erkenntnis von menschlich auditorischen Systemen, also wie das Gehirn dieses Problem löst, wollen wir Erkenntnisse gewinnen und in dieses automatische Spracherkennungssystem einführen.

Und da sind die Forscher ein gutes Stück voran gekommen. Bisher haben sie die Sprachverarbeitungssysteme so konstruiert, dass zunächst die unterschiedlichen Schallquellen voneinander getrennt und identifiziert wurden. Andrew Oxenham beschreibt das so.

Wenn man zwei verschiedene Quellen hat, die kommen meistens nicht von der selben Richtung, sondern von verschiedenen Richtungen. Wir haben zwei Ohren, um das zu hören. Und man kann das nachbauen, indem man zwei Mikrofone nimmt, und die Differenzen zwischen diesen beiden Schallempfangssystemen nimmt, um die zwei Quellen zu trennen.

Bei der Auswertung der reinen Richtungsunterschiede wurden jedoch wichtige Sprachverarbeitungsinformationen nicht berücksichtigt.

Interessanterweise scheinen wir Menschen diese Richtungsunterschiede nicht als Haupttrenninformation zu benutzen, wir benutzen statt dessen Sachen wie Tonhöhenunterschiede und andere Unterschiede in der Quelleninformationen, z.B. ob ein Mann oder eine Frau spricht.

Richtungshören mit der Trennung und Identifizierung verschiedener Schallquellen, unterschiedliche Tonhöhen und das Erkennen von Bedeutungen wurden bislang in verschiedenen Arbeitsschritten nacheinander von den automatischen Sprachverarbeitungssystemen vorgenommen. Der Mensch nimmt sie aber gleichzeitig vor. Er analysiert auf einen Schlag.

Die Idee ist, dass man nicht nur Schalltrennung und dann danach Spracherkennung macht, sondern man versucht, das in ein System einzubauen, so dass die Trennung und die Spracherkennung zur gleichen Zeit passieren, wie wir das auch als Menschen machen.

Werden Schalltrennung und Spracherkennung gleichzeitig vorgenommen, entsteht ein einheitliches und sehr stabiles Codierungsmuster. Die reine Spracherkennung arbeitet dagegen nur mit der Analyse von Schallklängen, um Wortbedeutungen zu ermitteln. Bestimmte Schallkurven sind in einer Datenbank bestimmten Wortbedeutungen zugeordnet. In sehr lauten Umgebungen können diese Schallkurven aber nicht mehr einwandfrei ausgewertet werden. Kommen die Analyseergebnisse der Schalltrennung hinzu, können auch noch alle Informationen über die Schallquellen ausgewertet werden.

Wir Menschen haben sehr viele Kenntnisse, wie die Sprache ist, wir benutzen das ständig. Und wir benutzen dieses Wissen, um die Schalltrennung zu erzeugen. Das heißt, da wir schon einiges über Sprache wisse, können wir uns vorstellen, was in dem Signal sein sollte. Und wir können dieses Wissen benutzen, um nachzubauen, was in dem Signal fehlt durch Störgeräusche zum Beispiel.

Auch wenn die Störgeräusche sehr laut sind, kann dann also die Bedeutung eines Wortes mittels Mustererkennung mit einer sehr hohen Genauigkeit bestimmt werden. Nur auf Grund der Schallkurve kann das Piloten-Spracheingabesysteme vielleicht nicht unterscheiden, ob es den Helikopter stiegen oder neigen lassen soll. Mit den zusätzlichen Schallquelleninformationen kann das Schallmuster mit wesentlich höherer Genauigkeit entweder der Wortbedeutung "steigen" oder "neigen" zugeordnet werden. Außerdem werden die Störgeräusche dabei einfach herausgerechnet. Und das ist genau die Anwendung, die der Hubschrauber-Pilot braucht, um seinen Helikopter mit den knatternden Rotoren per Spracheingabe fliegen zu können.