|
|

Gehorchen in Zukunft aufs Wort (Foto: AP)
|
Spracherkennung. - Heute geht in
Delmenhorst bei Bremen die seit Sonntag stattfindende internationale Tagung
über die Analyse komplexer akustischer Signale und Sprachverstehen bei Mensch
und Maschine zu Ende. 55 Teilnehmer aus den Computerwissenschaften,
Neurowissenschaften, der Sprachforschung wie der Physik, den
Ingenieurwissenschaften, der Biologie und der Medizin haben eine
Zwischenbilanz gezogen, wie weit Forschung eigentlich gekommen ist bei der
Entwicklung von maschinellen Hörsystemen, die Sprache vollkommen korrekt
verarbeiten. Insbesondere die Militärs sind an solchen sprachverarbeitenden
Systemen enorm interessiert.
Hubschrauber-Piloten brauchen ein gutes Gehör. Nicht selten sind die
Anweisungen der Flugaufsicht auch beim Tragen geschlossener Kopfhörer kaum zu
verstehen. Das Knattern der Hubschrauber-Rotoren, verzerrte Stimmen durch
Frequenzüberlagerungen und mehrere Funkgespräche auf einer Frequenz lassen
das Hören zur Schwerstarbeit werden. Die Hubschrauber-Steuerung per
Spracheingabe galt unter diesen schlechten akustischen Bedingungen als eine
unerreichbare Vision der Piloten und Planer der amerikanischen Luftwaffe.
Diese Vision ist jetzt ein Stück näher gerückt. Die automatische
Spracherkennung bietet mittlerweile sogar Systeme, die beim Diktat die
Hörqualitäten einer gut ausgebildeten Sekretärin erreichen. Dem
Hubschrauberpiloten, der seinen Helikopter per Spracheingabe steuern möchte,
hat das aber bislang nicht geholfen. Andrew Oxenham.
Leider ist es immer noch der Fall, dass sobald
Störquellen vorhanden sind, fast alle Algorithmen zusammen fallen und nicht
mehr gut funktionieren können. Wir wollen durch Erkenntnis von menschlich
auditorischen Systemen, also wie das Gehirn dieses Problem löst, wollen wir
Erkenntnisse gewinnen und in dieses automatische Spracherkennungssystem
einführen.
Und da sind die Forscher ein gutes Stück voran gekommen. Bisher haben sie die
Sprachverarbeitungssysteme so konstruiert, dass zunächst die
unterschiedlichen Schallquellen voneinander getrennt und identifiziert
wurden. Andrew Oxenham beschreibt das so.
Wenn man zwei verschiedene Quellen hat, die kommen
meistens nicht von der selben Richtung, sondern von verschiedenen Richtungen.
Wir haben zwei Ohren, um das zu hören. Und man kann das nachbauen, indem man
zwei Mikrofone nimmt, und die Differenzen zwischen diesen beiden
Schallempfangssystemen nimmt, um die zwei Quellen zu trennen.
Bei der Auswertung der reinen Richtungsunterschiede wurden jedoch wichtige
Sprachverarbeitungsinformationen nicht berücksichtigt.
Interessanterweise scheinen wir Menschen diese
Richtungsunterschiede nicht als Haupttrenninformation zu benutzen, wir
benutzen statt dessen Sachen wie Tonhöhenunterschiede und andere Unterschiede
in der Quelleninformationen, z.B. ob ein Mann oder eine Frau spricht.
Richtungshören mit der Trennung und Identifizierung verschiedener
Schallquellen, unterschiedliche Tonhöhen und das Erkennen von Bedeutungen
wurden bislang in verschiedenen Arbeitsschritten nacheinander von den
automatischen Sprachverarbeitungssystemen vorgenommen. Der Mensch nimmt sie
aber gleichzeitig vor. Er analysiert auf einen Schlag.
Die Idee ist, dass man nicht nur Schalltrennung und
dann danach Spracherkennung macht, sondern man versucht, das in ein System
einzubauen, so dass die Trennung und die Spracherkennung zur gleichen Zeit
passieren, wie wir das auch als Menschen machen.
Werden Schalltrennung und Spracherkennung gleichzeitig vorgenommen, entsteht
ein einheitliches und sehr stabiles Codierungsmuster. Die reine
Spracherkennung arbeitet dagegen nur mit der Analyse von Schallklängen, um
Wortbedeutungen zu ermitteln. Bestimmte Schallkurven sind in einer Datenbank
bestimmten Wortbedeutungen zugeordnet. In sehr lauten Umgebungen können diese
Schallkurven aber nicht mehr einwandfrei ausgewertet werden. Kommen die Analyseergebnisse
der Schalltrennung hinzu, können auch noch alle Informationen über die
Schallquellen ausgewertet werden.
Wir Menschen haben sehr viele Kenntnisse, wie die
Sprache ist, wir benutzen das ständig. Und wir benutzen dieses Wissen, um die
Schalltrennung zu erzeugen. Das heißt, da wir schon einiges über Sprache
wisse, können wir uns vorstellen, was in dem Signal sein sollte. Und wir
können dieses Wissen benutzen, um nachzubauen, was in dem Signal fehlt durch
Störgeräusche zum Beispiel.
Auch wenn die Störgeräusche sehr laut sind, kann dann also die Bedeutung
eines Wortes mittels Mustererkennung mit einer sehr hohen Genauigkeit
bestimmt werden. Nur auf Grund der Schallkurve kann das
Piloten-Spracheingabesysteme vielleicht nicht unterscheiden, ob es den
Helikopter stiegen oder neigen lassen soll. Mit den zusätzlichen
Schallquelleninformationen kann das Schallmuster mit wesentlich höherer
Genauigkeit entweder der Wortbedeutung "steigen" oder
"neigen" zugeordnet werden. Außerdem werden die Störgeräusche dabei
einfach herausgerechnet. Und das ist genau die Anwendung, die der
Hubschrauber-Pilot braucht, um seinen Helikopter mit den knatternden Rotoren
per Spracheingabe fliegen zu können.
|