Dieser Beitrag ist im Tagungsband "Fortschritte der Akustik - DAGA '96" veröffentlicht.

Objektive Sprachqualitätsvorhersage mittels einer gehörorientierten Vorverarbeitung

Martin Hansen, Torsten Dau, Birger Kollmeier
AG Medizinische Physik, Fachbereich Physik, Carl von Ossietzky-Universität Oldenburg

Einleitung

Bei der objektiven Sprachqualitätsvorhersage ist man daran interessiert, subjektive Qualitätsverschlechterungen eines verzerrten Test-Sprachsignals gegenüber dem ungestörten Referenzsignal mit Hilfe physikalischer Parameter zu quantifizieren. Dabei ist man dazu übergegangen, eine möglichste gehörgerechte Vorverarbeitung der Sprachsignale zu berücksichtigen, da traditionelle Signalparameter wie der Signal-Rauschabstand bei nichtlinearen Sprach-Codier-Decodier Systemen Codecs versagen, /1/-/5/.
In diesem Beitrag wird ein Verfahren zur objektiven Sprachqualitäts-Vorhersage von niederratig codierten Sprachsignalen vorgestellt, das auf einem Modell zur gehörgerechten Signalverarbeitung basiert. In vorangegangenen Untersuchungen /6/ konnte gezeigt werden, daß dieses Modell die Wahrnehmungsleistung des menschlichen Gehörs in einer Vielzahl von psychoakustischen Experimenten ergfolgreich beschreiben kann.

Methode der Sprachqualitätsmessung

Zuerst wird die Zeitverzögerung zwischen Referenzsatz und verzerrtem Satz ausgeglichen und beide Sätze global auf gleichen rms-Wert skaliert. Beide Sätze werden dann mittels einer gehörgerechten Vorverarbeitung auf die Ebene ihrer sogenannten "internen Repräsentation" abgebildet. Unterschiede zwischen den internen Repräsentationen von Referenz- und verzerrtem Satz sollten wahrnehmbaren Unterschieden in den Zeitsignalen entsprechen und damit eine verringerte Sprachqualität bedeuten.

Modell der Signalvorverarbeitung Die implementierte Signalvorverarbeitung zur Berechnung der internen Repräsentation ist in Abbildung 1 dargestellt.
Die Signalvorverarbeitung besteht aus einer Filterbank, die das Signal in frequenzgruppenbreiten Bändern mit Mittenfrequenzen von 300 bis 4000 Hz bandpaßfiltert, gefolgt von einer Halbwellengleichrichtung und Tiefpaßfilterung, die das Übertragungsverhalten der Haarzellen angenähert nachbildet. Zur Modellierung zeitlicher Verdeckungseffekte und adaptiver Kompression schließt sich eine Kette von Nachregelschleifen /7/ an. Diese bestehen aus fünf hintereinandergeschalteten Dividierern, deren Divisor jeweils ihr tiefpaßgefiltertes Ausgangssignal ist. Die Nachregelschleifen haben die Eigenschaft, stationäre Eingangssignale auf die 32. Wurzel, y = x^(1/32) ~= log(x), in ihrer Amplitude zu komprimieren. Schnelle Schwankungen der Einhüllenden am Eingang werden dagegen nahezu linear übertragen, da die Divisoren sich nur gemäß der Zeitkonstanten der Tiefpässe ändern können. Die fünf Zeitkonstanten sind linear aufsteigend zwischen 5 ms und 500 ms verteilt. Am Ende der Nachregelschleifen begrenzt ein einfacher Tiefpaß 1. Ordnung mit einer Zeitkonstante von 20 ms das Auflösungsvermögen für zeitliche Einhüllendenfluktuationen.
Die einzelnen Frequenzbänder werden gewichtet. Als Wichtungsfunktion wurde die 40-Phon Isophone gemäß ISO 226 im Bereich von 300 bis 4000 Hz verwendet. Als Maß Q für die Unterschiede zwischen den beiden Repräsentationen wird der Korrelationskoeffizient zwischen den entsprechenden Samplen berechnet. Der maximale Wert von 1 entspricht also einem transparenten Codec. Das so definierte Qualitätsmaß Q kann durch eine monotone Funktion auf die subjektive Mean Opinion Score-Skala (MOS) abgebildet werden.

Ergebnisse

Die beschriebene Methode wurde auf das Material des ETSI Halfrate Selection Test (1992) angewendet. Er enthält jeweils vier unterschiedliche Doppelsätze inklusive Pausen, von zwei weiblichen und zwei männlichen Personen gesprochen. Die Sätze wurden durch 6 verschiedene Codecs bei jeweils 6 verschiedenen Arbeitsbedingungen verzerrt. Zu diesen 144 Sätzen kommen als Referenz 36 weitere hinzu, die durch einen MNRU (Modulated Noise Reference Unit) mit verschiedenen S/N-Werten verzerrt wurden.
Um Schwankungen der subjektiven Sprachqualität auszugleichen, die auf der Variabilität der verschiedenen Sprechstimmen beruhen, wurden die jeweils vier Sätze einer Codec-Bedingung zu einem langen Satz hintereinandergehängt und der mittlere MOS berechnet.

In Abbildung 2 sind die Ergebnisse der Sprachqualitätsvorhersage dargestellt. Die subjektiv gemessene Sprachqualität (MOS) ist als Funktion des objektiven Maßes Q aufgetragen. Jeder Datenpunkt ist mit der Nummer des Codecs (1-6) innerhalb des Tests bzw. durch ein m für den MNRU markiert.
Ergebnisse Aus Abbildung 2 erkennt man eine hohe Korrelation der Q/MOS Datenpunkte und eine geringe Schwankungsbreite, innerhalb der die subjektiven MOS-Werte bei festem Q variieren. Der Rang-Korrelationskoeffizient beträgt 0,924, die Standardabweichung für ein angepaßtes Polynom 2. Grades beträgt 0.279. Der Korrelationskoeffizient ist damit sehr hoch und vergleichbar mit dem Wert, den z.B. Beerends gibt für sein Sprachqualitätsmaß PQSM /2/ für den niederländisch-sprachigen Teil desselben Tests angibt (0,94). Obwohl die Codecs und besonders der MNRU jeweils sehr unterschiedliche Verzerrungen erzeugen und verschiedene subjektive Klangeindrücke mit sich bringen, läßt sich in Abbildung 2 keine Gruppierung der Datenpunkte für einzelne Codecs erkennen. Dies deutet darauf hin, daß die verwendete Vorverarbeitung, in Kombination mit dem Korrelationskoeffizienten als Qualitätsmaß, für verschiedene Arten von Verzerrungen eine "perzeptiv richtige" Sprachsignalanalyse leistet. Diese Annahme wird durch Untersuchungen von Tchorz et al. /8/ bestätigt, der dieselbe Vorverarbeitung zur Merkmalsextraktion für Spracherkennungsalgorithmen verwendet.

Literatur

/1/ M. Hansen und B. Kollmeier. "Anwendbarkeit eines psychoakustisch motivierten Sprachvorverarbeitungsmodells für die Sprachqualitätsmodellierung". In Elektronische Sprachsignalverarbeitung, 34-39. ITA Dresden, 1995.
/2/ J. G. Beerends und J. A. Stemerdink. "A Perceptual Speech Quality Measure based on a Psychoacoustic Sound Perception". J. Audio Eng. Soc., 42 (3):115-123, 1994.
/3/ J. Berger und A. Merkel. "Psychoakustisch motivierte Einzelmaße als Ansatz zur objektiven Qualitätsbestimmung von ausgewählten Sprachcodiersystemen". In Elektronische Sprachsignalverarbeitung, TU-Berlin, 1994.
/4/ M.R. Schroeder, B.S. Atal, und J.L. Hall. "Objective Measure of Certain Speech Signal Degradations Based on Masking Properties of Human Auditory Perception". In Frontiers of Speech Communication Research, 217-229, London, 1979. Academic Press.
/5/ S. Wang, A. Sekey und A. Gersho. "Auditory Distortion Measure for Speech Coding", In IEEE Proc. Int. Conf. Acoust., Speech Signal Processing, 493-496, 1991.
/6/ T. Dau und D. Püschel. "Ein Computermodell zur Verarbeitung komplexer Schallreize". DAGA '92, 877-880.
/7/ D. Püschel "Prinzipien der zeitlichen Analyse beim Hören". Dissertation, Uni Göttingen, 1988.
/8/ J. Tchorz, M. Wesselkamp und B. Kollmeier. "Gehörgerechte Merkmalsextraktion zur robusten Spracherkennung in Störgeräuschen", dieser DAGA-Band.

Diese Arbeit wurde vom Forschungszentrum der Deutschen Telekom AG unterstützt.


Back to speech quality home page
martin@medi.physik.uni-oldenburg.de
Last modified: Fri Aug 2 11:31:38 1996