20 Jan
2011

Markierung von Phrasengrenzen mit Hilfe der Grundfrequenz

4.1 Daten

Die zu Beginn aufgestellte Vermutung, Phrasen mit Hilfe der Grundfrequenzanalyse markieren zu können, wird nun in den folgenden Kapiteln näher untersucht.
Diese Dateien enthalten Adressdaten, die von Frauenstimmen und von Männerstimmen gesprochen wurden. Dabei wird zwischen den Konstellationen Ort - Straße und
Straße - Ort unterschieden.
Dadurch kommen vier verschiedene Möglichkeiten zu Stande, die untersucht wurden:

  • Frauen: Ort - Straße
  • Frauen: Straße - Ort
  • Männer: Ort - Straße
  • Männer: Straße - Ort

Die Dateien wurde mit Hilfe des von Kåre Sjölander und Jonas Beskow erstellten Programms "WaveSurfer" analysiert. Dieses Programm beinhaltet unter anderem die Möglichkeit, die Grundfrequenz darzustellen.
Es wurde bei allen behandelten Dateien die Grundfrequenz zu Beginn sowie zum Ende des Orts beziehungsweise der Straße ermittelt und in eine Tabelle eingetragen. Ferner wurden folgende Frequenzdifferenzen iterativ ermittelt:

  • Straßenanfang - Straßenende
  • Ortsanfang - Ortsende
  • Ortsende - Straßenanfang bei der Konstellation Ort - Straße bzw.
  • Straßenende - Ortsanfang bei Straße - Ort

Des weiteren wurden die Durchschnittswerte der jeweiligen Differenzen aller Ergebnisse sowie die der einzelnen Sprecher gebildet.



4.2 Ergebnisse

Bei den vorliegenden Messergebnissen wurden folgende Abkürzungen eingeführt:

  • fo := Grundfrequenz
  • Oa := fo am Ortsanfang,
  • Oe := fo am Ortsende,
  • Sa := fo am Straßenanfang und
  • Se := fo am Straßenende

Alle angegebenen Werte haben die Einheit Hz.


4.2.1 Durchschnittswerte

Zusammenfassend konnte - sofern alle Messergebnisse miteinbezogen wurden - im Durchschnitt eine Grundfrequenzerhöhung vom Beginn bis zum Ende des ersten Teils der Adresse festgehalten werden. Zudem startet die zweite Phrase im Schnitt mit einer deutlich tieferen Grundfrequenz und fällt gegen Ende des Signals im Vergleich zum Anfang noch weiter ab.


4.2.2 Vergleich von Frau und Mann bezüglich der Phrasengrenzenerkennung

Wird vorerst nur das Vorzeichen der durchschnittlichen Frequenzdifferenzen betrachtet, so kann kein Unterschied zwischen Frauen und Männern erkannt werden. Allerdings sind bei Frauen die Grundfrequenzveränderungen zwischen Ort und Straße sowie der Grundfrequenzabfall zum Ende des Sprachsignals deutlich höher als bei Männern. Dies kann einerseits daran liegen, dass Frauen in einem größeren Grundfrequenzbereich sprechen. Andererseits sollte auch die Möglichkeit in Betracht gezogen werden, dass die Männer dieser Versuchsreihe die Wörter weniger gut akzentuiert haben, so dass dies sowohl im Grundfrequenzverlauf sichtbar ist, als auch schwieriger für den Zuhörer ist, das Gesprochene ohne weitere Probleme oder Anstrengungen aufzunehmen.



4.2.3 Vergleich der verschiedenen Konstellationen

Im Vergleich der einzelnen Zusammenstellungen können sowohl bei den Frauenstimmen als auch bei den Männerstimmen bei der Messreihe "Ort - Straße" eindeutigere Werte bestimmt werden als bei den andern zwei Messreihen. Die wichtigste für die Phrasenmarkierung notwendige Grundfrequenzveränderung zwischen Ort und Straße ist allerdings bei jeder Messreihe - bis auf ein paar Ausnahmen in der Messreihe "Straße - Ort" der Männerstimmen - eindeutig eine Verringerung der Grundfrequenz. Die Ausnahmen kommen durch lange Straßennamen oder auch unsauberes Sprechen zu Stande. Es kann also festgehalten werden, dass es egal ist in welcher Reihenfolge Straße und Ort zueinander stehen. Zwischen ihnen ist so gut wie immer ein Abfall der Grundfrequenz erkennbar. Dadurch kann die Behauptung aufgestellt werden, dass dieses Verhalten der Grundfrequenz bei jedem Beispiel dieser Art auftritt. Ferner kann beobachtet werden, dass die Grundfrequenz bis zur Ort-Straße-Grenze ansteigt, dann den oben angesprochenen Sprung zu einer niedrigeren Frequenz durchführt, worauf sich die Grundfrequenz gegen Ende der Signals verringert. Auch dies kann als Behauptung für eine Regelmäßigkeit aufgestellt werden. Die einzelnen Unregelmäßigkeiten werden nun im folgenden Abschnitt genauer untersucht.


4.2.4 Unregelmäßigkeiten

Da einige der Messwerte nicht den oben festgelegten Behauptungen entsprechen, muss untersucht werden woran dies liegt. Die bedeutendste Feststellung, dass es zwischen Ort und Straße eine deutliche Grundfrequenzverringerung gibt, ist in so gut wie allen Beispielen eindeutig nachgewiesen. Bei der Konstellation Straße - Ort der Männer fällt allerdings auf, dass dies bei ca. 33% nicht zutrifft. Das liegt zum einen daran, dass die Männerstimmen dieser Versuchsreihe einen nicht so großen Unterschied zwischen höchster und niedrigster Grundfrequenz aufweisen, wie nahezu alle Frauenstimmen. Dadurch - oftmals verschlimmert durch ein Rauschen im Sprachsignal oder eine schlechte Aufnahme - kommt es manchmal zu einer geringen Erhöhung der gemessenen Grundfrequenz. Es kann auch gesagt werden, dass diese Unregelmäßigkeit mit der fehlenden Akzentuierung des Sprechers zusammenhängt, wodurch das Gesprochene sehr unverständlicher klingt. Besonders tückisch sind Adressdaten bei denen Orts- und Straßenname gleich sind.
Die Grundfrequenzveränderung verhält sich hier zwischen Straße und Ort genau anders herum als erwartet. Der mehr oder weniger gleiche Grundfrequenzverlauf ist auf den Sprecher zurückzuführen, dem es schwer fällt, den Ort anders zu akzentuieren als die zuvor ausgesprochene Straße. Für solche Verläufe müsste eine zusätzliche Regel bei einem Programm eingebaut werden. Sofern sich ein Grundfrequenzverlauf mit geringfügiger Abweichung, ungefähr in der Mitte, wiederholt, soll die Phrasengrenze eben dort in der Mitte gesetzt werden.
Neben den Problemen der Grundfrequenzveränderung zwischen den einzelnen Phrasen konnte zudem bei einigen Beispielen eine Erhöhung der Grundfrequenz zwischen Anfang und Ende der zweiten Phrase dargestellt werden. Die Messungen, bei denen diese Unregelmäßigkeit auftritt, sind durch einen negativen Wert in der letzten Spalte gekennzeichnet. Bei derartigen Beispielen hört es sich so an, als würde der Sprecher noch weiter sprechen wollen. Ein solches Beispiel lässt sich auch sehr gut auf eine Konversation zwischen zwei Sprechern übertragen. Erhöht Sprecher A seine Stimme und macht darauf eine etwas längere Pause, so wird ihm Sprecher B nicht sofort ins Wort fallen oder darauf etwas erwidern, da Sprecher A durch diese Erhöhung die Markierung einer noch nicht fertigen Rede bezweckt. In den analysierten Beispielen trat dieses Problem sehr wahrscheinlich aus dem Grund auf, dass die Sprecher mehrere Adressdaten hintereinander gesprochen haben.


4.2.5 Fazit

Zusammenfassend kann festgehalten werden, dass sich die Grundfrequenz bei jedem Menschen annähernd gleich verhält. Ausgenommen sind Sprecher, die laufend mit einer Grundfrequenz mit einer Schwankung von ±10 Hz sprechen - diese Sprechweise wird auch gerne als "gelangweilt" betitelt. Denn bei solchen Beispielen kann von Grundfrequenzänderung keineswegs die Rede sein. Wie in nahezu jeder Versuchsreihe sind natürlich auch bei diesem Experiment Unregelmäßigkeiten aufgetreten, die jedoch alle auf ein undeutliches Sprechen zurückzuführen sind. Deutliches Sprechen zeugt also nicht nur im Alltag von großer Wichtigkeit. Allein durch die Grundfrequenzanalyse ist, vor allem im Bezug auf die Sprechweise des Redners, für die Phrasenmarkierung noch keine 100%ige Sicherheit gegeben. Sie trägt aber auf jeden Fall zur Lösung des Problems der automatischen Phrasenmarkierung im großen Maße positiv bei und kann bei weiteren Überlegungen als ein wichtiger Analysebestandteil angesehen werden.

In der Kategorie Mustererkennung erschienen.
Noch kein Kommentar Kommentare zu "Markierung von Phrasengrenzen mit Hilfe der Grundfrequenz"
Kommentar verfassen
Bitte beantworte noch diese einfache mathematische Frage
rechtes menue hintergrund oben
rechtes menue hintergrund unten