Suche:

Artikel der Kategorie "Mustererkennung"

Spracherkennung: Mit Diktiersoftware schneller Texten?

14. Mai 2013
diktiersoftware-spracherkennung.jpg

Mit Diktiersoftware Texte erstellen

Schneller reden als schreiben! Geht das überhaupt?
In den letzten Jahren gab es einen enormen Fortschritt in der Spracherkennung. Zugangscodes mittels Spracherkennung, Smartphonebedienung oder Texte schreiben. All das ist mittlerweile mit Hilfe von Spracherkennung möglich.
In diesem Artikel gehe ich auf die Möglichkeit ein Blogartikel oder ähnliche digitale Texte mittels Dikitiersoftware zu erstellen.

Spracherkennung: Mit Diktiersoftware schneller Texten? weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Zusammenfassung - Markierung von Phrasengrenzen

20. Januar 2011

Nachdem festgehalten wurde, dass die Sprachproduktion in die drei Prozesse Respiration (Luftstromerzeugung), Phonation (Stimmbildung), bei welcher der Bernoulli-Effekt im Bezug auf die Stimmlippenschwingungen eine große Rolle spielt, und Artikulation (Lautbildung) unterteilt werden kann, wurde auf das lineare Sprachmodell eingegangen. Das lineare Modell stellt den komplexen Vorgang der Spracherzeugung vereinfacht dar. Wichtig für ein gutes Verständnis von Sprache sind die prosodischen Mittel. Prosodie beinhaltet alle sprachlichen Eigenschaften. Dazu gehören unter anderem Intonation (Tonhöhenverlauf), Akzent (Betonung), Satzmodus und Sprechpausen.

Zusammenfassung - Markierung von Phrasengrenzen weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Markierung von Phrasengrenzen mit Hilfe der Grundfrequenz

20. Januar 2011

Daten

Die zu Beginn aufgestellte Vermutung, Phrasen mit Hilfe der Grundfrequenzanalyse markieren zu können, wird nun in den folgenden Kapiteln näher untersucht.
Diese Dateien enthalten Adressdaten, die von Frauenstimmen und von Männerstimmen gesprochen wurden. Dabei wird zwischen den Konstellationen Ort - Straße und
Straße - Ort unterschieden.
Dadurch kommen vier verschiedene Möglichkeiten zu Stande, die untersucht wurden:

  • Frauen: Ort - Straße
  • Frauen: Straße - Ort
  • Männer: Ort - Straße
  • Männer: Straße - Ort

Die Dateien wurde mit Hilfe des von Kåre Sjölander und Jonas Beskow erstellten Programms "WaveSurfer" analysiert. Dieses Programm beinhaltet unter anderem die Möglichkeit, die Grundfrequenz darzustellen.
Es wurde bei allen behandelten Dateien die Grundfrequenz zu Beginn sowie zum Ende des Orts beziehungsweise der Straße ermittelt und in eine Tabelle eingetragen. Ferner wurden folgende Frequenzdifferenzen iterativ ermittelt:

Markierung von Phrasengrenzen mit Hilfe der Grundfrequenz weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Verfahren zur Bestimmung der Grundfrequenz

02. Januar 2011
Grundfrequenz-Berechnung-an-Schwingung.png

Mit Diktiersoftware Texte erstellen

AMDF-Verfahren

Beim AMDF-Verfahren (Average Magnitude Difference Function) werden die Funktionswerte eines Sprachsignals zeitversetzt subtrahiert und die Beträge als Summe zusammengefasst. Hierbei entstehen Minima, deren Abstände zueinander ganzzahlige Vielfache der Grundperiode darstellen [Nöth91, S. 101].
Am einfachsten lässt sich das AMDF-Verfahren an einem periodischen Signal erklären.
Wie in 3.2 erläutert, wird zuerst ein Teilbereich der Funktion - etwa 40 ms - aus- gewählt. Die kleinste noch zu erfassende Grundfrequenz (foK) liege bei 50 Hz und die größte Grundfrequenz (foG) bei 550 Hz. Die Konstante k bezeichnet den Umrechnungsfaktor von 1 Hz in x Abtastpunkte. foK' bzw foG' ist das Produkt aus foG bzw. foK und k. Die Variable d bezeichnet einen Wert foK' ≤ d ≤ foG' und macht zugleich eine Aussage über die Länge der Grundfrequenz in Abtastpunkten (wie viel Abtastpunkte 1 ms entsprechen muss vor einer Analyse definiert werden). f(i) bezeichnet den Funktionswert des Punktes i des zu analysierenden Sprachsignals.
Die AMDF-Funktion, in der die Minima die Vielfachen der Grundfrequenz darstellen lautet [Nöth91, S. 101]:

Verfahren zur Bestimmung der Grundfrequenz weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Grundfrequenz fo

02. Januar 2011
Auschnitt-des-ersten-A-aus-dem-Logatom-aba.png

Mit Diktiersoftware Texte erstellen

Wie bereits in 2.1.2 erwähnt wurde, resultiert die Grundfrequenz (fo) aus dem Kehrwert der Zeitspanne (1/glottaler Zyklus) zwischen zwei Öffnungen der Stimmlippen. Wird zum Beispiel ein glottaler Zyklus von 10 ms gemessen, so beträgt die Grundfrequenz für diesen Abschnitt
1/0,01s = 100Hz
Allerdings ist es nicht möglich und ebenso wenig vorteilhaft, bei jedem Menschen, dessen Sprachsignal untersucht werden soll, das Öffnen und Schließen der Glottis mittels Laryngographen¹ aufzuzeichnen. Daher wurden Methoden entwickelt, die alle noch nicht zu 100% fehlerfrei sind, mit denen die Grundfrequenz automatisch aus dem Sprachsignal entnommen werden kann.

Grundfrequenz fo weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Prosodische Mittel

25. Dezember 2010

Intonation

Während Bußmann [Bußmann90, S. 352] die Intonation als „Gesamtheit der prosodischen Eigenschaften lautsprachlicher Äußerungen (Silben, Wörter, Phrasen), die nicht an einen Einzellaut gebunden sind (diese Definition ist ähnlich zur Definition von Prosodie)“ definiert, wird in dieser Arbeit mit der Intonation der Tonhöhenverlauf innerhalb eines Wortes, Satzes oder einer Äußerung beschrieben.
Die Tonhöhe ist durch ihre Frequenz bestimmt. Je mehr Schwingungen pro Sekunde desto höher ist der Ton.
Im Deutschen oder im Englischen wird die Intonation zur Beschreibung von
Gemütszuständen, zum Beispiel um Ironie oder Stolz auszudrücken und zur Unterscheidung von Satzarten gebraucht. Solche Sprachen werden auch syntaktische Sprachen genannt, da die Bedeutung einzelner Wörter in der Syntax eindeutig ablesbar sind. Tonsprachen, wie viele asiatische Sprachen, besitzen Wörter, die sich orthographisch zwar nicht voneinander unterscheiden, dafür aber einen Unterschied in den Tonhöhen haben und dadurch auch unterschiedliche lexikalische Bedeutungen besitzen.

Prosodische Mittel weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Prosodie

25. Dezember 2010

In der vorliegenden Arbeit soll die Definition aus Bußmann [Bußmann90, S. 618] als optimale Begriffserklärung angesehen werden:

Prosodie: "Gesamtheit sprachlicher Eigenschaften wie Akzent, Intonation, Quantität, Sprechpausen. Sie beziehen sich im allgemeinen auf Einheiten, die größer sind als ein einzelnes Phonem¹. Zur P. zählt auch die Untersuchung von Sprechgeschwindigkeit, Rhythmus und Sprechpausen."

Für die automatische Sprachverarbeitung ist die Prosodie enorm wichtig. Neben der Frage wie mit prosodischen Mitteln Teile einer Äußerung hervorgehoben werden ist die Prosodie Schlüsselelement für die Frage, wie sich eine Äußerung gliedern lässt und auf welche Art und Weise der Satzmodus (Frage, Aussage, etc.) prosodisch markiert wird. Im Folgenden werden nun einige prosodische Mittel näher erläutert.

Prosodie weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Lineares Sprachmodell

25. Dezember 2010
Prinzip-der-Faltung.png

Mit Diktiersoftware Texte erstellen

Das lineare Modell (Abb.3) gibt die Möglichkeit, den sehr komplexen Vorgang der Spracherzeugung durch ein lineares System zu modellieren [Kießling97, S. 54]. Hierzu werden zwei verschiedene Energiequellen benötigt: Einerseits ein Generator, der periodisch ablaufende Impulse liefert, die den Glottissignalen nahe kommen, und andererseits ein Generator, der stimmlose Laute durch ein einfaches weißes Rauschen modelliert. Um die stimmhaften und stimmlosen Anteile eines Signals zu steuern, gibt es noch zwei Amplitudenregler. Der Ansatzraum wird durch einen Filter modelliert. Dieser Filter wird gerne als Röhrenmodell dargestellt. Dieses Röhrenmodell besteht aus einer akustischen Röhre mit gleichlangen und unterschiedlich hohen Zylinderabschnitten.
In (Abb.3) sind Darstellungen zweier Graphen zu sehen. In dem linken können die Schwingungen der Glottis beziehungsweise die aus dem Öffnen und Schließen resultierenden Luftstöße, die als Impulssignal oder Anregungssignal festgehalten werden, beobachtet werden. Um das Sprachsignal (rechts), das die Lautstärke auf der Ordinate während einer fortlaufenden Zeit auf der Abszisse beschreibt, zu erhalten, ist folgender mathematischer Vorgang - bekannt als Faltung - notwendig:

Lineares Sprachmodell weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Biologische Sprachproduktion

24. Dezember 2010

Biologisch-physikalischer Vorgang

Dieser Abschnitt beschreibt die physiologische Spracherzeugung des Menschen. Er stützt sich hauptsächlich auf Kießling [Kießling97, S. 46f].
Die Produktion der menschlichen Sprache lässt sich im Großen und Ganzen in drei Prozessen zusammenfassen: der Respiration (Luftstromerzeugung), der Phonation (Stimmbildung) und der Artikulation (Lautbildung) (Abb.1).

Biologische Sprachproduktion weiterlesen ...

In der Kategorie Mustererkennung erschienen.

Einführung in die automatische Sprachverarbeitung

12. Dezember 2010

Die menschliche Sprache ist ein sehr komplexes Medium. Der Mensch unterscheidet sich durch das Kommunikationsmittel Sprache eindeutig von anderen Lebewesen. Die Sprache dient dem Menschen sowohl als Kommunikationsmittel als auch als Informationsquelle. Denn Sprache kann ohne Informationsverlust aufgezeichnet und archiviert werden und ist demnach vom Sprechzeitpunkt unabhängig. Zudem ist Sprache nicht vom Ort abhängig. Man denke an das Telefon, das Radio, das Fernsehen usw.. Weiter haben Umgebungsfaktoren wie die Dunkelheit, Regen oder Hitze keinen Einfluss auf diese Kommunikationsform.
Die automatische Verarbeitung von Sprache ist mit der Entwicklung von immer leistungsfähigeren Computern stark voran geschritten und hat in einigen Anwendungsgebieten bereits Einzug gehalten. Anwendungsgebiete, die sich mit der automatisierten Verarbeitung digitalisierter Sprachsignale befassen sind beispielweise [Kießling97, S. 2]:

  • Spracherkennung und Sprachverstehen (z.B. Kommando-, Diktiersysteme)
  • Sprechererkennung (z.B. Zugangskontrolle)
  • Schlüsselworterkennung (z.B. Telefonüberwachung)
  • Sprachübertragung (z.B. Telefon)

Einführung in die automatische Sprachverarbeitung weiterlesen ...

In der Kategorie Mustererkennung erschienen.
rechtes menue hintergrund oben

Bild vom Autor Mein Name ist Simon Rüger. Dies ist mein privater Blog. Ich schreibe über die Themen Suchmaschinenoptimierung, Internet-Marketing, Social Media. Außerdem berichte ich über die aktuellen Google Doodles. Mehr Info.

Impressum und Datenschutz
* = Affiliate-Links

April 2017 (1)
Juli 2016 (1)
März 2016 (2)
Januar 2016 (1)
November 2015 (2)
September 2015 (1)
August 2015 (1)
Juni 2015 (2)
Mai 2015 (1)
April 2015 (1)
Dezember 2014 (3)
November 2014 (1)
Oktober 2014 (2)
Juni 2014 (1)
Mai 2014 (1)
März 2014 (1)
Februar 2014 (1)
November 2013 (7)
Oktober 2013 (4)
September 2013 (2)
Juli 2013 (1)
Juni 2013 (5)
Mai 2013 (9)
April 2013 (16)
März 2013 (15)
Februar 2013 (17)
Januar 2013 (9)
Dezember 2012 (6)
November 2012 (10)
Oktober 2012 (7)
September 2012 (8)
August 2012 (14)
Juli 2012 (8)
Juni 2012 (7)
Mai 2012 (11)
April 2012 (17)
März 2012 (9)
Februar 2012 (5)
Januar 2012 (1)
Dezember 2011 (12)
November 2011 (15)
Oktober 2011 (5)
Juli 2011 (1)
Juni 2011 (3)
Mai 2011 (1)
Februar 2011 (1)
Januar 2011 (4)
Dezember 2010 (6)
Oktober 2010 (1)
August 2010 (1)
Februar 2010 (1)
November 2009 (3)
Mai 2009 (5)
März 2009 (1)
Februar 2009 (2)

dievermessung.de
tagseoblog.de
Der Stern
schnurpsel.de
selbstaendig-im-netz.de
seo-united.de
Spiegel Online
ZEIT

Blogverzeichnis - Blog Verzeichnis bloggerei.de Blog Top Liste - by TopBlogs.de
rechtes menue hintergrund unten