Veranstaltung: Grundlagen der automatischen Spracherkennung

Nummer:
141044
Lehrform:
Vorlesung und Praxisübungen
Medienform:
Folien
Verantwortlicher:
Prof. Dr.-Ing. Do­ro­thea Kolossa
Dozent:
Prof. Dr.-Ing. Do­ro­thea Kolossa (ETIT)
Sprache:
Deutsch
SWS:
4
LP:
6
Angeboten im:
Sommersemester

Termine im Sommersemester

  • Beginn: Dienstag den 10.04.2018
  • Vorlesung Dienstags: ab 14:15 bis 15.45 Uhr im ID 04/445
  • Übung Mittwochs: ab 12:15 bis 13.45 Uhr im ID 2/201

Prüfung

Schriftliche Prüfung am 02.03.2018

Dauer: 120min
Prüfungsanmeldung: FlexNow
Beginn: 11:30

Raum:

HIB : Alle Studierenden

Mündlich

Termin nach Absprache mit dem Dozenten.

Dauer: 30min
Prüfungsanmeldung: FlexNow

Ziele

Die Ver­an­stal­tung fin­det im Som­mer 2017 nur in der ers­ten Se­mest­er­hälf­te (18.4.-2.6.) statt, dann mit 4h VL/Woche und 4V UE/Woche. Dafür ist die zwei­te Se­mest­er­hälf­te frei.

Die Teilnehmer verstehen die theoretischen und praktischen Grundlagen automatischer Spracherkennungssysteme. Sie sind in der Lage, die Kernalgorithmen eines einfachen Spracherkenners selbstständig zu implementieren und verstehen die Prinzipien von aktuellen Erkennungssystemen für kleines und großes Vokabular. Dabei wird auch ein Verständnis für die Entwicklung von automatischen Mustererkennungsverfahren für ein breites Anwendungsfeld entwickelt.

Inhalt

Die Vorlesung vermittelt Grundlagen und Algorithmen der maschinellen Spracherkennung in der Form, in der sie in aktuellen Systemen zur Erkennung fließender Sprache eingesetzt werden. Die folgenden Themen werden behandelt:

  • Grundlagen: Phonetik, Sprachwahrnehmung
  • Statistische Methoden: Klassifikation, Schätztheorie
  • Klassifikation mittels Deep Neural Networks
  • Merkmalsextraktion: Merkmale im Zeit- und Frequenzbereich, Cepstralanalyse
  • Spracherkennung mit Hidden Markov Modellen: Algorithmen, Modellinitialisierung, Baum-Welch-Reestimation, Numerische Aspekte, Systeme zur Einzel- und Verbundworterkennung, HMM/DNN-Systeme

Gleichzeitig werden in einem Matlab-Programmierpraktikum die eingeführten Methoden angewandt. Die Übung ist projektorientiert; alle Übungsaufgaben zusammengenommen ergeben einen Verbundworterkenner für fließend gesprochene Ziffernketten. Dieser wird in Arbeitsgruppen von 2-3 Studenten erarbeitet.

Voraussetzungen

keine

Empfohlene Vorkenntnisse

  • Grundkenntnisse der digitalen Signalverarbeitung und der Wahrscheinlichkeitsrechnung
  • Grundlegende Programmierkenntnisse in Matlab

Materialien

Skript:

Übungen:

Sonstiges

Die Klausurergebnisse hängen im Schaukasten (gegenüber Raum ID 2/328) der Arbeitsgruppe KSV aus.


Die Klausureinsicht findet am Montag den 25.09.2017 von 14:00-15:00 Uhr in Raum ID 2/232 statt.


Die Veranstaltung findet im Sommer 2017 nur in der ersten Semesterhälfte (18.4.-2.6.) statt, dann mit 4h VL/Woche und 4V UE/Woche. Dafür ist die zweite Semesterhälfte frei.

Sprechzeiten im Semester (in den Semesterferien nach Vereinbarung):

Prof. Dr.-Ing. Do­ro­thea Ko­los­sa, Mitt­wochs 09:30 - 11:00 Uhr, ID2/325

Mahdie Karbasi, M.Sc., Freitags 14:00 - 15:00 Uhr, ID2/328

Dipl.-Ing. Christopher Schymura, Dienstags 10:00 - 11:00 Uhr, ID2/328