Forschungsbericht 2005



Lippenerkennung zur Verbesserung der Sprachverarbeitung

Institut: Bildverarbeitungssysteme
Projektleitung: Prof. Dr.-Ing. Rolf-Rainer Grigat
Stellvertretende Projektleitung: Prof. Dr.-Ing. Rolf-Rainer Grigat
Mitarbeiter/innen: Dipl.-Ing. Ralph Kricke
Projektnummer: E.4-08/1.010
Laufzeit: 01.07.2003 - 30.06.2007
Finanzierung: Industrie


 

Spracherkennungssysteme reagieren sehr empfindlich auf Hintergrundgeräusche, besonders wenn mehrere Personen gleichzeitig sprechen, der sogenannte Cocktail Party Effekt. Darum ist wünschenswert die Spracherkennung mittels Lippenlesen zu verbessern.Im Rahmen der psycho-physikalischen Experimente ist das Potential der audio-visuellen Spracherkennung bereits beschrieben worden. Dieses Projekt beschäftigt sich mit der Extraktion von visuell-relevanten Merkmalen der Sprache, die aus dem Lippen- und Mundbereich gewonnen werden, sowie der Anwendung der gewonnenen Merkmale zur Verbesserung der Spracherkennung.

Weitere Informationen zu diesem Forschungsprojekt können Sie hier bekommen

 

Publikationen
  • 4-08/1.005D
    Shdaifat, Islam: Design of a visual front end for audio-visual speech recognition,TUHH, Dezember 2004
  • 4-08/1.012V
    I. Shdaifat R-R. Grigat and Stefan Lütgert. Recognition of the german visemes using multiple feature matching. In 23rd DAGM Symposium, Munich, Germany, September 2001, Lecture Notes in Computer Science 2191, Springer Verlag, ISBN 3-540-42596-9, pp. 437-442
  • 4-08/1.013V
    I. Shdaifat, R-R. Grigat and Stefan Lütgert. Viseme recognition using multiple feature matching. In Proceedings of the 7th European Conference on Speech Communication and Technology, EUROSPEECH 2001 Scandinavia, Aalborg Denmark, September 3-7, 2001, ISBN 87-90834-09-7, pp.. 2431-2434
  • 4-08/1.023V
    I. Shdaifat, R. Grigat, and D. LangmannActive Shape Lip Modeling2003 International Conference on Image Processing September 14th to 17th 2003 Barcelona, Spain
  • 4-08/1.024V
    I. Shdaifat and R. GrigatRobust lip modelling and extraction using active shapesAISB 2003 Convention: Biologically-Inspired Machine Vision, Theory and Application University of Wales, Aberystwyth April 7th to 11th 2003
  • 4-08/1.026V
    I. Shdaifat, R. Grigat, and D. Langmann,A System for Automatic Lip Reading,AVSP 2003, EUROSPEECH 2003, St. Jorioz France, September 2003
  • 4-08/1.027V
    I. Shdaifat, R. Grigat, and D. Langmann,An Experimental Framework for Lip Reading,ESSV 2003, Karlsruhe Germany, September 2003
  • 4-08/1.028V
    I. Shdaifat, R. Grigat, and D. Langmann,Lip Modelling Using Bezier Curves,IEEE International Conference on Multimedia and Expo ICME 2003, Baltimore Maryland, USA, July 2003. Talk could not be presented due to visa restrictions in USA
  • 4-08/1.029V
    I. Shdaifat, R. Grigat, and D. Langmann,A System for Automatic Lip Reading,Accepted in Speech Communication Journal

Stichwörter

  • Automatische Spracherkennung
  • Lippen- und Gesichtserkennung