Spracherkennung ist durch den Einsatz tiefer neuronaler Netze in den letzten 3 Jahren signifikant verbessert worden. Es gibt mittlerweile eine Reihe frei verfügbarer Modelle, die Englisch mit guter Genauigkeit erkennen, wenn ausreichend viele Trainingsdaten verwendet werden. Die Erkennung läuft dabei zweistufig ab. Zunächst erzeugt das neuronale Netz aus dem Audiosignal Buchstaben, welche anschließend von einem Sprachmodell weiterverarbeitet werden, um die wahrscheinlichsten Wörter daraus zu bilden. Dieser zweite Teil wird bislang oftmals mittels n-Grammen gelöst. Das bedeutet, dass für jeden Buchstaben die 2-3 unmittelbaren Vorgänger und Nachfolger betrachtet werden. Anschließend erfolgt eventuell noch eine Zuordnung zu Wörtern aus einem Wörterbuch, so dass nur Wörter erkannt werden, die im Wörterbuch stehen. Dieser Prozess eignet sich gut für einen begrenzten Wortschatz, führt aber teilweise zu sinnentstellenden Änderungen für unbekannte Wörter oder auch Namen.
Im Vorhaben „Spracherkennung mit Transformern“ soll daher ein weiterer aktueller Trend im Bereich deep learning aufgegriffen werden: Ein verbessertes Verständnis von Texten und Satzzusammenhängen mittels sogenannter Transformer-Modelle mit Attention-Mechanismus im Allgemeinen und object (bidirectional encoder representations for transformers) bzw. davon abgeleitete Modelle im Speziellen.
Im Anwendungsfall des Unternehmenspartners Grundig Business Systems (Grundig BS) steht das Ziel im Vordergrund, die Spracherkennung speziell für Nicht-Muttersprachler (sog. L2 Sprecher) zu verbessern. Da zunehmend mehr Menschen mit Migrationshintergrund in Deutschland leben und auch im Gesundheitswesen, das für Grundig BS von besonderer Bedeutung ist, immer mehr Nicht-Muttersprachler vertreten sind, wäre eine Verbesserung der Spracherkennung von großem Nutzen. Zudem haben die bisherigen ASR-Systeme (Automatic Speech Recognition) große Schwierigkeiten bei der Bewältigung dieser Herausforderung, sodass eine bessere Lösung bei Grundig BS willkommen ist. Zudem scheint es bisher wenig erforscht, im Gegensatz zu z.B. Dialekten.
Grundig BS stellt für das Vorhaben Daten und Zugriff auf die von ihnen eingesetzten TTS-Engines zur Verfügung. Grundig BS evaluiert die Ergebnisse.
Die Ergebnisse werden als Open Source Software unter permissiver Lizenz veröffentlicht. Die Daten des Projektpartners werden nicht veröffentlicht und nur im Rahmen des Projekts vom iisys genutzt.
Bilduelle: Katerina Limpitsouni, unDraw