Das Vorlesen von Texten ist eine wichtige Funktion für moderne Computeranwendungen. Es erleichtert nicht nur sehbehinderten Menschen den Zugang zu Informationen, sondern ist auch für nicht eingeschränkte Benutzer ein angenehmer Komfort. In manchen Situationen, wie beispielsweise beim Autofahren, erfüllt eine solche Funktion auch sicherheitsrelevante Anforderungen.
Die Qualität der Sprachsynthese (TTS, Text to Speech) hat sich in den letzten Jahren durch den Einsatz tiefer neuronaler Netze erheblich verbessert. Der blecherne Klang früherer TTS-Systeme ist einem recht natürlichen Klang gewichen, wie internationale Publikationen insbesondere für die englische Sprache zeigen. Im DAMMIT Vorhaben „Sprachsynthese“ soll daher untersucht werden, wie hoch die Akzeptanz von Benutzern für computer-generierte Stimmen ist, die Textinhalte mittlerer Länge vorlesen, also z.B. Nachrichten mit einer halben Bildschirmseite Länge.
Die Firma ahearo bietet einen Dienst an, bei dem sich Benutzer Inhalte, die sonst nur als Text verfügbar sind, auch als Audio-Podcast anhören können. Diese werden bisher von menschlichen Sprechern vorgelesen. Ein solche Produktion ist jedoch teuer. Außerdem diese Art der Produktion aufgrund der eingeschränkten Verfügbarkeit von professionellen Sprecher:innen Grenzen.
Für ahearo und andere Unternehmen, die eine kostengünstige Möglichkeit suchen, qualitativ ansprechende Sprachsynthese in ihre Produkte zu integrieren, entwickelte das iisys basierend auf frei verfügbaren TTS-Modellen eine Lösung für die Generierung deutscher Sprache aus Text und evaluiert diese. Dabei kamen frei verfügbare, selbst generierte und von ahearo bereitgestellte Audiodaten zum Einsatz, um die TTS-Modelle zu trainieren. Die Evaluation erfolgte sowohl über objektive Werte, die physikalisch gemessen werden können, als auch über subjektive Einschätzungen.
Die Ergebnisse der Studie, sowie die entstehende Software werden frei veröffentlicht und unter eine permissive Open Source bzw. Creative Commons Lizenz gestellt. Die Daten des Projektpartners werden nicht veröffentlicht und nur im Rahmen des Projekts vom iisys genutzt.
Die Ergebnisse in Form von Audio-Beispielen der synthetischen Stimmen, sowie ein Online-Umwandlungstool für eigene Texte sind hier zu finden:
Ergebnisse des Forschungsprojektes:
- Audio-Beispiele der synthetischen Stimmen: http://narvi.sysint.iisys.de/projects/tts/results
- Eigene Texte vorlesen lassen: http://narvi.sysint.iisys.de/projects/tts