Cookie Consent by FreePrivacyPolicy.com
Zum Inhalt springen

Sprachsynthese für Corona-Hotline

    Das Vorlesen von Texten ist eine wichtige Funktion für moderne Computeranwendungen. Es erlaubt nicht nur sehbehinderten Menschen besseren Zugang zu Informationssystemen zu bekommen, sondern ist auch für nicht eingeschränkte Benutzer ein angenehmer Komfort und in manchen Situationen, wie beim Autofahren auch sicherheitsrelevant. Die Qualität der Sprachsynthese (TTS, Text to Speech) hat sich in den letzten Jahren durch den Einsatz tiefer neuronaler Netze erheblich verbessert. Der blecherne Klang früherer TTS Systeme ist einem recht natürlichen Klang gewichen, wie internationale Publikationen, insbesondere für die englische Sprache, zeigen. Im bereits abgeschlossenen DAMMIT-Vorhaben „Sprachsynthese“ wurde untersucht, wie gut die Akzeptanz von Benutzern für computergenerierte Stimmen ist, die Textinhalte mittlerer Länge vorlesen, also z.B. Nachrichten mit einer halben Bildschirm Seitenlänge. Dabei hat sich ergeben, dass die Verständlichkeit der Wörter im Allgemeinen schon akzeptabel ist, aber es eine große Streuung der Ergebnisqualität gibt, da bei Wörtern außerhalb des Trainingsvokabulars die gesamte Ausgabe zu einem unverständlichen Nuscheln wird.

    Deswegen soll im Vorhaben „Telefonansage“ untersucht werden, inwiefern sich die Aussprache unbekannter Wörter verbessern lassen kann, um eine gleichmäßig hohe Qualität der Ausgabe zu erreichen, ohne langwierige manuelle Qualitätssicherungsschritte nach der Generierung der Sprachausgabe zu benötigen. Weiterhin soll untersucht werden, inwiefern sich die Sprachsynthese in „Realtime“ erledigen lässt, sodass die Ansage kundenindividuell während des Telefonats generiert werden kann, statt vorgefertigt für bestimmte Themen vor-generiert und dann beim Telefonat ausgewählt zu werden.

     

    Die HFO Telekom Gruppe beschäftigt sich seit Jahren mit dem Betrieb von Telefonnetzen und diversen Zusatzdiensten wie Call Center und Sprachansagen. Sie kennt ihre Kunden gut und weiß welche Qualität dort akzeptiert wird und welche nicht. Diese Expertise bringt sie zusammen mit dem Anwendungsfall in das Projekt ein. Die Ergebnisse werden empirisch validiert und mit den Resultaten der Sprachsynthese ohne Verbesserungen verglichen.

    Partner

    Mitarbeiter

    i