Software Eve: Text an der Wand von Geisterhand

Published 11/05/2019 in Digital, Technik & Motor

Software Eve: Text an der Wand von Geisterhand
Lesen statt lauschen: Vorn steht der Sprecher, an der Seite läuft automatisch der gesprochene Text, dank der Software Eve.

Wer nicht hören kann, muss lesen. Deutsche Software erstellt automatisch Untertitel für Vorträge und Debatten. Wir haben das ausprobiert.

Wenn von Barrierefreiheit die Rede ist, stößt man in der digitalen Welt schnell auf zwei wichtige Themen: Die Audiotranskription für Blinde und die Untertitelung für Gehörlose und Schwerhörige. Konferenzen, Hauptversammlungen und politische Debatten müssten eigentlich durchgängig transkribiert werden. In vielen Ländern gibt es Richtlinien für barrierefreie Inhalte. Unternehmen und öffentliche Einrichtungen sind dann zur Transkription ihrer Veranstaltungen verpflichtet, und das bedeutet viel Personal.

Die Untertitelung für Gehörlose und Schwerhörige in Echtzeit soll nun einfacher werden. Ein deutsches Start-up mit dem Gründer Tom Papadhimas hat eine Lösung auf die Beine gestellt, die von Anfang an große Unternehmen wie Microsoft überzeugte und schon auf internationalen Veranstaltungen eingesetzt wird. Die Software „Eve“ von „Filmgsindl“ aus Berlin erkennt Sprache und generiert daraus automatische Live-Untertitel für Menschen, die schlecht hören. Das System auf www.starteve.ai hat das Rad nicht neu erfunden, denn Spracherkennung mitsamt der Überführung des gesprochenen Worts in Text gibt es schon lange, und damit sind nicht nur Helfer wie Siri oder die Google-Spracherkennung gemeint, sondern auch die Spezialisten für professionelles Arbeiten, namentlich der amerikanische Hersteller Nuance.

Eve verwendet neben einer Spracherkennung Microsoft Azure, die Cloud-Plattform des amerikanischen Unternehmens. Um den Kern der Spracherkennung wurde eine im Web laufende Anwendung gestrickt, die sowohl im Browser-Fenster wie auch auf dem Smartphone arbeitet. Untertitel werden auf großen Monitoren im Veranstaltungsraum ausgegeben oder auch zusätzlich im Netz, abermals wird das Smartphone unterstützt. Die Software verspricht, die komplette Verschriftlichung zu erledigen. Man benötigt nur einen halbwegs schnellen Internetzugang, gute Mikrofone für die Erfassung des gesprochenen Worts und natürlich die Monitore zur Anzeige der Untertitel.

Wer die Tücken der Spracherkennung kennt, weiß jedoch, dass die Ergebnisse nie perfekt sind. Die Idee von Eve besteht darin, dass Korrektoren manuell eingreifen können und jeden einzelnen übersetzten Satz vor der Anzeige prüfen und freigeben. Dann kommt also doch wieder der Mensch ins Spiel. Es gibt verschiedene Modi der Korrektur, sowohl für schnelle, professionelle Mitarbeiter wie auch für Anfänger, die mehr Zeit brauchen. Dann entsteht allerdings ein Zeitversatz zwischen dem gesprochenen Wort und der Anzeige. Im Wettstreit war Eve mitsamt Helfer einem professionellen Stenografen deutlich überlegen, sagt der Hersteller. Hier liegt der wichtigste Pluspunkt des Systems: Es ist viel günstiger als die üblicherweise sonst eingesetzte manuelle Transkription, für die mehrere Personen vor Ort gebraucht werden.

Für Eve reicht meist eine Korrekturperson aus, und die kann dank Internet irgendwo auf der Welt sitzen, muss also nicht eigens anreisen. Eve kostet 120 Euro pro Stunde, die Transkriptionszeit wird sekundengenau abgerechnet. Für eine fünfstündige Veranstaltung fallen also gerade mal 600 Euro an, verglichen mit den Reisekosten mehrerer Stenografen ist das nicht viel. Bis zu 1000 Zuschauer können sich live via Internet oder Smartphone in die Veranstaltung einwählen, dazu dient ein Link oder QR-Code, auf Wunsch auch mit Kennwort. Am Ende erstellt Eve automatisch ein PDF oder eine Word-Datei, damit auch der Dokumentationspflicht Genüge getan ist.

Nachbearbeitung ist notwendig

Wir haben Eve mit zwei Sprechern ausprobiert, vor uns stand ein Notebook, dessen Mikrofone die Unterhaltung aufzeichneten. Die Qualität der Transkription hängt davon ab, wie diszipliniert man spricht. Im besten Fall entspricht sie Siri oder dem Google-Erkenner auf dem Smartphone. Aber es gibt ein paar Pluspunkte: Absätze werden automatisch eingefügt, bisweilen auch Punkt und Komma. Als sich die beiden Sprecher ins Wort fielen, entstand schönstes Kauderwelsch, das intensiv nachbearbeitet werden musste. Mit ähnlichen Einschränkungen muss man auch die maschinelle Übersetzung der Transkription in verschiedene Sprachen sehen, auch hier bleibt der Mensch als Prüfinstanz unabdingbar. Eve versteht derzeit Deutsch, Englisch und Chinesisch, Übersetzungen ins Französische, Italienische und Spanische sind in Vorbereitung. Ist eine höhere Erkennungsrate gefragt, können die Kunden ihre eigenen Wörterbücher hochladen. Das System ist selbstlernend, einmal korrigierte Fehler sollten kein zweites Mal vorkommen.

Schließlich probierten wir Eve bei der Transkription eines Telefoninterviews aus. Auf dem iPad Pro mit seinen vier Lautsprechern wurde ein Radiointerview abgespielt, das eine sehr ordentliche Akustik hatte. Am Rechner waren wir in Eve eingeloggt, und die Aufnahme übernahm ein Philips-Diktiermikrofon, das zusammen mit der Nuance-Spracherkennung beste Ergebnisse liefert. Das Ergebnis: Es ist interessant, vielleicht eine Hilfe, aber stark bearbeitungsbedürftig.

Alternative Systeme

Jetzt waren wir auf den Geschmack gekommen und ließen noch einen weiteren Vergleich laufen: Die Dragon-Software auf dem Rechner setzte ein Diktat im MP3-Format um, und dieselbe MP3-Datei musste Eve transkribieren. Hier legte Eve durchaus einen Achtungserfolg hin, lieferte aber deutlich mehr Fehler.

Wer als privater Nutzer etwas Ähnliches ausprobieren möchte, mag in der Android-Welt einen Blick auf die App „Automatische Transkription“ von Google werfen. Ist sie gestartet, wird der verstandene Text auf dem Bildschirm angezeigt. Die Software erkennt unterschiedliche Sprachen und erlaubt eine Reihe von Feineinstellungen. Was jedoch fehlt, ist die Option, die Transkription für die eigene Bearbeitung zu speichern.

Print article

Leave a Reply

Please complete required fields