Direkt zum Inhalt
Vergangenheit
Vor der digitalen Ära waren flinke Finger für die Schreibmaschine gefragt. Heute braucht es smarte Software, um Gesprochenes zu Papier zu bringen.
Vor der digitalen Ära waren flinke Finger für die Schreibmaschine gefragt. Heute braucht es smarte Software, um Gesprochenes zu Papier zu bringen.
CYANO66 / ISTOCK / GETTY IMAGES PLUS

Work smart, not hard

18.12.2023 um 09:25, Klaus Schobesberger
min read
Speech-to-Text-Lösungen haben in den letzten Monaten einen deutlichen Qualitätssprung verzeichnet. CHEFINFO sah sich das Programm des Startups AudioIndex an.

Lore Alt galt als schnellste Sekretärin der Welt. Die Deutsche schaffte mehr als 16.000 Anschläge in 30 Minuten und gewann damit 1955 den ersten Weltmeistertitel im Schnellschreiben auf einer mechanischen Schreibmaschine. Gut 70 Jahre später sind Schreibmaschinen gefragte Objekte für Sammler und wir werden von digitalen Audio- und Videomitschnitten erschlagen. Teilnehmer von Videokonferenzen, Kongressen oder Besprechungen wollen die Aufzeichnungen schriftlich haben. Statt Schnellschreibern sind Softwaredesigner gefragt, die mit Speech-to-Text-KI automatisierte Transkriptionen anbieten. Motto: Work smart, not hard.

Hohe Trefferquote
Anwender können inzwischen staunend miterleben, welche Fortschritte Machine Learning, Audioanalyse & Natural Language Processing im Alltag gemacht haben. CHEFINFO hat das AI-Transkriptions-Tool des österreichischen Anbieters AudioIndex getestet, das für sich in Anspruch nimmt, auch in Dialekt Gesprochenes gut zu verschriftlichen. Die angegebene Trefferquote von bis zu 95 Prozent erwies sich in der Praxis als nicht übertrieben. Eine 30-minütige Aufzeichnung einer Datei in WAV-, MP3-, MP4- oder M4a-Format war in drei Minuten analysiert und als Text downloadbar oder kopierbar. Das Handling ist denkbar einfach und funktioniert über die Homepage, wo die Audio- oder Videodateien hochgeladen werden. Abgerechnet wird pro Minute des hochgeladenen Audiomaterials.

Johannes Busching

Das nächste größere Feature, das wir integrieren möchten, ist die Sprecherwechsel- oder die Sprechererkennung.

Johannes Busching, Gründer AudioIndex, Wien

Auf Medien fokussiert
Die meist korrekte Interpunktion ist eine der großen Überraschungen beim Test. „Gerade letztes Jahr war ein Riesensprung in der Technologie feststellbar, was die Optimierungen betrifft. Sie sind der eigentliche Knackpunkt. Die ersten 80 Prozent sind einfach zu bekommen. Aber dann geht es wirklich um jedes weitere Prozent, an dem man schrauben muss“, sagt Johannes Busching. Der Wiener hat das Startup im Frühjahr 2020 gegründet und hat sich im Bereich Medien und Marktforschung positioniert.

Automatisiertes Resümee
Busching will für seine Zielgruppe den Mehrwert mit weiteren Funktionen ausbauen. „Es geht dabei in Richtung automatisierter Zusammenfassungen. Das nächste größere Feature, das wir integrieren möchten, ist die Sprechererkennung.“ Dass diese Entwicklung parallel mit den Umwälzungen in den Redaktionen einhergeht, ist keine Überraschung. Medienhäuser suchen Tools, mit denen Content automatisch geschaffen werden kann oder Stimmen fürs Radio künstlich generiert werden können. Insgesamt setzt Busching auf Unabhängigkeit – auch beim Datenhosting. Die Server stehen in Österreich und Deutschland. Nicht unbedeutend, die Performance und Datensicherheit betreffend.