Work smart, not hard
Lore Alt galt als schnellste Sekretärin der Welt. Die Deutsche schaffte mehr als 16.000 Anschläge in 30 Minuten und gewann damit 1955 den ersten Weltmeistertitel im Schnellschreiben auf einer mechanischen Schreibmaschine. Gut 70 Jahre später sind Schreibmaschinen gefragte Objekte für Sammler und wir werden von digitalen Audio- und Videomitschnitten erschlagen. Teilnehmer von Videokonferenzen, Kongressen oder Besprechungen wollen die Aufzeichnungen schriftlich haben. Statt Schnellschreibern sind Softwaredesigner gefragt, die mit Speech-to-Text-KI automatisierte Transkriptionen anbieten. Motto: Work smart, not hard.
Hohe Trefferquote
Anwender können inzwischen staunend miterleben, welche Fortschritte Machine Learning, Audioanalyse & Natural Language Processing im Alltag gemacht haben. CHEFINFO hat das AI-Transkriptions-Tool des österreichischen Anbieters AudioIndex getestet, das für sich in Anspruch nimmt, auch in Dialekt Gesprochenes gut zu verschriftlichen. Die angegebene Trefferquote von bis zu 95 Prozent erwies sich in der Praxis als nicht übertrieben. Eine 30-minütige Aufzeichnung einer Datei in WAV-, MP3-, MP4- oder M4a-Format war in drei Minuten analysiert und als Text downloadbar oder kopierbar. Das Handling ist denkbar einfach und funktioniert über die Homepage, wo die Audio- oder Videodateien hochgeladen werden. Abgerechnet wird pro Minute des hochgeladenen Audiomaterials.
Auf Medien fokussiert
Die meist korrekte Interpunktion ist eine der großen Überraschungen beim Test. „Gerade letztes Jahr war ein Riesensprung in der Technologie feststellbar, was die Optimierungen betrifft. Sie sind der eigentliche Knackpunkt. Die ersten 80 Prozent sind einfach zu bekommen. Aber dann geht es wirklich um jedes weitere Prozent, an dem man schrauben muss“, sagt Johannes Busching. Der Wiener hat das Startup im Frühjahr 2020 gegründet und hat sich im Bereich Medien und Marktforschung positioniert.
Automatisiertes Resümee
Busching will für seine Zielgruppe den Mehrwert mit weiteren Funktionen ausbauen. „Es geht dabei in Richtung automatisierter Zusammenfassungen. Das nächste größere Feature, das wir integrieren möchten, ist die Sprechererkennung.“ Dass diese Entwicklung parallel mit den Umwälzungen in den Redaktionen einhergeht, ist keine Überraschung. Medienhäuser suchen Tools, mit denen Content automatisch geschaffen werden kann oder Stimmen fürs Radio künstlich generiert werden können. Insgesamt setzt Busching auf Unabhängigkeit – auch beim Datenhosting. Die Server stehen in Österreich und Deutschland. Nicht unbedeutend, die Performance und Datensicherheit betreffend.