Mensch gegen Maschine: Radioleute, das kommt auf euch zu

Alles wird besser. Das gilt auch für Sprachautomaten, wie der direkte Mensch-Maschine-Vergleich beweist. Nachdem Sie sich die folgende Audiodatei angehört haben, sollte klar sein: Die Tage generischer Nachrichtensprecher sind gezählt.

Hören Sie selbst (3 Minuten):

Musikvideo: Adobe Flash Player (Version 9 oder höher) wird benötigt um dieses Musikvideo abzuspielen. Die aktuellste Version steht hier zum herunterladen bereit. Außerdem muss JavaScript in Ihrem Browser aktiviert sein.

Leichte Schwierigkeiten hat die Software noch mit englischen Wörtern, die in deutsche Sprache eingebettet sind. Aber ansonsten: Nicht schlecht!

Die Abschnitte des Textes habe ich mit Hilfe eines leicht für internationale Zeichensätze und deutsche Sprache angepassten Server-Skripts von Petter Kjelkenes generiert; zum Einsatz kam hier Google TTS. Zudem hört man zum Vergleich das iSpeech-Browserplugin für Chrome. Die menschlichen Teile der Gegenüberstellung stammen schließlich aus den 11-Uhr-Nachrichten des Deutschlandfunks vom 15. Mai. Das Manuskript findet sich auch noch einmal unten.

Hörbeispiele von Nachrichtenportalen, die ähnliche Software bereits einsetzen:

Weil automatisch vorgelesene Texte immer besser zu verstehen sind, stellt sich allmählich die
Frage: Wozu brauchen wir noch Nachrichtensprecher?
Sollten Sie solch eine Tätigkeit ausüben, lassen Sie sich eines gesagt sein: Ich verlange keinen
Stundenlohn.
Meine Tätigkeit ist immer und immer wieder reproduzierbar.
Ich werde nicht älter.
Ich mache nie schlapp.
Und ich werde garantiert besser.
Ich bin die Stimme von Google Text-to-Speech.
Sie können mich ja mal mit einer echten Nachricht aus dem Deutschlandfunk vergleichen.

“Im Tarifkonflikt in der Metall- und Elektroindustrie gibt es eine Einigung. Arbeitgeber und die IG Metall verständigten sich in München auf einen Abschluss für die Branche in Bayern. Wie beide Seiten in der Nacht mitteilten, sollen die Löhne und Gehälter in zwei Schritten steigen.”

Wie Sie hören, gibt es noch Optimierungspotenzial.
Das Wesentliche, nämlich die Informationen, kommen aber ganz ordentlich rüber.
Streng genommen habe ich den Nachteil, dass meine Sprachmelodie unterbrochen wird, weil ich immer
nur 100 Zeichen vorlesen darf und man diese Fragmente schlicht zusammenkleben muss.
Doch wie gesagt, der menschliche Vorsprung wird ohnehin bald aufgebraucht sein.
Als Maschine bin ich aus Prinzip optimistisch.
Und damit jetzt auch mal die Roboter-Konkurrenz zu Wort kommt, hören Sie den Abschnitt nun von der
Stimme des Unternehmens iSpeech.

[...]

Das war doch ebenfalls ziemlich genießbar, oder? Wenn Print-Verlage clever wären, würden sie mit
den Entwicklerfirmen von Sprachsoftware längst kooperieren, damit ihre Digital-Leser nicht mehr
lesen müssen.
Die Abonnenten bekämen die Texte einfach vorgelesen.
Es ist schon bezeichnend, dass ausgerechnet der Heise-Technikverlag aus Hannover eines der wenigen
Portale betreibt, die diesen Service standardmäßig anbieten.
Da gibt es eindeutig Nachholbedarf.
Und nicht vergessen: Während ich hier vorlese, machen mich die Google-Programmierer gerade
garantiert ein kleines bisschen besser.

Kommentare

  1. Das stimmt schon: ist gut zu verstehen und gar nicht soooo maschinell. Aber ergibt für Webseiten trotzdem keinen richtigen Sinn: wenn ich selbst im Stillen lese, bin ich viel schneller als wenn ich mir vorlesen lasse.

  2. Markus Hoffmann sagt:

    “Aber ansonsten: Nicht schlecht!” Lol! Oder soll das eventuell ein Witz sein? Das Beispielfile kligt wie aus einer 30 Jahre alten Eisenbandkassette mit Schere und Tesa zusammengeklebt. Von Tonhöhenschwankungen mal abgesehen: man merkt, dass die Sprecherin keinen blassen Schimmer hat, was sie da redet. Als würde ich einen chinesischen Text vorlesen. Liebe Nachrichtensprecher: Ihr braucht euch vorerst keien Sorgen zu machen. Besser: weniger Nerdbegeisterung, mehr realistische Menschlichkeit.
    .
    .
    .
    “Wyhl auhtooomaaah-Tisch vorhgeleisenne Täxteh…” Lol.
    “Aber ansonsten: Nicht schlecht!” PRUST!

  3. Man beachte die erste Demo (Indian-Englisch) von hier: http://www.loquendo.com/de/demo-center/tts-demo/englisch/

    Wenn das echt ist, dann Hut ab. Das erste Beispiel für Italienisch klingt auch ziemlich echt. Allerdings darf man sich auch fragen, ob das Aufbereiten für die TTS-Software (Pausen, Betonungen ect.) nicht am Ende genauso aufwendig/teuer ist, wie das normale Sprechen. Und irgendwer muss ja sowieso die Sendung fahren. Insofern würde ich noch keine Hartz-IV-Anträge an die Sprecher verteilen.

  4. Guter Artikel, an’sprechendes’ Thema!
    Eigentlich wollte ich einen Kommentar schreiben, warum ich den Sinn im Vorlesen ganzer Artikel nicht wirklich sehe (außer für Blinde), der wurde aber immer länger und driftete dann auch etwas ab, also hab ich einen kleinen Blogartikel draus gemacht http://is.gd/ETgdkP

  5. Mison sagt:

    Na ja, das mag ja sehr beeindruckend sein, wenn die letzten Jahre hauptsächlich damit verbracht hat, die Entwicklung von TTS zu verfolgen. Natürlich klingt das besser als die Sprachausgabe vor fünf oder zehn Jahren, aaber: Wenn man gewohnt ist, die Deutschlandfunk-Nachrichtensprecher zu hören, fällt das Fehlen der (subtilen) Betonung genauso störend auf wie die gelegentlich falsch ausklingenden r- und k-Laute, die klingen, als hätte man das ganze mit 64kbit MP3-kodiert.
    Und hin und wieder ist die eher kindliche Betonung, etwa Aaarbeitgeber (bei 0:59) doch eher erheiternd.

    Ich bezweifle kaum, dass TTS-Systeme irgendwann in der Lage sind, seriöse Nachrichten vorzulesen, aber an diesem Beispiel einen Quantensprung zu erkennen, fällt mir schwer.

    Ich bin mir auch bezüglich die Vorteile nicht ganz sicher.
    - Reproduzierbarkeit: Es passieren nicht so viele relevante Dinge auf der Welt, als dass man die Nachrichtenfrequenz von 30 Minuten erhöhen müsste. Eventuell könnte man Nachrichten individualisieren lassen. Könnte man. Aber ein Nachrichtensender lebt ja gerade davon, einen sinnvollen gemeinsamen Nenner für alle Hörer zu finden.
    - Billiger: Jou, meinetwegen, aber dass Nachrichtensprecher der große Kostentreiber im ÖR sind, wäre mir neu.
    - Abseits des DLF, also im Formatradio, hat man den Inhalt in den Moderationen ja bereits abgeschafft und durch generische Witzeleien über das Wetter, den Feierabend und das Wochenende ersetzt. Während man diese Witzchen hervorragend durch einen Computer auswählen und produzieren lassen könnte, wird der letzte Anschein an Individualität und Spontaneität, den die Moderatorenstimme erzeugt, auf absehbare Zeit nicht durch ein TTS-System nachzubilden sein.

  6. Mison sagt:

    Zur unterschiedlichen Wahrnehmung:
    http://abstrusegoose.com/496

  7. “Die Tage generischer Nachrichtensprecher sind gezählt.”
    Das sehe ich anders, wenn ich mir diesen Text anhöre.
    Dieser ist ja noch Welten entfernt von einer flüssigen gut intonierten Stimme.
    Wenn ich so etwas im Radio (oder anders wo) hören sollte schalte ich direkt ab.

    Grüße
    Jens

  8. Nicolas sagt:

    Entschuldigung, aber das ist nicht anhörbar. Wer es da schafft, länger als 10 Sekunden konzentriert zuzuhören, ist ein Ausnahmetalent.

  9. Benne sagt:

    Ich fahre häufiger mit dem ÖPNV und ein Unternehmen hat Text-to-Speech Haltestellenansagen (da viel billiger, zB bei Änderungen).

    Obwohl das nur statische Texte sind, hört man sofort einen unangenehmen Unterschied

  10. Die weibliche Stimme hat eine verblüffende Ähnlichkeit mit der von Monica Lierhaus. Im Fall der vom Schicksal zweifellos hart getroffenen Päsentatorin der ARD-Fernsehlotterie »Ein Platz an der Sonne«,könnte man wirklich ein ungewöhnlich hohes Honorar einsparen, denn, nie dementiert, verdient Lierhaus p.a. 450.000 €.

  11. Peter Schmidt sagt:

    “Es ist schon bezeichnend, dass ausgerechnet der Heise-Technikverlag … Portale betreibt, die diesen Service standardmäßig anbieten.”

    Ein Lob dem Heise-Verlag. Für was genau? Man höre selbst:

    http://www.heise.de/newsticker/meldung/Franzoesische-Verwertungsgesellschaft-klagt-gegen-AllofMP3-com-159320.html?view=audio

    Da bleibt kein Auge trocken…

  12. Martin sagt:

    Ich dachte immer, dass Beatrice Uerlings, die bis vor kurzem im DLF morgens von der Wall Street berichtet hat eine sehr gute Computerstimme ist:

    http://ondemand-mp3.dradio.de/file/dradio/2013/04/27/dlf_20130427_0735_fe00d5d7.mp3

    Aber die Frau gibt es wirklich.

  13. Es mag zwar verglichen mit früheren Versuchen besser geworden sein (ich denke da zum Beispiel an ‘Das Boot’ von U96, aber nichtsdestotrotz fehlt einfach die Natürlichkeit. Man muss sich dabei viel mehr konzentrieren, da bin ich mit selber lesen allemal schneller und effizienter. Wenn es mal auf Star-Trek-Computerstimmenniveau ist, würde ich es mir anhören ;)

  14. Kurt Mueller sagt:

    Nicht schlecht? Muhahaha! Ich hab’s nach ein paar Sekunden abgeschaltet – das kann man nicht anhören. Ist OK, um Blinden den Inhalt einer Webseite oder eines Texts zu vermitteln – mehr aber nicht.

  15. Was für ein bescheuertes Hörbeispiel.
    Die Apple OS X Systemstimme ‘Anna’ macht das schon eine ganze Zeit lang wesentlicher flüssiger und verständlicher, und ich zweifle nicht daran, dass die entsprechende Software von MicroSoft das auch kann.

Hinterlasse einen Kommentar

*