Page Index Toggle Pages: [1] 2  Send TopicPrint
Hot Topic (More than 10 Replies) Interessantes zum Thema TTS (Read 38398 times)
Suppenkasper
God Member
*****
Offline


Phoner-Support

Posts: 1536
Location: Aachen
Joined: 29. Mar 2005
Gender: Male
Interessantes zum Thema TTS
04. Apr 2005 at 14:21
Print Post  
Hi @ all,

wer Windows XP oder ein 2003'er System installiert hat, musste bisher mit dem dort implementierten SAPI 5.0-TTS und der anglo-amerikanischen Computerstimme "SAM" vorlieb nehmen - oder aber es musste das SAPI 4.0 TTS-System installiert werden, zu dem man zwei deutsche Stimmen kostenlos nachladen konnte (siehe auch Link in den Phoner-TTS-Einstellungen). In Sachen 'deutsch' war es das schon im Internet; zwar existiert auf Microsoft's Seiten noch ein Link für ein "Additional-Voice-Pack" für "Cool Speech Additional Voices" ("msttsl" für SAPI 4.0 und "SpeechSDK51" für SAPI 5.0), jedoch sind diese Stimmen auch anglo-amerikanisch ausgelegt, und sind sowohl für die SAPI 4.0 als auch die SAPI 5.0 verfügbar.

Übersicht: http://www.bytecool.com/voices.htm

Wer jedoch die vorhandene SAPI 5.0-TTS-Engine in deutsch nutzen möchte, der kann als zusätzliches Programm den Microsoft-Reader downloaden (http://www.microsoft.com/reader/de/downloads/pc.asp, und nach der Installation dieses eBook-Readers die TTS-Unterstüzung hierzu nachladen und installieren (http://www.microsoft.com/reader/de/downloads/tts.asp).

Et voila, es stehen unter den Systemeinstellungen plötzlich zwei weitere Stimmen zur Verfügung, und zwar ausser dem englischen "SAM" jetzt noch die deutschsprachigen "LH Stefan" und "LH Anna", die auch Phoner in den TTS-Einstellungen nutzen kann.

Hinsichtlich der Unterschiede zwischen den beiden SAPI's habe ich folgende Feststellungen gemacht:

Die Stimmen der SAPI 4.0 klingen besser und deutlicher, jedoch dauert es wesentlich länger, einen zu sprechenden Text in SAPI 4.0 "synthetisieren" zu lassen, als in SAPI 5.0. In Bezug auf den Phoner bedeutet das, dass die deutsche SAPI 4.0 noch "am genererieren und speichern ist", während die deutsche SAPI 5.0 Engine den Telefonbucheintrag des Anrufers bereits zweimal vorgelesen hat.

SAPI 5.0 Speech-Engines "nuscheln" zudem, und man hat keine Einflussnahmemöglichkeit auf Stimmhöhe, eigene Aussprache-Wörterbücher etc. Lediglich die Schnelligkeit, in der gesprochen wird, läßt sich in den Systemeinstellungen für SAPI 5.0 einstellen. 

Mit einer Vielzahl von Einstellungsmöglichkeiten wartet lediglich die wesentlich langsamere SAPI 4.0 auf, die jedoch aufgrund der einschränkenden Langsamkeit für Phoner nur bedingt geeignet ist. 

Hierzu hatte jedoch unser aller Lieblings-Phoner-Admin die Idee, die optische Anrufsignalisierung von der akkustischen durch TTS "rechnerisch" zu trennen, so dass man bei Verwendung der SAPI 4.0 doch noch im Laufe des "Angerufen werdens" eine relativ zügige Sprachausgabe erwarten kann, auch wenn man dann meistens schon realisiert hat, wer anruft...  Wink 

Was mir zudem noch aufgefallen ist: Wer in Phoner Wert auf eine korrekte TTS-Aussprache des Namens legt, und den Telefonbuch-Eintrag in phonetisch-orthografischer Weise hinterlegt (Beispiel: "Mars'sel" klingt "in TTS" wesentlich mehr nach "Marcel", "Die Tschäj"-DJ wird ausgesprochen als "Dee Jay" und nicht als "Dejot"), der ist auch mit SAPI 4.0 besser bedient: Akzente, Leerstellen und Aussprachen haben dort einen wesentlich hörbareren Effekt als in der SAPI 5.0.

Grüße vom Kai
« Last Edit: 15. Apr 2005 at 20:04 by Suppenkasper »  
Back to top
IP Logged
 
Phoner Admin
YaBB Administrator
*****
Offline



Posts: 11412
Location: Germany
Joined: 12. Oct 2003
Gender: Male
Re: Interessantes zum Thema TTS
Reply #1 - 04. Apr 2005 at 16:36
Print Post  
Wow! Super recherchiert!
Ich werde das gleich mal installieren und ausprobieren. Wenn das dann doch schnell genug geht, brauche ich ja nichts umbauen  Wink
  
Back to top
WWW  
IP Logged
 
Suppenkasper
God Member
*****
Offline


Phoner-Support

Posts: 1536
Location: Aachen
Joined: 29. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS
Reply #2 - 15. Apr 2005 at 20:18
Print Post  
Hi@all,

wen das Thema TTS und Computer-Stimmen-Synthetisierung interessiert (völlig beiläufig erwähnt: @Heiko - Danke für die Umsetzung der TTS-Notifikation im Telefonbuch der aktuellen 1.71 BETA) der kann sich ja mal auf dieser Sammelseite ausreichend informieren:



Abgesehen vom völlig puristischen Design sind so ziemlich alle Anbieter verlinkt, bei denen TTS auch so richtig teuer erworben werden kann - jedoch bieten viele der Seiten eine interaktive Demo, in der man die Sprachausgabe ausgiebig testen kann.

Bemerkenswert ist auch die Online-Demovon Loquendo: Diese Stimmen klingen so lebensecht, dass man sie sogar "Atmen", "Husten" und "Seufzen" lassen kann... Ein Beispiel für eine vom Computer generierte Stimme kann man sich hier anhören.

Grüße vom Kai
« Last Edit: 18. Apr 2005 at 15:53 by Suppenkasper »  
Back to top
IP Logged
 
Phoner Admin
YaBB Administrator
*****
Offline



Posts: 11412
Location: Germany
Joined: 12. Oct 2003
Gender: Male
Re: Interessantes zum Thema TTS
Reply #3 - 15. Apr 2005 at 22:02
Print Post  
Die TTS-Notification im Telefonbuch ist noch nicht fertig implementiert. Zur Zeit ist das lediglich ein grafischer Platzhalter.

Ansonsten hast du mal wieder absolut genial recherchiert. Diese Loquendo-Stimme ist wirklich super! Sowas müsste es bezahlbar geben...
  
Back to top
WWW  
IP Logged
 
Suppenkasper
God Member
*****
Offline


Phoner-Support

Posts: 1536
Location: Aachen
Joined: 29. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS - Part. III
Reply #4 - 16. Apr 2005 at 12:50
Print Post  
Hi@all,

auch wenn ich das Gefühl habe, dass dieser Beitrag jetzt völlig OT ist, möchte ich das Thema "TTS" mit einem besonderen Projekt abschliessen, dass  nicht nur für Anwender interessant ist (die können damit sogar am wenigsten anfangen), sondern wegen der Vielzahl an Möglichkeiten und der umfangreichen Dokumentation besonders für (Delphi -  Wink -) Programmierer:



Die MBROLA-Sprachsynthese besteht aus drei Komponenten: Einem Programm (unter Windows eine DLL mit vielen Ansprechmöglichkeiten, bequem mit einigen Tools über ein Setup zu installieren),  "Databases" mit den eigentlichen "Stimmen" und den - selbst erstellbaren - Sprach-Dateien. Die Sprachausgabe erfolgt über das Standard-Device (Wave-Mapper), oder kann im WAV- oder AU-Format gespeichert werden.

Die Besonderheiten:

a) MBROLA ist kostenlos,
b) MBROLA kann z. Zt. mit über 50 Stimmen betrieben werden, davon alleine 8 "deutsche",
c) MBROLA ist für z. Zt. 33 Sprachen verfügbar,
d) MBROLA ist unabhängig von den Microsoft SAPI's,
e) Die Sprachsynthese kann für eigene Zwecke angepasst werden,
f) Die Erstellung eigener "Stimm-Databases" ist recht einfach,
g) MBROLA unterstützt in gewissem Maße auch "emotionale" Laut-Synthestisierung durch besondere Aussprache-Regelungen (also Betonungen beim Vorlesen, z. B. in Abhängigkeit von Satzzeichen), und
h) MBROLA unterstützt eine Vielzahl von Betriebssystemen.

Der Nachteil, der das ganze System für den Standard-Anwender uninteressant machen dürfte: Es ist ohne zusätzliche Installationen von "Fremdherstellern" nicht möglich, einen Text zu tippen, und diesen MBROLA einfach vorlesen zu lassen; bei MBROLA  handelt sich in der Grundkonfiguration also nicht im eigentlichen Sinne um ein "Text-to-Speech"-System. Vielmehr arbeitet MBROLA mit "Diphonen", denen "prosodische Informationen" beigefügt werden.

Absolut grob erklärt bedeutet dieses:

Ein Diphon ist ein Laut, der aus mehreren Lautkombinationen bestehen kann. Beispiel: Das Wort "Stadt" hat - je nach Aussprache (Dialekt) - folgende Laute: sh-t-(kurzes a)-tt. Diphone stellen Laute als "Zeichen" oder Zeichenkombinationen, angelehnt an das Alphabet, dar. Also, im Beispiel, "shtAtt". Groß-Schreibung ist ein besonderes Merkmal für die Aussprache eines Lautes, in meinem Beispiel wurde das "kurze-a" als "A" dargestellt. Das "scharfe T" am Ende wird dargestellt als "tt", auch, weil man beim hinhören während der Aussprache ein nachhallendes "t" hört (klingt am natürlichsten).

Eine prosodische Information steht im direkten Zusammenhang mit dem Diphon; über diese zusätzliche Infomation kann man Schnelligkeit der Aussprache und Tonhöhe auch in Teilen eines Lautes bestimmen: "sh 300 40 100 30 50 10" ergäbe mit der beigefügten prosodischen Information einen 450ms-langen, zum Ende hin leiser werdenden Zischlaut, während "t 300 40 100 30 50 10" selbstverständlich kein "langes T" ergeben kann, sondern eine Pause von 300ms zur Folge hat, nach der man den folgenden Laut lauter wahrnimmt als das gesprochene "t". 

Vokal-Laute können besonders gesteuert werden, da man die Stimmhöhe (pitch) berücksichtigen kann: "e 300 100 50 100 90 40 50 80 30" ergäbe so z. B. einen 450ms-langen "e"-Laut, der in einer tiefen Tonlage beginnt, zum Ende hin immer leiser wird, und schliesslich mit einer höheren Tonlage endet.

Hierbei ist besonders interessant: Man kann eine Stimme mit dieser Notation husten lassen (k 60 für K; O 60 30 30 für ein 60ms langes, lautloses kurzes und "hohes" o; ch 30 für einen kurzen ch-Laut). "kOch, kOch" wäre in der Nur-Textfassung ein zweimaliges, kurzes Husten.

Um daraus ein "echtes" TTS zu machen - und so arbeiten Speech-Engines (hier noch ein Link zu einer umfangreichen Übersicht) - ist also zu den drei vorstehend genannten Komponenten noch eine weitere erforderlich: Die "Laut-Notierung", z. B. eine "Maschine", die normalen Text in Laute "übersetzt". Ein laienhaftes Schema hierzu soll den Weg vom Text zur synthetisierten Ausgabe darstellen:

Texteingabe -> durchläuft zur Prüfung des Textes die Lautnotierung und "wandelt" den Text in "notierte Laute mit vorher festgelegten prosodischen Informationen" um -> Die "notierten Laute" werden an die Sprachausgabe (hier MBROLA.DLL) weitergeleitet, die mit einer voreingestellten Stimme die Lautnotierung wiedergibt (bzw. an eine Ton-Wiedergabe-Bibliothek übergibt).

Auch diese "virtuelle Zeichenfolge-zu-Diphon-Übersetzungsmaschine" ist auf der Basis von MBROLA bereits verfügbar, hierzu kann man sich diesen Link und diese Aufstellung einmal zu Gemüte führen.

Alles in allem: Sind alle Komponenten installiert (auch wenn das das eigentlich aufwendige und komplizierte ist), erhält man kostenlos ein Text-to-Speech-System mit verschiedenen, qualitativ guten, anpassbaren und mit "Emotionalität zum Leben" zu erweckenden Stimmen, die besser klingen und wesentlich mehr "Einstellungsmöglichkeiten" haben als diejenigen, die auf Microsoft's "SAPI's" aufbauen. Auch ist das System, einmal aufgebaut, auch auf langsamen Computern wesentlich schneller, deutlicher und an eigene Bedürfnisse anpassbarer als alles, was ich bisher kennen gelernt habe.

Grüße vom Kai (an der TTS-Front)...
  
Back to top
IP Logged
 
Suppenkasper
God Member
*****
Offline


Phoner-Support

Posts: 1536
Location: Aachen
Joined: 29. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS - Schluss
Reply #5 - 16. Apr 2005 at 13:37
Print Post  
Ach ja, und weil es in den vorigen Beitrag nicht hinein-passte: Vielleicht ist es ja interessant, zu sehen, wie MBROLA arbeitet.

Hierzu kann man auf folgenden Link gehen:



Tschüssi
  
Back to top
IP Logged
 
Phoner Admin
YaBB Administrator
*****
Offline



Posts: 11412
Location: Germany
Joined: 12. Oct 2003
Gender: Male
Re: Interessantes zum Thema TTS
Reply #6 - 16. Apr 2005 at 15:02
Print Post  
Ich hatte mir vor Jahren schon mal MBROLA angeschaut. Ich fand es einfach zu kompliziert. Die Wandlung erfolgt da immer zweistufig. Erstmal in eine sogenannten Phonem-Datei und diese dann in eine Wave-Datei. Vielleicht geht das inzwischen alles schneller.
Ich wollte keine Tools für MBROLA schreiben, sondern das einfach nutzen. Da war mir damals der Aufwand einfach zu groß. Vielleicht kennt sich ja jemand damit aus und kann mir ein paar Hinweise geben...
  
Back to top
WWW  
IP Logged
 
Marcel
Full Member
***
Offline



Posts: 114
Joined: 27. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS - Part. III
Reply #7 - 17. Apr 2005 at 10:15
Print Post  
@Suppenkasper_1970
Also OT ist doch nicht so schlimm, nach dem "CALL-CENTER TELEKOM pregnant dog!"-Thread" und dem "Reich werden"-Quicky - übrigens der schönste hier im Forum Wink - fand ich dies hier absolut nützlich. 
Ich bin neugierig geworden.

Zurück zum Thema:
Quote:
... kostenlos ein Text-to-Speech-System ...
Dieses MaxMSP worüber MBROLA seine Ausgabe macht, erscheint mir ganz und gar nicht kostenlos.
Verrätst Du mir das Geheimnis?
  

Quote:
Der Hörer, nicht der Sprecher, bestimmt die Bedeutung einer Aussage.
Heinz von Foerster in seinem Buch
Back to top
 
IP Logged
 
Suppenkasper
God Member
*****
Offline


Phoner-Support

Posts: 1536
Location: Aachen
Joined: 29. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS - Part. III
Reply #8 - 17. Apr 2005 at 11:16
Print Post  
@Marcel

Quote:
@Suppenkasper_1970
Also OT ist doch nicht so schlimm, nach dem [... schnipp ...] und dem [ ... schnipp ...] - übrigens der schönste hier im Forum Wink - fand ich dies hier absolut nützlich. 
Ich bin neugierig geworden.


Embarrassed Zuviel, zuviel... Halt... Stopp!  Roll Eyes

Quote:

Zurück zum Thema:
Dieses MaxMSP worüber MBROLA seine Ausgabe macht, erscheint mir ganz und gar nicht kostenlos.
Verrätst Du mir das Geheimnis?


Da bist Du auf eine unerforschte Unterseite des Projektes geraten, die ich zuvor niemals sah...

Damit kenne ich mich nicht aus. Hatte ich auf jeden Fall nicht installiert - davon einmal abgesehen, dass ich mich damit beschäftigt hätte...

Jedoch sieht es mir so aus, dass MaxMSP auch eine der kommerziellen Ergänzungen ist, die auf MBROLA aufbauen - näheres zu MBROLA auf jeden Fall, und zu den zugrundeliegenden Lizenzen findet man auf der Projekt-Seite.

Leider weiss ich da auch nicht mehr, als das, was diese Seitenhergeben...
???

Grüße vom Kai!

  
Back to top
IP Logged
 
Marcel
Full Member
***
Offline



Posts: 114
Joined: 27. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS - Part. III
Reply #9 - 17. Apr 2005 at 15:13
Print Post  
Quote:
@Marcel


Embarrassed Zuviel, zuviel... Halt... Stopp!  Roll Eyes
Siehste, und weil ich das auch wieder vorher wusste, lief "- übrigens der schönste hier im Forum Wink -" unter dem Motto 


Zurück zum Thema:
Quote:
Hatte ich auf jeden Fall nicht installiert
Was musstest Du denn installieren, damit es kostenlos funktioniert?
Bei mir ist grad' die totale Ratlosigkeit ausgebrochen ... ???
  

Quote:
Der Hörer, nicht der Sprecher, bestimmt die Bedeutung einer Aussage.
Heinz von Foerster in seinem Buch
Back to top
 
IP Logged
 
Suppenkasper
God Member
*****
Offline


Phoner-Support

Posts: 1536
Location: Aachen
Joined: 29. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS - Part. III
Reply #10 - 17. Apr 2005 at 19:35
Print Post  
Quote:

Was musstest Du denn installieren, damit es kostenlos funktioniert?
Bei mir ist grad' die totale Ratlosigkeit ausgebrochen ... ???


@Marcel,

Hallöle - also ich downloadete das, und installierte es. Das ist auch sozusagen das Herzstückstück meines vorhergehenden Aufsatzes...

Es werden zwei Programme, einige System-DLL's und eine Systemsteuerungs-cpl installiert.

Dann downloadete ich das, und das, und das, und das, und das, und das, und das sowie das, ent-zippte die Archive, verschob die nach dem ent-zippen entstandenen Verzeichnisse in das MBROLA-Installationsverzeichnis, und startete in der System-Steuerung den MBROLA-Manager. Über den Wizzard ließ ich nach "Databases" im MBROLA-Installations-Verzeichnis suchen (es wurden 8 gefunden), und bestätigte diese Auswahl.

Dann startete ich MBROLI (oder so ähnlich), und beschäftigte mich damit, Phonektik-Dateien zu erstellen, die ich über die Wiedergabe-Funktion abspielen liess...

Also (und ich glaube, ich hab' Dein Problem erkannt) eine Text-To-Speech-Sprachausgabe habe ich nicht benutzt, sondern mich darauf beschränkt, mir die erstellten pho-Dateien im MBROLA-Editor "vorlesen" zu lassen...  Grin

Das einzige Lizenz-Freie Programm, welches ich gefunden habe (EULER 2.0), welches MBROLA als Synthesizer für TTS benutzt (Text -> Phonetische Notation -> Ausgabe als Stimme), funktionierte bei mir nicht.

Grüße vom Kai  Cheesy
  
Back to top
IP Logged
 
Marcel
Full Member
***
Offline



Posts: 114
Joined: 27. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS
Reply #11 - 17. Apr 2005 at 22:10
Print Post  
Ich will einem Programm, welches ereignisgesteuert u.a. vorgefertigte .wav-Dateien abspielt, aber auch andere Programme inkl. Parameterübergabe starten kann, das Sprechen beibringen und plötzlich sah ich die Lösung: "A converter from text to WAV files for Win32" auf einer verlinkten IKP-Seite.
Den wollt' ich gern zum Laufen bringen.

Ich probier deine Anleitung aus, der Konverter sollte ja dann seine gewohnte Umgebung vorfinden.
  

Quote:
Der Hörer, nicht der Sprecher, bestimmt die Bedeutung einer Aussage.
Heinz von Foerster in seinem Buch
Back to top
 
IP Logged
 
Phoner Admin
YaBB Administrator
*****
Offline



Posts: 11412
Location: Germany
Joined: 12. Oct 2003
Gender: Male
Re: Interessantes zum Thema TTS
Reply #12 - 18. Apr 2005 at 11:03
Print Post  
Ihr müsst aber zugeben, dass für einen ganz normalen Phoner-Benutzer das alles zu kompliziert ist. Die SAPI-Sachen sind schnell installiert und funktionieren einfach.
Wenn also jemand ein Setup kennt, womit man die Hauptengine und ein paar Sprachen installieren kann, dann schaue ich mir das gerne nochmal genauer an. Solange es sowas nicht gibt, haben sowas die wenigsten Leute und der Aufwand das dann noch in Phoner zu integrieren lohnt sich nicht.
  
Back to top
WWW  
IP Logged
 
Suppenkasper
God Member
*****
Offline


Phoner-Support

Posts: 1536
Location: Aachen
Joined: 29. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS
Reply #13 - 18. Apr 2005 at 11:30
Print Post  
@Marcel  Sad

Das Txt2Pho funktioniert bei mir ebenso wenig wie EULER 2.0, nur mit dem Unterschied, dass das TTS-Frontend Txt2Pho bei mir - trotz korrekter Installation von MBROLA keine MBROLA Umgebung findet oder benutzt oder sonst wie. Mich da irgendwie erst durch die Registry klicken zu müssen, war mir dann doch zu mühsam. Ich kann nur berichten, dass sowohl die MBROLA-DLL's über die regsvr32.exe von XP bzw. W2003S korrekt installiert waren, und die txt2pho.exe über die shell auch funktionierte, leider trotz richtiger Parameter kein Ergebnis brachte  Sad ... Hoffentlich hast Du mehr Glück.

@Forum Admin (Heiko),

du hast Recht  Grin . Für Standard-Homies oder Anwender mit GUI-Zwang ist MBROLA die echt kompliziertere Alternative. Ich hatte etwas früher ja bereits auf die "Loquendo"-Stimmen hingewiesen (die ja echt gut sind, wie Du weißt), und wollte mit dem MBROLA-Projekt noch mal ausführen, dass etwas annähernd so gutes auch kostenlos (aber eben aufwendiger) für den Heimgebrauch machbar ist. Besser als alles, was "für lau" an Stimmen für die MS-SAPI's zur Verfügung steht, ist MBROLA meines Erachtens nach sowieso schon.

Wenn Du es Dir aber (später) noch 'mal anschauen willst: Ich kann ein komplettes Setup des MBROLA-Grundsystemes (also ohne das o. g. Frontend) als msi-Intallations-Datei zur Verfügung stellen, wenn Du magst (hätte glaube ich, Einschränkungen bei Benutzern von Windows 98 und früheren Versionen, die erst mal den Windows-Installer für MSI-Pakete installieren müssten). Vorher schau' ich aber noch mal in die entsprechenden Lizenzen und schreib' denen mal 'ne Mail, ob das überhaupt gewünscht ist...

Soll ich?

Grüße vom Kai
  
Back to top
IP Logged
 
Marcel
Full Member
***
Offline



Posts: 114
Joined: 27. Mar 2005
Gender: Male
Re: Interessantes zum Thema TTS
Reply #14 - 18. Apr 2005 at 20:36
Print Post  
Quote:
Das Txt2Pho funktioniert bei mir ebenso wenig wie EULER 2.0 ...
Undecided Du kannst einem ja richtig Mut machen ...

Aber eigentlich meinte ich ja die txt2wav.zip.
Die leistet ja angeblich ganze Arbeit hätte aber gerne die mbrsyn.dll etc. als Helferlein.
  

Quote:
Der Hörer, nicht der Sprecher, bestimmt die Bedeutung einer Aussage.
Heinz von Foerster in seinem Buch
Back to top
 
IP Logged
 
Page Index Toggle Pages: [1] 2 
Send TopicPrint