Spraaksynthese

Van Wikipedia, de gratis encyclopedie
Spring naar navigatie Spring naar zoeken
Regeling voor de "Voder" door Homer Dudley (1940)

Spraaksynthese is de kunstmatige generatie van de menselijke spreekstem . Een tekst-naar-spraaksysteem ( TTS ) (of leesmachine ) zet lopende tekst om in akoestische spraakuitvoer .

In principe kunnen twee benaderingen voor het genereren van spraaksignalen worden onderscheiden. Enerzijds kunnen spraakopnames ( samples ) worden gebruikt door middel van zogenaamde signaalmodellering . Anderzijds kan het signaal ook volledig in de computer worden gegenereerd door zogenaamde fysiologische (articulatorische) modellering. Terwijl de eerste systemen gebaseerd waren op formantsynthese , zijn de systemen die momenteel industrieel worden gebruikt voornamelijk gebaseerd op signaalmodellering.

Een bijzonder probleem voor spraaksynthese is het genereren van een natuurlijke spraakmelodie ( prosodie ).

verhaal

Replica van de "spraakmachine" door Wolfgang von Kempelen (2009)
Replica van de constructie door Hermann von Helmholtz (1865)
Demonstratie van de "Voder" in 1939

Lang voor de uitvinding van elektronische signaalverwerking probeerden wetenschappers machines te bouwen die menselijke spraak konden genereren. Gerbert von Aurillac (1003) wordt gecrediteerd met een "sprekend hoofd" gemaakt van brons, waarvan werd gemeld dat hij "ja" en "nee" kon zeggen. Het apparaat van Albertus Magnus (1198-1280) en Roger Bacon (1214-1294) behoren eerder op het gebied van legendes.

In 1779 bouwde de Duitse wetenschapper Christian Kratzenstein , die in Kopenhagen werkte, een "spraakorgel" op basis van een wedstrijd van de St. Petersburg Academie, die in staat was vijf lange klinkers (a, e, i, o en u) te synthetiseren ) met behulp van vrij slingerende linguale pijpen met het menselijke vocale kanaal . Wolfgang von Kempelen ontwikkelde al in 1760 een spraakmachine , die hij in 1791 presenteerde in zijn publicatie "Mechanism of human language together with the description of its speak machine". Net als die van Kratzenstein was deze synthese gebaseerd op een balg als het longequivalent, maar de feitelijke stimulatie was veel dichter bij de anatomie van een enkele, opvallende linguale fluit. Dit maakte enkele klinkers en plosieven mogelijk. Daarnaast konden een aantal fricatieven worden weergegeven met behulp van verschillende mechanismen. Aan de stembanden was een leren buis bevestigd, die met één hand vervormd kon worden, waardoor de variabele geometrie en het resonantiegedrag van het stemkanaal werd gesimuleerd. Von Kempelen schreef:

"Verwerf een bewonderenswaardige vaardigheid in het spelen in een periode van drie weken, vooral als je overstapt naar de Latijnse, Franse of Italiaanse taal, want Duits is veel moeilijker [vanwege de frequente bundels medeklinkers] ."

Charles Wheatstone bouwde in 1837 een sprekende machine op basis van dit ontwerp, een replica is te vinden in het Deutsches Museum . In 1857 bouwde Joseph Faber de Euphonia , die ook dit principe volgt.

Aan het einde van de 19e eeuw ontwikkelde de belangstelling zich van de reproductie van menselijke spraakorganen (genetische spraaksynthese) naar de simulatie van akoestische ruimte (genematische spraaksynthese). Zo synthetiseerde Hermann von Helmholtz voor het eerst klinkers met behulp van stemvorken, die in bepaalde klinkerposities waren afgestemd op de resonantiefrequenties van het stemkanaal. Deze resonantiefrequenties worden formanten genoemd . Spraaksynthese door het combineren van formanten was tot het midden van de jaren negentig technisch mainstream.

De Vocoder , een toetsenbordgestuurde elektronische spraaksynthesizer die duidelijk verstaanbaar zou zijn, werd in de jaren dertig ontwikkeld in Bell Labs . Homer Dudley verbeterde deze machine tot de Voder , die op de Wereldtentoonstelling van 1939 werd gepresenteerd. De Voder gebruikte elektrische oscillatoren om de formantfrequenties te genereren.

De eerste computergebaseerde spraaksynthesesystemen werden eind jaren vijftig ontwikkeld en het eerste volledige tekst-naar-spraaksysteem werd in 1968 voltooid. De natuurkundige John Larry Kelly, Jr. ontwikkelde in 1961 een spraaksynthese met een IBM 704 bij Bell Labs en liet hem het lied Daisy Bell zingen. Regisseur Stanley Kubrick was er zo van onder de indruk dat hij het verwerkte in 2001: A Space Odyssey .

Cadeau

Terwijl vroege elektronische spraaksynthese nog erg robotachtig klonk en soms moeilijk te begrijpen was, hebben ze sinds de millenniumwisseling een kwaliteit bereikt die soms moeilijk te onderscheiden is van menselijke sprekers. Dit is voornamelijk te wijten aan het feit dat de technologie zich heeft afgekeerd van de eigenlijke synthese van het spraaksignaal en zich richt op het optimaal aaneenschakelen van opgenomen spraaksegmenten. [1] [2] [3]

synthese

Spraaksynthese veronderstelt een analyse van de menselijke taal, met betrekking tot de fonemen , maar ook de prosodie, omdat een zin alleen door de zinsmelodie verschillende betekenissen kan hebben.

Wat betreft het syntheseproces zelf, zijn er verschillende methoden. Wat alle methoden gemeen hebben, is dat ze gebruik maken van een database waarin kenmerkende informatie over taalsegmenten is opgeslagen. Elementen uit deze inventaris worden gekoppeld aan de gewenste expressie. Spraaksynthesesystemen kunnen worden geclassificeerd op basis van de inventaris van de database en in het bijzonder de wijze van koppelen. De signaalsynthese is meestal eenvoudiger naarmate de database groter is, omdat deze dan al elementen bevat die dichter bij de gewenste uitdrukking liggen en er minder signaalverwerking nodig is. Om dezelfde reden is een natuurlijker klinkende synthese meestal mogelijk met een grote database.

Een moeilijkheid in de synthese ligt in het samenvoegen van inventariselementen. Omdat deze uit verschillende uitingen komen, verschillen ze ook in volume, grondfrequentie en de positie van de formanten. Bij het voorbewerken van de database of bij het koppelen van de inventarisatie-elementen moeten deze verschillen zo goed mogelijk worden gecompenseerd (normalisatie) om de kwaliteit van de synthese niet aan te tasten.

Eenheid selectie

De Unit Selection levert de beste kwaliteit, zeker met een beperkt domein . Synthese gebruikt een grote taaldatabase waarin elke opgenomen uiting is gesegmenteerd in enkele of alle van de volgende eenheden:

Deze segmenten worden opgeslagen met een directory van een aantal akoestische en fonetische eigenschappen zoals de fundamentele frequentiecurve, duur of buren.

Voor de synthese worden speciale zoekalgoritmen , gewogen beslisbomen , gebruikt om een ​​zo groot mogelijk aantal segmenten te bepalen, die met betrekking tot deze eigenschappen zo dicht mogelijk bij de te synthetiseren uiting komen. Aangezien deze serie wordt uitgevoerd met weinig of geen signaalverwerking, blijft de natuurlijkheid van de gesproken taal behouden zolang er maar weinig aaneenschakelingspunten nodig zijn.

Difoon synthese

Experimenten aan het begin van de 21e eeuw hebben aangetoond dat de juiste weergave van geluidsovergangen essentieel is voor de verstaanbaarheid van spraaksynthese. Een database met ongeveer 2500 vermeldingen wordt gebruikt om alle geluidsovergangen op te slaan. Het tijdbereik van het stationaire deel, het foneemcentrum van een foneem, tot het stationaire deel van het volgende foneem wordt daarin opgeslagen. Voor de synthese wordt de informatie dienovereenkomstig samengevoegd ( aaneengeschakeld ).

Verdere co- articulatie-effecten , die veel bijdragen aan de natuurlijkheid van spraak, kunnen in rekening worden gebracht via uitgebreidere databases. Een voorbeeld is Hadifix , lsilben de Ha, telefoon Di en Suf fix e bevat.

Signaal generatie

De signaalgeneratie reproduceert de gewenste segmenten uit de database met de gespecificeerde basisfrequentiecurve. Deze uitdrukking van de fundamentele frequentiecurve kan op verschillende manieren worden gedaan, waarbij de volgende methoden verschillen.

Bronfiltermodel

Bij syntheses die een bron-filterscheiding gebruiken, wordt een signaalbron met een periodieke golfvorm gebruikt. Hun periodelengte is ingesteld om overeen te komen met de fundamentele frequentie van de uiting die moet worden gesynthetiseerd. Afhankelijk van het foneemtype wordt aan deze excitatie extra ruis toegevoegd. De uiteindelijke filtering verwerkt de geluidskarakteristieke spectra. Het voordeel van deze klasse van methoden is de eenvoudige basisfrequentieregeling van de bron. Een nadeel vloeit voort uit de filterparameters die zijn opgeslagen in de database, die moeilijk te bepalen zijn uit spraakmonsters. Afhankelijk van het type filter of de achterliggende kijk op spreken wordt onderscheid gemaakt tussen de volgende procedures:

Formant synthese

Formantsynthese is gebaseerd op de observatie dat om de klinkers te onderscheiden het voldoende is om de eerste twee formanten nauwkeurig weer te geven. Elke formant wordt gesimuleerd door een bandpass , een polarisatiefilter van de 2e orde, die kan worden aangestuurd op het gebied van centrumfrequentie en kwaliteit . De formantsynthese kan relatief eenvoudig worden geïmplementeerd met behulp van analoge elektronische schakelingen.

Akoestisch model

Het akoestische model reproduceert de volledige resonantie-eigenschappen van het stemkanaal met behulp van een geschikt filter. Voor dit doel wordt het vocale kanaal vaak op een vereenvoudigde manier gezien als een buis met variabele dwarsdoorsnede, waarbij transversale modi worden verwaarloosd, aangezien de laterale omvang van het vocale kanaal klein is. De transversale veranderingen worden verder benaderd door equidistante transversale sprongen. Een veel gekozen filtertype is het crosslink chain filter , waarbij er een directe relatie is tussen doorsnede en filtercoëfficiënt. [4]

Deze filters zijn nauw verwant aan Linear Predictive Coding (LPC), dat ook wordt gebruikt voor spraaksynthese. De LPC houdt ook rekening met de volledige resonantie-eigenschappen, maar er is geen directe relatie tussen de filtercoëfficiënt en de dwarsdoorsnedevorm van het stemkanaal.

articulatorische synthese

Vergeleken met het akoestische model legt de articulatorische synthese een relatie tussen de positie van de articulatoren en de resulterende dwarsdoorsnedevorm van het vocale kanaal. Om de resonantiekarakteristieken te simuleren, worden naast tijddiscrete cross-link chain-filters oplossingen van de continue-tijd Horn-vergelijking gebruikt, waaruit het tijdsignaal wordt verkregen door Fourier-transformatie .

Overlap toevoegen

Pitch Synchronous Overlap Add, afgekort tot PSOLA, is een syntheseproces waarbij opnames van het spraaksignaal in de database staan. Als de signalen periodiek zijn, worden ze voorzien van informatie over de basisfrequentie (pitch) en wordt het begin van elke periode gemarkeerd. Tijdens de synthese worden deze perioden met een specifieke omgeving met behulp van een vensterfunctie uitgesneden en op een geschikt punt toegevoegd aan het te synthetiseren signaal: afhankelijk van of de gewenste grondfrequentie hoger of lager is dan die van de database-invoer, worden ze dienovereenkomstig dichter of minder dicht dan in het origineel samen. Om de duur van het geluid aan te passen, kunnen perioden worden weggelaten of twee keer worden uitgevoerd. Deze methode staat ook bekend als TD-PSOLA of PSOLA-TD (TM), waarbij TD staat voor Time Domain en benadrukt dat de methoden werken in het tijdsdomein.

Een verdere ontwikkeling is het Multi Band Resynthesis OverLap Add-proces, kortweg MBROLA . Hier worden de segmenten in de database voorbewerkt tot een uniforme basisfrequentie en wordt de fasepositie van de harmonischen genormaliseerd. Tijdens de synthese van een overgang van het ene segment naar het andere resulteert dit in minder waarneembare storingen en is de bereikte spraakkwaliteit hoger.

Deze syntheseprocessen zijn gerelateerd aan granulaire synthese , die wordt gebruikt bij het genereren van geluid en vervreemding bij de productie van elektronische muziek.

Parametrische spraaksynthese uit verborgen Markov-modellen (HMM) en/of stochastische Markov-grafieken (SMG)

Parametrische spraaksynthese is een groep methoden gebaseerd op stochastische modellen. Deze modellen zijn ofwel verborgen Markov-modellen (HMM) , stochastische Markov-grafieken (SMG), of, meer recentelijk, een combinatie van deze twee. Het basisprincipe is dat de symbolische foneemreeksen die zijn verkregen uit tekstvoorbewerking, statistische modellering doorlopen door ze eerst op te splitsen in segmenten en vervolgens een specifiek model uit een bestaande database toe te wijzen aan elk van deze segmenten. Elk van deze modellen wordt op zijn beurt beschreven door een reeks parameters en uiteindelijk gekoppeld aan de andere modellen. De verwerking tot een kunstmatig spraaksignaal, dat gebaseerd is op de genoemde parameters, voltooit vervolgens de synthese. Bij het gebruik van meer flexibele, stochastische Markov-grafieken kan een dergelijk model zelfs geoptimaliseerd worden voor zover het van tevoren kan worden getraind en door voorbeelden van natuurlijke taal toe te voegen aan een bepaalde basale natuurlijkheid. Dergelijke statistische methoden komen voort uit het tegenovergestelde veld van spraakherkenning en worden gemotiveerd door kennis over het verband tussen de waarschijnlijkheid van een bepaalde gesproken woordreeks en de bij benadering te verwachten spraaksnelheid, of de prosodie ervan. [5] [6] [7]

Mogelijk gebruik van tekst-naar-spraaksoftware

Het gebruik van spraaksynthesesoftware hoeft geen doel op zich te zijn. Mensen met een visuele beperking - b.v. B. Staar of leeftijdsgebonden maculaire degeneratie - gebruik TTS-softwareoplossingen om teksten direct op het scherm te laten voorlezen. Blinde mensen kunnen een computer bedienen met behulp van schermlezersoftware en krijgen bedieningselementen en tekstinhoud. Maar docenten gebruiken spraaksynthese ook om colleges op te nemen. Auteurs gebruiken TTS-software ook om door hen geschreven teksten te controleren op fouten en begrijpelijkheid.

Een ander toepassingsgebied is in de vorm van software waarmee MP3-bestanden kunnen worden gemaakt . Dit betekent dat spraaksynthesesoftware kan worden gebruikt om eenvoudige podcasts of audioblogs te genereren. De ervaring leert dat het maken van podcasts of audioblogs erg tijdrovend kan zijn.

Bij het werken met Amerikaanse software moet worden opgemerkt dat de beschikbare stemmen van verschillende kwaliteit zijn. Engelse stemmen zijn van een hogere kwaliteit dan Duits. Een 1:1 kopie van de teksten in TTS-software wordt niet aanbevolen, nabewerking is in ieder geval noodzakelijk. Het gaat niet alleen om het vervangen van afkortingen, maar ook het invoegen van leestekens - zelfs als ze grammaticaal onjuist zijn - kan helpen om de zinssnelheid te beïnvloeden. Duitse "vertalingen" met anglicismen zijn over het algemeen een onoverkomelijk probleem voor spraaksynthese.

Veel voorkomende toepassingen zijn aankondigingen in telefoon- en navigatiesystemen.

Spraaksynthesesoftware

Amiga SoftVoice spraaksynthese
  • AnalogX Zeg het
  • Aristech
  • Audiodizer
  • Balabolka (Freeware, 26 talen, SAPI4 en SAPI5 )
  • BOSS, ontwikkeld aan het Instituut voor Communicatiestudies van de Universiteit van Bonn
  • Blader hardop van textHELP
  • Cepstral tekst-naar-spraak
  • CereProc
  • DeskBot
  • espeak (open source, vele talen, SAPI5)
  • festival
  • Festvox
  • FreeTTS (Open Source)
  • GhostReader
  • Gnuspeech
  • Infovox
  • IVONA tekst-naar-spraak
  • Linguatec Spraaklezer 15
  • Logox-cliplezer
  • Loquendo TTS
  • MacinTalk en verteller.device van SoftVoice
  • MARY Text-To-Speech ontwikkeld door het DFKI Language Technology Lab
  • MBROLA
  • Moduleren [8] Spraakconversiesoftware, maakt gebruik van Generative Adversarial Networks [9]
  • Mozilla TTS [10]
  • NaturalReader van NaturalSoft
  • OnScreenVoices van tom weber-software
  • ReadSpeaker: websites lezen en podcasten
  • Realspeak van Nuance (voorheen ScanSoft), nu Kobaspeech 3
  • SAM van Don't Ask-software [11]
  • SpraakConcept
  • Spraakmachine
  • SVOX
  • Synte 2
  • Synte 3
  • SYNVO
  • Tacotron (Google) [12]
  • Tekst hardop MP3
  • Toshiba ToSpeak
  • TTS-robot
  • virsyn CANTOR klinkersynthese
  • Virtuele stem

Spraaksynthese hardware

  • Votrax
    • SC-01A (analoge formant)
    • SC-02 / SSI-263 / "Arctic 263"
  • Spraakprocessor voor algemeen instrument
    • SP0250
    • SP0256-AL2 "redenaar" (CTS256A-AL2)
    • SP0264
    • SP1000
  • Mullard MEA8000 [13]
  • National Semiconductor DT1050 Digitalker (Mozer)
  • Silicon Systems SSI 263 (analoge formant)
  • Texas Instrumenten
  • Oki Semiconductor
    • MSM5205
    • MSM5218RS (ADPCM)
  • Toshiba T6721A C²MOS Voice Synthesizing LSI

Zie ook

literatuur

  • Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: Van tekst naar gesproken taal. In: Henning Lobin , Lothar Lemnitzer (Hrsg.): Teksttechnologie. Perspectieven en toepassingen. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3 , blz. 295-325.
  • Jessica Riskin: achttiende-eeuwse wetware. In: Vertegenwoordigingen. Deel 83, nr. 1, 2003, ISSN 0734-6018 , blz. 97-125, doi : 10.1525/rep.2003.83.1.97 .
  • James L. Flanagan: spraakanalyse, synthese en perceptie (= communicatie en cybernetica in individuele representaties. Vol. 3). 2e editie. Springer, Berlijn et al. 1972, ISBN 3-540-05561-4 . 1e druk 1965, 3e druk 2008 [14]
  • Ville Pulkki, Matti Karjalainen : Communicatie-akoestiek: een inleiding tot spraak, audio en psycho-akoestiek. John Wiley & Sons, 2015, ISBN 978-1-118-86654-2 .

web links

WikiWoordenboek: Spraaksynthese - uitleg van betekenissen, woordoorsprong, synoniemen, vertalingen
Commons : Spraaksynthese - verzameling van afbeeldingen, video's en audiobestanden

verhaal

Systemen

Webinterfaces

voetnoten

  1. Dennis Klatt's History of Speech Synthesis ( Memento van het origineel van 4 juli 2006 in het internetarchief ) Info: De archieflink is automatisch ingevoegd en is nog niet gecontroleerd. Controleer de originele en archieflink volgens de instructies en verwijder deze melding. @ 1 @ 2 Sjabloon: Webachiv / IABot / www.cs.indiana.edu
  2. Sami Lemmetty: Geschiedenis en ontwikkeling van Speech Synthesis. In: Review van spraaksynthesetechnologie. HELSINKI UNIVERSITY OF TECHNOLOGY, 1 juni 1999, geraadpleegd op 14 maart 2019 .
  3. Arne Hoxbergen: De geschiedenis van spraaksynthese aan de hand van enkele geselecteerde voorbeelden (PDF; 490 kB). Berlijn 2005.
  4. Karl Schnell: buismodellen van het spraakkanaal. Frankfort 2003.
  5. http://www.patent-de.com/20010927/DE10040991C1.html
  6. Pagina niet meer beschikbaar , zoek in webarchief: @ 1 @ 2 Sjabloon: Toter Link / www.ims.uni-stuttgart.de Diplomarbeit_Breitenbuecher
  7. Gearchiveerde kopie ( Memento van het origineel van 21 juli 2014 in het internetarchief ) Info: De archieflink is automatisch ingevoegd en is nog niet gecontroleerd. Controleer de originele en archieflink volgens de instructies en verwijder deze melding. @ 1 @ 2 Sjabloon: Webachiv / IABot / www.ias.et.tu-dresden.de
  8. Moduleren: ontgrendel je stem. Ontvangen 14 maart 2019 .
  9. Technologieoverzicht: spreek als Barack Obama. 14 maart 2019, geraadpleegd op 14 maart 2019 .
  10. mozilla / TTS. Mozilla, 7 februari 2021, geraadpleegd op 7 februari 2021 .
  11. https://simulationcorner.net/index.php?page=sam
  12. Sebastian Grüner: Tacotron 2: Google's spraaksynthese bereikt bijna menselijke kwaliteit - Golem.de. In: golem.de. 21 december 2017. Ontvangen 14 maart 2019 .
  13. http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
  14. Inhoudsopgave (pdf)