Inafasiriwa moja kwa moja kutoka kwa Wikipedia ya Kiingereza na Tafsiri ya Google

Utangulizi wa mazungumzo

Utangulizi wa mazungumzo ni uzalishaji wa bandia ya hotuba ya binadamu. Mfumo wa kompyuta uliotumiwa kwa kusudi hili huitwa synthesizer ya kompyuta au hotuba ya hotuba , na inaweza kutekelezwa katika bidhaa za programu au vifaa . Mfumo wa maandishi-kwa-hotuba ( TTS ) hubadilisha maandishi ya lugha ya kawaida kwa hotuba; mifumo mingine hutoa uwakilishi wa lugha ya mfano kama transcription ya simutiki katika hotuba. [1]

Mazungumzo yanayopendekezwa yanaweza kuundwa kwa kupatanisha vipande vya hotuba iliyoandikwa iliyohifadhiwa kwenye database . Mifumo inatofautiana kwa ukubwa wa vitengo vya hotuba vilivyohifadhiwa; mfumo unaohifadhi simu au madiponi hutoa aina kubwa zaidi ya pato, lakini huenda ikawa haijulikani . Kwa mada maalum ya matumizi, uhifadhi wa maneno mzima au sentensi inaruhusu kwa pato la ubora. Vinginevyo, synthesizer inaweza kuingiza mfano wa njia ya sauti na sifa nyingine za sauti za binadamu ili kuzalisha sauti ya "synthetic" kabisa. [2]

Ubora wa synthesizer ya hotuba huhukumiwa na kufanana kwake na sauti ya mwanadamu na kwa uwezo wake wa kueleweka wazi. Programu inayoeleweka ya maandishi-to-speech inaruhusu watu wenye ulemavu wa kuona au usumbufu wa kusoma kusikiliza maneno yaliyoandikwa kwenye kompyuta ya nyumbani. Mifumo mingi ya uendeshaji wa kompyuta imejumuisha synthesizers ya hotuba tangu mapema miaka ya 1990.

Maelezo ya jumla ya mfumo wa TTS

Mfumo wa maandishi-to-speech (au "injini") unajumuisha sehemu mbili: [3] mwisho-mwisho na mwisho wa mwisho . Mwisho wa mwisho una kazi mbili kuu. Kwanza, hubadilisha maandishi ghafi yaliyo na alama kama namba na vifupisho kwa sawa na maneno yaliyoandikwa. Utaratibu huu mara nyingi huitwa uhalalishaji wa maandiko , kabla ya usindikaji , au tokenization . Mwisho wa mwisho kisha hutoa transcription ya simu ya mkononi kwa kila neno, na hugawanya na alama alama kwenye vitengo vya prosodi , kama maneno , vifungu , na sentensi . Mchakato wa kugawa transcription ya simutiki kwa maneno huitwa mwandishi-to-phoneme au uongofu wa grapheme -to-phoneme . Utoaji wa simu na habari ya kupoteza pamoja hufanya uwakilishi wa lugha ya mfano unaotokana na mwisho wa mwisho. Mwisho-mara nyingi hujulikana kama synthesizer - huwabadili uwakilishi wa lugha ya sauti kuwa sauti. Katika mifumo fulani, sehemu hii inajumuisha uhesabu wa prosody ya lengo (contour pitch, durations phoneme), [4] ambayo ni kisha kuweka kwenye hotuba ya pato.

Yaliyomo

Historia

Muda mrefu kabla ya uvumbuzi wa usindikaji wa signal umeme , watu wengine walijaribu kujenga mashine ili kuiga hotuba ya binadamu. Hadithi zingine za awali za kuwepo kwa " Viongozi wa Brazen " zilihusisha Papa Silvester II (dakika 1003 AD), Albertus Magnus (1198-1280), na Roger Bacon (1214-1294).

Katika 1779 German - Kidenmaki mwanasayansi Christian Gottlieb Kratzenstein alishinda tuzo ya kwanza katika mashindano ya ulitangazwa na Urusi Imperial Chuo cha Sayansi na Sanaa kwa mifano yeye kujengwa ya binadamu njia ya mijadala ambayo inaweza kuzalisha tano vokali sauti (katika International Fonetiki Alfabeti nukuu : [aː] , [eː] , [iː] , [oː] na [uː] ). [5] Kuna ikifuatiwa mvukuto -operated " acoustic-mitambo hotuba mashine " ya Wolfgang von Kempelen ya Pressburg , Hungaria , alielezea katika 1791 karatasi. [6] Mashine hii iliongeza mifano ya ulimi na midomo, na kuifanya kuzalisha consonants kama vile vowels. Mwaka wa 1837, Charles Wheatstone alitoa "mashine ya kuzungumza" kulingana na mpango wa von Kempelen, na mwaka 1846, Joseph Faber alionyesha " Euphonia ". Mnamo mwaka wa 1923 mpango wa Wheatstone uliofufuliwa. [7]

Katika miaka ya 1930 Bell Labs ilianzisha vocoder , ambayo moja kwa moja kuchambua hotuba katika tani yake ya msingi na resonances. Kutoka kazi yake kwa sauti ya sauti, Homer Dudley alianzisha sauti-synthesizer ya sauti inayoitwa keyboard, inayoitwa Voder (Voice Demonstrator), ambayo alionyesha katika Fair ya Dunia ya 1939 ya New York .

Dkt. Franklin S. Cooper na wenzake katika Haskins Laboratories walijenga kucheza kwa Sampuli mwishoni mwa miaka ya 1940 na kumaliza mwaka wa 1950. Kulikuwa na matoleo kadhaa tofauti ya kifaa hiki; sasa moja tu huishi. Mashine inabadilisha picha za mifumo ya acoustic ya hotuba kwa namna ya spectrogram nyuma ya sauti. Kutumia kifaa hiki, Alvin Liberman na wenzake waligundua cues za acoustic kwa mtazamo wa makundi ya fonetiki (makononi na vowels).

Mifumo maarufu katika miaka ya 1980 na 1990 ilikuwa mfumo wa DECTalk , msingi kwa kiasi kikubwa juu ya kazi ya Dennis Klatt katika MIT, na mfumo wa Bell Labs; [8] mwisho huo ni moja ya mifumo ya kwanza ya kujitegemea kwa lugha mbalimbali, na kufanya matumizi makubwa ya mbinu za usindikaji wa asili .

Maandishi ya awali ya mazungumzo ya elektroniki yaliyotokana na robotic na mara nyingi hawakueleweka. Ubora wa hotuba ya synthesized imeongezeka kwa kasi, lakini kwa mwaka wa 2016 pato kutoka mifumo ya awali ya hotuba ya hotuba bado inatofautiana wazi na hotuba halisi ya binadamu.

Kurzweil alitabiri mwaka 2005 kuwa kama uwiano wa gharama na ufanisi uliosababisha synthesizers ya hotuba kuwa nafuu na kupatikana zaidi, watu wengi watafaidika kutokana na matumizi ya mipango ya maandishi-kwa-hotuba. [9]

Vifaa vya umeme

Nyumba za kompyuta na hotuba za synthesizer zilizotumiwa na Stephen Hawking mwaka wa 1999

Mifumo ya kwanza ya mazungumzo-msingi ya kompyuta inayotokana na mwishoni mwa miaka ya 1950. Noriko Umeda et al. ilianzisha mfumo wa kwanza wa Kiingereza wa maandishi-to-speech mwaka wa 1968 katika Maabara ya Electrotechnical, Japan. [10] Mwaka wa 1961 mwanafizikia John Larry Kelly, Jr na mwenzake Louis Gerstman [11] walitumia kompyuta ya IBM 704 ili kuunganisha hotuba, tukio kati ya wengi maarufu katika historia ya Bell Labs . [ kinachohitajika ] Kirekodi sauti ya sauti ya Kelly ( vocoder ) ilirejesha wimbo " Daisy Bell ", akiwa na mchezaji wa muziki kutoka Max Mathews . Kwa bahati mbaya, Arthur C. Clarke alikuwa amemtembelea rafiki yake na mwenzake John Pierce katika kituo cha Bell Labs Murray Hill. Clarke alivutiwa sana na maonyesho ya kwamba aliitumia katika eneo la hali ya juu ya skrini yake ya riwaya yake 2001: Space Odyssey , [12] ambapo kompyuta ya HAL 9000 inaimba wimbo ule huo kama astronaut Dave Bowman anaiweka kulala. [13] Pamoja na mafanikio ya awali ya mazungumzo ya elektroniki, utafiti katika mitambo ya mazungumzo-synthesizers inaendelea. [14]

Vifaa vya umeme vinavyotokana na hotuba zilianza kujitokeza katika miaka ya 1970. Moja ya kwanza ilikuwa Tetesensory Systems Inc. (TSI) Calculator + portable kwa ajili ya vipofu mwaka 1976. [16] [16] Vifaa vingine vilikuwa na madhumuni ya elimu, kama vile Toy & Spell toy zinazozalishwa na Texas Instruments mwaka 1978. [ 17] Fidelity ilitoa aina ya kwanza kuzungumza wa Chess kompyuta yake ya umeme mwaka 1979. [18] kwanza mchezo wa video kwa kipengele hotuba ya awali ilikuwa 1980 risasi 'em up mchezo Arcade , Stratovox (inayojulikana katika Japan kama Speak na kuokoa katika), kutoka Sun Electronics . [19] mchezo wa kwanza wa kompyuta ya kompyuta na awali ya hotuba ilikuwa Manbiki Shoujo ( msichana wa duka ), iliyotolewa mwaka wa 1980 kwa PET 2001 , ambayo msanii wa mchezo, Hiroshi Suzuki, aliunda mbinu ya programu ya " zero msalaba " ili kuzalisha muundo wa mawimbi ya hotuba . [20] Mfano mwingine wa mwanzo, version ya Berzerk , pia ulianza mwaka wa 1980. Kampuni ya Milton Bradley ilizalisha mchezo wa kwanza wa mchezaji wa umeme kwa kutumia synthesis ya sauti, Milton , mwaka huo huo.

Teknolojia ya Synthesizer

Sifa muhimu zaidi za mfumo wa awali wa hotuba ni asili na uwazi . [21] Utulivu unaeleza jinsi pato la sauti linavyoonekana kama hotuba ya binadamu, wakati uelewaji ni urahisi ambao pato linaeleweka. Nzuri ya synthesizer ya hotuba ni ya asili na yenye akili. Mfumo wa awali wa mazungumzo hujaribu kuongeza sifa zote mbili.

Teknolojia mbili za msingi za kuzalisha hotuba waveforms synthetic ni concatenative awali na formant awali. Kila teknolojia ina nguvu na udhaifu, na matumizi yaliyokusudiwa ya mfumo wa awali itaamua kawaida njia ipi inayotumiwa.

Usaniano wa awali wa

Kwanza ya mkataba ni msingi wa masharti (au kushikilia pamoja) ya makundi ya hotuba iliyoandikwa. Kwa ujumla, awali ya usanifu hutoa mazungumzo ya asili ya sauti ya asili. Hata hivyo, tofauti kati ya tofauti ya asili katika hotuba na asili ya mbinu za automatiska za kugawa sehemu za mawimbi wakati mwingine husababisha glitches za kusikia katika pato. Kuna tatu ndogo ndogo ya aina ya awali concatenative.

Uteuzi wa kitengo cha awali

Usanifu wa kitengo cha matumizi hutumia orodha kubwa ya hotuba iliyoandikwa. Wakati wa uumbaji wa database, kila hotuba ya kumbukumbu imegawanyika katika baadhi au yote yafuatayo: simu za mtu binafsi, mahphoni , simu za nusu, silaha , morphemes , maneno , misemo , na sentensi . Kwa kawaida, mgawanyiko katika makundi hufanyika kwa kutumia utambuzi wa hotuba maalum iliyobadilishwa kwenye mode "ya kulazimishwa" mode na marekebisho mengine ya baadaye, kwa kutumia uwakilishi wa visual kama vile waveform na spectrogram . [22] Orodha ya vitengo katika daraja la hotuba inaundwa kulingana na vipengele na vigezo vya acoustic kama frequency ya msingi ( kiwango ), muda, nafasi katika silaha, na simu za jirani. Wakati wa kukimbia , hotuba ya lengo inayotakiwa imeundwa kwa kuamua mnyororo bora wa vitengo vya mgombea kutoka kwa databana (uteuzi wa kitengo). Utaratibu huu hupatikana kwa kutumia mti wa uamuzi maalum.

Uchaguzi wa kitengo hutoa asili kubwa zaidi, kwa sababu inatumika tu kiasi kidogo cha usindikaji wa signal digital (DSP) kwenye hotuba iliyoandikwa. DSP mara nyingi hufanya sauti ya kumbukumbu ya sauti si chini ya asili, ingawa baadhi ya mifumo hutumia kiasi kidogo cha usindikaji wa ishara kwa hatua ya kuzingatia ili kuondosha hali ya wimbi. Pato kutoka kwa mifumo bora ya uteuzi wa kitengo mara nyingi haijulikani na sauti halisi za binadamu, hasa katika mazingira ambayo mfumo wa TTS umekwisha. Hata hivyo, upeo wa kawaida unahitaji maelezo ya kitengo cha hotuba ya kitengo kuwa kubwa sana, katika mifumo mingine inayoingia kwenye gigabytes ya data iliyorekodi, inayowakilisha saa kadhaa za hotuba. [23] Pia, taratibu za uteuzi wa kitengo zimejulikana kwa kuchagua makundi kutoka mahali ambalo husababisha chini ya ufanisi wa awali (kwa mfano maneno madogo haijulikani) hata wakati chaguo bora lipo katika database. [24] Hivi karibuni, watafiti wamependekeza mbinu mbalimbali za automatiska kuchunguza makundi yasiyo ya kawaida katika mifumo ya awali ya hotuba ya hotuba ya kitengo. [25]

Diphone awali

Kwanza ya Diphone inatumia database ndogo ya hotuba yenye zamu zote (mabadiliko ya sound-to-sound) yanayotokea kwa lugha. Idadi ya diphones inategemea phonotactics ya lugha: kwa mfano, Kihispaniola ina kuhusu diphones 800, na Ujerumani karibu 2500. Katika awali ya diphoni, mfano mmoja tu wa kila diponi ni katika database ya hotuba. Wakati wa kukimbia, vitendo vidogo vya sentensi vinakabiliwa na vitengo hivi ndogo kwa njia ya mbinu za usindikaji wa signal digital kama vile coding linear predictive , PSOLA [26] au MBROLA . [27] au mbinu za hivi karibuni kama vile muundo wa lami katika uwanja wa chanzo kutumia ufumbuzi wa cosine wa pekee [28] Dalili ya kwanza ya Diphone inakabiliwa na glitches ya sonic ya awali ya kupatanishwa na asili ya robotic-sounding ya awali ya awali, na ina faida kadhaa ya mbinu mbali na ukubwa mdogo. Kwa hivyo, matumizi yake katika matumizi ya biashara yanapungua, [ kinachohitajika ] ingawa kinaendelea kutumika katika utafiti kwa sababu kuna idadi ya programu za programu za uhuru.

Usanidi wa awali wa kikoa

Uthibitishaji maalum wa kikoa huthibitisha maneno na misemo iliyorekebishwa ili kutangaza maneno kamili. Inatumiwa katika maombi ambapo aina mbalimbali za maandiko mfumo utatoka ni mdogo kwenye uwanja fulani, kama matangazo ya ratiba ya usafiri au taarifa za hali ya hewa. [29] Teknolojia ni rahisi sana kutekeleza, na imekuwa katika matumizi ya kibiashara kwa muda mrefu, katika vifaa kama saa za kuzungumza na mahesabu. Ngazi ya asili ya mifumo hii inaweza kuwa ya juu sana kwa sababu aina mbalimbali za sentensi ni mdogo, na zinalingana kwa karibu na kinachojulikana na maandishi ya rekodi za awali. [ citation inahitajika ]

Kwa sababu mifumo hii ni mdogo kwa maneno na misemo katika orodha zao za msingi, sio madhumuni ya jumla na zinaweza tu kuunganisha mchanganyiko wa maneno na misemo ambayo wamepangwa kabla. Kuchanganya maneno katika lugha ya kawaida ya lugha bado kunaweza kusababisha matatizo isipokuwa tofauti nyingi zinazingatiwa. Kwa mfano, katika lugha zisizo za rhotic za Kiingereza "r" kwa maneno kama "wazi" / klɪə / kawaida hutumiwa wakati neno linalofuata likiwa na vowel kama barua yake ya kwanza (kwa mfano "wazi nje" inafanywa kama / ˌklɪəɾʌʊt / ). Vile vile katika Kifaransa , maonali wengi ya mwisho hayatakuwa kimya kama ikifuatiwa na neno linaloanza na vowel, athari inayoitwa kuwasiliana . Mchanganyiko huu hauwezi kuzalishwa kwa mfumo rahisi wa kuunganisha neno, ambao utahitaji utata wa ziada kuwa mazingira nyeti .

Muundo wa awali wa

Msingi wa awali hautumii sampuli za hotuba za binadamu wakati wa kukimbia. Badala yake, pato la hotuba ya synthesized hutengenezwa kwa kutumia awali ya kuongezea na mfano wa acoustic (mfano wa kielelezo wa awali ). [30] Parameters kama vile msingi wa mzunguko , sauti , na kelele ni tofauti kwa muda mrefu ili kujenga shabaha ya hotuba ya bandia. Njia hii wakati mwingine huitwa awali-msingi awali ; hata hivyo, mifumo mingi ya masharti pia yana vipengele vya msingi. Mifumo mingi inayotokana na teknolojia ya awali inayotengeneza hutoa hotuba ya bandia, ya robotic ambayo haiwezi kamwe kukosea kwa hotuba ya binadamu. Hata hivyo, asili ya kawaida sio lengo la mfumo wa awali wa hotuba, na mifumo ya awali ya kuunda ina faida juu ya mifumo ya kuunganisha. Mazungumzo yenye ufanisi yanaweza kueleweka kwa uaminifu, hata kwa kasi ya juu sana, kuzuia glitches za acoustic ambazo huwa na matatizo makubwa ya kukubaliana. Kuzungumza kwa kasi ya kasi hutumiwa na kuharibika kwa kuonekana kwa kasi ili upate kompyuta kwa kutumia msomaji wa skrini . Mchanganyiko wa kawaida ni mipango madogo kuliko mifumo ya kupatanisha kwa sababu hawana database ya sampuli ya hotuba. Kwa hiyo wanaweza kutumika katika mifumo iliyoingia , ambapo kumbukumbu na nguvu za microprocessor hupunguzwa. Kwa kuwa mifumo ya msingi inayotengenezwa ina udhibiti kamili wa masuala yote ya hotuba ya pato, aina nyingi za prosodies na maonyesho yanaweza kuwa pato, bila kuwasilisha maswali tu na taarifa, lakini hisia mbalimbali na sauti ya sauti.

Mifano ya muda usio wa kweli lakini udhibiti wa kutosha wa uingizaji wa awali katika kazi ya awali ni pamoja na kazi iliyofanyika mwishoni mwa miaka ya 1970 kwa ajili ya toy ya Texas Instrument Speak & Spell , na katika miaka ya 1980 ya Sega Arcade mashine [31] na katika wengi Atari, Inc. michezo ya Arcade [32] kwa kutumia Chips TMS5220 LPC . Kuunda utaratibu sahihi kwa miradi hii ilikuwa yenye nguvu, na matokeo bado hayajafananishwa na interfaces halisi ya maandishi-kwa-hotuba ya muda. [33]

Msingi wa awali ulifanywa katika vifaa katika synthesizer ya Yamaha FS1R , lakini kipengele cha hotuba cha maandishi haukuwahi kufikiwa katika synth. Ilikuwa na uwezo mfupi, mfululizo wa pili na wa pili ambao unaweza kuzungumza maneno moja, lakini tangu interface ya MIDI ya kudhibiti ilikuwa hotuba ya kuishi haiwezekani.

Ufuatiliaji wa awali wa

Hatua ya awali ya maambukizi inahusu mbinu za kompyuta za kuunganisha mazungumzo kulingana na mifano ya njia ya sauti ya binadamu na taratibu za kujieleza zinazotokea huko. Mchanganyiko wa kwanza wa synthesizer uliotumiwa mara kwa mara kwa majaribio ya maabara ulianzishwa katika Maabara ya Haskins katikati ya miaka ya 1970 na Philip Rubin , Tom Baer, ​​na Paul Mermelstein. Hii synthesizer, inayojulikana kama ASY, ilitokana na mifano ya sauti ya sauti iliyopatikana katika Maabara ya Bell katika miaka ya 1960 na 1970 na Paulo Mermelstein, Cecil Coker, na wenzake.

Mpaka hivi karibuni, mifano ya awali ya maandishi hayakuingizwa katika mifumo ya awali ya hotuba ya kibiashara. Mbali ya kuzingatia ni mfumo wa kisiasa wa NEXT awali ulioanzishwa na kuuzwa na Utafiti wa Sauti ya Trillium, kampuni ya spin-off ya Chuo Kikuu cha Calgary , ambapo utafiti wa awali ulifanyika. Kufuatia uharibifu wa maumbile mbalimbali ya NEXT (yaliyotangulia na Steve Jobs mwishoni mwa miaka ya 1980 na kuunganishwa na Apple Computer mwaka 1997), programu ya Trillium ilichapishwa chini ya GNU General Public License, na kazi inayoendelea kama gnuspeech . Mfumo, ambao ulinunua kwanza mwaka wa 1994, hutoa uongofu kamili wa maandishi-kwa-kuzungumza kwa kutumia mstari wa mstari au uambukizi wa mstari wa mdomo na wa pua ulioongozwa na "mfano wa kanda tofauti" wa Carré.

Wafanyabiashara wa hivi karibuni, ulioandaliwa na Jorge C. Lucero na wenzi wenzake, hujumuisha mifano ya biomechanics ya mijadala, aerodynamics ya glottal na usambazaji wa wimbi la sauti mkali katika pembe za bronqui, traquea, pua na mdomo, na hivyo kuunda mifumo kamili ya simulation ya maandishi ya msingi ya fizikia. [34] [35]

HMM msingi wa awali

Msanidi wa msingi wa HMM ni njia ya awali kulingana na mifano ya siri ya Markov , pia inaitwa Statistical Parametric Synthesis. Katika mfumo huu, wigo wa mzunguko ( njia ya sauti ), frequency ya msingi (chanzo cha sauti), na muda ( prosody ) wa hotuba hufanyika wakati huo huo na HMMs. Maonyesho ya mawimbi yanayotokana na HMM wenyewe kulingana na kigezo cha juu cha uwezekano . [36]

Sinewave synthesis

Sinewave synthesis ni mbinu kwa ajili ya kuunganisha hotuba kwa kuchukua nafasi ya vipengele (bendi kuu za nishati) na sauti za sauti safi. [37]

Changamoto

Changamoto za uhalalishaji wa maandishi

Mchakato wa kawaida wa maandishi haifai moja kwa moja. Maandiko ni kamili ya heteronyms , namba , na vifupisho wote zinahitaji upanuzi katika uwakilishi wa kifonetiki. Kuna spellings nyingi kwa Kiingereza ambazo zinajulikana tofauti kulingana na muktadha. Kwa mfano, "Mradi wangu wa hivi karibuni ni kujifunza jinsi ya kuboresha mradi sauti yangu" ina matamshi mawili ya "mradi".

Mifumo zaidi ya maandishi-kwa-hotuba (TTS) haijatoa uwakilishi wa semantic wa maandiko yao ya pembejeo, kama taratibu za kufanya hivyo ni zisizoaminika, hazielewiki, na hazifanyiki kwa hesabu. Matokeo yake, mbinu mbalimbali za heuristic hutumiwa nadhani njia sahihi ya kuondokana na homographs , kama kuchunguza maneno ya jirani na kutumia takwimu kuhusu mzunguko wa tukio.

Mifumo ya hivi karibuni ya TTS imeanza kutumia HMM (iliyojadiliwa hapo juu) ili kuzalisha " sehemu za hotuba " ili kusaidia kuondokana na homographs. Mbinu hii inafanikiwa sana kwa matukio mengi kama vile "kusoma" inapaswa kutamkwa kama "nyekundu" inayoashiria wakati uliopita, au kama "mwanzi" unaonyesha sasa. Viwango vya makosa ya kawaida wakati wa kutumia HMM kwa namna hii ni kawaida chini ya asilimia tano. Mbinu hizi pia kazi vizuri kwa ajili ya lugha nyingi za Ulaya, pamoja na kwamba upatikanaji wa required mafunzo corpora ni mara nyingi magumu katika lugha hizi.

Kuamua jinsi ya kubadili namba ni tatizo lingine ambalo mifumo ya TTS inapaswa kushughulikia. Ni programu rahisi changamoto ya kubadilisha namba kuwa maneno (angalau kwa Kiingereza), kama "1325" kuwa "elfu moja mia tatu ishirini na tano." Hata hivyo, idadi hutokea katika mazingira mbalimbali; "1325" pia inaweza kusoma kama "moja tatu na tano", "kumi na tatu na ishirini na tano" au "kumi na tatu na ishirini na tano". Mfumo wa TTS unaweza mara nyingi kupungua jinsi ya kupanua namba kulingana na maneno yaliyomo, namba, na punctuation, na wakati mwingine mfumo hutoa njia ya kutaja muktadha ikiwa ni mbaya. [38] Nambari za Kirumi zinaweza pia kusoma tofauti kulingana na mazingira. Kwa mfano, "Henry VIII" inasoma kama "Henry the 8th", wakati "Sura ya VIII" inasoma kama "Sura ya Nane".

Vile vile, vifupisho vinaweza kuwa visivyofaa. Kwa mfano, kifupi "katika" kwa "inchi" lazima ifautwe kutoka kwa neno "ndani", na anwani "12 St John St." hutumia tafsiri sawa kwa wote "Mtakatifu" na "Anwani". Mifumo ya TTS iliyo na mwisho wa akili inaweza kufanya mazoezi ya elimu juu ya vifupisho visivyofaa, wakati wengine hutoa matokeo sawa katika matukio yote, na kusababisha matokeo yasiyo ya nonsensical (na wakati mwingine), kama "ushirikiano" unaotolewa kama "kampuni ya operesheni".

Changamoto za maandishi na phoneme

Mifumo ya awali ya mazungumzo hutumia mbinu mbili za msingi za kuamua matamshi ya neno kulingana na spelling yake, mchakato ambao huitwa mara nyingi kwa maandishi-kwa-phoneme au uongofu wa grapheme -phoneme ( phoneme ni neno linatumiwa na wataalamu kuelezea sauti tofauti lugha ). Njia rahisi zaidi ya uongofu wa maandishi-kwa-phoneme ni njia ya kamusi-msingi, ambapo kamusi kubwa iliyo na maneno yote ya lugha na matamshi yao sahihi yanahifadhiwa na programu. Kuamua matamshi sahihi ya kila neno ni suala la kutazama kila neno katika kamusi na kubadilisha nafasi ya spelling kwa matamshi yaliyotajwa katika kamusi. Njia nyingine ni msingi wa utawala, ambapo sheria za matamshi hutumiwa kwa maneno ili kuamua matamshi yao kulingana na spellings yao. Hii ni sawa na "kupiga sauti", au sauti za maandishi , njia ya kujifunza kusoma.

Kila njia ina faida na vikwazo. Njia ya msingi ya kamusi ni ya haraka na sahihi, lakini inashindwa kabisa ikiwa imepewa neno ambalo siyo katika kamusi yake. Kama ukubwa wa kamusi unakua, pia unahitaji mahitaji ya nafasi ya kumbukumbu ya mfumo wa awali. Kwa upande mwingine, mbinu ya msingi ya utawala inafanya kazi kwa pembejeo yoyote, lakini utata wa sheria huongezeka kwa kiasi kikubwa kama mfumo unazingatia spellings isiyo ya kawaida au matamshi. (Fikiria kuwa neno "la" ni la kawaida sana kwa Kiingereza, lakini ni neno pekee ambalo barua "f" inatajwa [v] . Kwa sababu hiyo, karibu mifumo yote ya awali ya hotuba hutumia mchanganyiko wa njia hizi.

Lugha zilizo na uandishi wa phonemic zina mfumo wa kuandika mara kwa mara sana, na utabiri wa matamshi ya maneno kulingana na spellings yao inafanikiwa kabisa. Mifumo ya awali ya hotuba ya lugha kama hizo hutumia njia ya utawala kwa kiasi kikubwa, kutegemea kamusi tu kwa maneno machache, kama majina ya kigeni na kukopa , ambao matamshi yao hayatambui kutoka kwa spellings yao. Kwa upande mwingine, mifumo ya awali ya hotuba ya lugha kama Kiingereza , ambayo ina mifumo ya kawaida ya spelling, inawezekana zaidi kutegemea kamusi, na kutumia mbinu za msingi za utawala tu kwa maneno yasiyo ya kawaida, au maneno ambayo hayamo katika dictionaries yao.

Tathmini ya changamoto

Tathmini ya thabiti ya mifumo ya awali ya hotuba inaweza kuwa vigumu kwa sababu ya ukosefu wa vigezo vya tathmini ya lengo la kukubaliana. Mashirika tofauti hutumia data tofauti ya hotuba. Mfumo wa awali wa mifumo ya kuzungumza pia inategemea ubora wa mbinu za uzalishaji (ambayo inaweza kuhusisha analog au digital kurekodi) na kwenye vituo vinavyotumiwa kurejesha hotuba. Kwa hiyo, kuchunguza mifumo ya awali ya mazungumzo imeathiriwa na tofauti kati ya mbinu za uzalishaji na vifaa vya replay.

Tangu mwaka wa 2005, hata hivyo, watafiti wengine wameanza kutathmini mifumo ya awali ya hotuba kwa kutumia dataset ya hotuba ya kawaida. [39]

Prosodics na maudhui ya kihisia

Utafiti katika gazeti Mawasiliano ya Mazungumzo na Amy Drahota na wenzake katika Chuo Kikuu cha Portsmouth , Uingereza , waliripoti kwamba wasikilizaji wa rekodi za sauti wanaweza kuamua, kwa kiwango bora zaidi kuliko viwango, ikiwa ni msemaji aliyepiga kelele au sio. [40] [41] [42] Ilipendekezwa kuwa utambulisho wa vipengele vya sauti ambayo ishara ya maudhui ya kihisia inaweza kutumika kutengeneza sauti ya maandishi ya asili zaidi ya asili. Moja ya masuala yanayohusiana ni mabadiliko ya contour ya lami ya hukumu, kutegemea kama ni uthibitisho, uhojiwaji au hukumu ya kiburi. Moja ya mbinu za mabadiliko ya lami [43] hutumia mabadiliko ya cosine katika uwanja wa chanzo (upya wa utabiri wa mstari ). Kama lami synchronous mbinu lami muundo haja lami priori kuashiria wa usanisi usemaji database kwa kutumia mbinu kama vile Go uchimbaji kwa kutumia nguvu plosion index kutumika katika jumuishi linear utabiri mabaki ya alionyesha mikoa ya hotuba. [44]

Vifaa vya kujitolea

Teknolojia ya Mapema (haipatikani tena)

  • Icophone
  • Vikrax
    • SC-01A (mfano wa analog)
    • SC-02 / SSI-263 / "Artic 263"
  • Hati ya jumla SP0256-AL2 (CTS256A-AL2)
  • Darasa la Taifa la Semiconductor DT1050 Digitalker (Mozer - Forrest Mozer )
  • Mifumo ya Silicon SSI 263 (mfano wa analog)
  • Vyombo vya Texas LPC Speech Chips
    • TMS5110A
    • TMS5200
      Kisasa, Sauti ya Binadamu ya Nakala ya Hotuba kwenye Chip
    • MSP50C6XX - Iliizwa kwa Sensory, Inc mwaka 2001 [45]
  • Hitachi HD38880BP (Vanguard Arcade Game SNK 1981)


Sasa (kama ya 2013)

  • Magnevation SpeakJet (www.speechchips.com) TTS256 Hobby na majaribio.
  • Epson S1V30120F01A100 (www.epson.com) IC DECTalk Kulingana sauti, Robotic, Eng / Spanish
  • Textspeak TTS-EM (www.textspeak.com) ICs, Modules na makao ya viwanda katika lugha 24. Sauti ya binadamu, Phoneme msingi.

Vifaa vya vifaa na programu

Mifumo maarufu hutoa awali ya hotuba kama uwezo wa kujengwa.

Mattel

Mattel Intellivision mchezo console ilitoa moduli ya Intellivoice Voice Synthhesis mwaka 1982. Ilijumuisha SP0256 Narrator hotuba synthesizer chip kwenye cartridge removable. Mchoraji alikuwa na 2kB ya Kumbukumbu ya Soma-Tu (ROM), na hii ilitumiwa kuhifadhi dhamana ya maneno ya kawaida yanaweza kuunganishwa ili kufanya misemo katika michezo ya Intellivision. Tangu Chip ya Orator inaweza pia kukubali data ya hotuba kutoka kwenye kumbukumbu ya nje, maneno yoyote ya ziada au misemo inayohitajika inaweza kuhifadhiwa ndani ya cartridge yenyewe. Takwimu zilikuwa na masharti ya coefficients ya analog-chujio ili kurekebisha tabia ya mfano wa synthetic vocal-model mfano, badala ya sampuli rahisi digitized.

SAM

Pia ilitolewa mwaka wa 1982, Software Automatic Mouth ilikuwa mpango wa kwanza wa programu ya awali ya sauti ya programu. Ilikuwa baadaye kutumika kama msingi wa Macintalk . Mpango huo ulipatikana kwa kompyuta zisizo za Macintosh Apple (ikiwa ni pamoja na Apple II, na Lisa), mifano mbalimbali ya Atari na Commodore 64. Toleo la Apple lilichagua vifaa vingine vinavyo na DAC, ingawa inaweza kutumia sauti moja ya kompyuta pato (pamoja na kuongeza ya kuvuruga kiasi) ikiwa kadi haikuwepo. Atari alitumia chip cha sauti ya POKEY iliyoingia. Majadiliano ya kucheza kwenye Atari kawaida ya kuepuka maombi ombi na kufunga chini ANTIC chip wakati wa pato la sauti. Pato la kusikilizwa ni hotuba kubwa sana wakati skrini imeendelea. The Commodore 64 alitumia chip ya audio ya SID iliyoingia 64.

Atari

Kwa hakika, mfumo wa kwanza wa hotuba ulioingizwa kwenye mfumo wa uendeshaji ni kompyuta 1400XL / 1450XL zilizoundwa na Atari, Inc. kwa kutumia Chip ya Votrax SC01 mwaka wa 1983. Kompyuta 1400XL / 1450XL zilizotumia mashine ya Hali ya Mwisho ili kuwezesha maandishi ya Kiingereza ya Kiingereza Spelling -speech awali. [46] Kwa bahati mbaya, kompyuta binafsi za 1400XL / 1450XL hazikutumwa kamwe kwa kiasi.

Kompyuta za Atari ST ziliuzwa kwa "stspeech.tos" kwenye diski ya floppy.

Apple

Mfumo wa kwanza wa hotuba uliounganishwa kwenye mfumo wa uendeshaji uliotumwa kwa wingi ilikuwa MacInTalk ya Apple Computer . Programu hiyo ilisafirishwa kutoka kwa watengenezaji wa chama cha tatu Joseph Katz na Mark Barton (baadaye, SoftVoice, Inc.) na ilianzishwa wakati wa kuanzishwa kwa kompyuta ya Macintosh ya 1984. Demo hii ya Januari ilihitaji 512 kilobytes ya kumbukumbu ya RAM. Matokeo yake, haikuweza kukimbia katika kilobytes 128 za RAM Mac kwanza iliyotumwa. [47] Kwa hiyo, demo ilikamilishwa na mfano wa 512k Mac, ingawa wale waliohudhuria hawakuambiwa na hili na demo ya awali iliunda msisimko mkubwa kwa Macintosh. Mwanzoni mwa miaka ya 1990 Apple iliongeza uwezo wake kutoa sadaka ya kuungwa mkono kwa maandishi-to-speech. Kwa kuanzishwa kwa kompyuta za kasi za PowerPC zinajumuisha sampuli ya sauti ya juu. Apple pia ilianzisha utambuzi wa hotuba katika mifumo yake ambayo imetoa kuweka amri ya maji. Hivi karibuni, Apple imeongeza sauti za sampuli. Kuanzia kama udadisi, mfumo wa hotuba wa Apple Macintosh umebadilishwa katika mpango kamili, PlainTalk , kwa watu walio na matatizo ya maono. SautiOver ilikuwa kwa mara ya kwanza iliyowekwa katika Mac OS X Tiger (10.4). Wakati wa 10.4 (Tiger) & releases ya kwanza ya 10.5 (Leopard) kulikuwa na usafirishaji wa sauti moja tu na Mac OS X. Kuanzia na 10.6 (Snow Leopard), mtumiaji anaweza kuchagua orodha mbalimbali ya sauti nyingi. Maneno ya Sauti ya Sauti hujumuisha kuchukuliwa kwa pumzi halisi ya sauti kati ya sentensi, pamoja na uelewa bora katika viwango vya juu vya kusoma juu ya PlainTalk. Mac OS X pia inajumuisha kusema , maombi ya mstari wa amri ambayo hubadilisha maandishi kwa hotuba ya kusikilizwa. Additions Standard ya AppleScript ni pamoja na kitenzi cha kusema kwamba inaruhusu script kutumia sauti yoyote iliyowekwa na kudhibiti sauti, kiwango cha kuzungumza na ulinganishaji wa maandishi yaliyozungumzwa.

Programu ya uendeshaji iOS ya Apple kutumika kwenye iPhone, iPad na iPod Touch inatumia awali ya hotuba ya VoiceOver kwa upatikanaji. [48] Maombi ya baadhi ya chama pia hutoa awali ya hotuba ili kuwezesha kusafiri, kurasa kurasa za wavuti au maandishi ya kutafsiri.

AmigaOS

SoftVoice.svg

Mfumo wa pili wa uendeshaji wa kuwa na uwezo wa juu wa hotuba ya kuzungumza ilikuwa AmigaOS , iliyoletwa mwaka wa 1985. Uthibitishaji wa sauti uliruhusiwa na Commodore International kutoka SoftVoice, Inc., ambaye pia alianzisha mfumo wa awali wa maandishi kwa mazungumzo ya MacinTalk. Ilikuwa na mfumo kamili wa mchoro wa sauti kwa Kiingereza Kiingereza, na sauti zote za wanaume na za kike na alama za "dhiki" za kiashiria, zinawezekana kupitia chipset ya sauti ya Amiga . [49] Mfumo wa awali umegawanywa katika maktaba ya kutafsiri ambayo ilibadilisha maandiko ya Kiingereza yasiyo na kizuizi kwenye safu ya kawaida ya nambari za simu za simu na kifaa cha mwandishi ambacho kilitekeleza mfano wa kizazi cha hotuba .. AmigaOS pia alionyesha ngazi ya juu " Sema Handler ", ambayo iliruhusu watumiaji wa mstari wa amri kuelekeza pato la maandishi kwa hotuba. Ushauri wa mazungumzo mara kwa mara unatumika katika mipango ya tatu, hasa wasindikaji wa neno na programu ya elimu. Programu ya awali imebakia kwa kiasi kikubwa kutolewa kutoka kwa kwanza ya kutolewa kwa AmigaOS na Commodore hatimaye aliondoa msaada wa awali wa hotuba kutoka kwa AmigaOS 2.1 kuendelea.

Licha ya ukomo wa phoneme wa Amerika ya Kaskazini, toleo la kawaida na awali ya hotuba ya lugha mbalimbali ilitengenezwa. Hii ilitumia toleo la kuimarisha la maktaba ya kutafsiri ambayo inaweza kutafsiri lugha kadhaa, ikitoa seti ya sheria kwa kila lugha. [50]

Microsoft Windows

Mfumo wa kisasa Windows desktop unaweza kutumia SAPI 4 na SAPI vipengele 5 ili kusaidia awali ya hotuba na utambuzi wa hotuba . SAPI 4.0 ilipatikana kama kuongeza kwa hiari kwa Windows 95 na Windows 98 . Mchapishaji wa Windows 2000 aliongeza Mchapishaji , huduma ya maandishi-kwa-hotuba kwa watu wenye uharibifu wa kuona. Programu za chama cha tatu kama vile JAWS kwa Windows, Dirisha-Macho, Upatikanaji usio wa Visual Desktop, Supernova na System Access inaweza kufanya kazi mbalimbali za maandishi-mazungumzo kama vile kusoma masomo kutoka kwa tovuti maalum, akaunti ya barua pepe, hati ya maandiko, Windows clipboard, kuandika keyboard kwa mtumiaji, nk Si mipango yote inaweza kutumia awali ya hotuba. [51] Programu zingine zinaweza kutumia kuziba, upanuzi au kuongeza kuongeza kusoma kwa sauti. Programu za chama cha tatu zinapatikana ambazo zinaweza kusoma maandiko kutoka kwenye clipboard ya mfumo.

Serikali ya Majadiliano ya Microsoft ni mfuko wa seva kwa ajili ya awali ya sauti na utambuzi. Imeundwa kwa matumizi ya mtandao na vituo vya wavuti na vituo vya simu .

Vyombo vya Texas TI-99 / 4A

Katika miaka ya 1980, TI ilikuwa inajulikana kama upainia katika awali ya hotuba, na moduli ya maarufu ya kuziba ya kuzungumza ilipatikana kwa TI-99/4 na 4A. Maneno ya synthesizers yalitolewa bure na ununuzi wa cartridges kadhaa na ilitumiwa na michezo mingi ya video iliyoandikwa TI (vyeo vyema vinavyotolewa na hotuba wakati wa kukuza hii walikuwa Alpiner na Parsec). The synthesizer hutumia tofauti ya coding linear predictive na ina msamiati mdogo katika-kujengwa. Nia ya awali ilikuwa kutolewa kwa cartridges ndogo ambazo zimeunganishwa moja kwa moja kwenye kitengo cha synthesizer, ambacho kinaongeza kifaa kilichojengwa kwa msamiati. Hata hivyo, mafanikio ya programu ya maandishi-kwa-hotuba katika cartridge ya Terminal Emulator II yamefuta mpango huo.

Mfumo wa maandishi kwa mazungumzo

Nakala-kwa-Hotuba ( TTS ) inahusu uwezo wa kompyuta kusoma maandishi kwa sauti. Injini ya TTS inabadilisha maandiko yaliyoandikwa kwa uwakilishi wa phonemic, kisha inabadilisha uwakilishi wa phonemic kwa mawimbi ya mawimbi ambayo yanaweza kuwa pato kama sauti. Mitambo ya TTS yenye lugha tofauti, vichapishaji na msamiati maalum hupatikana kupitia wahubiri wa tatu. [52]

Android

Toleo la 1.6 la Android liliongeza usaidizi wa awali wa hotuba (TTS). [53]

Internet

Hivi sasa, kuna idadi ya programu , mipangilio na gadgets ambazo zinaweza kusoma ujumbe moja kwa moja kutoka kwa mteja wa barua pepe na kurasa za wavuti kutoka kwa kivinjari cha wavuti au Google Toolbar , kama vile Text to Voice , ambayo inaongeza kwenye Firefox . Programu fulani maalumu zinaweza kumsilisha RSS-feeds . Kwa upande mmoja, waandishi wa habari wa RSS mtandaoni hupunguza utoaji wa habari kwa kuruhusu watumiaji kusikiliza vyanzo vya habari vyao vya habari na kugeuza kwa podcasts . Kwa upande mwingine, wasomaji wa RSS kwenye mtandao hupatikana karibu na PC yoyote iliyounganishwa kwenye mtandao. Watumiaji wanaweza kupakua faili za redio zinazozalishwa kwa vifaa vya simu, kwa mfano kwa usaidizi wa mpokeaji wa podcast , na kuwasikiliza wakati wa kutembea, kutembea au kwenda kwa kazi.

Sehemu inayoongezeka katika TTS ya mtandao inayotokana na mtandao ni teknolojia ya usambazaji wa mtandao, kwa mfano ' Browsealoud ' kutoka kampuni ya Uingereza na Msomaji . Inaweza kutoa utendaji wa TTS kwa mtu yeyote (kwa sababu za upatikanaji, urahisi, burudani au maelezo) na upatikanaji wa kivinjari cha wavuti. Pediaphon ya mradi usio na faida iliundwa mwaka 2006 ili kutoa interface sawa ya mtandao wa TTS kwa Wikipedia . [54]

Kazi nyingine inafanyika katika mazingira ya W3C kupitia W3C Audio Incubator Group na ushiriki wa BBC na Google Inc.

Programu huria

Mifumo inayoendesha mifumo ya programu ya bure na ya wazi ikiwa ni pamoja na Linux ni tofauti, na hujumuisha mipango ya chanzo cha wazi kama Mfumo wa Sherehe ya Majadiliano ya Utamaduni ambao hutumia awali ya dimboni, pamoja na mbinu za kisasa zaidi na za kupiga sauti, eSpeak , ambayo inasaidia lugha mbalimbali, na gnuspeech ambayo hutumia mwanzo wa kufanana [55] kutoka kwa Free Software Foundation .

Wengine

  • Kufuatia kushindwa kwa kibiashara kwa Intellivoice ya msingi ya vifaa, watengenezaji wa michezo ya kubahatisha walitumia programu ya awali katika michezo ya baadaye. Mfano maarufu ni maelezo ya utangulizi wa mchezo wa Nintendo ya Super Metroid kwa Mfumo wa Super Nintendo Entertainment . Mfumo wa awali kutoka Atari, kama Atari 5200 (Baseball) na Atari 2600 ( Quadrun na Open Sesame), pia ulikuwa na michezo ya kutumia programu ya awali.
  • Wasomaji wengine wa -e-kitabu , kama vile Kindle ya Amazon , Samsung E6, PocketBook eReader Pro, EnTourage eDGe , na Bebook Neo.
  • BBC Micro imeingiza Chuo cha sauti cha Texas cha TMS5220 cha awali,
  • Baadhi ya mifano ya kompyuta za nyumbani za Texas Vifaa zinazozalishwa mwaka wa 1979 na 1981 ( Texas Instruments TI-99/4 na TI-99 / 4A ) zilikuwa na uwezo wa awali ya maandishi-kwa-phoneme au kusoma maneno kamili na misemo (maandishi-kwa-kamusi) kwa kutumia pembeni maarufu ya Hotuba Synthesizer. TI ilitumia codec ya wamiliki ili kuingiza misemo kamili ya kuzungumza kwenye programu, hasa michezo ya video. [56]
  • IBM OS / 2 Warp 4 ni pamoja na VoiceType, mtangulizi wa IBM ViaVoice .
  • Vitengo vya Navigation GPS zinazozalishwa na Garmin , Magellan , TomTom na wengine kutumia awali ya hotuba kwa urambazaji wa magari.
  • Yamaha alizalisha synthesizer ya muziki mwaka 1999, Yamaha FS1R ambayo ilijumuisha uwezo wa awali wa awali. Ufuatiliaji wa vibali vya 512 binafsi na viambatanisho vya kibinadamu vinaweza kuhifadhiwa na kupakiwa, kuruhusu misemo fupi ya sauti ili kuunganishwa.

Ufafanuzi wa sauti za sauti

Kwa utangulizi wa 2016 wa uhariri wa sauti ya Adobe Voco na kuzalisha programu ya programu iliyopangwa kuwa sehemu ya Suite ya Adobe Creative na DeepMind WaveNet iliyowezeshwa sawa , programu ya kina ya neural mtandao msingi wa sauti kutoka kwa Google [57] awali ya hotuba ya sauti inaonekana kuwa haijulikani kabisa kutoka kwa sauti halisi ya mwanadamu.

Adobe Voco inachukua takriban 20 dakika ya usemi lengo taka na baada ya hapo inaweza kuzalisha sauti sauti-sawa na hata fonimu ambao haukuwa na katika nyenzo za mafunzo . Programu hiyo inaelezea wasiwasi wa kimaadili kama inaruhusu kuiba sauti za watu wengine na kuwatumia kusema kitu chochote kilichotaka. [58]

Hii huongeza mkazo juu ya hali ya kutofahamika pamoja na ukweli kwamba

  • Utangulizi wa picha ya kibinadamu tangu miaka ya 2000 iliyopita imeboresha zaidi ya hatua ya kukosa uwezo wa binadamu kuwaambia picha halisi ya kibinadamu yenye kamera halisi kutoka kwa simulation ya mwanadamu imaged na simulation ya kamera.
  • Mbinu za upigaji wa video 2D ziliwasilishwa mwaka 2016 ambazo zinaruhusu karibu bandia ya muda halisi ya maneno ya uso katika video iliyopo ya 2D. [59]

Lugha za awali za markup ya mazungumzo

Lugha kadhaa za markup zimeanzishwa kwa ajili ya tafsiri ya maandishi kama hotuba katika muundo wa XML- uliozingatia. Lugha ya hivi karibuni ni Lugha ya Usanii wa Usanidi wa Maneno (SSML), ambayo ilipata mapendekezo ya W3C mwaka 2004. Lugha za zamani za lugha za uhuishaji zinajumuisha lugha ya Ujumbe wa Markup ya Jumuiya ( JSML ) na SABLE . Ingawa kila moja ya haya yalipendekezwa kuwa kiwango, hakuna hata mmoja wao aliyekubaliwa sana.

Lugha za uandishi wa awali za hotuba zinajulikana kutoka kwa lugha za markup za mazungumzo. SautiXML , kwa mfano, inajumuisha vitambulisho vinavyohusiana na utambuzi wa maneno, usimamizi wa mazungumzo na kupiga simu ya touchtone, pamoja na markup ya maandishi-kwa-hotuba.

Maombi

Ushauri wa mazungumzo umekuwa ni chombo muhimu cha teknolojia ya kusaidia na maombi yake katika eneo hili ni muhimu na yameenea. Inaruhusu vikwazo vya mazingira kuondolewa kwa watu wenye ulemavu mbalimbali. Matumizi ya muda mrefu yamekuwa katika matumizi ya wasomaji wa screen kwa watu wenye uharibifu wa kuona , lakini mifumo ya maandishi-kwa-hotuba sasa hutumiwa na watu wenye dyslexia na matatizo mengine ya kusoma pamoja na watoto wa kabla ya kujifunza. Pia huajiriwa mara kwa mara ili kuwasaidia wale walio na uharibifu mkubwa wa hotuba kawaida kwa njia ya misaada ya mawasiliano ya pato la sauti iliyotolewa.

Mbinu za awali za mazungumzo pia hutumiwa katika uzalishaji wa burudani kama vile michezo na michoro. Mnamo mwaka 2007, Animo Limited alitangaza maendeleo ya programu ya programu ya programu ya msingi ya FineSpeech, ambayo inaelezea wazi kwa wateja katika viwanda vya burudani, na uwezo wa kuzalisha maelezo na mistari ya mazungumzo kulingana na maelezo ya mtumiaji. [60] Maombi yalifikia ukomavu mwaka 2008, wakati NEC Biglobe alitangaza huduma ya mtandao ambayo inaruhusu watumiaji kuunda maneno kutoka kwa sauti za Code Geass: Lelouch ya herufi ya Rebellion R2 . [61]

Katika miaka ya hivi karibuni, Nakala ya Hotuba ya ulemavu na vifaa vya kuwasiliana na walemavu imetumiwa sana katika Misa ya Misa. Nakala ya Hotuba pia hupata maombi mapya nje ya soko la ulemavu. Kwa mfano, awali ya hotuba, pamoja na utambuzi wa hotuba , inaruhusu kuingiliana na vifaa vya simu kupitia interfaces ya usindikaji wa lugha ya asili .

Mazungumzo ya maandishi yanatumiwa pia katika upatikanaji wa lugha ya pili. Voki, kwa mfano, ni chombo cha elimu kilichoundwa na Oddcast ambayo inaruhusu watumiaji kuunda avatar yao ya kuzungumza, kwa kutumia accents tofauti. Wanaweza kutumiwa barua pepe, zilizoingia kwenye tovuti au kushiriki kwenye vyombo vya habari vya kijamii.

Aidha, awali ya hotuba ni misaada muhimu ya computational kwa uchambuzi na tathmini ya matatizo ya hotuba. Sauti ya sauti ya synthesizer, iliyotengenezwa na Jorge C. Lucero et al. Chuo Kikuu cha Brasilia , hufananisha fizikia ya phonation na inajumuisha mifano ya jitter ya mjadala na kutetemeka, kelele za hewa na asymmetries ya laryngeal. [34] The synthesizer imekuwa kutumika kufuatilia timbre ya wasemaji dysphonic na ngazi kudhibitiwa ya ugumu, breathiness na matatizo. [35]

API

Makampuni mengi hutoa API za TTS kwa wateja wao ili kuongeza kasi ya maendeleo ya programu mpya za kutumia teknolojia ya TTS. Makampuni ya kutoa API za TTS ni AT & T , CereProc , DIOTEK , IVONA , Neospeech , Readspeaker , SYNVO , YAKiToMe! na CPqD . Kwa ajili ya maendeleo ya programu ya simu ya mkononi, mfumo wa uendeshaji wa Android umetoa maandishi kwa maandishi API kwa muda mrefu. Hivi karibuni, na iOS7 , Apple ilianza kutoa API ya maandishi kwa hotuba.

Stephen Hawking ni mmojawapo wa watu maarufu sana kutumia kompyuta ya hotuba ili kuwasiliana

Angalia pia

  • Awali ya hotuba ya Kichina
  • Kulinganisha kwa wasomaji wa skrini
  • Kulinganisha ya synthesizers ya hotuba
  • Euphonia (kifaa)
  • Ofisi isiyo na karatasi
  • Usindikaji wa mazungumzo
  • Kielelezo cha hotuba ya kimya
  • Nakala ya hotuba katika televisheni ya digital

Marejeleo

  1. ^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system . Cambridge University Press. ISBN 0-521-30641-8 .
  2. ^ Rubin, P.; Baer, T.; Mermelstein, P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America . 70 (2): 321–328. doi : 10.1121/1.386780 .
  3. ^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis . Springer. ISBN 0-387-94701-9 .
  4. ^ Van Santen, J. (April 1994). "Assignment of segmental duration in text-to-speech synthesis". Computer Speech & Language . 8 (2): 95–128. doi : 10.1006/csla.1994.1005 .
  5. ^ History and Development of Speech Synthesis , Helsinki University of Technology, Retrieved on November 4, 2006
  6. ^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine", J. B. Degen, Wien). (in German)
  7. ^ Mattingly, Ignatius G. (1974). Sebeok, Thomas A., ed. "Speech synthesis for phonetic and phonological models" (PDF) . Current Trends in Linguistics . Mouton, The Hague. 12 : 2451–2487.
  8. ^ Sproat, Richard W. (1997). Multilingual Text-to-Speech Synthesis: The Bell Labs Approach . Springer. ISBN 0-7923-8027-4 .
  9. ^ Kurzweil, Raymond (2005). The Singularity is Near . Penguin Books . ISBN 0-14-303788-9 .
  10. ^ Klatt, D (1987). "Review of text-to-speech conversion for English". Journal of the Acoustical Society of America . 82 (3): 737–93. doi : 10.1121/1.395275 .
  11. ^ Lambert, Bruce (March 21, 1992). "Louis Gerstman, 61, a Specialist In Speech Disorders and Processes" . New York Times .
  12. ^ "Arthur C. Clarke Biography" . Archived from the original on December 11, 1997 . Retrieved 1997-12-11 . Check date values in: |access-date= ( help )
  13. ^ "Where "HAL" First Spoke (Bell Labs Speech Synthesis website)" . Bell Labs. Archived from the original on 2000-04-07 . Retrieved 2010-02-17 .
  14. ^ Anthropomorphic Talking Robot Waseda-Talker Series Archived 2016-03-04 at the Wayback Machine .
  15. ^ TSI Speech+ & other speaking calculators
  16. ^ Gevaryahu, Jonathan, "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide" [ dead link ]
  17. ^ Breslow, et al. US 4326710 : "Talking electronic game", April 27, 1982
  18. ^ Voice Chess Challenger
  19. ^ Gaming's most important evolutions Archived 2011-06-15 at the Wayback Machine ., GamesRadar
  20. ^ Szczepaniak, John (2014). The Untold History of Japanese Game Developers . 1 . SMG Szczepaniak. pp. 544–615. ISBN 978-0992926007 .
  21. ^ Taylor, Paul (2009). Text-to-speech synthesis . Cambridge, UK: Cambridge University Press. p. 3. ISBN 9780521899277 .
  22. ^ Alan W. Black , Perfect synthesis for all of the people all of the time. IEEE TTS Workshop 2002.
  23. ^ John Kominek and Alan W. Black . (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.
  24. ^ Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning , masters thesis, Section 5.6 on page 54.
  25. ^ William Yang Wang and Kallirroi Georgila. (2011). Automatic Detection of Unnatural Word-Level Segments in Unit-Selection Speech Synthesis , IEEE ASRU 2011.
  26. ^ "Pitch-Synchronous Overlap and Add (PSOLA) Synthesis" . Archived from the original on February 22, 2007 . Retrieved 2008-05-28 .
  27. ^ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings , 1996.
  28. ^ Muralishankar, R; Ramakrishnan, A.G.; Prathibha, P (2004). "Modification of Pitch using DCT in the Source Domain". Speech Communication . 42 (2): 143–154. doi : 10.1016/j.specom.2003.05.001 .
  29. ^ L.F. Lamel, J.L. Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology , September 1993.
  30. ^ Dartmouth College: Music and Computers Archived 2011-06-08 at the Wayback Machine ., 1993.
  31. ^ Examples include Astro Blaster , Space Fury , and Star Trek: Strategic Operations Simulator
  32. ^ Examples include Star Wars , Firefox , Return of the Jedi , Road Runner , The Empire Strikes Back , Indiana Jones and the Temple of Doom , 720° , Gauntlet , Gauntlet II , A.P.B. , Paperboy , RoadBlasters , Vindicators Part II , Escape from the Planet of the Robot Monsters .
  33. ^ John Holmes and Wendy Holmes (2001). Speech Synthesis and Recognition (2nd ed.). CRC. ISBN 0-7484-0856-8 .
  34. ^ a b Lucero, J. C.; Schoentgen, J.; Behlau, M. (2013). "Physics-based synthesis of disordered voices" (PDF) . Interspeech 2013 . Lyon, France: International Speech Communication Association . Retrieved Aug 27, 2015 .
  35. ^ a b Englert, Marina; Madazio, Glaucya; Gielow, Ingrid; Lucero, Jorge; Behlau, Mara (2016). "Perceptual error identification of human and synthesized voices" . Journal of Voice . doi : 10.1016/j.jvoice.2015.07.017 .
  36. ^ "The HMM-based Speech Synthesis System" . Hts.sp.nitech.ac.j . Retrieved 2012-02-22 .
  37. ^ Remez, R.; Rubin, P.; Pisoni, D.; Carrell, T. (22 May 1981). "Speech perception without traditional speech cues" (PDF) . Science . 212 (4497): 947–949. doi : 10.1126/science.7233191 . PMID 7233191 .
  38. ^ "Speech synthesis" . World Wide Web Organization.
  39. ^ "Blizzard Challenge" . Festvox.org . Retrieved 2012-02-22 .
  40. ^ "Smile -and the world can hear you" . University of Portsmouth. January 9, 2008. Archived from the original on May 17, 2008.
  41. ^ "Smile – And The World Can Hear You, Even If You Hide" . Science Daily . January 2008.
  42. ^ Drahota, A. (2008). "The vocal communication of different kinds of smile" (PDF) . Speech Communication . 50 (4): 278–287. doi : 10.1016/j.specom.2007.10.001 .
  43. ^ Muralishankar, R.; Ramakrishnan, A. G.; Prathibha, P. (February 2004). "Modification of pitch using DCT in the source domain" . Speech Communication . 42 (2): 143–154. doi : 10.1016/j.specom.2003.05.001 . Retrieved 7 December 2014 .
  44. ^ Prathosh, A. P.; Ramakrishnan, A. G.; Ananthapadmanabha, T. V. (December 2013). "Epoch extraction based on integrated linear prediction residual using plosion index" . IEEE Trans. Audio Speech Language Processing . 21 (12): 2471–2480. doi : 10.1109/TASL.2013.2273717 . Retrieved 19 December 2014 .
  45. ^ EE Times. " TI will exit dedicated speech-synthesis chips, transfer products to Sensory ." June 14, 2001.
  46. ^ "1400XL/1450XL Speech Handler External Reference Specification" (PDF) . Retrieved 2012-02-22 .
  47. ^ "It Sure Is Great To Get Out Of That Bag!" . folklore.org . Retrieved 2013-03-24 .
  48. ^ "iPhone: Configuring accessibility features (Including VoiceOver and Zoom)" . Apple . Retrieved 2011-01-29 .
  49. ^ Miner, Jay ; et al. (1991). Amiga Hardware Reference Manual (3rd ed.). Addison-Wesley Publishing Company, Inc. ISBN 0-201-56776-8 .
  50. ^ Devitt, Francesco (30 June 1995). "Translator Library (Multilingual-speech version)" . Archived from the original on 26 February 2012 . Retrieved 9 April 2013 .
  51. ^ "Accessibility Tutorials for Windows XP: Using Narrator" . Microsoft. 2011-01-29 . Retrieved 2011-01-29 .
  52. ^ "How to configure and use Text-to-Speech in Windows XP and in Windows Vista" . Microsoft. 2007-05-07 . Retrieved 2010-02-17 .
  53. ^ Jean-Michel Trivi (2009-09-23). "An introduction to Text-To-Speech in Android" . Android-developers.blogspot.com . Retrieved 2010-02-17 .
  54. ^ Andreas Bischoff, The Pediaphon – Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones , PDA's and MP3-Players, Proceedings of the 18th International Conference on Database and Expert Systems Applications, Pages: 575–579 ISBN 0-7695-2932-1 , 2007
  55. ^ "gnuspeech" . Gnu.org . Retrieved 2010-02-17 .
  56. ^ "Smithsonian Speech Synthesis History Project (SSSHP) 1986–2002" . Mindspring.com . Retrieved 2010-02-17 .
  57. ^ "WaveNet: A Generative Model for Raw Audio" . Deepmind.com . 2016-09-08 . Retrieved 2017-05-24 .
  58. ^ "Adobe Voco 'Photoshop-for-voice' causes concern" . BBC.com . BBC . 2016-11-07 . Retrieved 2017-06-18 .
  59. ^ Thies, Justus (2016). "Face2Face: Real-time Face Capture and Reenactment of RGB Videos" . Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Retrieved 2016-06-18 .
  60. ^ "Speech Synthesis Software for Anime Announced" . Anime News Network. 2007-05-02 . Retrieved 2010-02-17 .
  61. ^ "Code Geass Speech Synthesizer Service Offered in Japan" . Animenewsnetwork.com. 2008-09-09 . Retrieved 2010-02-17 .

Viungo vya nje