BeszédÜberChart

A VIK Wikiből
A lap korábbi változatát látod, amilyen (vitalap) 2012. október 21., 19:54-kor történt szerkesztése után volt. (Új oldal, tartalma: „{{GlobalTemplate|Infoalap|BeszedUberPuska}} Mivel se az infositeon se a wikin nem volt egy táblázat fontos adatokról, létrehoztunk egyet. Bővítsétek, mert nekt…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


Mivel se az infositeon se a wikin nem volt egy táblázat fontos adatokról, létrehoztunk egyet. Bővítsétek, mert nektek is jó! Pecc, Neu

Tartalomjegyzék

Hangok osztályozása gerjesztés szerint

  • zöngés: az összes magánhangzó, b, d, g, gy, v, j, m, n, ny, l, r
  • zörejes: p, t, ty, k, c, cs, f, sz, s, j*, h
  • kevert: dz, dzs, z, zs

Hangok osztályozása szerkezet szerint

  • Egyszerű: az összes magánhangzó, v, f, z, sz, zs, s, j, h, m, n, l
  • Összetett: b, p, d, t, g, k, gy, ty, c, cs, dz, dzs, ny, r

Hangok osztályozása illeszkedésük szerint

  • Stabil: gy, ty, j, n, ny, r
  • Kölcsönösen illeszkedő: b,p, d, t, dz, c, dzs, cs, v, f, z, sz, zs, s, h, m, l, az összes magánhangzó (?)
  • Erősen illeszkedő: g, k

Osztályozás vizuálisoknak

besz_hang_osztalyozas.jpg

Mássalhangzók osztályozása hangképzés szerint

  • Nazális: m, n, ny, ng
  • Likvida: l, j
  • Pergő: r
  • Felpattanó zárhang: t,d,p,b,k,g,ty,gy
  • Réshang: f,v,s,zs,sz,z,h
  • Zár-réshang (affrikáta): c,cs,dz,dzs

Magánhangzók formánsai

(A CD-ről kimásolva)

mgh_F1_F2.png


Mássalhangzók formánsai, zörejgócai

(A CD-ről kimásolva)

msh_F_Z.png

Gépi beszédfelismerők jellemzése

Mőködési elv:

  • Szabálybázisú
  • Statisztikai alapú: HMM, ANN
  • Sablon alapú: DTW (Dynamic Time Warping)

Használat módja:

  • Spontán beszéd (folyamatos beszéd, pl diktáló rendszerek)
  • Parancsmódú vezérlés (izolált szavas)
  • Dialógusvezérlés (kapcsolt szavas, a szavak közötti szünetek minimálisak)

Méret:

  • Kicsi: párszáz szó
  • Közepes
  • Nagy: 20-80 ezer szo

Beszédfelismerő rendszereket minősitési szempontok

  • statisztikai alapú (HMM, ANN) vagy szabálybázis/tudásalapú
  • beszélıfüggetlen, beszélıfüggı vagy adaptív (avagy beszélık száma alapján)
  • akusztikus környezet alapján: robusztus (zajos környezetben is használható), távbeszélı minıséggel vagy kiváló hangminıséggel mőködik csak
  • szociolingvisztika: dialektusra, korra és nemre érzékeny e
  • artikuláció alapján: izolált szavas, kapcsolt szavas vagy folytonos (diktáló) rendszer
  • szótárméret: kis (<100 szó), közepes vagy nagy (>20.000 szó)
  • beszédstílus: spontán, parancsmódú vagy dialógus-menüszerő
  • nyelvfüggés-nyelvazonosítás
  • alkalmazói környezet: szakembereknek vagy laikusoknak, egyfelhasználós vagy sokfelhasználós

Prozódia

A prozódia a beszéddallam, a hangsúly, a ritmus, a hangero, a tempó és a hangszínezet nyelvi használata, a beszédképzés szupraszegmentális szintjének része. [forrás: Beszéd CD, 7.oldal]

Komponensei:

  • Dallam
  • Hangsúly (ezen belül alkomponensek: alapfrekvencia, intenzitás, idıtartam)
  • Ritmus
  • Hangszín (?)


Jellemző beszédfrekvenciák

A folyamatos beszéd átlagos F0 alapfrekvenciái [Hz]:

  • férfiaknál: 100-200
  • nőknél: 150-300
  • gyerekeknél: 250-600

forrás: beszedakusztika_gyak_2005.pdf

Triádos megoldósdi

Egy triádos adatbázisú, hullámforma-összefűzéses szintetizátorral a következő mondatot állítjuk elő: "Miért 40% a határ?". Írja le milyen feldolgozási lépések valósulnak meg a példamondaton, amíg a szövegből a végleges hullámforma előáll! (Volt ZH kérdés is - 2009 ősz)

  • Első lépés: Graféma->Graféma konverziók, avagy a különféle jelölések feloldása, hogy csak betű legyen az output, mégpedig: "Miért negyven százalék a határ?"
  • Graféma->Fonéma konverziók avagy a g és y nem külön g és y hanem "gy". Karakterek helyett beszédhangokat írunk. Ezt valami SAMPA átírással lehetne jól leírni.
  • Fonéma->Fonéma konverziók avagy nem negyven-nek ejtjük ezt a szót így, hanem netyven-nek. Hasonulások, összeolvadások, rövidülések, kivetések. Eredmény (SAMPA-ban lenne ildomos írni): Mi(j)ért netyven százalék a határ?
  • Mindezekkel párhuzamosan fontos a prozódia mondatszintű, szószintű stb lebontása, relatív megadása. Ugyanígy intenzitással is. Amennyire lehetséges, hangsúlyhatárokat is bejelöljük (pl vessző előtt felmegy).
  • Ha mindez megvan, egy adatmátrixot kapunk, melyben a szöveg minden lényeges elemét hangokra lebontva megadtuk, ami a kiejtéshez kell.

Ezek főbb vonalakban: frázishatárok, szünetek, hangsúly, időtartam, F0, F0 töréspont, intenzitás. Utóbbi 4-et %-ban célszerű megadni.

  • Ezt az adatmátrixot kapja meg a triádos beszédgenerátor.
  • A beszédgenerátor veszi a hangkódokat a jelölésnek megfelelően. CVC helyzetbe triádot keres, egyéb helyzetekben pedig diádot.
  • Ezek hangosságát, frekvenciaszerkezetét és periódusidejét megváltoztatja a megadott százalékoknak stb. megfelelően.
  • A szükséges helyekre megfelelő nagyságú szünetet illeszt be.
  • Az egyes elemeket simító algoritmusokkal összefűzi.
  • Utolsó lépés: a profit!

Definiciók és kiskérdések

Majdnem abc sorrendben..

Aliasing

Ez a jelenség azt eredményezi, hogy a mintavételezett hullámforma torzulni fog visszaállításkor. Pl.: a Nyquist kritérium szerint 10 000 Hz mintavételezési frekvencia mellett az 5000 Hz feletti frekvenciájú hangkomponensek torzulni fognak visszaállításkor. Ezt úgy kezelik, hogy egy alul áteresztő anti-aliasing filterrel kiszűrik az 5000 Hz feletti komponenseket.

Alapfrekvencia (pitch)

Az alapfrekvencia, azaz F0. A PSOLA (Pitch Synchronous Overlap Add Method) eljárás az alapfrekvenciát változtatja a beszéd dallamának változtatása érdekében.

Akusztikus vs nyelvi mód

Az akusztikus modell az egyes beszédhangokra ad egy referencia-jellemzővektorokat, míg a nyelvi modell a beszédhangok kombinációs lehetőségeit adja meg szótárak segítségével, illetve akár a ragozáshoz nyújt megfelelő szabálybázist.

Artikulációs sebesség Milyen érték jellemző a magyarra? Mi a beszédsebesség?

Az artikulációs sebesség az időegység alatt ejtett hasznos beszédhangok száma folyamatos ejtésnél, szünetek nélkül. A magyar beszédnél tipikus értéke 13 hang/s. A beszédsebesség a beszéd hangzásának teljes idejében, szünetekkel, időegység alatt elhangzott beszédhangok száma, a nem hasznos beszédjeleket is beleértve. (Magyar beszédnél 14 hang/s) artikulációs sebesség <= beszédsebesség

Akusztikai dB és a Phon érték kapcsolata

A Phon görbe az azonos hangosságérzetű görbék serege, ahol a referencia-frekvencia az 1 kHz. Azaz 1kHz-es hangok esetén a Phon érték megegyezik az akusztikai dB-el.

Beszédkódolók

PCM: Pulse Code Modulation (logaritmikus), ezen belül van az A-law (EU) és -law (USA). Lineáris kvantálás. LPC - lineáris predikció. MPEG (layer 3).

DTMF

Dual Tone MultiFrequency, DTMF jelek esetén nincs beszédjel, így zavarja az érthetıséget, mert 2 szinusz hang szólal csak meg, így a jel spektrumában könnyen felismerhetı lesz a 2 kiugró amplitudó

F2 és B2? HOgyan határozhatóak meg?

F2 a beszédjel második formánsa, avagy az akusztikum második legkisebb felerısített felhangnyalába, a B2 pedig ennek a formánsnak a sávszélessége. F2 meghatározható a jel spektrumából, ez a második legkisebb erısítési hely (lokális maximum), a

B2- t pedig ezen a maximum alatt 3 dB-lel meghúzott vonal és a burkológörbe metszéspontja jelöli ki.

ITU P.800?

Az ETSI egyik szubjektív beszédminısítı szabványa. Minısíthetünk abszolút módon, elıre definiált skála alapján (ACR) 'jelenség' észlelési tesztek romlás megfigyelése eredetihez képest (DCR) referencia rendszerrel összehasonlítás (MNRU)

ergodikus

A folyamat tulajdonsága. Ha a folyamat ergodikus, akkor 1 folyamat is magában hordozza a sokaság tulajdonságait.

F1

Az első formáns. Magánhangzók jellemzéséhez a formánsokat használjuk. Az alapfrekvencia az F0, ennek egészszámú többszörösei a formánsok. F1 az F0-hoz legközelebb eső formáns.

HMM

Hidden Markov Model - Rejtett Markov Model. Statisztikai alapú beszédfelismerési módszer.

Hanning-ablak és a szonogram kapcsolata?

Ha gördülő spektrumot avagy szonogramot szeretnénk készíteni, akkor az időben folytonos jelünket bizonyos kis szeletekben mintavételeznünk kell. A kis kivágott időintervallumokból akkor kapunk jó spektrumot, ha azt megfelelően kiablakozzuk és nem csak simán kivágjuk egy négyzetes ablakkal. Egy ilyen jól bevált ablakozó függvény a Hanning ablak, melynek képlete: ***** fix me *****

LPC

Lineáris predikció. Bizonyos esetekben ha nem a mintát, hanem a minták különbségét kvantáljuk, akkor kevesebb biten tudjuk átvinni ugyanazt az információt (tömörítés).

Locus, az F2 és F0 kapcsolata?

A CV átmenet jellegzetessége a locus: megfigyelték, hogy pl. a d után ejtett magánhangzók felfutó szakaszait, ha visszafelé meghosszabbítjuk, ezek egy pontban metszik egymást – a legtöbb mássalhangzó az őt követő magánhangzó vagy őt megelőző magánhangzó második formánsát (F2) a szóban forgó mássalhangzót jellemző frekvenciára kényszeríti, ezek a locusok. Az F2 pedig nem más, mint a hangszalagoknál képzett gerjesztő jel alapfrekvenciájából (F0) a vokális traktusban felerősített, második legkisebb felhang-nyaláb (Fn).

Néma fázis. Sorolja fel az összes beszédelemet, amelyre vonatkozhat!*

Néma fázis: A zárhangok azon része, amelyben nincs hangképzés. A tüdőből kiáramló levegő a toldalékcsőben képzett akadály miatt feltorlódik és a zárfelpattanásig levegőáram nem hagyja el az artikulációs csatornát. A fentiek alapján néma fázis található a zöngétlen zár- és zárréshangoknál így: p, t, k, ty, c, cs.

Négyszögletes ablak. Mi a szerepe a beszédfeldolgozásban?

A Fourier-integrálás során egy kis idıkeret analízise úgy történhet meg, hogy az idıben folyamatos jelet egymással átlapolódó négyszögletes ablakokkal kiablakozzuk. Így kis idıszakaszokra megkaphatjuk a jel spektrumát, ami a magasabbrendo

Mikor és ki készítette az első beszédkeltő gépet a világon? Hol látható?

Kempelen Farkas, *1791*-ben. Ma az MTA Nyelvtudományi Intézetében látható. (legalábbis ajánlom neki h ottlegyen..) Mikor és ki adta be a világ első szabadalmát tetszőleges szöveg felolvasására alkalmas beszélőgépre? Bánó Miklós, *1916*-ban.

MP3

MPEG-1 Audio Layer 3. (nem MPEG-3) Veszteséges tömörítés. Az emberi fül számára nem hallható hangokat eldobja. Részletesebben: Érzeti (részsávos kódolás) percetptual (subband) coding Frekvenciamaszkolási jelenség (elfedés a frekvenciatartományban)

 1)minden sávra megállapítjuk, hogy milyen energiájú összetevok vannak a jelben
 2)az elfedett összetevok kihagyása
 3)a kvantálási zaj növelésének lehetősége: úgy kvantálunk, hogy a kvantálási zaj ne legyen nagyobb, mint az elfedési szint (itt a tömörítési lehetőség)

Mintaillesztési eljárások

Szabályalapú, statisztikai alapú (HMM - Hidden Markov Model és ANN - Artificial Neuro Network ) illetve sablon alapú (DTW).

Megfigyelési valósznűség

Azt az értéket adja meg, hogy mennyi annak a valószínűsége, hogy egy HMM rendszer x állapotában j jellemzővektort figyeljünk meg.

VXML

Voice eXtended Markup Language - dialógusok leírására alkalmas

Mi a VXML, a SUI és a DTMF kapcsolata a beszédinformációs rendszerekkel?

Mindegyik a beszédinformációs rendszerek felépítését segíti, illetve annak egy eleme. A VXML avagy Voice eXtensible Markup Language interaktív dialógusok leírását és tervezését könnyíti meg ember és számítógép között. A SUI avagy Speech User Interface az ember-gép kapcsolatot beszéd és hangok által teremti meg. A DTMF avagy Dual Tone Multi Frequency egy jeltovábbítási megoldás avagy mechanizmus a normál telefonvonalon keresztül, ahol 2 frekvencia együttes megszólaltatásával összesen 16 különböző jelet generálhatunk (4*4=16).

Relatív hangosság. Hányszorosa a hangosság a 40 phon hangnak?

Képlettel: N = 2 ^ [(L - 40) / 10] L: phon , hangosságérzet. 40 phon = 1 son, 50 phon = 2 son , 60 phon = 4 son stb.

SAMPA. Van-e szerepe a beszédértésben? Kapcsolatba hozható-e a jel spektrumával?

SAMPA: Speech Assessment Methods Phonetic Alphabet. Beszédhangok jelölése 7 bites ASCII karakterekkel. A SAMPA-val a beszédhangok egyértelmően leírhatók, segíthet a beszédértésben. Szerintem nem hozható kapcsolatba a jel spektrumával. Vagy csak nagyon összetett, indirekt módon.

SNR

Snr = 1.74 + 6.02 * 16 bit = 98.06dB

Screen reader és TTS kapcsolata

A screen reader csak egy illesztı alkalmazás a képernyı és a TTS között, a képernyın található információt adja át felolvasásra a TTS számára.

Spektrális átlapolódás oka mintavételezéskor? Hogyan előzhető meg? Adjon példát.

Spektrális átlapolódás: ha a hang mintavételezésénél a mintavételezési frekvencia kisebb, mint a legnagyobb frekvenciakomponens kétszerese, a visszaállításnál nemkívánatos jelek kerülnek visszaállításra, a jel nem állíthatő elő egyértelműen/hűségesen. Megelőzhető megfelelő karakterisztikájú aluláteresztő szűrővel a bemeneten. (Sávkorlátozás) Példát mindenki remélem tud adni ezek alapján :]

Triád

Egy triádos adatbázisban három hosszú hangkombinációkra tároljuk a hullámformákat. A tárolt adatok mennyisége ezért a fonémák köbével arányos. A tárolt hang az első fonéma közepénél kezdődik és a harmadik közepénél fejeződik be.

  • Elınyei: A magánhangzóknál nem lép fel torzítás a formánsok megtörése miatt. Természetesebb hangzás Könnyebb szövegtervezés
  • Hátrányai: Sok munkát jelent a felvétel Sok memóriát foglal Sok szöveget kell felolvastatni Diádokat és egyéb elemeket is igényel az adatbázis


Teljesítmény sűrűség spektrum

Az akusztikai dB-ből visszakövetkeztethetünk a hangjel amplitudójára (10-es hatványraemelés), az így kapott időjel négyzete a teljesítmény sűrűség spektrum. (ha jól mondom :] )

*VOT* A beszédjel mely részén mérhető? Adjon 5 konkrét példát indoklással!

VOT: Voice Onset Time avagy zöngekezdési idő felpattanó zárhangok esetén a zár felpattanása és az azt követő magánhangzó megszólalása között eltelt idő Tipikusan a beszéd azon helyen mérhető, ahol gerjesztésváltás történik, és zöngétlen hangot zöngés hang követ. A fentiek fényében a VOT pl. p után 8ms, t után 15ms, k után 26ms. (Ide lényegesen többet nem tudok írni, főleg az indoklás részét nem értem)