Beszed vizsga 20060522

A VIK Wikiből
A lap korábbi változatát látod, amilyen Kiskoza (vitalap | szerkesztései) 2013. október 15., 07:47-kor történt szerkesztése után volt.
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)
Ugrás a navigációhoz Ugrás a kereséshez

Fealdatsor: 2006-05-22

1. feladat

Mondjon 3-3 példát arra, hogy milyen tényezők okozzák az akusztikai paraméterek variáltságát, egy személyen belül és a személyek között.
Személyen belül:

  • érzelmi állapot (nem sikerült beszédvizsga, lediplomáztam, lemerült a telóm)
  • egészségügyi állapot (rekedt, megfázott, csuklik)
  • szituáció (családi ebéd, szónoklat, történetmesélés)
  • ...

Személyek közötti:

  • nem (női hang magasabb, ffi mélyebb)
  • ritmus (hadar, dadog, megfontolt)
  • beszédhibák (selypít, raccsol)
  • ...

2. feladat

/a

  • Erősen illeszkedő: pl a g,k hang erősen illeszkedik a szomszédos magánhangzóhoz
  • Kölcsönösen illeszkedő: sok hang, pl b,p,d,t kölcsönösen hatással van a szomszédos magánhangzókkal egymás formánsmozgásaira
  • Stabil: gy, ty hangra kevés hatással van a környezet

/b

  • dz, c: 4000-5000 5500-7000Hz
  • dzs, cs: 3700-8000Hz
  • v, f : 1000-10000Hz
  • z, sz: 4000-4500, 5000-8000Hz
  • zs, s: 3700-8000Hz

a mintavételezés és a helyes antialiasing-szűrő megválasztásánál szükéges tudni a zörejgócokat és frekvenciatartományokat, hogy érthető maradjon a beszéd az átvitel során

/c

  • iF1: 250-350Hz, iF2: 2300-2500Hz
  • uF1: 250-350Hz, uF2: 500- 600Hz
  • áF1: 700-800Hz, áF2: 1300-1400Hz

(ebből remélem mindenki fel tudja rajzolni egy két dimenziós térben a hangokat + a spektrumot)

/d

a formánsszerkezet megmaradna, de a suttogás miatt a teljes frekvenciatartományban megjelennek kisebb komponensek, a spektrumképen a teljes frekvenciatartomány kicsit "beszürkülne".

Különbség abban rejlik hogy suttogó beszédben nincs zöngés gerjesztés, így alapfrekvencia és formánsok sem, tehát a magánhangzók vonalas színképe helyett is folytonos színképet kapunk spektrális elemzésnél.

(ehhez még lehetne sztem írni)

3. feladat

3.1

  1. IGAZ
  2. IGAZ (bár az hogy egyértelműen, abba bele lehet kötni, aki tudja hogy mire gondoltak, az erősítsen meg/cáfoljon!)
  3. HAMIS, konkrét beszédhangokat nem rendel a jelhez
  4. HAMIS, no komment :)

3.2

  1. HAMIS, vektorsorozatokat illesztünk a hálózathoz, és fonémasorozatot várunk a kimeneten
  2. HAMIS, mert létezik, pl Viterbi algoritmus a HMMhez
  3. HAMIS, mert a vektorok távolságát is figyelembe veszi (megfigyelési valószínűség!)
  4. HAMIS, nemlineáris időillesztést hajt végre..

3.3

  1. HAMIS, a rejtett éppen abban különbözik a sima Markov lánctól hogy nem lehet azonosítani az állapotot
  2. IGAZ, modulszerűen felépíthetőek a felismerendő szavak, kifejezések
  3. HAMIS, a legvalószínűbb útvonalat keressük 2 pont között, de ez a legnagyobb összsúlyú útvonal, nem a legkisebb
  4. IGAZ, thx Peti - 2006.06.06.


4. feladat

  1. Dual Tone MultiFrequency, DTMF jelek esetén nincs beszédjel, így zavarja az érthetőséget, mert 2 szinusz hang szólal csak meg, így a jel spektrumában könnyen felismerhető lesz a 2 kiugró amplitudó
  2. F2 a beszédjel második formánsa, avagy az akusztikum második legkisebb felerősített felhangnyalába, a B2 pedig ennek a formánsnak a sávszélessége. F2 meghatározható a jel spektrumából, ez a második legkisebb erősítési hely (lokális maximum), a B2-t pedig ezen a maximum alatt 3 dB-lel meghúzott vonal és a burkológörbe metszéspontja jelöli ki.
  3. ITU P.800: az ETSI egyik szubjektív beszédminősítő szabványa. Minősíthetünk
    • abszolút módon, előre definiált skála alapján (ACR)
    • 'jelenség' észlelési tesztek
    • romlás megfigyelése eredetihez képest (DCR)
    • referencia rendszerrel összehasonlítás (MNRU)
  1. Mindegyik a beszédinformációs rendszerek felépítését segíti, illetve annak egy eleme.
    • VXML: Voice eXtensible Markup Language (http://en.wikipedia.org/wiki/VXML) - dialógusok tervezését segítő leírónyelv
    • SUI: Speech User Interface, avagy beszédalapú felhasználói felület
    • SAPI: Speech Application Programming Interface (http://en.wikipedia.org/wiki/Speech_Application_Programming_Interface) - a Microsoft beszédalapú felhasználói felület API-ja. Ezzel még nem dolgoztam, de például Symbian-ban van egy tts() függvény, amibe csak berakod a stringet, és a telefon elvégzi a beszédszintézist

(/c-nél mire gondolhattak "a beszéd mely jellemzőire vonatkozik" alatt?!)

5. feladat

  • Nem kiváló a hangminőség, robosztus rendszer kell
  • Nem lehet emiatt diktáló rendszer, maximum kapcsolt szavas felismerő
  • Beszélőfüggetlen kell legyen
  • Előzőek miatt kis-közepes szótárnagyság a reális
  • A rossz körülmények miatt fel kell készíteni spontán beszéd felismerésére
  • Egyértelműen statisztikai alapú felismerő jön szóba (ilyenek működnek is, rossz a hangminőség és sok a beszélő)

(Mégvalami?)

  • Mivel a GPS-nek ez nem a fő funkciója, fontos szempont hogy olcsó legyen a megvalósítása
  • Ne kelljen a túlzott társzükséglet miatt növelni a készülék fizikai méreteit (bár nem tudom hogy ez ma még felmerülhet-e egyáltalán)

6. feladat

  • Egy gombbal lehet indítani a rendszert, ezzel együtt esetleg nyelvet is ki lehet választani, így nem kell nyelvadaptációt és beszéddetekciót végeznünk
  • A felhasználót megfelelően üdvözöli a rendszer, majd megkérdezi hogy milyen szakra, szakpárra kíváncsi
  • A következő bemenetet várja: [A] {szak}/{szakpár} [ra/re vagyok kíváncsi]/[után érdeklődök] (a kérdéssel jól behatároltuk az adható válasz formáját!)
  • Amennyiben a rendszer nem biztos a szakban, felsorolná a 10 legvalószínűbb szakot, amit mondhatott a felhasználó, és felszólítaná h válasszon közülül vagy mondja be újra
  • A felismerő HMM alapú, robosztus, közepes nagyságú, beszélőfüggetlen.
  • A válasz következő formátumban generálódna: A {szak}/{szakpár}t a következő egyetemek indítják: ( [egyetem], [kar] )*
  • Ha a felhasználót nem érdekli az adott egyetem, "tovább" vagy "vissza" szavakkal léptethet (gyorsabban) közöttük (gombbal is)
  • Ha felkelti érdeklődését valamelyik, a "címe", "felvételi (feltételek)", "pontszámítás", "korábbi évek" paranccsal kérheti le az őt érdeklő adatokat a karról (gombbal is választhat)
  • Cím esetén: "A(z) {egyetem} {kar} címe [város] {közterület neve} [közterület] {házszám}, {irányítószám}
  • Felvételi feltételek: [adott kar feltételei], a paraméterszerű adatokat dinamikusan generálja
  • Pontszámítás: [pontszámítás menete], paraméterszerű számokat, adatokat dinamikusan
  • Korábbi évek: [évben] [a ponthatár] {szám} [pont volt, a felvettek száma] {szám} [fő, a jelentkezők száma:] {szám} [fő] stb.
  • Vegyes felolvasó rendszert használunk: TTS+kötött
  • a [] elemek kötöttszótáras módon, előre felvéve vannak letárolva, a {} részek generálása pedig triádos szövegfelolvasó rendszer feladat*a
  • A felhasználó a "lista" paranccsal tér vissza a megfelelő egyetemek listáájához (gombbal is)
  • "Köszönöm" esetén vagy 1 perc tétlenség után a rendszer alaphelyzetbe áll

/b

  • Szórendre, dátumra, számok felolvasására kell figyelni
  • Teljesen más lehet a felsőoktatás menete, pontszámítási módszerek, ezeket is megfelelően át kell alakítani
  • A felismerés során más sorrendben adja meg az adatokat a felhasználó
  • Más temperamentumú beszéd, más beszédstílus: újra kell paraméterezni a felismerőt, nem csak a felismerendő szavakat kell kicserélni
  • A spanyolok sziesztáznak (koradu. lekapcsolhat a rendszer) //ez csak poén, senki ne vegye komolyan!
  • ...?
  • A katalán és a spanyol nyelv eltér, érdemes a nyelvek közé mindkettőt felvenni (spanyol rendszer esetén) -- Gergő - 2006.06.12.


-- RGabo - 2006.05.31.

-- Maco - 2010.01.06.