Beszed vizsga 20060522

Fealdatsor: 2006-05-22

Tartalomjegyzék

1 1. feladat
2 2. feladat
- 2.1 /a
- 2.2 /b
- 2.3 /c
- 2.4 /d
3 3. feladat
- 3.1 3.1
- 3.2 3.2
- 3.3 3.3
4 4. feladat
5 5. feladat
6 6. feladat

1. feladat

Mondjon 3-3 példát arra, hogy milyen tényezők okozzák az akusztikai paraméterek variáltságát, egy személyen belül és a személyek között.
Személyen belül:

érzelmi állapot (nem sikerült beszédvizsga, lediplomáztam, lemerült a telóm)
egészségügyi állapot (rekedt, megfázott, csuklik)
szituáció (családi ebéd, szónoklat, történetmesélés)
...

Személyek közötti:

nem (női hang magasabb, ffi mélyebb)
ritmus (hadar, dadog, megfontolt)
beszédhibák (selypít, raccsol)
...

2. feladat

/a

Erősen illeszkedő: pl a g,k hang erősen illeszkedik a szomszédos magánhangzóhoz
Kölcsönösen illeszkedő: sok hang, pl b,p,d,t kölcsönösen hatással van a szomszédos magánhangzókkal egymás formánsmozgásaira
Stabil: gy, ty hangra kevés hatással van a környezet

/b

dz, c: 4000-5000 5500-7000Hz
dzs, cs: 3700-8000Hz
v, f : 1000-10000Hz
z, sz: 4000-4500, 5000-8000Hz
zs, s: 3700-8000Hz

a mintavételezés és a helyes antialiasing-szűrő megválasztásánál szükéges tudni a zörejgócokat és frekvenciatartományokat, hogy érthető maradjon a beszéd az átvitel során

/c

iF1: 250-350Hz, iF2: 2300-2500Hz
uF1: 250-350Hz, uF2: 500- 600Hz
áF1: 700-800Hz, áF2: 1300-1400Hz

(ebből remélem mindenki fel tudja rajzolni egy két dimenziós térben a hangokat + a spektrumot)

/d

a formánsszerkezet megmaradna, de a suttogás miatt a teljes frekvenciatartományban megjelennek kisebb komponensek, a spektrumképen a teljes frekvenciatartomány kicsit "beszürkülne".

Különbség abban rejlik hogy suttogó beszédben nincs zöngés gerjesztés, így alapfrekvencia és formánsok sem, tehát a magánhangzók vonalas színképe helyett is folytonos színképet kapunk spektrális elemzésnél.

(ehhez még lehetne sztem írni)

3. feladat

3.1

IGAZ
IGAZ (bár az hogy egyértelműen, abba bele lehet kötni, aki tudja hogy mire gondoltak, az erősítsen meg/cáfoljon!)
HAMIS, konkrét beszédhangokat nem rendel a jelhez
HAMIS, no komment :)

3.2

HAMIS, vektorsorozatokat illesztünk a hálózathoz, és fonémasorozatot várunk a kimeneten
HAMIS, mert létezik, pl Viterbi algoritmus a HMMhez
HAMIS, mert a vektorok távolságát is figyelembe veszi (megfigyelési valószínűség!)
HAMIS, nemlineáris időillesztést hajt végre..

3.3

HAMIS, a rejtett éppen abban különbözik a sima Markov lánctól hogy nem lehet azonosítani az állapotot
IGAZ, modulszerűen felépíthetőek a felismerendő szavak, kifejezések
HAMIS, a legvalószínűbb útvonalat keressük 2 pont között, de ez a legnagyobb összsúlyú útvonal, nem a legkisebb
IGAZ, thx Peti - 2006.06.06.

4. feladat

Dual Tone MultiFrequency, DTMF jelek esetén nincs beszédjel, így zavarja az érthetőséget, mert 2 szinusz hang szólal csak meg, így a jel spektrumában könnyen felismerhető lesz a 2 kiugró amplitudó
F2 a beszédjel második formánsa, avagy az akusztikum második legkisebb felerősített felhangnyalába, a B2 pedig ennek a formánsnak a sávszélessége. F2 meghatározható a jel spektrumából, ez a második legkisebb erősítési hely (lokális maximum), a B2-t pedig ezen a maximum alatt 3 dB-lel meghúzott vonal és a burkológörbe metszéspontja jelöli ki.
ITU P.800: az ETSI egyik szubjektív beszédminősítő szabványa. Minősíthetünk

- abszolút módon, előre definiált skála alapján (ACR)
- 'jelenség' észlelési tesztek
- romlás megfigyelése eredetihez képest (DCR)
- referencia rendszerrel összehasonlítás (MNRU)

Mindegyik a beszédinformációs rendszerek felépítését segíti, illetve annak egy eleme.

- VXML: Voice eXtensible Markup Language (http://en.wikipedia.org/wiki/VXML) - dialógusok tervezését segítő leírónyelv
- SUI: Speech User Interface, avagy beszédalapú felhasználói felület
- SAPI: Speech Application Programming Interface (http://en.wikipedia.org/wiki/Speech_Application_Programming_Interface) - a Microsoft beszédalapú felhasználói felület API-ja. Ezzel még nem dolgoztam, de például Symbian-ban van egy tts() függvény, amibe csak berakod a stringet, és a telefon elvégzi a beszédszintézist

(/c-nél mire gondolhattak "a beszéd mely jellemzőire vonatkozik" alatt?!)

5. feladat

Nem kiváló a hangminőség, robosztus rendszer kell
Nem lehet emiatt diktáló rendszer, maximum kapcsolt szavas felismerő
Beszélőfüggetlen kell legyen
Előzőek miatt kis-közepes szótárnagyság a reális
A rossz körülmények miatt fel kell készíteni spontán beszéd felismerésére
Egyértelműen statisztikai alapú felismerő jön szóba (ilyenek működnek is, rossz a hangminőség és sok a beszélő)

(Mégvalami?)

Mivel a GPS-nek ez nem a fő funkciója, fontos szempont hogy olcsó legyen a megvalósítása
Ne kelljen a túlzott társzükséglet miatt növelni a készülék fizikai méreteit (bár nem tudom hogy ez ma még felmerülhet-e egyáltalán)

6. feladat

Egy gombbal lehet indítani a rendszert, ezzel együtt esetleg nyelvet is ki lehet választani, így nem kell nyelvadaptációt és beszéddetekciót végeznünk
A felhasználót megfelelően üdvözöli a rendszer, majd megkérdezi hogy milyen szakra, szakpárra kíváncsi
A következő bemenetet várja: [A] {szak}/{szakpár} [ra/re vagyok kíváncsi]/[után érdeklődök] (a kérdéssel jól behatároltuk az adható válasz formáját!)
Amennyiben a rendszer nem biztos a szakban, felsorolná a 10 legvalószínűbb szakot, amit mondhatott a felhasználó, és felszólítaná h válasszon közülül vagy mondja be újra
A felismerő HMM alapú, robosztus, közepes nagyságú, beszélőfüggetlen.
A válasz következő formátumban generálódna: A {szak}/{szakpár}t a következő egyetemek indítják: ( [egyetem], [kar] )*
Ha a felhasználót nem érdekli az adott egyetem, "tovább" vagy "vissza" szavakkal léptethet (gyorsabban) közöttük (gombbal is)
Ha felkelti érdeklődését valamelyik, a "címe", "felvételi (feltételek)", "pontszámítás", "korábbi évek" paranccsal kérheti le az őt érdeklő adatokat a karról (gombbal is választhat)
Cím esetén: "A(z) {egyetem} {kar} címe [város] {közterület neve} [közterület] {házszám}, {irányítószám}
Felvételi feltételek: [adott kar feltételei], a paraméterszerű adatokat dinamikusan generálja
Pontszámítás: [pontszámítás menete], paraméterszerű számokat, adatokat dinamikusan
Korábbi évek: [évben] [a ponthatár] {szám} [pont volt, a felvettek száma] {szám} [fő, a jelentkezők száma:] {szám} [fő] stb.
Vegyes felolvasó rendszert használunk: TTS+kötött
a [] elemek kötöttszótáras módon, előre felvéve vannak letárolva, a {} részek generálása pedig triádos szövegfelolvasó rendszer feladat*a
A felhasználó a "lista" paranccsal tér vissza a megfelelő egyetemek listáájához (gombbal is)
"Köszönöm" esetén vagy 1 perc tétlenség után a rendszer alaphelyzetbe áll

/b

Szórendre, dátumra, számok felolvasására kell figyelni
Teljesen más lehet a felsőoktatás menete, pontszámítási módszerek, ezeket is megfelelően át kell alakítani
A felismerés során más sorrendben adja meg az adatokat a felhasználó
Más temperamentumú beszéd, más beszédstílus: újra kell paraméterezni a felismerőt, nem csak a felismerendő szavakat kell kicserélni
A spanyolok sziesztáznak (koradu. lekapcsolhat a rendszer) //ez csak poén, senki ne vegye komolyan!
...?
A katalán és a spanyol nyelv eltér, érdemes a nyelvek közé mindkettőt felvenni (spanyol rendszer esetén) -- Gergő - 2006.06.12.

-- RGabo - 2006.05.31.

-- Maco - 2010.01.06.

Beszed vizsga 20060522

Tartalomjegyzék

1. feladat

2. feladat

/a

/b

/c

/d

3. feladat

3.1

3.2

3.3

4. feladat

5. feladat

6. feladat

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Egyetem

Eszközök