Tamás Ferenc: Hangformátumok

A multimédiás megjelenésben három lényeges tartalom van: kép, hang és szöveg, illetve ezek kombinációja: a videó. Ez a cikk a fontosabb hangformátumokat tekinti át. Alapvetően két típusa van: tömörített (pl.: MP3, OGG, FLAC) és tömörítetlen (pl.: CD, WAV).
Még mielőtt a konkrét formátumokra rátérnénk, egy kis elmélet:
Minden hanghoz tartozik egy frekvencia, amely a hang magasságát adja meg. A fontosabb frekvencia-tartományokat az alábbi ábra mutatja be:

Hangok frekvenciája

(Az ábra saját készítésű.)

További rész(ek): CDA, WAV, MIDIFLAC, WMA, OGGAAC, MP3MP3Pro, RA, ...

 

Mivel a számítógép digitális rögzítésre képes, ezért minden egyes (analóg) hangot még a rögzítés előtt digitálisra kell átalakítani. Ennek legjobb módja a mintavételezés, angolul: sampling. Ekkor a külső forrásból kapott analóg jelből a számítógép digitálist csinál az analóg-digitális konverter (ADC) segítségével. (Például az itt látható rajzon az eredeti analóg színusz-hullámból digitálisan vettünk mintákat. Ábra eredetije: http://sdt.sulinet.hu/)

 

 

Hangformátumok

Ezen digitális hanganyagot a digital-analóg konverter (DAC) szólaltatja meg, ami lényegében egy elég egyszerű művelet. Mivel a hangoknál igen fontos a minőség, ezért jön a következő paraméter, a mintavételezési frekvencia, angolul: sampling frequency. Ezzel adjuk meg, hogy mintavételezéskor másodpercenként hányszor vegyen mintát az eredeti (analóg) hangból. A telefonvonal mintavételezési frekvenciája 8 kHz, míg pl. az audió CD esetén: 44100 kHz. A Shannon-tétel szerint ahhoz, hogy az eredeti hangzás visszaállítható legyen, a legnagyobb frekvencia kétszeresével kell az analóg jelet mintavételezni.

A másik fontos, minőséget (is) alapvetően meghatározó paraméter a bitmélység – angolul bit depth. Ez attól függ, hogy az adott leképezési tartományból milyen szélességet tudunk rögzíteni számítógéppel. Az emberi füllel is hallható tartomány kb. 20 Hz-től 20kHz-ig tart. A klasszikus (vezetékes) telefonvonalak sávszélessége pl. 300 Hz-től 3400 Hz-ig terjed, tehát a teljes emberi fül számára hallható sávot sem képezik le. A gyakorlatban a bitmélység min. 8 bit, de ennél sokkal több is lehet.

CDA = Compact Disc Audio

A CDA a zenei CD-k eredeti formátuma, amely 44100 Hz-es kétcsatornás mintavételi fájlokat tartalmaz. Zeneszámonként 1-1 CDA fájl található. Bár ezek a fájlok fizikailag rajta vannak a lemezeken, de ettől még nem másolhatók a megszokott módokon, mivel az audió CD-k információ-tárolási szerkezete nagyban eltér a merevlemezeken megszokottaktól. A HDD-ken az adatokat koncentrikus körökben (track) tárolják. Ezzel szemben a zenei CD-ken tárolt adatok a lemez belső felétől spirálisan kifelé vannak felfűzve, így az utolsó szám vége a lemez legvégén található. Így a CD-n tárolt formátum egészen más, mivel ez egy folyamatos adatfolyam a HDD-ken megszokott önálló fájlok helyett.

Gyakorlatilag a CDA fájlokat az operációs rendszer hozza létre. Ezek a fájlok tulajdonképpen csak mutatók, melyek speciális track-re hivatkoznak és nem tartalmaznak semmilyen zenei PCM-információt (Pulse Code Modulation = impulzus kódolt moduláció). A CDA fájlok mindegyike 44 bájt hosszú, amely tartalmazza a szám hosszát és egy speciális Windows parancsikont, amelynek segítségével a felhasználó elérheti a zenei tartalmat.

Ha a zenei CD-k tartalmát szeretnénk számítógépre másolni, akkor ehhez át kell ültetni olyan formátumba, amelyet a HDD is képes tárolni. Ezt a műveletet rippelésnek hívjuk. A lehetséges cél-formátumok: WAV, MP3, FLAC és sok egyéb...

WAV = Wave (hullám)

A digitális hangállományok egyik legegyszerűbb tömörítetlen formátuma. Népszerűségét a kidolgozója, a Microsoft hozta meg, mivel a Windows háttérhangok alapvető formátuma (volt). Bár maga a formátum tömörítetlen, de ettől függetlenül a tömörített állományokat is képes megszólaltatni. Ráadásul már kis gépigénnyel is jól lejátszható.

Magában a WAV formátumban számos ellentmondás is van, például van benne 8-bites előjel nélküli adat, de a főbb adatok 16-bites előjelesek. Az eredetileg tiszta, egyszerű, könnyen érthető formátumot az idők során jócskán feldúsították.

A WAV formátumot, melynek eredeti neve a RIFF WAV, a Windows számára dolgozta ki a Microsoft 1991-ben „Resource Interchange Format” néven. A szabványos audió CD-formátumok, mint például a LPCM-kódolásos (linear line compressed modulation = lineáris tömörített moduláció), két csatornás másodpercenkénti 44100 mintavételt tartalmaznak, mintánként 16 bittel. Mivel az LPCM egy tömörítetlen kódolási eljárást használ, amely megtartja az audió összes mintáját, ezért a professzionális felhasználók is előszeretettel alkalmazzák ezt a méretében elég nagy formátumot. A WAV formátumot viszonylag egyszerű szoftverekkel lehet szerkeszteni, illetve manipulálni. (pl.: Audacity, Wavepad Sound Editor, Wavosaur, Wave Editor). Mivel a WAV támogatja a tömörített audió formátumot, ezért Windows ACM-et használ a lejátszáshoz. (Audio Compression Manager = Audió tömörítési eljárás) A Windows számos verziójában a hangfelvevő is használja az ACM-et.

A Windows 2000-től kezdve a hullám-formátum kiterjesztett fejléce tartalmazza a többcsatornás hangszóró-rendszer pozícióit és adatait, így kiküszöböli a hagyományos WAV-formátum hátrányait. Mivel az eredeti RIFF-formátumban lehetőség volt információs meta-adatok beleszövésébe a fájlba, ezért a RIFF-utódjának számító WAV-ban is van erre lehetőség. Ezen kívül a WAV-fájlokba be lehet ágyazni a XMP-adatokat is. (Extensible Metadata Platform = Kiterjesztett meta-adat platform) Az alkalmazások nem tudják ezt az extra információt kezelni, vagy a megfelelő helyen lévő XMP-adatokat várják. Ám ezt a hibát egyre több alkalmazás javítja, így már helyesen ismerik fel a beágyazott adatokat.

Mivel a WAV fájlok mérete elég nagy, ezért viszonylag ritka volt az internetes keresztüli megosztásuk, ráadásul a komolyabb veszteségmentes tömörítési eljárások megjelenésével nagyjából el is tűnt ez a formátum. Viszont mivel ez egy elég egyszerűen használható fájltípus, ezért igen elterjedt volt. Rengeteg alkalmazás használta, főleg, ahol a méret nem volt olyan lényeges, viszont fontos volt a kiváló minőség. Ilyenek például a hangszerkesztő vagy hangvágó alkalmazások.

A WAV formátum méretkorlátja (általában) 4 Gbyte, mivel ez a legnagyobb ábrázolható mennyiség a méretért felelős fejlécbeli 32 bites előjel nélküli számban; de ennek ellenére előfordul, hogy egyes alkalmazások ezt átszabják. Az eredeti méretkorlát megfelel 6-7 órányi zenének (44,1 kHz, 16 bites sztereó), de ennek ellenére néha szükséges ezt a méretbeli korlátot meghaladni; például ha nagyobb mintavételezési frekvencia vagy jobb bitráta használatára kerül sor. Éppen ezért hozta létre a Sound Forge szervezet a W64 formátumot. A 64 bitre lépés nagyobb felvételi időt (is) lehetővé tesz. Az RF64-es formátumot az Európai Műsorszolgáltatók Szövetsége hozta létre, hogy megoldja ezt a problémát. Mivel a WAV fájlokban a mintavételi frekvencia 1 Hz-től 4,3 GHz-ig váltakozik, valamint a csatornák száma is 1-től 65536-ig, ezért a .WAV fájlokat néha nem-audió adatok tárolására is használják.

Fontos megjegyezni, hogy a klasszikus Audio CD-k nem használták a WAV formátumot, így a klasszikus lejátszók nem is értették meg ezt a formátumot. Ha WAV fájlokat akarunk audió CD-re kiírni, akkor a fájlokból ki kell vágni a PCM adatokat tartalmazó fejlécet, hogy az így keletkezett formátum megfeleljen a tisztán zenei CD-knek.