Tamás Ferenc: Hangformátumok

A multimédiás megjelenésben három lényeges tartalom van: kép, hang és szöveg, illetve ezek kombinációja: a videó. Ez a cikk a fontosabb hangformátumokat tekinti át. Alapvetően két típusa van: tömörített (pl.: MP3, OGG, FLAC) és tömörítetlen (pl.: CD, WAV).
Még mielőtt a konkrét formátumokra rátérnénk, egy kis elmélet:
Minden hanghoz tartozik egy frekvencia, amely a hang magasságát adja meg. A fontosabb frekvencia-tartományokat az alábbi ábra mutatja be:

Hangok frekvenciája

(Az ábra saját készítésű.)

További rész(ek): CDA, WAV, MIDIFLAC, WMA, OGGAAC, MP3MP3Pro, RA, ...

 

Mivel a számítógép digitális rögzítésre képes, ezért minden egyes (analóg) hangot még a rögzítés előtt digitálisra kell átalakítani. Ennek legjobb módja a mintavételezés, angolul: sampling. Ekkor a külső forrásból kapott analóg jelből a számítógép digitálist csinál az analóg-digitális konverter (ADC) segítségével. (Például az itt látható rajzon az eredeti analóg színusz-hullámból digitálisan vettünk mintákat. Ábra eredetije: http://sdt.sulinet.hu/)

 

 

Hangformátumok

Ezen digitális hanganyagot a digital-analóg konverter (DAC) szólaltatja meg, ami lényegében egy elég egyszerű művelet. Mivel a hangoknál igen fontos a minőség, ezért jön a következő paraméter, a mintavételezési frekvencia, angolul: sampling frequency. Ezzel adjuk meg, hogy mintavételezéskor másodpercenként hányszor vegyen mintát az eredeti (analóg) hangból. A telefonvonal mintavételezési frekvenciája 8 kHz, míg pl. az audió CD esetén: 44100 kHz. A Shannon-tétel szerint ahhoz, hogy az eredeti hangzás visszaállítható legyen, a legnagyobb frekvencia kétszeresével kell az analóg jelet mintavételezni.

A másik fontos, minőséget (is) alapvetően meghatározó paraméter a bitmélység – angolul bit depth. Ez attól függ, hogy az adott leképezési tartományból milyen szélességet tudunk rögzíteni számítógéppel. Az emberi füllel is hallható tartomány kb. 20 Hz-től 20kHz-ig tart. A klasszikus (vezetékes) telefonvonalak sávszélessége pl. 300 Hz-től 3400 Hz-ig terjed, tehát a teljes emberi fül számára hallható sávot sem képezik le. A gyakorlatban a bitmélység min. 8 bit, de ennél sokkal több is lehet.

CDA = Compact Disc Audio

A CDA a zenei CD-k eredeti formátuma, amely 44100 Hz-es kétcsatornás mintavételi fájlokat tartalmaz. Zeneszámonként 1-1 CDA fájl található. Bár ezek a fájlok fizikailag rajta vannak a lemezeken, de ettől még nem másolhatók a megszokott módokon, mivel az audió CD-k információ-tárolási szerkezete nagyban eltér a merevlemezeken megszokottaktól. A HDD-ken az adatokat koncentrikus körökben (track) tárolják. Ezzel szemben a zenei CD-ken tárolt adatok a lemez belső felétől spirálisan kifelé vannak felfűzve, így az utolsó szám vége a lemez legvégén található. Így a CD-n tárolt formátum egészen más, mivel ez egy folyamatos adatfolyam a HDD-ken megszokott önálló fájlok helyett.

Gyakorlatilag a CDA fájlokat az operációs rendszer hozza létre. Ezek a fájlok tulajdonképpen csak mutatók, melyek speciális track-re hivatkoznak és nem tartalmaznak semmilyen zenei PCM-információt (Pulse Code Modulation = impulzus kódolt moduláció). A CDA fájlok mindegyike 44 bájt hosszú, amely tartalmazza a szám hosszát és egy speciális Windows parancsikont, amelynek segítségével a felhasználó elérheti a zenei tartalmat.

Ha a zenei CD-k tartalmát szeretnénk számítógépre másolni, akkor ehhez át kell ültetni olyan formátumba, amelyet a HDD is képes tárolni. Ezt a műveletet rippelésnek hívjuk. A lehetséges cél-formátumok: WAV, MP3, FLAC és sok egyéb...

WAV = Wave (hullám)

A digitális hangállományok egyik legegyszerűbb tömörítetlen formátuma. Népszerűségét a kidolgozója, a Microsoft hozta meg, mivel a Windows háttérhangok alapvető formátuma (volt). Bár maga a formátum tömörítetlen, de ettől függetlenül a tömörített állományokat is képes megszólaltatni. Ráadásul már kis gépigénnyel is jól lejátszható.

Magában a WAV formátumban számos ellentmondás is van, például van benne 8-bites előjel nélküli adat, de a főbb adatok 16-bites előjelesek. Az eredetileg tiszta, egyszerű, könnyen érthető formátumot az idők során jócskán feldúsították.

A WAV formátumot, melynek eredeti neve a RIFF WAV, a Windows számára dolgozta ki a Microsoft 1991-ben „Resource Interchange Format” néven. A szabványos audió CD-formátumok, mint például a LPCM-kódolásos (linear line compressed modulation = lineáris tömörített moduláció), két csatornás másodpercenkénti 44100 mintavételt tartalmaznak, mintánként 16 bittel. Mivel az LPCM egy tömörítetlen kódolási eljárást használ, amely megtartja az audió összes mintáját, ezért a professzionális felhasználók is előszeretettel alkalmazzák ezt a méretében elég nagy formátumot. A WAV formátumot viszonylag egyszerű szoftverekkel lehet szerkeszteni, illetve manipulálni. (pl.: Audacity, Wavepad Sound Editor, Wavosaur, Wave Editor). Mivel a WAV támogatja a tömörített audió formátumot, ezért Windows ACM-et használ a lejátszáshoz. (Audio Compression Manager = Audió tömörítési eljárás) A Windows számos verziójában a hangfelvevő is használja az ACM-et.

A Windows 2000-től kezdve a hullám-formátum kiterjesztett fejléce tartalmazza a többcsatornás hangszóró-rendszer pozícióit és adatait, így kiküszöböli a hagyományos WAV-formátum hátrányait. Mivel az eredeti RIFF-formátumban lehetőség volt információs meta-adatok beleszövésébe a fájlba, ezért a RIFF-utódjának számító WAV-ban is van erre lehetőség. Ezen kívül a WAV-fájlokba be lehet ágyazni a XMP-adatokat is. (Extensible Metadata Platform = Kiterjesztett meta-adat platform) Az alkalmazások nem tudják ezt az extra információt kezelni, vagy a megfelelő helyen lévő XMP-adatokat várják. Ám ezt a hibát egyre több alkalmazás javítja, így már helyesen ismerik fel a beágyazott adatokat.

Mivel a WAV fájlok mérete elég nagy, ezért viszonylag ritka volt az internetes keresztüli megosztásuk, ráadásul a komolyabb veszteségmentes tömörítési eljárások megjelenésével nagyjából el is tűnt ez a formátum. Viszont mivel ez egy elég egyszerűen használható fájltípus, ezért igen elterjedt volt. Rengeteg alkalmazás használta, főleg, ahol a méret nem volt olyan lényeges, viszont fontos volt a kiváló minőség. Ilyenek például a hangszerkesztő vagy hangvágó alkalmazások.

A WAV formátum méretkorlátja (általában) 4 Gbyte, mivel ez a legnagyobb ábrázolható mennyiség a méretért felelős fejlécbeli 32 bites előjel nélküli számban; de ennek ellenére előfordul, hogy egyes alkalmazások ezt átszabják. Az eredeti méretkorlát megfelel 6-7 órányi zenének (44,1 kHz, 16 bites sztereó), de ennek ellenére néha szükséges ezt a méretbeli korlátot meghaladni; például ha nagyobb mintavételezési frekvencia vagy jobb bitráta használatára kerül sor. Éppen ezért hozta létre a Sound Forge szervezet a W64 formátumot. A 64 bitre lépés nagyobb felvételi időt (is) lehetővé tesz. Az RF64-es formátumot az Európai Műsorszolgáltatók Szövetsége hozta létre, hogy megoldja ezt a problémát. Mivel a WAV fájlokban a mintavételi frekvencia 1 Hz-től 4,3 GHz-ig váltakozik, valamint a csatornák száma is 1-től 65536-ig, ezért a .WAV fájlokat néha nem-audió adatok tárolására is használják.

Fontos megjegyezni, hogy a klasszikus Audio CD-k nem használták a WAV formátumot, így a klasszikus lejátszók nem is értették meg ezt a formátumot. Ha WAV fájlokat akarunk audió CD-re kiírni, akkor a fájlokból ki kell vágni a PCM adatokat tartalmazó fejlécet, hogy az így keletkezett formátum megfeleljen a tisztán zenei CD-knek.


MID = Music Instrumental Digital Interface

A MID (vagy midi) egy aszinkron soros vonali kommunikációs szabvány a zenefájlok kódolására, tárolására, valamint az elektronikus hangeszközök (pl.: szintetizátor, dobgép, MIDI vezérlők, samplerek) és a számítógép hangkártyája közötti adatcserére. Az eredeti MIDI 1.0-ás szabványt a 1982-ben hozta létre a fontosabb MIDI gyártók szövetsége. Az akkori megállapodás később vált csak teljes nemzetközi szabvánnyá. A jelenlegi MIDI szabványa következőket tartalmazza:

- egy hardver-rendszert a fizikailag is kapcsolódó elektronikus hangszerek és a kapcsolódó elektronikus rendszerek között. (MIDI interfész, MIDI adapter, MIDI kábel)

- egy adatkódolás eljárást a zenei teljesítmény tárolására és továbbítására, valamint az elektronikus üzenetek ellenőrzésére.

A tipikus MIDI üzenet tartalmazza a kottát, hangmagasságot, a lejátszás sebességét, valamint egyéb vezérlő jeleket, például: hangerő, vibrato, órajel, stb.

- Kommunikációs eljárásokat a zenei teljesítmény-adatok átvitelére és szinkronizálására, valamint ellenőrző adatokat. (MIDI gép kontroll, MIDI térképes vezérlés, MIDI időkód, dal pozicionáló)

- a hangszerek kategorizálását, pl.: ütős hangok vagy hangszínek. Más néven: apró kiegészítéseket is.

A hagyományos MIDI adatok tárolására az SMF (Standard Midi Fájl) is alkalmas, de ez nem olyan elterjedt. A szabvány kiterjesztései a General MIDI, Roland GS, illetve a Yamaha XG szabványok. A MIDI kompatibilis eszközt számítógéppel összekötve igen változatos feladatok elvégzése lehetséges. Maguk a MIDI fájlok igen kis méretűek, így a pár Kbyte-os is gyakori. Indok: a MIDI fájlok csak a hangmagasságot, a ritmust, hangerőt és a játszandó hangszert tartalmazzák (paraméterekkel együtt); mást gyakorlatilag nem! Minden más a MIDI-képes hangkártya (illetve a szintetizátor) dolga. Éppen a kis mérete okozta azt is, hogy az egyszerűbb eszközök is használják, például a korai mobiltelefonokban is leginkább MIDI csengőhangok voltak még az MP3-as készülékek elterjedése előtt.

Szeretnék pár szót szólni az egyes fájlformátumokról!

Szabványos MIDI (.mid vagy .smf)

Ezt a fájltípust a MIDI gyártók szövetsége (MMA) fejlesztette ki és ők is tartják karban. A legtöbb fájlban minden sávhoz hozzá van rendelve egy adott MIDI csatorna és/vagy egy konkrét eszköz, melyhez kapcsolva így a hangszer(ek) hangja könnyedén rekonstruálható. Szinte minden MIDI-képes elektronikus eszköz biztosít felvételi lehetőséget, melynek segítségével direkt módon .mid vagy .smf fájlban rögzíthető a lejátszott dallam. Az internetről elég sok .mid fájl ingyen letölthető, de ezek többségének eléggé kétes az eredete. Sajnos többségéről egyáltalán nem biztos, hogy valaha is látott-e szintetizátort.

MIDI Karaoke (.kar)

Ez egy nem hivatalos kiterjesztése a MIDI fájloknak, melyek segítségével a zenei aláfestést nyújtó .kar fájlra lehet az adott fájl szövegét énekelni. A legtöbb lejátszó valamilyen módon jelöli, hogy milyen szöveg jön. A jel például egy átszíneződő szöveg vagy egy pattogó labda. Mivel a karaoke-műfaj egyre népszerűbb, ezért egyre több (és egyre jobban kezelhető) PC-alapú karaoke program jelenik meg.

RIFF-RMID

A Windows-alapú rendszereken az operációs rendszer is használ RIFF-alapú .mid fájlokat. Megjegyzendő, hogy a szabványos MIDI fájlok nem RIFF-kompabilisek. Kompatibilitási gondok miatt sok zenész nem szereti használni a RIFF-RMID formátumokat. Ezt a formátumot az MMA nem ismeri el hivatalos formátumnak.

Kiterjesztett MIDI (.xmi)

Az XMI formátum egy saját, kibővített verziója a MIDI fájloknak a Miles Sound System által kifejlesztett PC-játékokban. Ez is egy nem-hivatalos, MMA által nem elismert formátum.

 

Felhasznált irodalom:

 

© TFeri.hu, 2016.
Felújítva: 2021.máj.