MP3

Van Wikipedia, de gratis encyclopedie
Spring naar navigatie Spring naar zoeken
MPEG Audio Layer III
Mp3.svg
Bestandsextensie : .mp3
MIME-type : audio / mpeg-audio / MPA-audio / mpa-robuust [1]
Magisch nummer : FFFB hex
\ xFF \ xFB

(ASCII-C-notatie )

Eerste uitgave: 1991
Type: Audio
Standaard(en) : ISO / IEC 11172-3, ISO / IEC 13818-3



MP3 , originele spelling mp3 (naam naar de bestandsnaamextensie ; [2] eigenlijk MPEG-1 Audio Layer III of MPEG-2 Audio Layer III) is een methode voor lossy compressie van digitaal opgeslagen audiogegevens. MP3 maakt gebruik van psychoakoestiek met als doel alleen signaalcomponenten op te slaan die voor de mens waarneembaar zijn. Op deze manier is een sterke vermindering van de hoeveelheid data mogelijk als de audiokwaliteit niet (of nauwelijks) als verminderd wordt ervaren.

Met een voorbeelddatasnelheid van 192 kbit /s, die al een hoge kwaliteit mogelijk maakt, ligt de compressiesnelheid van een MP3-audiobestand rond de 85% in vergelijking met een ongecomprimeerde audio-cd . MP3 is de dominante methode voor het opslaan en verzenden van muziek op computers, smartphones , op internet en op draagbare muziekspelers ( MP3-spelers ), hoewel er nu een aantal meer technisch geavanceerde opties zijn. Het proces werd voornamelijk in Duitsland ontwikkeld onder leiding van Karlheinz Brandenburg en Hans-Georg Musmann .

In mei 2017 stopten de ontwikkelaars met het in licentie geven van het formaat, [3] nadat de laatste patenten in de VS waren verlopen (in Europa was MP3 patentvrij sinds 2012). [4] Het is nu een vrij beschikbare standaard.

verhaal

De Duitse elektrotechnisch ingenieur en wiskundige Karlheinz Brandenburg is een van de belangrijkste ontwikkelaars van het MP3-proces.

Het MP3-formaat werd vanaf 1982 ontwikkeld onder leiding van Hans-Georg Musmann door een groep onder leiding van Karlheinz Brandenburg aan het Fraunhofer Institute for Integrated Circuits (IIS) in Erlangen en aan de Friedrich-Alexander University Erlangen-Neurenberg in samenwerking met AT&T Bell Labs en Thomson . Vanaf 1989 werd de ontwikkeling binnen ISO / IEC JTC1 SC29 WG11 (MPEG) voortgezet. De eerste presentatie van de standaardisatie vond plaats in 1991. [5] Een jaar later werd het gecodificeerd als onderdeel van de MPEG-1- standaard. De geschiedenis van standaardisatie en de waardering van de bijdragen van de onderzoekers wordt gepresenteerd in Genesis of the MP3 Audio Coding Standard door Hans Georg Musmann in IEEE Transactions on Consumer Electronics, deel 52, nr. 3, blz. 1043-1049, augustus 2006 . Het Italiaanse onderzoekscentrum CSELT (Head of Media: Leonardo Chiariglione ) was de instantie die standaardisatie mogelijk maakte [6] . De bestandsnaamextensie .mp3 (als afkorting voor ISO MPEG Audio Layer 3 ) werd op 14 juli 1995 vastgesteld na een intern onderzoek door het instituut; voorheen werd de bestandsextensie .bit intern gebruikt. [2] Brandenburg heeft verschillende onderscheidingen ontvangen voor de ontwikkeling van dit dataformaat.

Al in het midden van de jaren negentig waren er spelers en software voor pc's in omloop die het mogelijk maakten om gecomprimeerde mp3-bestanden op te slaan en af ​​te spelen. Ook de uitwisseling van dergelijke bestanden via internet is vereenvoudigd: zelfs met een eenvoudige ISDN- snelheid kostte de overdracht slechts twee tot drie keer de afspeeltijd; Bij DSL- lijnen was de transmissie zelfs ver onder de speelduur. Dit leidde al snel tot een levendige uitwisseling van audiobestanden ( file sharing ) zonder inachtneming van het auteursrecht van de betreffende artiest of componist. Pogingen van de muziekindustrie om hiertegen op te treden worden tot op de dag van vandaag gekenmerkt door slechts matig succes, vooral omdat ook de uitwisselingssystemen zich verder ontwikkelen en gebaseerd zijn op het peer-to-peer- principe zonder centrale, aanstuurbare instanties. Eind jaren negentig stonden er al grote collecties muziekbestanden op internet, bijvoorbeeld op MP3.com of Napster , waardoor het aantal gebruikers flink toenam. De eerste draagbare mp3-spelers verschenen in 1998 in de winkels.

Patenten en licentiegeschillen

De procedures voor MPEG-codering (“MP3”) zijn nu patentvrij en kunnen daarom vrij worden gebruikt. De originele, bijna voltooide standaard MPEG-1 (delen 1, 2 en 3) werd op 6 december 1991 gepubliceerd als ISO CD 11172. [7] [8] In de meeste landen kunnen geen octrooien meer worden aangevraagd als de "state of the art" al is gepubliceerd. Octrooien verliezen hun geldigheid 20 jaar na de eerste aanvraag; in sommige landen kan deze periode worden verlengd met maximaal 12 maanden, afhankelijk van de registratiedatum. Als gevolg hiervan verloren de patenten die nodig zijn om de MP3-technologie te implementeren hun geldigheid in de meeste landen in december 2012, 21 jaar na de publicatie van de ISO CD 11172-standaard.

Een uitzondering vormden de Verenigde Staten, waar octrooien die vóór 8 juni 1995 waren ingediend na 17 jaar niet meer geldig waren. Het was echter mogelijk om de datum waarop een octrooi werd verleend aanzienlijk uit te stellen door de indieningstermijn te verlengen. De verschillende MP3-gerelateerde patenten verloren tussen 2007 en 2017 hun geldigheid in de Verenigde Staten. [9] De MP3-technologie was uiterlijk op 16 april 2017 in de VS patentvrij, toen het Amerikaanse patent nr. 6009399 van de Fraunhofer-Gesellschaft [10] (en beheerd via Technicolor [11] ) afliep.

Als gevolg hiervan heeft de Fraunhofer-Gesellschaft op 23 april 2017 zijn licentieprogramma stopgezet. [12] De Amerikaanse patenten [13] die werden beheerd en geclaimd door Sisvel, een grote MP3-octrooipool, waren in april 2017 ook verlopen (de laatste drie patenten die na 2015 nog geldig waren, waren: Amerikaans patentnummer 5878080, dat in februari 2017 afliep, Amerikaans octrooi nr. 5850456, verlopen in februari 2017, en Amerikaans octrooi nr. 5960037, verlopen op 9 april 2017). [14] [15]

In mei 2017 kondigde de Linux-distributie Fedora aan dat het officieel MP3-decoders en encoders in de distributie zou opnemen, aangezien de bijbehorende patenten waren verlopen. [16]

Tot 2017 bezaten de Fraunhofer-Gesellschaft en andere bedrijven softwarepatenten op deelprocessen die worden gebruikt voor MPEG-codering. Er was geen uitgebreid MP3-patent. De Fraunhofer-Gesellschaft droeg het grootste deel bij aan de ontwikkeling van de MP3-standaard en liet een aantal methoden voor MP3-codering patenteren. Bij een fusie met Thomson bezaten de twee bedrijven 18 MP3-gerelateerde patenten. Vanaf september 1998, nadat de MP3-standaard zich zes jaar lang had kunnen vestigen, tot april 2017 eiste FhG / Thomson licentievergoedingen voor de productie van hardware en software die het MP3-formaat gebruikte.

De patenten van Bell Laboratories werden oorspronkelijk verondersteld te zijn gebruikt om het formaat te ontwikkelen. Deze rechten waren destijds in handen van Alcatel-Lucent , dat Bell Labs had overgenomen. Het bedrijf had rond de millenniumwisseling octrooizaken aangespannen tegen Microsoft, Dell en Gateway. In de procedure tegen Microsoft in februari 2007 kreeg Lucent in eerste instantie 1,52 miljard dollar toegekend. [17] Dat vonnis werd in augustus 2007 echter vernietigd door de Federal District Court van San Diego. [18] Sisvel heeft namens Philips ook vorderingen wegens octrooi-inbreuk ingediend.

procedure

Een spectrale analyse van het ongecomprimeerde nummer Gisteren laat een volle bandbreedte zien tot bijna 21 kHz.
Een spectrale analyse van hetzelfde nummer MP3-gecomprimeerd (datasnelheid 128 kbit / s) laat zien dat de coderingsbandbreedte beperkt was tot ongeveer 15 kHz - zodat de encoder zich kan concentreren op de essentie

Zoals de meeste lossy compressieformaten voor muziek, maakt het MP3-proces gebruik van psychoakoestische effecten van de menselijke perceptie van tonen en geluiden. Mensen kunnen bijvoorbeeld alleen twee tonen van elkaar onderscheiden als er een bepaald minimum verschil in toonhoogte is , voor en na zeer harde geluiden kunnen ze zachtere geluiden gedurende een korte tijd slechter of helemaal niet waarnemen. Het oorspronkelijke signaal hoeft niet exact te worden opgeslagen, maar de signaalcomponenten die ook het menselijk oor kan waarnemen zijn voldoende. De taak van de codeur is om het originele audiosignaal volgens vaste regels op basis van psychoakoestiek zo te verwerken dat het minder opslagruimte nodig heeft, maar toch voor het menselijk oor exact hetzelfde klinkt als het origineel. Als het origineel en de mp3-versie volledig worden overeengekomen, is er sprake van transparantie . In principe kan echter door de lossy compressie het oorspronkelijke signaal niet exact worden gereconstrueerd uit het MP3-signaal. Er zijn ook lossless-methoden voor audiodatacompressie zoals FLAC , maar deze bereiken aanzienlijk lagere compressiesnelheden en komen nog minder vaak voor - vooral op het gebied van afspeelhardware.

Bij het afspelen van het op deze manier gegenereerde MP3-signaal, gebruikt de decoder de gereduceerde gegevens om een ​​analoog audiosignaal te genereren dat voor de meeste luisteraars origineel klinkt, maar dat niet identiek is aan het originele signaal, omdat informatie is verwijderd tijdens de conversie naar MP3 formaat. Als men de temporele golfvorm van het MP3-audiosignaal zou vergelijken met het origineel, bijvoorbeeld op het scherm van een oscilloscoop , zouden duidelijke verschillen te zien zijn. Vanwege de hierboven genoemde psychoakoestiek van de menselijke waarneming, klinkt het MP3-signaal voor een luisteraar nog steeds precies als het origineel - op voorwaarde dat tijdens het coderen een geavanceerde encoder en een voldoende hoge gegevenssnelheid (bitsnelheid) worden gebruikt.

Terwijl de decodering altijd een vast algoritme volgt, kan de codering volgens verschillende algoritmen worden gedaan (bijv. Fraunhofer-encoder, LAME- encoder) en dienovereenkomstig verschillende akoestische resultaten opleveren. De vraag of sommige of veel luisteraars kwaliteitsverlies ervaren, hangt onder meer af van de kwaliteit van de encoder, de complexiteit van het signaal, de datasnelheid, de gebruikte audiotechnologie ( versterker , luidspreker ) en uiteindelijk de gehoor van de luisteraar weg. Naast vaste datasnelheden van 8 kbit/s tot 320 kbit/s, staat het MP3-formaat ook eventuele vrije datasnelheden tot 640 kbit/s (Freeform MP3) in de freeformat- modus toe. Er zijn echter maar weinig mp3-spelerdecoders ontworpen voor hogere bitsnelheden dan die van de ISO-norm (momenteel tot 320 kbit/s).

De kwaliteitsindrukken zijn vrij subjectief en verschillen van persoon tot persoon en van oor tot oor. De meeste mensen kunnen het gecodeerde materiaal niet langer onderscheiden van het bronmateriaal door een hogere bitsnelheid en bij gebruik van een geavanceerde encoder, zelfs niet bij geconcentreerd luisteren. Toch waren in een luistertest van c't magazine bepaalde muziekstukken, zelfs bij 256 kBit/s, te onderscheiden van cd-kwaliteit. De test werd echter in 2000 uitgevoerd - sindsdien zijn de MP3-encoders aanzienlijk verbeterd. Bij mensen met een "abnormaal" gehoor (bijvoorbeeld met gehoorschade door poptrauma ) werken de gebruikte mechanismen soms niet zoals bedoeld, waardoor verschillen tussen het gecodeerde en bronmateriaal eerder opgemerkt worden (bijvoorbeeld omdat harde geluiden de beschadigd gehoor hoort slecht, kan andere tonen niet meer goed dekken). [19] De testpersoon, die het best in staat was om verschillen in de bovengenoemde test te identificeren, zelfs bij hoge datasnelheden, heeft gehoorbeschadiging. [19]

Naast coderen met een constante datasnelheid (= fluctuerende kwaliteit, samenhangend met de complexiteit van het audiosignaal die in de tijd verandert), is ook codering met constante kwaliteit (en dus fluctuerende datasnelheid) mogelijk. Dit voorkomt (grotendeels) kwaliteitsverlies bij moeilijk te coderen muziekpassages, maar bespaart aan de andere kant op de datasnelheid en dus op de uiteindelijke bestandsgrootte voor rustige of zelfs volledig stille passages van de audiostream. Het kwaliteitsniveau wordt gespecificeerd [20] en op deze manier wordt de minimaal benodigde bestandsgrootte verkregen.

Data compressie

Blokgolfsignaal gecomprimeerd met twee verschillende bitsnelheden
  • Een eerste stap in datacompressie is bijvoorbeeld gebaseerd op kanaalkoppeling van het stereosignaal door het verschil te vormen, aangezien de data van het rechter- en linkerkanaal in hoge mate correleren , d.w.z. zeer gelijkaardig zijn. Dit is een lossless proces, de uitgangssignalen kunnen volledig worden weergegeven ( mid/side stereo ).
  • Volgens de menselijke auditieve curve worden signaalcomponenten in minder nauwkeurig waarneembare frequentiebereiken met minder precisie weergegeven, doordat het Fourier-getransformeerde gegevensmateriaal dienovereenkomstig wordt gekwantiseerd .
  • Zogenaamde maskeereffecten worden gebruikt om signaalcomponenten die minder belangrijk zijn voor de auditieve indruk met verminderde precisie op te slaan. Dit kunnen zwakke frequentiecomponenten zijn in de buurt van sterke boventonen. Een sterke toon bij 4 kHz kan ook frequenties tot 11 kHz maskeren. De grootste besparing bij MP3-codering is daarom dat de tonen alleen met net genoeg precisie (met zoveel bits) worden opgeslagen dat de resulterende kwantiseringsruis gemaskeerd en dus onhoorbaar is.
  • De gegevens, die beschikbaar zijn in zogenaamde frames , worden uiteindelijk Huffman-gecodeerd .

Bij sterke compressie worden vrij hoorbare signaalcomponenten vaak opgevangen door de compressie, ze zijn dan hoorbaar als compressie-artefacten .

Een fout in het ontwerp is dat de procedure in blokken wordt toegepast, wat kan leiden tot hiaten aan het einde van een bestand. Dat is bijvoorbeeld vervelend bij luisterboeken of live-opnames waarin een samenhangend college wordt opgesplitst in losse tracks. Hier vallen de laatste blokken op als vervelende pauzes (waarneembaar als barsten of een korte uitval ). Dit kan worden verholpen door gebruik te maken van de LAME- encoder, die exacte lengte-informatie toevoegt, in combinatie met een afspeelprogramma dat dit aankan, zoals foobar2000 of Winamp . Sommige afspeelprogramma's, zoals Windows Media Player , ondersteunen deze methode echter niet, ook wel ' gapless playback' genoemd . Apple iTunes ondersteunt het vanaf versie 7. [21]

Compressie in detail

De compressie bestaat uit de volgende stappen:

  1. Subbandtransformatie van het signaal
  2. MDCT transformatie van het signaal , dan (!) wordt het signaal in blokken verdeeld.
  3. Voor stereosignalen: Matrixing: beslissing voor elk blok of het signaal wordt gecodeerd als een links-rechts of een middensignaal
  4. Kwantisering van het signaal
  5. Huffman-codering met vaste codeboeken

Stappen 4 en 5 zorgen voor de datareductie, waarbij kwantisatie het verliesgevende proces is.

Opmerking: In de volgende tekst verwijzen de gespecificeerde spectrale breedtes en tijden naar een audiosignaal met een bemonsteringsfrequentie van 48 kHz.

Subbandtransformatie van het signaal

Bij de subbandtransformatie wordt het signaal opgesplitst in 32 frequentiebanden van gelijke breedte met behulp van een meerfasenfilterbank (zoals bij MPEG Layer 1, MPEG Layer 2 en dts). De filterbank werkt op een FIFO-buffer met een grootte van 512 samples , waaraan steeds 32 nieuwe samples in één stap worden toegevoerd. Dit betekent dat 16 filtervensters altijd overlappen op het audiosignaal.

De beslissing om frequentiebanden van dezelfde breedte te gebruiken, vereenvoudigt de filters, maar weerspiegelt niet het menselijk gehoor, waarvan de gevoeligheid niet-lineair afhankelijk is van de frequentie.

Aangezien er in de praktijk geen ideale filters zijn, overlappen de frequentiebereiken elkaar, zodat na filtering ook in twee aangrenzende subbanden een enkele frequentie kan voorkomen.

Subbandfiltering wordt bezwaard door het Amerikaanse octrooischrift 6.199.039.

MDCT-transformatie van het signaal

De signalen van de subbanden worden nu overgedragen naar het frequentiedomein door de gemodificeerde discrete cosinustransformatie (MDCT). Hierdoor worden de frequentiebanden verder spectraal opgelost. De MDCT kan de banden omzetten in korte blokken (12 samples resulteert in 6 frequentiebanden) of lange blokken (36 samples, 18 frequentiebanden). Als alternatief kunnen de twee laagste frequentiebanden ook worden getransformeerd met lange blokken en de rest met korte blokken. Lange blokken hebben een betere frequentieresolutie en zijn meer geschikt als het audiosignaal niet plotseling verandert binnen het bijbehorende frame (stationariteit). [22]

Aan de uitgang van de MDCT wordt het signaal in blokken verdeeld. Van 576 invoerwaarden (als je rekening houdt met de vensterbreedte van de filters, zijn er in totaal 1663 invoerwaarden), via twee in serie geschakelde transformaties, ofwel

  • 576 spectrale coëfficiënten (lange blokken),
  • 3 × 192 spectrale coëfficiënten (korte blokken) of
  • 36 + 3 × 180 spectrale coëfficiënten (hybride blok, nauwelijks gebruikt)

Matrixvorming

Voor 2-kanaals stereosignalen kunt u nu beslissen of het signaal moet worden gecodeerd als mono (single-channel), stereo, joint stereo of dual-channel. In tegenstelling tot AAC of Ogg Vorbis moet deze beslissing globaal genomen worden voor alle frequenties.

De stereomethode (geen joint stereo) (zoals dual-channel) is lossy doordat zelfs bij 320 kbit/s slechts 160 kbit/s per kanaal beschikbaar is, maar afhankelijk van de complexiteit kan één van de twee geselecteerde kanalen hebben verschillende bitsnelheden toegewezen. Dual-Channel slaat twee onafhankelijke monotracks op (bijv. tweetalige teksttracks) met dezelfde bitsnelheidcodering; Het is echter niet noodzakelijk dat elke decoder beide sporen tegelijkertijd reproduceert.

Er zijn twee coderingsmethoden voor gezamenlijke stereo: intensiteit en mid/side stereo , die ook in combinatie worden gebruikt; Beide methoden vormen een middenkanaal (L + R) uit de som van beide kanalen en het zijkanaal (L − R) uit het volumeverschil tussen de twee kanalen. In tegenstelling tot de mid/side stereo methode wordt de fase ( vertragingstijdverschil ) van het signaal verwaarloosd in intensiteit stereo . De gezamenlijke stereomethode elimineert de frequente redundantie in de stereokanalen om de signalen met een hogere bitsnelheid te kunnen coderen dan bij de stereomethode; als de kanaalsignalen echter erg verschillen, keert de gezamenlijke stereomethode terug naar de normale stereocodering.

Omdat het audiosignaal eerst wordt gedifferentieerd in frequentiebanden, moet de stereo-informatie, als deze al door het oor kan worden gebruikt, ook op een gedifferentieerde manier worden gecodeerd. Hier, z. B. bij lage tonen of frequenties vanaf 2 kHz kan informatie-inhoud worden opgeslagen, omdat de relevante niet-lokaliseerbare signalen niet langer kanaalgetrouw zijn, maar worden ondergebracht bij aangrenzende frequentiebanden die zijn gecodeerd (stereo-intensiteit), of in het stereocentrum worden geplaatst.

Door de voortdurende ontwikkeling van de codecs wordt het gezamenlijke stereoproces recentelijk gezien als de beste oplossing voor standaardmuziek, zeer vergelijkbare stereokanalen vanwege de betere compressiesnelheid, hogere bitsnelheidcodering en de verliesvrije (behalve laagfrequente) stereo afbeelding.

kwantificering

Kwantisering is de essentiële stap waarin coderingsverliezen optreden. Het is voornamelijk verantwoordelijk voor het verkleinen van de hoeveelheid gegevens.

Aangrenzende frequentiebanden worden gecombineerd in groepen van 4 tot 18 bins . Deze krijgen een gemeenschappelijke schaalfactor s = 2 N / 4 , waarmee ze worden gekwantiseerd. De schaalfactor bepaalt de nauwkeurigheid van de codering van deze frequentieband. Factoren op kleinere schaal resulteren in een meer nauwkeurige codering, grotere een meer onnauwkeurige (of helemaal geen waarden die ongelijk zijn aan 0).

Van x 0 , x 1 ,…, x 17 worden de waarden N en Q 0 , Q 1 ,…, Q 17 met de relatie x i ~ Q i 4/3 2 N / 4 .

De niet-lineaire codering Q 4/3 (voor negatieve waarden: - (- Q) 4/3 ) werd voor het eerst geïntroduceerd in de MP3-codering. MPEG-lagen 1 en 2 gebruiken lineaire codering.

Deze stap is in wezen verantwoordelijk voor de kwaliteit en de gegevenssnelheid van de resulterende MP3-gegevensstroom. Hij wordt ondersteund door een psycho-akoestisch model dat de processen in het gemiddelde menselijke gehoor probeert te simuleren en de controle van de schaalfactoren controleert.

Huffman-codering

De schaalfactoren N en de gekwantiseerde amplituden Q van de afzonderlijke frequenties zijn Huffman-gecodeerd met behulp van vaste codetabellen.

Het uiteindelijke MP3-bestand bestaat uit een reeks frames die beginnen met een startmarkering (sync) en die een of twee blokken bevatten die op de hierboven beschreven manier zijn gemaakt.

decompressie

Tijdens decompressie worden de compressiestappen in omgekeerde volgorde uitgevoerd. Na Huffman-decodering worden de gegevens voorbereid voor de inverse gemodificeerde cosinustransformatie (IMCT) door middel van inverse kwantisering. Dit stuurt zijn gegevens door naar een inverse filterbank, die nu de originele monsters berekent (verlies door de kwantisering in het coderingsproces).

Verdere ontwikkeling

MP3 is een veelgebruikt formaat, vooral op internet . In de industrie wordt het voornamelijk gebruikt voor pc-games. Het is een voorheen eigen formaat dat is opgenomen in de ISO- standaard.

Op dat moment was de industrie al bezig met de op MDCT gebaseerde AAC, die betere resultaten oplevert met een vergelijkbare inspanning.

Daarnaast (in de richting van hoogwaardige codering) zijn er ook verdere ontwikkelingen om bij zeer lage datasnelheden (minder dan 96 kbit/s) toch een acceptabele geluidskwaliteit te bereiken. Vertegenwoordigers van deze categorie zijn mp3PRO en MPEG-4 AAC HE of AAC+. Met deze methode kan transparantie echter alleen worden bereikt met High Definition (HD) AAC (AAC LC + SLS).

Karakter voor 5.1 geluid

Het MP3-surroundformaat van het Fraunhofer Institute for Integrated Circuits IIS biedt een uitbreiding met meerkanaalsmogelijkheden. MP3-surround maakt de weergave van 5.1-geluid mogelijk met bitsnelheden die vergelijkbaar zijn met die van stereogeluid en is ook volledig achterwaarts compatibel. Conventionele MP3-decoders kunnen het signaal in stereo decoderen, terwijl MP3-surrounddecoders volledig 5.1- surroundgeluid kunnen genereren.

Om dit te doen , wordt het meerkanaals materiaal gemengd tot een stereosignaal en gecodeerd door een gewone MP3- encoder . Tegelijkertijd wordt de surround-geluidsinformatie van het origineel als surround-uitbreidingsgegevens ingevoegd in het gegevensveld "hulpgegevens" van de MP3-bitstroom. De MP3-gegevens kunnen vervolgens door elke MP3-decoder als stereosignaal worden afgespeeld. De MP3-surrounddecoder gebruikt de ingevoerde extensiegegevens en geeft het volledige meerkanaals audiosignaal weer.

Verdere ontwikkelingen betreffen procedures voor auteursrechtelijke bescherming , die mogelijk in toekomstige versies geïmplementeerd kunnen worden.

gebruik maken van

Audio ruw materiaal vereist veel opslagruimte (1 minuut stereo in cd-kwaliteit ongeveer 10 MB) en hoge gegevensoverdrachtsnelheden of veel tijd voor overdracht (bijvoorbeeld via internet). Compressie zonder verlies vermindert de hoeveelheid gegevens die moet worden overgedragen niet zoveel als lossy-methoden, die in de meeste gevallen (uitzonderingen zijn bijvoorbeeld studiotoepassingen of archivering) nog steeds een acceptabele kwaliteit leveren. Het MP3-formaat voor audiogegevens bereikte al snel de status die JPEG- compressie heeft voor beeldgegevens.

MP3 werd vooral bekend bij het grote publiek via muziekuitwisselingen . In de warez- scène gebruiken veel dvd-rips het MP3-audioformaat als de soundtrack. Met cd-ripperprogramma 's is het mogelijk om de muziek van audio-cd's te extraheren en uit te voeren naar mp3-bestanden. Er zijn ook veel programma's die het mogelijk maken om MP3 om te zetten naar een ander formaat, maar ook andersom (voorbeeld: de audiotrack van een YouTube- video ( FLV ) wordt omgezet naar een MP3-bestand). Een ander aandachtspunt waren de mp3-spelers , waarmee je onderweg naar muziek kunt luisteren. Tegenwoordig ondersteunen de meeste smartphones ook mp3-bestanden.

Op het WWW zijn tal van toepassingen voor MP3-technologie te vinden, van zelf gecomponeerde muziek tot (zelf)gesproken luisterboeken, hoorspelen, vogelgeluiden en andere geluiden tot en met podcasting . Muzikanten kunnen nu zonder distributie hun muziek wereldwijd distribueren en zonder veel moeite geluidsopnamen op een website beschikbaar stellen (naast de GEMA- vergoedingen ook van hun eigen composities die bij GEMA zijn geregistreerd). Gebruikers kunnen zoekmachines gebruiken om alle denkbare (niet-commerciële) geluiden en muziekstijlen te vinden.

Zelfs bij multimediasoftware, vooral bij pc-games, worden de vaak talrijke audiobestanden in mp3-formaat opgeslagen. Daarnaast wordt MP3 gebruikt door tal van - veelal kleinere - online muziekwinkels .

Taggen

In tegenstelling tot modernere codecs, boden MP3-bestanden oorspronkelijk geen manier om metadata (bijvoorbeeld titel, artiest, album, jaar, genre) op te slaan voor het muziekstuk dat ze bevatten.

Ongeacht de ontwikkelaar van het formaat is er een oplossing gevonden die door bijna alle software- en hardwarespelers wordt ondersteund: de ID3-tags worden eenvoudig aan het begin of het einde van het MP3-bestand bevestigd. In de eerste versie (ID3v1) worden ze aan het einde toegevoegd en zijn ze beperkt tot 30 tekens per item en enkele standaarditems. De veel flexibelere versie 2 (ID3v2) wordt niet door alle mp3-spelers (vooral hardwarespelers ) ondersteund, omdat de tags aan het begin van het mp3-bestand worden ingevoegd. Ook binnen ID3v2 zijn er aanzienlijke verschillen. De meest voorkomende zijn ID3v2.3 en ID3v2.4, waarbij ID3v2.4 officieel het gebruik van UTF-8- gecodeerde tekens toestaat (voorheen waren alleen ISO-8859-1 en UTF-16 toegestaan). Veel hardwarespelers geven echter alleen UTF-8-tags weer als door elkaar gegooide tekens . Omdat ID3v2-tags aan het begin van het bestand staan, kunnen deze gegevens ook worden gelezen bij verzending via bijvoorbeeld HTTP, zonder eerst het hele bestand te lezen of meerdere delen van het bestand op te vragen. Om te voorkomen dat bij wijzigingen het hele bestand opnieuw moet worden geschreven, wordt meestal gebruik gemaakt van padding , wat inhoudt dat er vooraf ruimte wordt gereserveerd voor deze wijzigingen.

De metadata van de ID3-tag kunnen bijvoorbeeld worden gebruikt om informatie weer te geven over het nummer dat momenteel wordt afgespeeld, om de nummers in afspeellijsten te sorteren of om archieven te ordenen.

specificatie

Framekoptekst

Byte 1 Byte 2 Byte 3 Byte 4
1 1 1 1 1 1 1 1 1 1 1
Synchroniseren ID kaart Laag Pr Bitsnelheid frequentie vader Pv kanaal ModEx Cp Of nadruk
element maat Beschrijving
Synchroniseren 11 bits alle bits zijn ingesteld op 1
ID kaart 2 bits 0 = MPEG-versie 2.5
1 = gereserveerd
2 = MPEG-versie 2
3 = MPEG-versie 1
Laag 2 bits 0 = gereserveerd
1 = laag III
2 = laag II
3 = laag I
Bescherming 1 bit 0 = 16-bits CRC na de header
1 = geen CRC
Bitsnelheid 4 bits volgens de bitrate-tabel
Bemonsteringsfrequentie: 2 bits volgens de bemonsteringstabel
opvulling 1 bit 0 = frame is niet opgevuld
1 = frame gevuld met extra gleuf
Sleufgrootte: laag I = 32 bits; Laag II + III 8 bits
Privaat 1 bit alleen informatief
Kanaalmodus 2 bits 0 = stereo
1 = Gezamenlijke stereo
2 = 2 monokanalen
3 = één kanaal (mono)
Mode-extensie 2 bits (alleen voor gezamenlijke stereo)
volgens de modusuitbreidingstabel:
auteursrechten 1 bit 0 = zonder copyright
1 = met copyright
origineel 1 bit 0 = kopiëren
1 = origineel
Nadruk 2 bits 0 = geen
1 = 50/15 ms
2 = gereserveerd
3 = ITU-T J.17

Tabelle Bitraten (Angaben in kbps)

Wert MPEG 1 MPEG 2/2.5
Layer I Layer II Layer III Layer I Layer II/III
0 freies Format
1 32 32 32 32 8
2 64 48 40 48 16
3 96 56 48 56 24
4 128 64 56 64 32
5 160 80 64 80 40
6 192 96 80 96 48
7 224 112 96 112 56
8 256 128 112 128 64
9 288 160 128 144 80
10 320 192 160 160 96
11 352 224 192 176 112
12 384 256 224 192 128
13 416 320 256 224 144
14 448 384 320 256 160
15 nicht erlaubt

Tabelle Samplingfrequenz (Angaben in Hz)

Wert MPEG 1 MPEG 2 MPEG 2.5
0 44.100 22.050 11.025
1 48.000 24.000 12.000
2 32.000 16.000 8.000
3 reserviert

Tabelle Mode-Extension

Wert Layer I/II Layer III
0 Subbänder 4 bis 31 Intensity-Stereo: aus; M/S-Stereo: aus
1 Subbänder 8 bis 31 Intensity-Stereo: ein; M/S-Stereo: aus
2 Subbänder 12 bis 31 Intensity-Stereo: aus; M/S-Stereo: ein
3 Subbänder 16 bis 31 Intensity-Stereo: ein; M/S-Stereo: ein

Frame-Daten

Auf den Frame-Header folgen die Frame-Daten (gegebenenfalls zunächst CRC), in denen die kodierten Audio-Daten enthalten sind. Ein Frame hat eine Spieldauer von 1152 Samples bei einer Samplerate von 32.000 bis 48.000 Samples je Sekunde; bei kleineren Sampleraten (16.000 bis 24.000 Samples je Sekunde) sind es nur 576. Bei 48.000 Samples je Sekunde entsprechen dem 24 ms. Die Datenmenge eines Frames kann gemäß den angegebenen Eigenschaften im Header errechnet werden. Die Größe eines Frames in Byte lässt sich dann mit der folgenden Formel berechnen, wobei die Division als Ganzzahldivision durchzuführen ist:

Framegröße = (144 · Bitrate) : Samplerate + Padding [bytes]

Wenn bei komplexen Musikstücken die Menge an Daten nicht in einem Frame gespeichert werden können, bietet MP3 ein sogenanntes bit reservoir. Dieser Speicherbereich ist als zusätzlicher Platz für die Datei bestimmt und erweitert die Daten im entsprechenden Frame. Hierzu kodiert der Encoder vorangegangene Musikpassagen mit geringerer Datenrate und füllt somit frühere Frames nicht vollständig aus, das bit reservoir entsteht. Dieser geschaffene freie Speicherplatz kann nun für die höhere Datenmenge komplexerer Musikpassagen genutzt werden. Die maximale Größe dieses Datenreservoirs beträgt 511 Byte, wobei ausschließlich vorangegangene Frames aufgefüllt werden dürfen.

Verbreitete Implementierungen

Zum Codieren von MP3-Dateien stehen der lizenzpflichtige Encoder der Fraunhofer-Gesellschaft und der Encoder des Open-Source -Projektes LAME zur Verfügung. Daneben existieren der Referenzencoder der ISO dist10 und weitere Projekte wie beispielsweise Xing , blade und Gogo .

Als Decoder gibt es mpg123 , MAD , libavcodec und weitere.

Alternative Formate

Eine ≈128-kbit-/s-MP3-Datei im direkten Vergleich durch Spektralanalysen mit anderen verlustbehafteten Audiodatenkompressionsverfahren. Das unkomprimierte Lied The Power of Thy Sword zeigt im Gegensatz zur MP3-Datei eine volle Bandbreite bis etwa 21 kHz, wogegen die MP3-Datei nur etwa eine Bandbreite bis etwa 16 kHz aufweisen kann; das heißt allerdings nicht sofort, dass sich die Audioqualität drastisch verändert hat.

Neben MP3 existieren zahlreiche weitere Audioformate . Das Format Vorbis ist quelloffen und wurde von den Entwicklern als patentfrei bezeichnet. (Vorbis erschien 15 Jahre vor Ablauf der MP3-Patente.) Vorbis hat sich bei technischen Analysen und in Blindtests gegenüber MP3 vor allem in niedrigen und mittleren Bitratenbereichen als überlegen erwiesen. Der qualitative Vorteil von Vorbis ist im hohen Bitraten-Bereich (um 256 kbit/s) nur noch geringfügig wahrnehmbar. Außerdem bietet Ogg-Vorbis Mehrkanal -Unterstützung, und Ogg kann als Containerformat auch Video- und Textdaten aufnehmen. [23] Letzteres wird aber nur von sehr wenigen MP3-Playern und Radios unterstützt.

RealAudio von RealMedia wurde vorwiegend für Audio-Datenströme ( Streaming Audio ) eingesetzt.

Das freie, auf MP2 -Algorithmen basierende Musepack (früher MPEGPlus) wurde entwickelt, um bei Bitraten über 160 kbit/s noch bessere Qualität als das MP3-Format zu ermöglichen. Es konnte sich aber nicht breit durchsetzen, da es eher auf die Anwendung durch Enthusiasten im High-End-Bereich abzielt und im kommerziellen Bereich kaum unterstützt wird. Dateien im Musepack-Format erkennt man an der Erweiterung mpc oder mp+ . [24]

Advanced Audio Coding (AAC) ist ein im Rahmen von MPEG-2 und MPEG-4 standardisiertes Verfahren, das von mehreren großen Unternehmen entwickelt wurde. Apple und RealMedia setzen dieses Format für ihre Online-Musikläden ein, und die Nero AG stellt einen Encoder für das Format bereit. Mit faac ist auch ein freier Encoder erhältlich. [25] AAC ist bei niedrigen Bitraten bis etwa 160 kbit/s MP3 in der Klangqualität überlegen – je niedriger die Bitrate, desto deutlicher –, erlaubt Mehrkanal-Ton und wird von der Industrie (zum Beispiel bei Mobiltelefonen und MP3-Playern ) breit unterstützt.

Windows Media Audio (WMA) ist ein von Microsoft entwickeltes Audioformat und wird häufig für DRM -geschützte Downloads verwendet. Obwohl es auf vielen üblichen Plattformen abgespielt werden kann, hat es sich nicht gegen das MP3-Format behaupten können.

Wissenswertes

Das Team um Brandenburg machte die ersten Praxistests mit der A-cappella -Version des Liedes Tom's Diner von Suzanne Vega . Bei seiner Suche nach geeignetem Testmaterial las Brandenburg in einer Hi-Fi -Zeitschrift, dass deren Tester das Lied zum Beurteilen von Lautsprechern nutzten, [26] und empfand das Stück als geeignete Herausforderung für eine Audiodatenkompression.

Literatur

  • Franz Miller: Die mp3-Story: Eine deutsche Erfolgsgeschichte , Carl Hanser Verlag GmbH & Co. KG, ISBN 978-3-446-44471-3 .
  • Roland Enders: Das Homerecording Handbuch. Der Weg zu optimalen Aufnahmen. 3., überarbeitete Auflage, überarbeitet von Andreas Schulz. Carstensen, München 2003, ISBN 3-910098-25-8 .
  • Thomas Görne: Tontechnik. Fachbuchverlag Leipzig im Carl Hanser Verlag, München ua 2006, ISBN 3-446-40198-9 .
  • Hubert Henle: Das Tonstudio Handbuch. Praktische Einführung in die professionelle Aufnahmetechnik. 5., komplett überarbeitete Auflage. Carstensen, München 2001, ISBN 3-910098-19-3 .
  • Michael Dickreiter, Volker Dittel, Wolfgang Hoeg, Martin Wöhr (Hrsg.): Handbuch der Tonstudiotechnik. Walter de Gruyter, Berlin/Boston 2014, ISBN 978-3-11-028978-7 oder e- ISBN 978-3-11-031650-6 .

Weblinks

Wiktionary: MP3 – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. RFC 3003 , RFC 3555 , RFC 5219
  2. a b MP3 wird 10 Jahre. (Nicht mehr online verfügbar.) 12. Juli 2005, archiviert vom Original am 12. Februar 2016 ; abgerufen am 3. Februar 2011 . Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis. @1 @2 Vorlage:Webachiv/IABot/www.iuk.fraunhofer.de
  3. MP3 ist offiziell tot: Fraunhofer hat die Lizenzierung eingestellt , curved.de vom 15. Mai 2017; Zugriff am 16. Mai 2017.
  4. Fraunhofer IIS: Lizenzprogramm für MP3 endet , Heise online vom 15. Mai 2017; Zugriff am 16. Mai 2017.
  5. INTERNATIONAL ORGANISATION FOR STANDARDISATION ORGANISATION INTERNATIONALE DE NORMALISATION ISO. 3. Mai 2011, abgerufen am 3. August 2021 .
  6. Miller, Franz. Die mp3-Story: Eine deutsche Erfolgsgeschichte. Carl Hanser Verlag GmbH Co KG, 2015.
  7. Performance of a Software MPEG Video Decoder, Ketan Patel, Brian C. Smith, and Lawrence A. Rowe, ACM Multimedia 1993 Conference, Berkeley.edu (englischsprachig)
  8. THE MPEG-FAQ ¦Version 3.1 – 14. May 1994¦ PHADE SOFTWARE Leibnizstr. 30, 10625 Berlin, GERMANY – Inh. Frank Gadegast
  9. A Big List of MP3 Patents (and supposed expiration dates) . In: tunequest . 26. Februar 2007 (englischsprachig).
  10. Patent US5703999 : Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels. Angemeldet am 18. November 1996 , veröffentlicht am 30. Dezember 1997 , Anmelder: Fraunhofer-Gesellschaft, Erfinder: Jürgen Herre, Dieter Seitzer, Karl-Heinz Brandenburg, Ernst Eberlein.
  11. mp3licensing.com
  12. mp3. Abgerufen am 15. Februar 2018 (englisch).
  13. US MPEG Audio patents. (PDF) 27. Oktober 2016, abgerufen am 27. Oktober 2016 (englisch).
  14. scratchpad.wikia.com
  15. Patent US5850456 : 7-channel transmission, compatible with 5-channel transmission and 2-channel transmission. Angemeldet am 8. Februar 1996 , veröffentlicht am 15. Dezember 1998 , Anmelder: US Philips Corporation, Erfinder: Warner RT Ten Kate, Leon M. Van De Kerkhof.
  16. Full MP3 support coming soon to Fedora - Fedora Magazine . In: Fedora Magazine . 5. Mai 2017 ( fedoramagazine.org [abgerufen am 15. Februar 2018]).
  17. Microsoft sieht Hunderte von Firmen von MP3-Patentstreit betroffen , heise.de
  18. Microsoft erringt Erfolg im Streit um MP3-Patente , heise.de
  19. a b Carsten Meyer: Kreuzverhörtest , heise.de. In: c't 6/2000, Abschnitt Siegerehrung
  20. AudioHQ über MP3-Qualität
  21. What is Gapless Playback (englisch), Apple.com
  22. David Salomon: Data Compression . The Complete Reference. 4. Auflage. Springer, 2007, ISBN 978-1-84628-602-5 , S.   815 (englisch).
  23. OGG vs. LAME (englisch), Pricenfees.com
  24. MPC vs VORBIS vs MP3 vs AAC at 180 kbps, 2nd checkup with classical music (englisch), hydrogenaudio.org
  25. Freeware Advanced Audio Coder (englisch), SourceForge.net
  26. Viele Hi-Fi-Fans können offenbar das Gras wachsen hören – Interview mit dem „MP3-Erfinder“ Karlheinz Brandenburg auf Tagesanzeiger.ch , abgerufen am 20. Januar 2015.