Headroom und Aussteuerungsreserve - ein häufiges Missverständnis EBU 0 dBFS -9 dBFS 0 dB -9dB full scale 10 ms attack time Einschwingzeit

Das Thema Headroom bzw. Aussteuerungsreserve bei dBFS − ein häufiges Missverständnis
von Christian Schubert

Der Rundfunk empfiehlt in seinen technischen Regelwerken (EBU Technical Recommendation R68-2000) einen Einmesspegel von −18dBFS und führt dazu aus:

"The EBU recommends that, in digital audio equipment, its members should use coding levels for digital audio signals which correspond to an alignment level which is 18 dB below the maximum possible coding level of the digital system, irrespective of the total number of bits available."

Weiterhin heißt es dort:

"An audio signal level can be defined in terms of an alignment signal that is a sine wave signal which has a level (the alignment level) which is 9 dB (or 8 dB in some organizations) below the permitted maximum level of the audio programme."

Zielwert der digitalen Aussteuerung im Rundfunk ist demnach −9 dBFS. Nur Spitzenwerte dürfen diesen Wert überschreiten. Sicherlich hat das auch mit der Tatsache zu tun, dass im Rundfunk eben meistens "live" und ohne zweite Chance aufgenommen wird und − wichtig! − oft technisch ungelernte Mitarbeiter aus dem journalistischen Bereich mit Aufnahme- und Produktionsaufgaben betraut sind, denen eine gewisse Sicherheit gegen Übersteuerung gegeben werden soll.

Nicht alle Rundfunkanstalten halten sich daran, zumindest auf den Verteilwegen nicht, die auch "Außenstehenden", also ganz normalen Radiohörern, zugänglich sind. Der Weg, an dem man es am besten überprüfen kann, ist der digitale Empfang via Satellit oder Kabel im DVB-Standard. Die Programmveranstalter, die sich dort an die EBU-Aussteuerungsrichtlinie halten, fallen spätestens dann auf, wenn man Sendungen digital mitschneidet, in MP3 konvertiert und auf seinen mobilen Player lädt. Ergebnis: Lautstärkeeinstellung nicht selten am Anschlag und dennoch zu leise für das Abhören zum Beispiel in der Straßenbahn auf dem Weg zur Arbeit. Der Kopfhörerverstärker des Portable ist nicht zum Aufholen solch niedriger Pegel konzipiert. Spätestens dann kommt die Frage auf: muss das wirklich so sein? Gibt es noch weitere Gründe für diesen großen vorgeschriebenen Headroom als den oben vermuteten?

Pegelmessung im Rundfunk

Im Rundfunk (zumindest bei der ARD) sind Aussteuerungsmessgeräte gebräuchlich, die eine Integrationszeit von 10 ms besitzen, also kurze Pegelspitzen (im Zeitbereich kleiner etwa 10 ms) mit abnehmender Länge mehr und mehr "wegmitteln" und somit nicht zur Anzeige bringen. Diese Aussteuerungsmessgeräte haben sich historisch durchgesetzt, sie sind für den Tonmenschen aufgrund ihrer Ballistik (Anstiegs- und Abfallzeiten) ergonomisch gut handhabbar. Im Zeitalter der analogen Studiotechnik mit ihrer bei kurzzeitiger minimaler Übersteuerung quasi "unhörbar" reagierenden Elektronik bestand kein Grund, die Integrationszeit der Anzeigen zu verringern, um kürzere Pegelspitzen darstellen zu können.

Die Aussteuerungsreserven jenseits des im Betriebsablauf vorgesehenen Spitzenpegels sind zumindest bei analogen Mischpulten und Verstärkern teils beachtlich. Der "0-dB-Punkt" der Rundfunk-Pegelmessgeräte entspricht bei Aussteuerung mit Dauerton-Sinus einem Pegel von +6 dBu entsprechend 1.55 Veff. In Datenblättern zu analoger Studiotechnik findet man häufig maximal zulässige Eingangspegel von +12 dBu oder +18 dBu, zuweilen sogar noch mehr. Somit ist sichergestellt, dass auch bei Aussteuerung bis "Gehäusekante" (dort ist "+5 dB" vermerkt, entsprechend +11 dBu) noch keine nennenswerten Verzerrungen auftreten. Kurzzeitige Pegelspitzen, die von der Anzeige nicht erfasst werden können, gehen dann halt noch einmal 3 bis 5 dB höher − je nachdem, wie kurz der Puls war. Sie fallen aufgrund des sanften Einsatzes der Begrenzung akustisch noch nicht auf oder liegen gar immer noch im klirrarmen Betriebsbereich der nachfolgenden Geräte.

Ein völlig anderes Bild bei der Digitaltechnik: 10 Millisekunden sind bei der heute im Rundfunk gebräuchlichen Abtastrate von 48 kHz bereits 480 Samples. Was genau geschieht, wenn dem Analog- Digitalwandler der Zahlenvorrat zur Darstellung des Eingangssignals zur Neige geht, ist abhängig vom Design des jeweiligen Gerätes. Es genügt bereits die Übersteuerung eines Bruchteils dieser 480 Samples, um sich unangenehm bemerkbar zu machen. Folgen solche Sequenzen häufig aufeinander, ist eine hohe Lästigkeit dieser Übersteuerungen sehr wahrscheinlich. Der Hörer wird schließlich unbewusst zunehmend frustriert und ermüdet. Er mag das Programm so nicht mehr ertragen, selbst wenn er die genaue Ursache nicht benennen kann. Eine Übersteuerung muss im Digitalbereich also um jeden Preis verhindert werden, und sei sie noch so kurz.

Die Anbindung der analogen an die digitale Studiowelt erfolgt beim Rundfunk mit der Festlegung, dass bei Aussteuerung mit Dauerton-Sinus der analoge Pegel von +6 dBu entsprechend 1.55 Veff zu einer Aussteuerung des A/D-Wandlers von −9 dBFS führt. Ein hinreichend langer Sinuston mit einem Pegel von "0 dB" auf dem Pegelmesser führt demnach zu einer Aussteuerung von −9 dBFS im Digitalbereich. Wird der Pegelmesser "auf Anschlag" gefahren ("+5 dB"), liegen auf digitaler Ebene −4 dBFS vor. Der Bereich zwischen −4 dBFS und 0 dBFS, also digitaler Vollaussteuerung, wird vom Pegelmesser gar nicht dargestellt. Diese 4 dB können aber durchaus bei Pegelspitzen komplett aufgebraucht werden, wenn kurze Pulse im Programm vorkommen, die von dem relativ trägen Pegelmesser unterschlagen werden.

Fazit: der "klassische", aus dem analogen Zeitalter stammende Rundfunk-Pegelmesser mit seiner Integrationszeit von 10 ms und seiner Skalierung ist nicht unbedingt gut geeignet, ein Digitalsystem optimal auszusteuern. Der sehr große Headroom auf digitaler Seite, der sich aus der Festlegung, −9 dBFS als maximalen Programmpegel zu verwenden, ergibt, kann allerdings bei nicht mutwillig grob falscher Aussteuerung sämtliche Übersteuerungen sicher verhindern.

"Schnellere" Anzeigen: Nutzen und Nebenwirkungen

Freilich sind auch Pegelmesser erhältlich, die wesentlich kürzere Integrationszeiten besitzen, z. B. 1 ms oder die sogar sample-genau arbeiten, also auch ein einzelnes voll ausgesteuertes Sample korrekt zur Anzeige bringen. Die Skalierung dieser Geräte ist meistens auf den digitalen Betrieb ausgelegt, "0 dB" ist also der höchste anzeigbare Wert und bedeutet demnach gleichzeitig 0 dBFS. RTW bietet mit dem Modell 11528G eine Sonder-Skala für den Rundfunk, welche die Aussteuerungsrichtlinie in Form einer Darstellung bis "+9 dB" (entsprechend 0 dBFS) umsetzt, womit die "0 dB" wieder dort ist, wo sie beim Rundfunk sein soll − im Unterschied zum "üblichen analogen" RTW neigt man durch die sample-genaue Anzeige hier aber je nach Programmmaterial zum Untersteuern.

Pegelspitzen werden von solchen Geräten aber entsprechend unverfälscht angezeigt, so dass prinzipiell eine präzisere Aussteuerungskontrolle möglich ist.

Im Rundfunk wurden solche oder ähnliche Pegelmesser im Zuge der Digitalisierung bei einigen Anstalten eingeführt, nicht überall erfreuten sie sich großer Beliebtheit. Die wesentlich "schnellere" sample-genaue Anzeige wirkt ungewohnt unruhig und hat bei zumindest einer ARD-Anstalt dazu geführt, dass sämtliche Pegelmesser durch Wechsel der Firmware auf 10 ms Integrationszeit umgebaut und die Skalen gegen die üblichen, bis "+5dB" gehenden Skalen ausgetauscht wurden. Aufgrund der weiter oben dargestellten Pegelverhältnisse besteht keine Gefahr, sich über die trägeren Anzeigen Übersteuerungen auf digitaler Ebene einzuhandeln.

Wenn auch sample-genaue Anzeigen nicht mehr reichen oder: "Intersample-Over"

Völlig trägheitslose, also sample-genaue Pegelanzeigen kennt jeder, der sich mit digitaler Audiotechnik befasst. Die Software-Pegelmesser in den besseren Audioeditoren fallen ebenso in diese Kategorie wie die Anzeigen der DAT- und MD-Recorder. Mit solchen Anzeigen sollte es doch unmöglich sein, digitale Signale zu übersteuern − eine naheliegende Vermutung, die sich im ungünstigen Fall als trügerisch herausstellen kann. Ebenso trügerisch ist die Annahme, dass eine Software, die den Spitzenpegel eines Tracks ermittelt, um anschließend beispielsweise die sogenannte "Normalisierung" vorzunehmen, also das nachträgliche "Aufblasen" des Tracks auf digitale Vollaussteuerung, wirklich weiß, was "Vollaussteuerung" bedeutet.

Die folgenden Zusammenhänge sind nicht neu, sie finden sich in dieser oder in ähnlicher Form auch an anderen Stellen im Netz, beispielsweise bei TC Electronic und können dort umfangreicher und mit Setups für praktische Versuche sowie weiteren Quellenangaben aus dem professionellen Bereich nachgelesen werden.^{1) 2)}

Der nachfolgende Versuch nutzt ein synthetisches Signal, das sich als Modellsignal für die Beschreibung der Problematik hervorragend eignet. Wählt man als Signal einen Sinus-Dauerton mit einer Frequenz, die exakt ¼ der Abtastfrequenz beträgt, ist dieses gemäß des Nyquist/Shannon-Abtasttheorems zulässig und führt zu einem digitalen Datenstrom, der je Kanal aus einer periodischen Fortsetzung von immer nur 4 Abtastwerten besteht, von denen bei Wahl einer geeigneten Phasenbeziehung zwischen Signal und Abtastfrequenz auch noch je 2 identisch sind.

Um zu zeigen, welche Effekte auftreten können, verschieben wir die Sinus-Töne in beiden Kanälen um 45° gegeneinander. Mit geeigneter Software (hier das ältere Cool Edit Pro bzw. sein Nachfolger Adobe Audition ³⁾, auch aufgrund der Auslegung der optischen Wellenformdarstellung sehr gut für die folgenden Untersuchungen geeignet) kann dieses leicht nachvollzogen werden:

Die vorgegebenen Einstellungen führen zu zwei voll ausgesteuerten Kanälen mit 11.025 kHz, zumindest wurde das so bei "dB Volume" angegeben. Einziger Unterschied zwischen den Kanälen ist die Phasenverschiebung von 45° und die damit verbundene andere Lokalisation der Samples.

Es ist deutlich zu erkennen, dass im linken Kanal (obere Wellenform) die Samples immer abwechselnd auf der Null-Linie und den maximalen / minimalen Positionen sitzen. Bei entsprechend "günstig" gewählter Phasenverschiebung (siehe rechter Kanal, untere Wellenform) sitzen die Samples symmetrisch zur analogen Null-Linie. Diese Einstellung führt zur niedrigst-möglichen Lage aller Samples. Jede andere Phasenverschiebung führt dazu, dass je eines der Samples zu höheren Werten und eines zu niedrigeren Werten wandert.

Aus der Phasenbeziehung kann leicht der Wert der Samples ausgerechnet werden. Mit einer Phasenverschiebung von 45° ergibt sich

20 · log (sin 45°) = 20 · log (0,707107) = −3,0103 dB

Und genau dieses wird auch von den Pegelanzeigen der Audioeditoren angezeigt. Der hinter den Anzeigen arbeitende Algorithmus ermittelt also nicht Zwischenwerte (betreibt also kein Oversampling), sondern bringt nur die Samples der Audiodatei zur Anzeige. Wer nun eventuell erwartet, dass Audiohardware diesbezüglich besser wäre, muss enttäuscht werden. Hier die Pegelanzeige eines DAT- Recorders beim Abspielen des Testsignals:

Zoomt man beim Audioeditor weiter aus der Wellenform heraus, zeigt sich dann auch noch in der Darstellung etwas, das so nicht richtig ist: der rechte Kanal (unten) wirkt niedriger ausgesteuert. Ist er jedoch gar nicht − seine Samples sitzen nur so, dass die Vollaussteuerung nicht auf primitivem Wege zu erkennen ist.

Völlig unauffällig ist das Signalspektrum: die Nadelspitzen der 11,025-kHz-Sinustöne stehen sauber auf sehr niedrigem Rauschgrund, der in diesem Fall einzig von der Berechnung des Spektrums stammt, da das zugrundeliegende Signal aufgrund seiner synthetischen Herkunft spektral absolut sauber ist:

Nun ein Versuch: wir lassen kanalgetrennt die "Normalisierungsfunktion" des Editors über das File laufen. Sie sucht... ja, was sucht sie eigentlich? Nein, sie sucht nicht etwa die Stelle mit dem höchsten oder niedrigsten Spannungswert im später zu rekonstruierenden analogen Ausgangssignal. Sie nimmt einfach die Position des höchsten / niedrigsten Samples und zieht munter den bereits voll ausgesteuerten Sinus im rechten Kanal um 3 dB hoch:

Auch das wäre möglicherweise noch kein Drama, wenn bei der Wiedergabe z. B. im CD-Player die Samples exakt mit 44,1 kHz direkt ohne vorherige Filterung an den D/A-Wandler gegeben würden und nur ein analoges Ausgangsfilter nachgeschaltet wäre. Vorausgesetzt, die analoge Ausgangsstufe hätte keine Probleme mit der nun (fälschlicherweise) 3 dB zu hohen Aussteuerung im rechten Kanal, würde das File vermutlich problemlos und sauber abgespielt, da auf digitaler Seite keinerlei Clipping auftritt.

Solche Konzepte existieren am Markt jedoch nicht, da sie ein extrem steilflankiges Ausgangsfilter zum Abschneiden der Spiegelprodukte um 22,05 kHz benötigen und damit andere Unsauberkeiten in das Ausgangssignal hineinbringen würden (vor allem hinsichtlich der zeitrichtigen Wiedergabe).

Die üblichen Wandlerkonzepte führen vor der eigentlichen Digital-Analog-Wandlung ein sogenanntes Oversampling durch, berechnen also Zwischenwerte mit feinerer Zeitauflösung. Und genau da passiert es... es müssten im rechten Kanal Zwischenwerte berechnet werden, die nicht mehr in den Wertebereich passen. Was dann passiert und wie schlimm sich das auf das Ausgangssignal auswirkt, kann nicht pauschal angegeben werden. Denkbar ist beispielsweise, dass Systeme, die auf größere Wortbreite umrechnen, hier Vorkehrungen beinhalten, die ein Clipping durch diese sogenannten "Intersample Overs" verhindern oder abmildern. Ein Gerätehersteller, der beispielsweise die digitalen Signale vor der Filterung erst um 6 dB abschwächt, käme hier unfallfrei ans Ziel.

Der AES-Tagungsbeitrag 2) von TC Electronic führt dazu eine Tabelle mit realen Messergebnissen an CD-Playern unterschiedlicher Hersteller und Wandlerkonzepte auf. Die auftretenden Verzerrungen sind enorm − auch bei derartig angesteuerten Abtastratenwandlern.

Wir simulieren im Folgenden den Upsampling-Prozess, indem wir das Audio-File auf 192 kHz Abtastrate umrechnen. Man erkennt die feinere Zeitauflösung, die im Falle des um 3 dB übersteuerten Sinus‘ im rechten Kanal jedoch auch nur wieder rechteck-ähnliche Verläufe konstruieren konnte:

Gut zu erkennen ist das Clipping in der gezoomten Ansicht:

Entsprechend sehen die Spektren aus. Im linken Kanal ein makelloser Sinus, im rechten Kanal wilde Verzerrungen, denn die berechneten Zwischenwerte sind formal allesamt gültig und es gibt keinen Grund für das System, auch nur eine der Störkomponenten wegzufiltern. Spätestens hier wird deutlich, was beim Filterprozess in einem CD-Player oder Abtastratenwandler passieren kann.

Linker Kanal, Sinus nicht übersteuert (0 dBFS):

Rechter Kanal, Sinus übersteuert (+3 dBFS) aufgrund fehlerhafter Spitzenpegelerkennung:

Zurück zum ursprünglichen Signal vor der "Normalisierung":

Führt man hier ohne vorherige "Normalisierung" ein Upsampling auf 192 kHz durch, erkennt man die saubere Rekonstruktion des Kurvenverlaufs in beiden Kanälen und spätestens hier wird ersichtlich, dass trotz der nie bis an den "Anschlag" reichenden Samples sehr wohl auch der rechte Kanal voll ausgesteuert war:

Es muss eigentlich nicht erwähnt werden, dass nun auch im rechten Kanal das Spektrum sauber aussieht und außer dem Sinus-Ton bei 11,025 kHz nichts enthält.

Man kann also sehr wohl durch zu hohe Aussteuerung heftiges Clipping bewerkstelligen, obwohl man im Glauben ist, alle Samples lägen sicher unter oder maximal genau auf der Vollaussteuerung. Die Ursache liegt hier jedoch einzig darin, dass die genutzten Pegelanzeigen und Pegelerkennungsalgorithmen untauglich sind, den wahren Verlauf der Schwingung zu bestimmen und dementsprechend die realen Maximalpegel zu erfassen.

Die Aussage, ein digitales Audiosystem ließe sich nicht verzerrungsfrei bis zur digitalen Vollaussteuerung, also bis 0 dBFS, aussteuern, ist in diesem Zusammenhang unangebracht. Bis zur digitalen Vollaussteuerung ist sehr wohl alles sauber − "digitale Vollaussteuerung" meint in diesem Zusammenhang jedoch Vollaussteuerung einer "quasi-analogen" Signalrekonstruktion, näherungsweise ermittelbar durch deutliches Oversampling auf den vorliegenden Audiodaten. Das in den Versuchen hier dargestellte Signal im rechten Kanal war nach der unzulässigen "Normalisierung" um 3,01 dB übersteuert und somit eindeutig übersteuert − auch wenn sämtliche gängige Pegelmesser etwas anderes behaupten.

Wann muss man damit rechnen, unbewusst zu übersteuern? Immer dann, wenn die Pegelmessung "langsam" ist im Vergleich zu den Signaländerungen. Das war schon im Analogen so − eine amerikanische VU-Anzeige mit 300 ms Integrationszeit ist überhaupt nicht in der Lage, auf Signalspitzen zu reagieren und muss immer mit extremem Headroom genutzt werden. Ein deutscher Rundfunk- Pegelmesser mit 10 ms Integrationszeit reagiert schneller und zeigt deshalb kürzere Spitzen an. Wie eingangs dargestellt, leistet sich der Rundfunk dennoch aus gutem Grund 9 dB Headroom. Ein samplegenaues Anzeigegerät in der digitalen Audiotechnik kommt dem Signalverlauf noch besser nach. Aber es ist, wie wir gesehen haben, immer nochweit davon entfernt, potentielle Übersteuerungen in Digitalfiltern und Abtastratenwandlern zu erkennen.

Also doch Headroom lassen?

Ja − wobei es sich genaugenommen nicht um Headroom handelt, sondern um real vom rekonstruierten "quasi-analogen" Ausgangssignal benutzte Wertebereiche, die nur nicht zur Anzeige gebracht werden. Wir müssen deshalb einen gewissen Sicherheitsabstand einhalten und dürfen keinesfalls durch unbedachtes "Normalisieren" oder (ohnehin waghalsiges) Operieren nahe der 0-dBFS-Grenze bei unwiederbringlichen Liveaufnahmen Schäden anrichten.

Wieviel "Headroom" wir lassen müssen, ist schwer zu sagen. Es ist genau so viel, wie bei der Signalverarbeitung im Wiedergabegerät benötigt wird, um den realen Signalverlauf darzustellen. Die 3 dB "Fehleinschätzung" in unserem Beispiel sind ein Extremwert, sie werden von keinem anderen periodischen Signal erreicht. Nur das streng "monochromatische" und phasenstarr mit der Abtastung verkoppelte Modellsignal hat uns überhaupt diesen Einblick und 3 dB Messfehler ermöglicht.

Bei einem Sinus mit einer Frequenz von z. B. 11,026 kHz bei 44,1 kHz Abtastrate würden die Samples langsam "durchlaufen" und die einfachen Pegelanzeigen pulsieren − obwohl deutlich ein sauberer Ton konstanter Lautstärke zu hören ist. Probieren Sie es aus − es funktioniert auch mit den Hardware- Anzeigen von z. B. DAT-Recordern. Genaugenommen haben wir es hier mit einer Art Mischprodukt aus Abtastrate und Tonfrequenz zu tun.

Abhilfe könnten Pegelmesser mit eingebautem Upsampler schaffen, die in der Lage wären, den Kurvenverlauf des Signals präziser zu bestimmen und somit auch die tatsächlichen Maxima anzuzeigen − auch wenn sie zwischen zwei Samples im 44,1-kHz-System liegen. Aus gleichem Grund dürfte sich die Situation durch die zunehmende Verbreitung von Aufnahmetechnik mit 96 kHz oder gar 192 kHz Abtastrate etwas entspannen. Die feinere zeitliche Auflösung rekonstruiert Signale im menschlichen Hörbereich deutlich präziser und erkennt damit auch reale Spitzenpegel besser.

Einige vom Autor angestellte Vergleiche der Spitzenpegel von mit 44,1 kHz Abtastrate aufgenommenen Musikbeispielen (digitalisiert von Schallplatte bzw. Aufnahmen von alten CDs aus den frühen 1990er Jahren) mit den Spitzenpegeln nach Upsampling auf 192 kHz sind in folgender Tabelle zusammengefasst.

Spitzenpegel @ 44,1 kHz [dBFS]	Spitzenpegel @ 192 kHz [dBFS]	Differenz [dB]
−1,41	−1,42	−0,01
−3,08	−3,0	+0,08
−3,55	−3,54	+0,01
−3,08	−2,89	+0,19
−1,43	−1,21	+0,22
−0,91	−0,92	−0,01
−1,24	−0,95	+0,29
−6,08	−5,60	+0,48
−3,58	−3,56	+0,02
−2,56	−2,53	+0,03
−2,03	−1,93	+0,10

Dabei zeigt sich, dass es sogar zu dem Fall kommen kann, dass im 192-kHz-Signal ein geringfügig niedrigerer "Spitzenpegel" erkannt wird als im ursprünglichen File mit seinen 44,1 kHz Abtastrate. Dither beim Upsampling kann hier ebenso Einfluss haben wie der durchaus realistische Fall, dass im ursprünglichen Signal ein Sample exakt an der maximalen Position des "quasi-analogen" Signalverlaufs saß, im auf höhere Abtastrate konvertierten File allerdings an dieser Stelle nicht mehr. Die Wahrscheinlichkeit dafür ist umso geringer, je höher die Upsampling-Rate gewählt wird. Obige Beispiele zeigen den Effekt zweimal mit vernachlässigbar geringen 0,01 dB Differenz.

Alle anderen Beispiele zeigen, dass bei zeitlich "feinerer" Abtastung Pegelspitzen besser erkannt werden. Die größte in dieser Reihe aufgetretene Differenz beträgt ein knappes halbes dB. Die Größenordnung des Messfehlers liegt damit fest: der Effekt kann zwar bei synthetischen Signalen (unser Beispiel) durchaus 3 dB betragen, spielt sich mit realen Signalen (Musik) zumindest meistens unterhalb
1 dB ab. Wer es wagt, seine Live-Aussteuerung bei der Aufnahme derart "mutig" zu gestalten, könnte in den kritischen Bereich kommen. Für die meisten Situationen sollte sich aus praktischen (Sicherheits)gründen sogar ein größerer Headroom finden − damit besteht hier keinerlei Gefahr.

Gefährlich kann es beim Bearbeiten des finalen Mixes werden, wenn für die CD auf Lautheit optimiert werden soll. Ein Workaround für den "Hausgebrauch" zum Pegel-Maximieren ohne Clipping-Unfall könnte dann wie folgt aussehen: die fertige Produktion auf 44,1 kHz (für das CD-Mastering) sollte mindestens 1 dB "Headroom" gemäß den üblichen Pegelanzeigen aufweisen. Diese Aufnahme dann mit einer Audiosoftware auf 192 kHz hochrechnen und anschließend dort den Spitzenpegel (in -dBFS) ermitteln. Zum Schluss die ursprüngliche Aufnahme (die mit 44,1 kHz für das CD-Mastering) um einen Wert knapp unterhalb dieses Spitzenpegels verstärken. Dabei wird weniger als scheinbare "Vollaussteuerung" herauskommen, aber eben gerade soviel, dass die reale Vollaussteuerung knapp erreicht wird und es auch im CD-Player nicht übersteuert.

Wer freilich von Anfang an beabsichtigt, brutale Lautheit durch absichtliches Clipping zu erreichen − und dieses möglicherweise später dadurch verstecken will, dass er nicht auf 0 dBFS, sondern auf -0,1 dBFS normalisiert, so dass es von keiner herkömmlichen Pegelmessung erkannt wird − der hätte sich die ganze Abhandlung bis hierher auch gerne sparen können. ;-)

Im Ernst − und das ist wirklich mehr als ernst, solche Produktionen gibt es inzwischen im Popmusik- Bereich häufiger als technisch sauber ausgeführte. Eines der extremsten Beispiele ist die CD "Walking On A Dream" des australischen Projektes Empire Of The Sun.

Hier ist alles, aber auch wirklich alles hoffnungslos verloren. Die CD ist musikalisch interessant, allerdings dermaßen aggressiv verzerrt, dass sie nicht lange zu ertragen ist.

MP3, SRCs, DSPs, digitale Effektgeräte

Psychoakustische Datenreduktion hat sich mit dem MP3-Verfahren bereits in den 1990er Jahren durchgesetzt. Die im Umlauf befindlichen MP3s dürften in den meisten Fällen durch digitales Auslesen ("Grabbing") von handelsüblichen CDs entstanden sein und basieren somit auf den Audiodaten, die beim Mastering der Produktion mit auf den Weg gegeben wurden.

Bei der MP3-Codierung wird viel gerechnet und gefiltert − dann ist auch zu hinterfragen, wie sich hier fehlender Headroom auswirken kann. Tagungsbeitrag ²⁾ und Paper ²⁾ von TC Electronic gehen auf dieses Thema ebenfalls kurz ein und wollen zeigen, wie mit abnehmender Datenrate die verlustbehafteten Codierverfahren zunehmend empfindlicher auf übersteuerte Eingangssignale reagieren.

Eigene Versuche mit nicht übersteuertem Audiomaterial zeigten bei Verwendung von LAME 3.93.1 mit 192 kBit/s joint stereo teilweise eine Zunahme des Spitzenpegels um bis zu 0.2 dB in der MP3-Datei verglichen mit der zugrundeliegenden Wave-Datei. Hier kann es also bereits zu vermehrtem Auftreten von geclippten Samples kommen, wenn sauberes Audiomaterial einer moderaten (heute durchaus gebräuchlichen) Datenreduktion auf 192 kBit/s unterworfen wird.

Schlimmer sieht es mit bereits stark geclipptem Audiomaterial aus. Aus der oben angeführten CD von Empire Of The Sun wurde Titel 3 herausgegriffen. Er weist lange geclippte Bereiche mit Vollaussteuerung (-32768 bis +32767) auf. Hier hilft auch kein moderates Absenken des Pegels um Bruchteile eines dB vor der MP3-Codierung − der Output reicht wieder bis 0 dBFS. Erst eine Absenkung des geclippten Originals um 1,5 dB sorgt für das weitgehende Fehlen von Samples mit Vollaussteuerung im MP3. Der Fall ist zwar pathologisch − geclipptes Audio wird nicht besser, wenn man es nachträglich im Pegel reduziert − er zeigt aber, wie die Rechenprozesse der Datenreduktion aus geclipptem Material MP3-Dateien mit noch heftigerem Clipping produzieren. "Garbage in − more garbage out" trifft also auch in diesem Fall zu.

Fazit: Datenreduktionsalgorithmen benötigen zum fehlerfreien Arbeiten einen gewissen Headroom. Dieser ist vergleichsweise gering (gefunden wurden Werte bis 0,2 dB), nimmt aber dramatisch zu, wenn der Codec mit geclipptem Audiomaterial gefüttert wird. Bitte daran erinnern: "Geclippt" (auf "quasi- analoger" Ebene) ist unter Umständen auch Material, das mit der Normalisierungsfunktion behandelt wurde!

Ähnliches gilt für alle anderen Signalprozessierungen, zum Beispiel für Abtastratenwandler. Hier kommt erschwerend hinzu, dass oft nicht ersichtlich ist, welche konstruktiven Vorkehrungen der Hersteller / Programmierer getroffen hat, um unsauberes Verhalten beim Verarbeiten zu hoch ausgesteuerten Audiomaterials zu verhindern oder zu minimieren. Das konsequente Befolgen der Regeln "nicht clippen, schon gar nicht absichtlich" und "0,2 bis 0,3 dB" unterhalb der digitalen Vollaussteuerung − gemessen mit quasi-analoger Präzision − bleiben" sollte genügen, bei Geräten mit Verstärkungsfaktor 1 unerwünschte Störungen zu verhindern.

Liveaufnahmen ohne konsequenten Limiter-Einsatz und ohne nachträgliches Clipping auf digitaler Ebene dürften meistens nur einzelne "herausstehende" Samples beinhalten, so dass selbst eine simple Normalisierungsfunktion keinen hörbaren Schaden anrichtet. Dann sind auf fünf Minuten Länge halt ein oder zwei einzelne Samples (beziehungsweise ihre unmittelbare Umgebung) eventuell geringfügig geclippt − so etwas ist nun wirklich unhörbar.

Wenn freilich absichtliche Manipulationen am Pegel vorgenommen werden sollen, zum Beispiel in digitalen Equalizern, DSP-basierten Effektgeräten oder Raumklangsimulationen, reicht dieser Headroom keinesfalls aus. Das primitivste Beispiel ist vermutlich der Equalizer im Winamp: neben den beabsichtigten Bandanhebungen oder -absenkungen kann hier zusätzlich um bis zu 20 dB verstärkt werden − wer dieses tut, ohne zu bedenken, dass seine Eingangsdaten schon nahe der Vollaussteuerung liegen, erntet halt böse Verzerrungen. Kleiner Trost: es wäre ihm auch mit analog arbeitenden Gerätschaften passiert, wenn er sich nicht an die angegebenen Maximalpegel gehalten hätte.

Ein Blick in die Bedienungsanleitungen der entsprechenden Geräte sollte helfen. Flussdiagramme mit entsprechenden Pegelangaben für die einzelnen Funktionsblöcke gehören da sprichwörtlich zum guten Ton − und wenn man solche Geräte mit (nahezu) voll ausgesteuertem Audiomaterial füttert, sollte der digitale Eingangspegelabschwächer zum täglichen Handwerkszeug gehören.

Fazit

Nur weil im Rundfunk etwas von −9 dBFS Spitzenpegel gesagt wurde und weil an den Pegelanzeigen vieler Digitalgeräte die Marke bei −12 dBFS so magisch herausgestellt ist, gibt es noch lange keinen Grund, den gesamten Aussteuerungsbereich darüber nicht anzutasten. Nutzen Sie diesen Bereich, verschenken Sie nicht unnütz Signal-/ Rauschabstand! Seien Sie sich aber jederzeit bewusst, auf welche Art von Pegelanzeige Sie sich verlassen und was passieren kann, wenn Sie mit "Normalisierungsfunktionen" und ähnlichem arbeiten. Dann gibt es auch keinen Grund, sich nicht bis knapp an die digitale Vollaussteuerung heranzuwagen − vielleicht zeigt Ihr Pegelmesser dann halt nur weniger an. Und genau das ist der Grund zu Wachsamkeit und Vorsicht.

Quellen:

¹⁾ Thomas Lund, "Stop Counting Samples"
    http://www.tcelectronic.com/media/AES121_Stop_Counting_Samples.pdf

²⁾ Thomas Lund, "Level and Distortion in digital broadcasting"
   http://www.ebu.ch/fr/technical/trev/trev_310-lund.pdf

³⁾ Adobe - Producs and solutions
    http://www.adobe.com/

⁴⁾ Gerhard Spikofski and Siegfried Klar, "Levelling and Loudness in Radio and Televison Broadcasting"
    http://tech.ebu.ch/docs/techreview/trev_297-spikofski_klar.pdf

⁵⁾ Algorithms to measure audio programme loudness and true-peak audio level - Recommendation
    ITU-R BS.1770
    http://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1770-0-200607-S!!PDF-E.pdf
    Siehe am Ende ab Seite 16 unten (Appendix 1):
    "Considerations for accurate peak metering of digital audio signals"

Bildnachweis:

    "RTW Pegelmesser, aus den Datenblättern der entsprechenden Geräte"
    http://www.rtw.de/

Ergänzung von Eberhard Sengpiel (ebs) zu den obigen Ausführungen von Dr. Christian Schubert:

Aussteuerungsreserve = Headroom; siehe: http://de.wikipedia.org/wiki/Aussteuerungsreserve

Es gibt kein digitales Audiogerät, bei dem ein "Headroom" vorgesehen werden muss. Jedermann kann
irgend einen willkürlichen Aussteuerungswert jederzeit annehmen und sagen, dass alles darüber eben
Headroom sei. Bei der Definition des Begriffs "Headroom" gibt es häufig Unklarheiten und sogar Streit.

Ein digitales System hat wirklich keinen Headroom (Aussteuerungsreserve), außer denjenigen, den man
sich selbst beliebig frei vorgibt. Bei 0 dBFS ist aber die am höchsten mögliche Aussteuerung erreicht.

Lassen Sie sich also keinen Wert als notwendigen "Headroom" einreden. Bei Co-Produktionen mit
Plattenfirmen hat der Rundfunk gelernt, dass der betriebs-interne "Headroom" von 9 dB zu unnötig
leisen CD-Mastern und damit zu eben solchen CDs führt. Für diese Geld bringenden Tonaufnahmen
musste dieser Sicherheitsabstand selbst beim Rundfunk abgeschafft werden.

Damit ich nicht missverstanden werde, ich wende mich gegen das allgemeine starre Aussteuern
maximal auf die "digitale" −9 dBFS Marke, denn damit sind die "schönsten" Bits darüber bis zu
0 dBFS hin verboten und werden nutzlos freigelassen, besonders wenn in der Summe Limiter arbeiten.

Mit dem Sicherheitsabstand muss man schon flexibel jonglieren. Die Forderung nach einer hohen
Aussteuerung steht dabei im Gegensatz zur Forderung, eine Übersteuerung zu vermeiden.
Man sollte digitale Signale nur mit digitalen Aussteuerungsmessern mit den dBFS-Skalen bei
einer Einschwingzeit von kleiner 1 ms betrachten. Alles andere ist unverständlich.
Die EBU-Rundfunkanstalten haben ein Problem, weil man bei digitalen Aufnahmen weiterhin die alten
"langsamen" Aussteuerungsmesser (Quasi-Spitzenwert, Attack 10 ms bzw. 5 ms) mit den dBu-Skalen
aus der Analogzeit betrachten möchte. Diese Notwendigkeit besteht jedoch für die übrige Welt nicht.

Siehe auch: dBFS - Pegel der digitalen Aussteuerung - in der Mitte der Seite.

Weitere lesenwerte Artikel zum Thema "Lautheit und Aussteuerungspegel":
10 things you need to know about ... EBU R 128 - the EBU loudness recommendation

Florian Camerer: Loudness On the way to nirvana - audio levelling with EBU R 128

Es scheint sich jetzt ein Wechsel von QPPM-Aussteuerung zu Lautheit (ITU/EBU) und True-Peak
anzubahnen.

Bob Katz from digido: The "K-System" is a metering and monitoring standard that integrates the
best concepts of the past with current psychoacoustic knowledge in order to avoid the chaos of the last
20 years.
In the 20th Century we concentrated on the medium. In the 21st Century, we should concentrate on the
message.
We should avoid meters which have 0 dB at the top − this discourages operators from understanding
where the message really is. Instead, we move to a metering system where 0 dB is a reference
loudness, which also determines the monitor gain. In use, programs which exceed 0 dB give some
indication of the amount of processing (compression) which must have been used. There are three
different K-System meter scales, with
0 dB at either 20, 14, or 12 dB below full scale, for typical headroom and SNR requirements. The dual-
characteristic meter has a bar representing the average level and a moving line or dot above the bar
representing the most recent highest instantaneous (1 sample) peak level.

Florian Camerer from ORF: ITU-R BS.1770 defines the basic measurement, EBU R 128 builds on it
and extends it.
BS.1770 is an international standard that describes a method to measure loudness, an inherently
subjective impression.
It introduces "K-weighting", a simple weighting curve that leads to a good match between
subjective impression and objective measurement. EBU R 128 takes BS.1770 and extends it with a
gating function, the descriptor Loudness Range (LRA; see point 4) and the Target Level: −23 LUFS (Loudness Unit, bezogen auf Full Scale). A tolerance of ±1 LU (Loudness Unit) is generally acceptable.

K-Weighting has really nothing to do with Bob Katz's K-System.

The presentation explains what EBU R 128 is about, what related documents are available and why Loudness normalisation is a genuine audio revolution.
"Florian Camerer: "Loudness Webinar part 1"
"Richard v. Everdingen: "Loudness Webinar part 2"
"Florian Camerer: Loudness - IBC 2010"

Bob Katz: "Loudness: War and Peace - YouTube"

Philipp Paul Klose:
"EBU R-128 und ITU-R BS.1770 − Mögliche Audio-Standards für das digitale Kino?"

Richard van Everdingen:
"Loudness − don't forget the distribution chain!"

♦ Oft gepostete Fragen: "dBFS und dBu - Wie sind die Skalen zueinander?"
oder "Kann mir bitte jemand helfen dBFS nach dBu umzurechnen?"
oder "0 dBFS entsprechen analog wieviel dB?"

Es gibt keinen dB- nach dBFS Umrechner

Merke – Vergleich dBFS und dBu: Es gibt keine feste Norm, wie z. B. –20 dBFS = +4 dBu = 0 dBVU.
Die digitale Spitzenwert-Skala passt nicht zur analogen Effektivwert-Skala. Das sind zwei unterschiedliche Welten.

dBu sind Volt – die man mit einem Voltmeter misst.
Analog-Audio: positive and negative Spannung.

dBFS ist dagegen eine binäre Zahl.
Digital-Audio: Nullen und Einsen.

There is no such thing as peak volts dBu *)

It is incorrect to state peak voltage levels in dBu.

*) http://www.rane.com/note169.html

zurück

weiter

Startseite