Dzwięk 3d - jak to działa

03 April 2013

Tuan "Solace" Nguyen, tłumaczenie z Tweak3D Krzysztof Sapkowski


Raz na jakiś czas zdarzają się przełomy technologiczne wprawiające społeczeństwa w zdumienie, a dźwięk dookolny (ang. surround - ks) nie jest pod tym względem wyjątkiem. Prawdopodobnie doświadczyliście już dźwięku przestrzennego w tej formie lub w innej. A jeśli nie, to przynajmniej dźwięku stereo. Jeżeli twój PC nie jest wyposażony w możliwości dźwięku 3D tracisz bardzo wiele pod względem doznań słuchowych. A jeśli nie słyszałeś o takich technologiach jak Dolby Digital, A3D, EAX lub DS3D, to mam nadzieję, że poniższy artykuł wzbudzi w tobie nieco pożądanego zainteresowania. Wyjaśnimy w nim na czym polegają dźwięk przestrzenny i dźwięk trójwymiarowy.


MOKRY WILLY

Bardzo często zdarza się, że na głośnikach jest przycisk z napisem "3D Audio " lub "Surround Sound " przeznaczony do włączania "efektu 3D ", ale ku twojej konsternacji po jego naciśnięciu dźwięk jest zniekształcony, traci odpowiedź częstotliwościową albo w ogóle nic się nie dzieje. Technicznie określa się ten efekt jako Rozszerzone Stereo i tak naprawdę ma on z prawdziwym dźwiękiem "3D " niewiele wspólnego. Technikę, którą dziś się zajmiemy nazywa się "pozycyjnym dźwiękiem trójwymiarowym ". System wyposażony w taką właściwość powinien być w stanie rozmieszczać dźwięki w otaczającej cię przestrzeni: ponad, pod i za tobą.

W filmie dźwięk 3D nie jest aż tak ważny jak w PC. Dzieje się tak dlatego, że życzymy sobie by dźwięk współgrał z naszymi poczynaniami i chcemy doświadczać dźwięku tak samo jak w prawdziwym życiu. Dla przykładu, kiedy mija cię Ferrari w Need For Speed IV chcesz móc usłyszeć którędy przejechało. I żeby dźwięk wydawany przez jego zbliżający się silnik stawał się wyraźniejszy i głośniejszy. Na tym polega faktyczna różnica pomiędzy prawdziwym, interaktywnym i pozycyjnym dźwiękiem 3D, a dźwiękiem surround, który tylko "otacza " słuchaczy środowiskiem audio, ale przykłada mniejszą wagę do położenia dźwięków.

Dźwięk surround wykorzystano po raz pierwszy w filmach fabularnych wyświetlanych w kinach, ponieważ jak na domowy użytek technologia ta była zbyt droga. Jakiś czas później trafiła jednak do domowej rozrywki, a w ostatnich latach do komputerów.

 

RODZAJE USPRAWNIEŃ DŹWIĘKU

Są trzy metody, którymi firmy i twórcy wzbogacają dźwięk w grach i filmach. Chociaż niemal całkowicie różnią się od siebie, każda z nich wzbogaca doznania słuchowe. A niektóre mogą nawet je zrujnować.

 

ROZSZERZONE STEREO

Dźwięk stereo wynaleziono w latach 50-tych posługując się dwoma monofonicznymi głośnikami. Każdy z głośników obsługiwał odrębny kanał, a każdy kanał swój odrębny sygnał. Chociaż o wiele lepsze od dźwięku monofonicznego, stereo zawsze było ograniczone przez swoje pole odsłuchowe, czyli wielkość obrazu audio odbieranego przez słuchacza. Spory problem tkwił w tym, że stereo miało względnie małą strefę najlepszego odsłuchu, to znaczy miejsce, w którym musi znajdować się słuchacz, aby uzyskać najlepszy obraz akustyczny.

Aby poszerzyć pole odsłuchowe dźwięku stereo używano licznych technik, a nawet próbowano zrobić to samo z optymalną strefą najlepszego odsłuchu posługując się opóźnieniami lub filtrami. Jednak większość z nich była kiepsko zaprojektowana i powodowała przytłumienie dźwięku, sygnały poza fazą z dużymi stratami na odpowiedzi częstotliwościowej. Basy zwyczajnie zanikały, a soprany brzmiały "ciężko ".

Do najbardziej znanych firm wyspecjalizowanych w rozszerzonym stereo (zwykle produkujących również zestawy głośników dla pecetów) należą SRS, Spatializer i Qsound. Posługują się one wyrafinowanymi algorytmami aby skuteczniej poszerzyć strefę najlepszego odsłuchu nie niszcząc przy tym sygnału źródłowego. Rozszerzone Stereo to najdogodniejsza metoda, gdy dysponujesz ograniczonym miejscem na biurku i masz mało gotówki. Niektóre metody rozszerzonego stereo wymagają podłączenia małego urządzenia pomiędzy kartą muzyczną a głośnikami, dostosowującego ustawienia odpowiednio do twoich upodobań. Inne załatwiają sprawę za pośrednictwem oprogramowania, na przykład Widener wyprodukowany przez Power Technology. Wiele z tańszych i średnio drogich głośników ma tę technologię wbudowaną. I chociaż pole odsłuchowe nadal jest ograniczone, a pozycjonowanie dźwięku jest niemożliwe do przeprowadzenia, jest to jednak krok naprzód w stosunku do zwykłego stereo.

 

DŹWIĘK DOOKOLNY (SURROUND)

Dolby Pro Logic Surround

Pierwszym z trzech rodzajów dźwięku przestrzennego jest Dolby Pro Logic Surround. Jest to najstarsza z technologii dźwięku surround, na którą składają się cztery kanały informacji audio: Lewy, Prawy, Środkowy i Surround. W rzeczywistości są to dwa kanały stereo. Na kanał środkowy składają się identyczne sygnały z lewego i prawego kanału, natomiast kanał surround to kanały lewy i prawy wyrzucone w stosunku do siebie poza fazę. Jeśli spróbujesz odtworzyć dźwięk kodowany jako Pro Logic przez dwa głośniki, usłyszysz nieznaczne echo czyli przesunięcie w dźwięku wychodzącym. Niektóre z domowych odbiorników i kart muzycznych są wyposażone w możliwości przetwarzania sygnału, które wirtualizują środkowy kanał przy użyciu wyłącznie lewego i prawego głośnika.



Dolby Digital 5.1

Znane również jako AC-3, od systemu kodowania Dolby. Dolby Digital to system dźwięku surround, który przechowuje osobno wszystkie kanały. Kanały Lewy, Prawy, Środkowy, Lewy-Tył, Prawy-Tył i Kanał Efektów Niskoczęstotliwościowych są przechowywane osobno w odpowiadających im kanałach.

Pełna nazwa systemu to Dolby Digital 5.1. "5 " oznacza pięć głośników, a "1 " odpowiada Kanałowi Efektów Niskoczęstotliwościowych czyli subwooferowi. Ponieważ jego zakres jest ograniczony do częstotliwości poniżej 120Hz, a nie całego zakresu częstotliwości od 20Hz do 20KHz, przypisano mu "1". System AC-3 można porównać do formatu kodowania MP3, który usuwa dźwięki podobno niesłyszalne dla ludzkiego ucha, aby zredukować wielkość pliku.

DTS

Skrót od Digital Theater Systems. DTS jest podobny do Dolby Digital. DTS został zaprojektowany w celu wykorzystania z audio DVD i może być również używany z płytami audio CD. DTS koduje i kompresuje dane tak jak AC-3, ale nie odrzuca przy tym tylu informacji co AC-3. Niemniej jednak powszechniej wykorzystywane jest Dolby Digital.

Aby słuchać pełnego Dolby Digital lub DTS ze swojego PC musisz mieć kartę muzyczną z wyjściem S/PDIF (Sony/Philips Digital Interface Format), która współpracuje z AC-3 lub DTS. Wtedy można doprowadzić kable do odrębnego odbiornika potrafiącego obsłużyć sześć głośników, który jest w stanie dekodować AC-3 lub DTS. Niektóre nowsze karty potrafią ograniczyć sygnały AC-3 tak by dało się je wykorzystać wraz czterema wyjściami i wirtualizują brakujący kanał środkowy.



SPOWOLNIENIA PRZY DŹWIĘKU DOOKOLNYM
Rzadko zdarza się by któryś z omawianych formatów dźwięku przestrzennego był wykorzystywany jako interaktywne medium w grach. Dzieje się tak dlatego, że algorytmy dekodujące AC-3 i DTS są tak złożone, że dekodowanie wychodzącego dźwięku trwa zbyt długo by nadążyć za tym, co dzieje się na ekranie. W rezultacie jest to przyczyna dla której Dolby Digital i DTS są przede wszystkim wykorzystywane w ścieżkach dźwiękowych uprzednio wyrenderowanych sekwencji filmowych.

Wkraczamy w świat Pozycjonowanego Dźwięku 3D. Wraz z coraz większym wyrafinowaniem gier i wyrafinowaniem oczekiwań graczy w stosunku do gier, twórcy gier musieli wymyślić sposoby generowania efektów przestrzennych, który by otaczały słuchacza oraz (!) były jednocześnie interaktywne.

Programowa warstwa, zwana API, czyli Interfejs Programowania Aplikacji, pozwala grom i aplikacjom na bezpośredni dostęp do sprzętu znajdującego się w PC. Ponieważ najbardziej złożone funkcje są wykonywane na poziomie sprzętowym do manipulowania sygnałami cyfrowymi można wykorzystać złożone algorytmy.

Do API Pozycjonowanego Dźwięku 3D należą: DirectSound3D, A3D, Sensaura i Q3D. Jeśli znacie te technologie to być może zastanawiacie się właśnie dlaczego wśród "API Pozycjonowanego Dźwięku 3D" nie znalazły się EAX i I3DL2. Wkrótce do tego dojdziemy.
 


POZYCJONOWANY DŹWIĘK 3D

Dźwięk trójwymiarowy w trójwymiarowej przestrzeni

Sposób działania dźwięku 3D w przypadku PC wymaga intensywnych obliczeń matematycznych. Twórcy oprogramowania muszą określić gdzie znajduje się źródło dźwięku i gdzie znajduje się słuchacz posługując się do tego celu współrzędnymi X, Y i Z. Do innych parametrów, które muszą wziąć pod uwagę należą kierunek, w którym zwrócony jest słuchacz w odniesieniu do źródła dźwięku, prędkość rozchodzenia się dźwięku od jego źródła oraz sposób w jaki dźwięk się rozchodzi - kuliście lub stożkowo. Ale żeby zrozumieć jak działają API dźwiękowe i na czym polega dźwięk 3D zajmiemy się najpierw tym w jaki sposób funkcjonuje ludzkie ucho.

FUNKCJE PRZENOSZENIA ZWIĄZANE Z GŁOWĄ (HRTF)

Istnieją dwie podstawowe wskazówki pozwalające nam zorientować się skąd dobiega dźwięk: Natężenie (IID) Opóźnienia (IID). Oznacza to, że jeśli źródło dźwięku znajduje się po lewej, wówczas lewe ucho usłyszy dźwięk głośniej i szybciej niż ucho prawe. Interesujące jest również to, że kształt ucha zewnętrznego pomaga mózgowi w dokładniejszym określeniu położenia dźwięku w przestrzeni. Innymi czynnikami pomagającymi zlokalizować dźwięk jest układ głowy i ramion. Słyszymy również lepiej wyższe częstotliwości od niższych. To dlatego ważne jest umieszczenie głośników we właściwych miejscach. Subwoofer może znajdować się gdziekolwiek ponieważ uszy nie są w stanie stwierdzić skąd dochodzą basy. Jednak satelity, które potrafią stworzyć niemal całe spektrum dźwięku muszą zostać umieszczone odpowiednio do tego, gdzie się znajdujemy.



To jak zaprojektowano funkcje przenoszenia związane z głową (HRTF, Head Related Transfer Functions) jest względnie proste. Naukowcy umieścili makietę głowy w pozbawiony ech pomieszczeniu i zainstalowali mikrofony w przewodach słuchowych. Następnie wokół głowy obracali źródło dźwięku umieszczone w nie zmieniającej się odległości. Różnicę pomiędzy spektralnymi odpowiedziami akustycznymi dla obu uszu mierzono i nagrywano. Zbiór tych pomiarów nazywa się funkcją przenoszenia związaną z głową (matematyczna reprezentacja tego jak ludzkie ucho postrzega dźwięk). Składa się on z trzech części: odpowiedzi w bliskości ucha, odpowiedzi w oddaleniu od ucha i wewnątrzsłuchowej różnicy czasu (ITD, różnica czasu pomiędzy bliskim i dalekim uchem). Proces powtarzano dla głów i uszu o różnych rozmiarach aby dojść do uogólnionego modelu HRTF odpowiadającego szerokiemu spektrum odbiorców.

Przesyłanie sygnału dźwiękowego przez filtr HRTF powinno sprawić, że dźwięk będzie wydawał się dochodzić z miejsca, w którym znajduje się ten konkretny filtr. Na przykład dźwięk przepuszczony przez filtr mierzony dla 145o za tobą będzie się wydawał dobiegać właśnie stamtąd.

Same HRTF nie są w stanie wytworzyć dźwięków pozycjonowanych precyzyjnie jeśli sygnał przeznaczony dla lewego ucha słyszy z lewego głośnika również prawe ucho. Twórcy oprogramowania muszą dodać także pozasłuchowe sygnały znoszące niepożądane dźwięki aby nie pozwolić na dotarcie dźwiękowi do prawego ucha. Te sygnały to zwykle odwrócone kształty fali pierwotnego kształtu fali.

Od Elvis van Tomato:
Posiadamy na wyposażeniu zestaw 5:1 Adam audio i coraz częściej "bawimy" się w realizacje tego typu.
Z ciekawostek jedną z lepszych realizacji dźwięku 5:1 naszym zdaniem jest wyścig podów w I części Star Wars "Phantom Menance".
Polecamy.