4주차. 디지털 오디오

샘플링, 비트 깊이, 디지털 변환의 원리를 학습합니다.

학습 목표

  • 샘플링 개념을 설명한다
  • 비트 깊이와 다이내믹레인지 관계를 이해한다
  • 디지털 오디오 파일 처리 흐름을 정리한다

목차

디지털 영역의 추가

지난 주차까지는 마이크에서 시작해 프리앰프를 거치고, 앰프와 스피커로 이어지는 아날로그 오디오의 흐름을 살펴보았습니다. 이번 주차에서는 그 경로 사이에 디지털 영역이 어떻게 추가되는지를 다룹니다. 오늘날 대부분의 녹음과 편집은 컴퓨터 안에서 이루어지지만, 그렇다고 오디오가 아날로그와 완전히 단절되는 것은 아닙니다. 실제 흐름은 소리, 전기 신호, 숫자 데이터가 서로 연결되며 하나의 연속된 체계를 이룹니다.

과거의 녹음 시스템에서는 테이프 레코더가 저장 장치의 중심 역할을 했습니다. 디지털 환경에서는 이 자리에 세 가지 핵심 단계가 들어옵니다. 먼저 아날로그 신호를 숫자로 바꾸는 ADC(Analog-to-Digital Converter)가 있고, 그다음에는 그 숫자를 저장하고 처리하는 컴퓨터가 있으며, 마지막에는 다시 숫자를 전압으로 돌려놓는 DAC(Digital-to-Analog Converter)가 있습니다. 따라서 오늘날의 오디오 신호 경로는 마이크와 프리앰프만으로 끝나지 않고, ADC와 컴퓨터, DAC까지 포함해야 전체 그림이 완성됩니다.

중요한 점은 디지털 오디오가 아날로그 오디오와 별개의 세계가 아니라는 사실입니다. 실제로 들리는 소리는 언제나 공기의 진동이고, 장비 안에서 오가는 것은 전기 신호이며, 컴퓨터 안에서만 잠시 숫자 데이터의 형태를 취합니다. 다시 말해 음향 영역, 아날로그 영역, 디지털 영역은 서로 끊어진 단계가 아니라 계속 연결된 하나의 흐름입니다. ADC가 없으면 아날로그 신호를 컴퓨터에 기록할 수 없고, DAC가 없으면 컴퓨터 안의 오디오를 다시 들을 수 없습니다.

세 영역은 서로 위에 쌓이는 구조를 이룹니다. 음향 영역만으로도 소리는 존재할 수 있고, 필요하면 아날로그 영역으로 넘어가 증폭과 기록을 할 수 있으며, 더 복잡한 저장과 편집이 필요하면 그 위에 디지털 영역이 추가됩니다. 신시사이저처럼 처음부터 아날로그 회로나 디지털 회로 안에서 만들어진 소리라도, 최종적으로 사람의 귀에 도달하려면 다시 아날로그 출력과 스피커를 거쳐 음향 영역으로 나와야 합니다. 그러므로 디지털 오디오는 음향과 아날로그의 기초 위에서 이해해야 합니다.

이 흐름을 순서대로 정리하면 다음과 같습니다. 마이크가 소리를 전기 신호로 바꾸고, 프리앰프가 그 약한 마이크 레벨 신호를 더 다루기 쉬운 라인 레벨로 키웁니다. 그다음 ADC가 이 아날로그 전압을 일정한 시간 간격으로 측정해 디지털 데이터로 바꾸고, 컴퓨터는 그 데이터를 저장하거나 편집하거나 이펙트를 적용합니다. 이후 DAC가 다시 그 숫자를 아날로그 신호로 바꾸고, 앰프와 스피커를 통해 다시 들을 수 있는 소리로 돌아오게 됩니다.

디지털 영역 안에서 일어나는 과정은 크게 네 부분으로 정리할 수 있습니다. 먼저 ADC가 샘플링을 통해 아날로그 신호를 디지털 데이터로 바꾸고, 그다음 컴퓨터 안에서 디지털 게인 조절과 각종 처리가 이루어집니다. 필요할 경우 디더를 거친 뒤, 마지막으로 DAC가 다시 아날로그 신호를 재구성합니다. 이후에는 이렇게 만들어진 디지털 파일이 어떤 포맷으로 저장되고, 어떤 연결을 통해 장비 사이를 오가는지까지 이어집니다.

🎛️ 실습도구 01

디지털 신호 경로

week 03의 녹음 신호 경로를 바탕으로, 프리앰프 다음에 ADC와 컴퓨터, DAC가 추가된 흐름입니다. 소리가 어디서 전기 신호가 되고, 어디서 숫자 데이터가 되며, 어디서 다시 아날로그 신호와 소리로 돌아오는지 단계별로 확인해 보세요.

마이크
프리앰프
ADC
컴퓨터
DAC
앰프
스피커
MIC
PREAMP
ADC
COMPUTER
DAC
AMP
SPEAKER

음향 영역

ACOUSTIC

아날로그 영역

ANALOG

디지털 영역

DIGITAL

아날로그 영역

ANALOG

음향 영역

ACOUSTIC

소리
마이크 레벨 신호
라인 레벨 신호
디지털 신호
스피커 레벨 신호

USB 마이크는 이 구조를 잘 보여 주는 예입니다. 겉으로 보면 단순히 컴퓨터에 바로 꽂는 마이크처럼 보이지만, 내부에는 이미 마이크 캡슐, 프리앰프, ADC가 함께 들어 있습니다. 외형은 단순해 보여도 원리는 일반적인 오디오 인터페이스를 사용하는 시스템과 크게 다르지 않습니다. 여러 단계가 하나의 케이스 안에 통합되어 있을 뿐입니다.

USB 마이크 — 트랜스듀서, 프리앰프, ADC가 통합된 구조
USB 마이크 — 트랜스듀서, 프리앰프, ADC가 통합된 구조

아날로그-디지털 변환 (ADC)

디지털 오디오를 이해할 때 가장 먼저 알아야 하는 개념은 샘플링(sampling)입니다. 샘플링은 아날로그 신호의 전압을 일정한 시간 간격으로 측정해서 숫자로 기록하는 과정입니다. 즉, 계속 이어지는 아날로그 파형을 아주 짧은 순간순간 읽어 그 값을 숫자로 저장하는 것입니다.

📊 실습도구 02

샘플링 과정

연속적인 아날로그 파형에서 ADC가 한 점씩 전압을 읽어 디지털 숫자로 바꾸는 모습을 단순화해 보여 줍니다. 현재 선택된 샘플 포인트의 위치와 16비트 정수값을 함께 확인해 보세요.

샘플 번호

0

측정값 (16비트)

0

정규화 진폭

0.000

연속적인 아날로그 파형
현재 측정 중인 샘플
이미 정해진 샘플 포인트

이때 1초 동안 몇 번 측정하는지를 샘플레이트(sample rate)라고 하며, 단위는 헤르츠(Hz)를 사용합니다. 예를 들어 44.1kHz는 1초에 44,100번 측정한다는 뜻이고, 48kHz는 1초에 48,000번 측정한다는 뜻입니다. 44.1kHz는 오랫동안 CD 오디오의 표준으로 쓰였고, 48kHz는 영상과 방송 환경에서 널리 사용됩니다.

샘플링은 영상의 프레임 레이트에 비유하면 이해하기 쉽습니다. 초당 1장의 사진으로는 움직임을 자연스럽게 담기 어렵지만, 초당 30장이나 60장이면 훨씬 부드럽게 보입니다. 오디오도 마찬가지로, 초당 더 자주 측정할수록 원래의 파형을 더 정확하게 기록할 수 있고 더 높은 주파수의 변화까지 담아낼 수 있습니다. 다만 이 비유는 완전히 정확한 것은 아니며, 이후 DAC에서 보겠지만 디지털 오디오는 단순한 점 잇기 이상으로 복원됩니다.

🎬 실습도구 03

프레임 레이트 비교

같은 움직임이라도 초당 몇 장의 프레임으로 기록하느냐에 따라 부드러움이 크게 달라집니다. 이 차이를 통해 샘플레이트가 높을수록 파형을 더 촘촘하게 포착한다는 비유를 직관적으로 확인해 보세요.

초당 1 프레임

측정 간격이 너무 넓어서 움직임이 뚝뚝 끊겨 보입니다.

초당 30 프레임

더 자주 기록하므로 움직임이 훨씬 자연스럽고 연속적으로 보입니다.

샘플레이트를 이야기할 때 반드시 함께 나오는 개념이 나이퀴스트 주파수(Nyquist frequency)입니다. 나이퀴스트 주파수는 주어진 샘플레이트로 정확하게 기록할 수 있는 가장 높은 주파수이며, 샘플레이트의 절반과 같습니다. 따라서 44.1kHz 시스템에서는 22.05kHz까지, 48kHz 시스템에서는 24kHz까지 정확하게 기록할 수 있습니다.

이 점이 중요한 이유는 인간의 가청 범위가 대략 20Hz에서 20kHz 정도이기 때문입니다. 따라서 44.1kHz 이상의 샘플레이트면 일반적인 인간 청각 범위는 충분히 포착할 수 있습니다. 핵심은 단순히 숫자가 클수록 좋다는 식의 경쟁이 아니라, 샘플레이트가 담을 수 있는 주파수 범위를 어떻게 결정하는지를 이해하는 데 있습니다.

문제는 나이퀴스트 주파수보다 높은 성분이 ADC에 들어올 때 생깁니다. 이런 성분은 원래 위치 그대로 기록되지 못하고, 나이퀴스트 한계를 기준으로 뒤집혀서 가청 대역 안쪽의 다른 주파수로 잘못 나타납니다. 이것이 에일리어싱(aliasing)입니다. 에일리어싱은 원래 존재하지 않던 주파수가 생기는 디지털 왜곡이며, 한번 기록되고 나면 나중에 완전히 없애기 어렵습니다.

그래서 실제 ADC 앞에는 안티에일리어싱 필터(anti-aliasing filter)가 들어갑니다. 이 필터는 나이퀴스트 주파수보다 높은 성분을 샘플링 전에 미리 줄이거나 제거해, 에일리어싱이 발생하지 않도록 막는 역할을 합니다. 품질 좋은 ADC는 이 필터를 잘 구현하고 있기 때문에, 정상적인 환경에서는 가청 대역에서 심한 에일리어싱을 거의 만들지 않습니다. 결국 샘플링은 단순히 숫자로 바꾸는 작업이 아니라, 필터링과 함께 이루어지는 정교한 변환 과정입니다.

📉 실습도구 04

나이퀴스트와 에일리어싱

샘플레이트가 정해지면 그 절반 지점이 나이퀴스트 주파수가 됩니다. 필터를 끄면 그보다 높은 성분이 아래쪽 대역으로 접혀 내려와, 원래 없던 주파수가 생기는 에일리어싱을 시각적으로 확인할 수 있습니다.

샘플레이트

48 kHz

나이퀴스트 주파수

24 kHz

현재 상태

고주파 제거 중

원래 스펙트럼
나이퀴스트 경계
필터 OFF 시 접혀 내려온 에일리어싱

🔊 실습도구 05

Anti-aliasing filter 유무에 따른 sweep 비교

0 Hz에서 96 kHz까지 선형으로 올라가는 sine sweep를 선택한 샘플링레이트로 샘플링하면, 나이퀴스트 주파수를 넘는 구간은 filter가 없을 때 아래 대역으로 접혀 내려와 에일리어싱으로 들립니다. 반대로 anti-aliasing filter를 적용하면 나이퀴스트 부근에서 점차 감쇠하고, 그 위 대역은 거의 사라집니다.

Sweep0 Hz → 96 kHz샘플링레이트48 kHz나이퀴스트24 kHz
현재 원래 주파수
0 Hz
현재 들리는 주파수
0 Hz
필터 gain
100.0%

ANTI-ALIASING FILTER OFF

필터 없이 바로 샘플링

회색 점선은 원래 입력 sweep이고, 붉은 흔적은 실제로 들리게 되는 결과입니다. 선형 sweep가 24 kHz를 넘는 순간부터 선이 아래쪽으로 접혀 내려오며, 샘플링레이트가 낮을수록 그 현상이 더 일찍 시작됩니다.

ANTI-ALIASING FILTER ON

고주파를 미리 줄인 뒤 샘플링

원래 입력 sweep는 계속 위로 올라가지만, 녹색 결과는 나이퀴스트 부근에서 점차 약해집니다. 그래서 filter OFF 때처럼 강한 접힘 성분이 생기지 않고, 잘못된 저주파·중고역 tone도 거의 나타나지 않습니다.

상태: 재생 버튼을 누르면 0 Hz에서 96 kHz까지 초당 일정한 Hz만큼 증가하는 선형 sweep를 비교할 수 있습니다.

실무에서 자주 보는 샘플레이트로는 44.1kHz, 48kHz, 88.2kHz, 96kHz, 176.4kHz, 192kHz 등이 있습니다. 이 가운데 44.1kHz는 오랫동안 음악 배포와 CD 환경의 표준으로 쓰였고, 48kHz는 영상, 방송, 온라인 콘텐츠 제작에서 널리 사용됩니다. 96kHz와 192kHz 같은 높은 샘플레이트는 더 큰 여유를 제공한다고 여겨지기도 하지만, 파일 크기와 시스템 부담도 함께 커집니다. 따라서 샘플레이트는 단순히 숫자가 큰 쪽을 고르는 문제가 아니라, 작업 목적과 배포 환경, 시스템 자원을 함께 고려해 선택해야 합니다.

이 문제에 대한 의견은 완전히 하나로 모이지는 않습니다. 많은 엔지니어들은 44.1kHz나 48kHz면 인간의 가청 범위를 다루기에 충분하며, 대부분의 음악 제작에서는 이 두 값으로도 이미 매우 좋은 결과를 얻을 수 있다고 봅니다. 특히 48kHz는 영상과의 호환성이 좋아 오늘날 가장 무난한 실무 표준으로 자주 권장됩니다. 반면 일부 엔지니어들은 96kHz가 필터 설계나 특정한 신호 처리에서 여유를 줄 수 있고, 사운드 디자인이나 강한 비선형 처리에서는 도움이 될 수 있다고 말합니다. 그러나 높은 샘플레이트에 비판적인 입장에서는, 96kHz조차 일반적인 음악 제작에서는 과한 선택일 수 있으며 192kHz는 이득보다 부담이 더 클 가능성이 크다고 지적합니다. 핵심 쟁점은 “높을수록 무조건 좋다”가 아니라, 실제로 들을 수 있는 정보와 시스템 전체의 안정성 사이에서 무엇이 더 합리적인가에 있습니다.

정리하면, 순수 음악 작업에서는 44.1kHz가 여전히 충분히 유효한 선택이고, 영상·방송·교육 콘텐츠까지 고려하면 48kHz가 가장 범용적인 기준이 됩니다. 96kHz는 특별한 이유가 있을 때 선택할 수 있는 높은 샘플레이트이며, 192kHz는 일반적인 녹음과 편집 환경에서는 신중하게 접근해야 하는 옵션으로 보는 견해가 많습니다. 그래서 실무에서는 보통 44.1kHz 또는 48kHz를 기본으로 삼고, 더 높은 샘플레이트는 분명한 목적이 있을 때만 선택하는 편이 합리적입니다.

샘플링이 언제 측정할지를 결정한다면, 양자화(quantization)는 측정한 값을 얼마나 세밀하게 기록할지를 결정합니다. 아날로그 전압은 연속적으로 변하지만, 디지털 시스템은 결국 정해진 숫자 단계 안에서만 값을 표현할 수 있습니다. 따라서 실제 측정값을 가장 가까운 디지털 단계에 맞추어 반올림하는 과정이 필요하고, 이것이 양자화입니다.

각 샘플에 실제 숫자를 배정하는 과정도 바로 여기에서 일어납니다. 컴퓨터는 “조금 넘는다” 같은 애매한 값을 그대로 다루지 못하므로, 가능한 숫자 단계 가운데 가장 가까운 값으로 반올림하거나 잘라서 기록해야 합니다. 눈금이 거칠면 실제 길이를 대략적으로만 읽을 수 있고, 눈금이 촘촘할수록 더 정확하게 읽을 수 있는 것처럼, 디지털 오디오에서도 사용할 수 있는 단계 수가 많을수록 샘플의 진폭을 더 정밀하게 기록할 수 있습니다.

여기서 중요한 기준이 비트 뎁스(bit depth)입니다. 비트 뎁스는 각 샘플을 표현하는 데 몇 개의 비트를 사용하는지를 뜻합니다. 16비트는 65,536개의 단계를 사용할 수 있고, 24비트는 16,777,216개의 단계를 사용할 수 있습니다. 단계 수가 많을수록 신호를 더 촘촘하게 표현할 수 있고, 결과적으로 더 넓은 동적 범위(dynamic range)를 확보할 수 있습니다.

자를 비유로 들면 이해가 쉽습니다. 눈금이 성긴 자로 길이를 재면 반올림 오차가 크게 생기고, 더 촘촘한 자를 쓰면 실제 길이에 더 가깝게 측정할 수 있습니다. 디지털 오디오에서도 비트 뎁스가 클수록 진폭을 더 정밀하게 표현할 수 있습니다. 실무에서는 보통 16비트가 CD 표준, 24비트가 녹음과 제작의 표준으로 이해됩니다. 16비트는 약 96dB 정도의 동적 범위를, 24비트는 약 144dB 정도의 동적 범위를 제공합니다. 물론 실제 장비에서는 회로 노이즈와 아날로그 한계 때문에 이론값을 그대로 모두 활용하지는 못하지만, 비트 뎁스가 커질수록 더 작은 신호까지 더 안정적이고 정밀하게 다룰 수 있다는 방향은 분명합니다.

실무에서 가장 자주 접하는 비트 뎁스는 16-bit와 24-bit입니다. 16-bit는 최종 배포 포맷, 특히 CD 오디오의 표준으로 널리 알려져 있습니다. 오늘날에도 최종 전달 파일이나 소비자용 포맷을 설명할 때 자주 등장하지만, 녹음 단계에서 바로 16-bit로 작업하는 경우는 예전보다 훨씬 줄었습니다. 이는 24-bit가 16-bit보다 더 넓은 동적 범위와 더 큰 작업 여유를 제공하기 때문입니다. 게다가 오늘날에는 저장 장치 용량이 과거보다 훨씬 넉넉하므로, 특별한 제약이 없다면 녹음과 제작 단계에서 굳이 16-bit를 선택할 이유도 크지 않습니다.

24-bit는 대부분의 녹음과 편집 작업에서 사실상의 표준으로 자리 잡았습니다. 녹음할 때 입력 레벨을 지나치게 빡빡하게 맞추지 않아도 충분한 해상도와 여유를 확보할 수 있고, 후반 작업에서도 작은 신호와 큰 신호를 더 안정적으로 다룰 수 있기 때문입니다. 그래서 마이크 녹음, 악기 녹음, 일반적인 DAW 작업, 믹싱 전 단계의 파일 보관 등에서는 보통 24-bit를 기본값처럼 사용합니다. 또한 최근에는 고해상도 다운로드나 일부 스트리밍·배포 환경에서 소비자에게 더 높은 품질의 파일을 제공한다는 의미로 24-bit가 최종 전달 포맷으로도 종종 사용됩니다. 물론 모든 배포가 24-bit인 것은 아니며 16-bit도 여전히 중요한 최종 포맷이지만, 실무에서 어떤 비트 뎁스로 녹음하는 것이 좋은가라는 질문에는 대개 24-bit가 가장 무난한 답이 됩니다.

32-bit floating point는 여기서 성격이 조금 다릅니다. 이것은 단순히 24-bit보다 더 좋은 정수 녹음 포맷이라기보다, 매우 넓은 표현 범위와 계산상의 여유를 제공하는 부동소수점(floating point) 방식입니다. 특히 DAW 내부 처리에서는 오랫동안 32-bit float가 널리 사용되어 왔습니다. 이 방식에서는 계산 중 일시적으로 0 dBFS를 넘는 값도 더 유연하게 다룰 수 있기 때문에, 내부 게인 조절이나 플러그인 처리, 버스 합산 과정에서 큰 장점이 있습니다. 그래서 사용자가 의식하지 않아도 많은 소프트웨어가 내부적으로는 32-bit float 환경에서 오디오를 처리합니다.

최근에는 현장 녹음 장비에서도 32-bit float recording이 점점 많이 언급됩니다. 이 경우의 핵심은 절대 클리핑이 없다는 단순한 광고 문구보다, 매우 큰 신호와 매우 작은 신호를 동시에 다룰 수 있는 여유가 커진다는 점에 있습니다. 다만 이것이 마이크나 프리앰프의 아날로그 입력단 한계를 없애 주는 것은 아닙니다. 즉, 파일 포맷이 32-bit float라고 해서 아날로그 회로 단계에서 생긴 왜곡이나 포화까지 모두 되돌릴 수 있는 것은 아닙니다. 그럼에도 예측하기 어려운 현장 음압을 다루는 인터뷰, 다큐멘터리, 필드 레코딩, 효과음 수집 같은 환경에서는 32-bit float가 상당히 유용할 수 있습니다.

64-bit floating point는 보통 최종 녹음 포맷이라기보다 계산 정밀도를 높이기 위한 내부 처리나 전문적인 편집 환경에서 더 자주 언급됩니다. 일부 DAW나 플러그인은 믹싱 엔진이나 오프라인 렌더링, 고정밀 DSP 계산에서 64-bit float를 사용합니다. 이렇게 하면 매우 복잡한 누적 계산, 많은 트랙의 합산, 반복적인 처리 과정에서 반올림 오차를 더 줄일 수 있습니다. 다만 실제 청취 결과에서 32-bit float와 64-bit float의 차이가 항상 직접적으로 들리는 것은 아니며, 저장 공간과 처리량 부담도 더 커집니다. 그래서 64-bit float는 모든 녹음을 이 포맷으로 해야 한다기보다, 소프트웨어 내부 정확도와 엔진 설계의 문제로 이해하는 편이 적절합니다.

정리하면, 최종 배포에는 16-bit가 여전히 중요한 기준이고, 일반적인 녹음과 제작에는 24-bit가 가장 실용적입니다. 32-bit floating point는 소프트웨어 내부 처리와 일부 현장 녹음 환경에서 강점을 가지며, 64-bit floating point는 주로 더 높은 계산 정밀도가 필요한 내부 처리나 전문적 워크플로우에서 의미를 가집니다. 따라서 비트 뎁스를 선택할 때는 숫자의 크기만 볼 것이 아니라, 최종 배포용인지, 일반 녹음용인지, 내부 계산용인지에 따라 그 역할을 구분해서 볼 필요가 있습니다.

📊 실습도구 06

비트 뎁스와 양자화

비트 수가 많아질수록 진폭을 나누는 단계가 더 촘촘해집니다. 같은 파형이라도 비트 뎁스가 낮으면 계단이 거칠어지고, 비트 뎁스가 높으면 원래 파형에 더 가깝게 표현됩니다.

비트 뎁스

5 bit

양자화 레벨

32

이론적 동적 범위

약 30.1 dB

원래 아날로그 파형
양자화된 디지털 단계

샘플레이트는 시간축의 해상도이고, 비트 뎁스는 진폭축의 해상도입니다. 하나는 얼마나 자주 읽느냐를, 다른 하나는 얼마나 세밀하게 기록하느냐를 결정합니다. 디지털 오디오는 이 두 축의 조합으로 아날로그 신호를 표현합니다.

정리하면, 샘플레이트는 주로 어떤 주파수 범위와 시간 해상도를 다룰 수 있는지를 결정하고, 비트 뎁스는 얼마나 넓은 동적 범위와 진폭 정밀도를 확보할 수 있는지를 결정합니다. 실무에서는 44.1kHz와 48kHz가 가장 널리 쓰이는 기준이고, 경우에 따라 96kHz도 사용됩니다. 비트 뎁스는 제작 과정에서는 24-bit가 가장 흔하고, 최종 배포 포맷에서는 16-bit도 여전히 널리 사용됩니다. 32-bit float나 64-bit float는 주로 내부 처리 정밀도나 특수한 녹음 환경에서 의미를 가집니다. 결국 중요한 것은 숫자를 무조건 크게 고르는 것이 아니라, 어떤 작업을 하고 어떤 포맷으로 배포할 것인지에 맞춰 적절한 샘플레이트와 비트 뎁스를 선택하는 일입니다.

📐 실습도구 07

샘플레이트와 비트 뎁스의 해상도

샘플레이트는 가로축에서 얼마나 자주 읽는지를, 비트 뎁스는 세로축에서 얼마나 촘촘하게 나누는지를 결정합니다. 두 값을 함께 바꾸며 디지털 오디오가 아날로그 파형을 어떻게 근사하는지 확인해 보세요.

시간축 해상도 · 샘플레이트

진폭축 해상도 · 비트 뎁스

현재 샘플 수

16

양자화 레벨 인덱스

0 ~ 15

총 레벨 수

16

원래 아날로그 파형
샘플을 읽는 시점
양자화된 디지털 계단

디지털 영역의 게인 스테이지

아날로그 장비에서 게인을 올리고 내리는 일은 전기 회로를 통해 신호 크기를 바꾸는 과정입니다. 그러나 디지털 영역에서의 게인 조절은 기본적으로 숫자에 대한 수학 연산입니다. 예를 들어 6dB를 올린다는 것은 샘플값을 대략 두 배로 만드는 것이고, 6dB를 내린다는 것은 샘플값을 절반으로 줄이는 것에 가깝습니다. 즉, 디지털 게인은 전기적 증폭이라기보다 숫자값의 배율 조정입니다.

🎹 실습도구 08

원상태와 -6 dB에서의 진폭 변화

같은 피아노 코드를 원상태와 -6 dB 상태로 비교해 보세요. -6 dB는 디지털에서 샘플값에 약 0.50배를 곱하는 것에 가까워서, 파형의 모양은 그대로 유지되지만 전체 진폭이 절반 가까이 줄어듭니다.

적용 배율
×1.00
원상태 피크
0.628
-6 dB 피크
0.315
0.00 / 3.60
보라/파랑: 원상태 파형 · 주황: 현재 재생 위치
핵심은 파형의 모양은 유지되고 크기만 줄어든다는 점입니다. 즉, 디지털에서 -6 dB는 전기 회로를 바꾸는 것이 아니라 샘플값 전체에 같은 배율을 곱해 더 작은 숫자로 만드는 연산입니다.

이 점은 왜 초기의 컴퓨터들이 디지털 오디오 작업에 약했는지도 설명해 줍니다. 오디오 파일은 초당 수만 개의 샘플로 이루어져 있으므로, 볼륨을 올리고 내리고 효과를 적용하는 일은 결국 엄청난 양의 수학 연산을 실시간으로 처리하는 문제이기 때문입니다.

디지털 시스템에서는 0 dBFS(0 decibels full scale)라는 기준이 매우 중요합니다. dBFS는 디지털 시스템이 표현할 수 있는 최대값을 기준으로 한 단위이고, 0 dBFS는 그 최대치에 정확히 도달한 상태를 뜻합니다. 여기서 중요한 차이는, 아날로그 장비와 달리 디지털 시스템에는 그 위로 넘어갈 여유가 사실상 없다는 점입니다.

만약 신호가 0 dBFS보다 더 커지려 하면 디지털 클리핑이 발생합니다. 이때 파형의 위와 아래가 잘려 나가며, 결과는 매우 거칠고 날카로운 왜곡으로 들립니다. 아날로그 장비에서 때로는 포화(saturation)가 음악적으로 들릴 수 있는 것과 달리, 디지털 클리핑은 일반적으로 복구하기 어렵고 불쾌하게 들립니다. 그래서 녹음과 믹싱에서는 0 dBFS에 바짝 붙이기보다 충분한 헤드룸을 남겨 두는 것이 중요합니다.

⚠️ 실습도구 09

디지털 클리핑이 파형과 소리에 주는 변화

같은 피아노 코드를 원상태와 디지털 클리핑 상태로 비교해 보세요. 클리핑 상태에서는 점선으로 보이는 원래 큰 파형이 0 dBFS 한계에 부딪히고, 실제 출력은 빨간 실선처럼 위아래가 평평하게 잘립니다.

원상태 피크
0.628
클리핑 전 계산상 피크
1.193
클리핑 후 실제 피크
1.000 (0 dBFS에서 잘림)
0.00 / 3.60
파랑: 원상태 파형 · 주황: 현재 재생 위치
포인트: 디지털 클리핑은 단순히 더 커지는 것이 아니라, 표현 가능한 최대값을 넘는 부분이 평평하게 잘리는 현상입니다. 그래서 배음이 거칠게 늘어나고, 소리도 더 딱딱하고 날카롭게 들립니다.

한편 일부 DAW나 디지털 오디오 소프트웨어는 내부적으로 0 dBFS를 잠시 넘는 계산값을 더 큰 정밀도로 보관할 수 있습니다. 그래서 소프트웨어 안에서는 일시적으로 0 dBFS를 넘게 보여도, 이후 다시 낮추면 최종 출력에서 문제가 생기지 않을 수 있습니다. 하지만 그 값이 DAC나 최종 파일 단계에서 여전히 0 dBFS를 넘고 있다면, 결국 실제 재생이나 출력 순간에는 클리핑이 발생합니다. 따라서 소프트웨어 내부의 표시와 최종 출력 단계는 구분해서 이해해야 합니다.

디지털 오디오에서 신호가 아주 작아질 때는 또 다른 문제가 생깁니다. 아날로그에서는 신호가 작아질수록 노이즈 플로어에 가까워지는 문제가 크지만, 디지털에서는 양자화 단계가 너무 거칠게 느껴져 왜곡처럼 들리는 현상이 나타날 수 있습니다. 이것을 양자화 왜곡(quantization distortion)이라고 합니다.

🎧 실습도구 10

실제 오디오로 듣는 양자화 왜곡 비교

같은 소리를 원본과 저비트 무디더 상태로 나누어 두었습니다. 특히 소리가 매우 작아지는 끝부분에서, 제한된 양자화 단계만으로 표현할 때 어떤 거칠고 부자연스러운 왜곡이 생기는지에 집중해서 들어 보세요.

원본

비트 뎁스를 줄이기 전의 기준 신호입니다.

저비트 변환 (무디더)

비트 뎁스를 낮췄지만 디더를 넣지 않은 예입니다. 아주 작은 신호 구간에서 양자화 단계가 거칠게 드러나며 끝부분이 더 부자연스럽게 들릴 수 있습니다.

팁: 전체적인 볼륨 차이보다 아주 작은 신호가 계단처럼 거칠어지는 느낌끝부분이 매끄럽지 않게 사라지는 질감에 집중해서 들어 보시면 양자화 왜곡이 더 잘 들립니다.

즉, 신호를 너무 크게 키우면 디지털에서는 0 dBFS를 넘어 클리핑이 되고, 반대로 너무 작게 만들면 양자화 왜곡이 더 두드러질 수 있습니다. 이런 점에서 디지털 영역도 아날로그와 마찬가지로 적절한 레벨 안에서 다루는 것이 중요하지만, 문제가 생기는 방식은 서로 다릅니다.

디더 (Dither)

양자화 왜곡은 특히 신호가 매우 작을 때 더 두드러집니다. 신호의 진폭이 양자화 단계 사이 간격에 비해 너무 작으면, 시스템은 원래 값을 충분히 부드럽게 표현하지 못하고 가장 가까운 몇 개의 단계 사이에서만 오가게 됩니다. 그러면 오차가 단순한 무작위 잡음처럼 들리는 것이 아니라, 원래 신호와 관계를 가진 거친 왜곡이나 지글거리는 질감처럼 들릴 수 있습니다. 문제는 단순히 정밀도가 부족하다는 데서 끝나지 않고, 그 부족한 정밀도가 신호와 상관관계를 가지면서 귀에 더 거슬리는 왜곡으로 나타난다는 데 있습니다.

이를 줄이기 위해 사용하는 방법이 디더(dither)입니다. 디더는 양자화 전에 아주 작은 노이즈를 의도적으로 더해, 왜곡이 특정한 패턴으로 들리지 않도록 만드는 기술입니다. 직관적으로는 이상하게 느껴질 수 있지만, 매우 작은 노이즈를 섞으면 오히려 거슬리는 왜곡이 줄어들고 더 자연스럽게 들리게 됩니다. 즉, 원래 신호와 강하게 연결된 왜곡을 아주 작은 무작위성으로 풀어 주어, 왜곡을 덜 인공적이고 덜 거슬리는 형태로 바꾸는 것입니다.

이 차이는 아주 작은 소리가 서서히 사라지는 구간에서 특히 중요합니다. 디더가 없으면 페이드아웃의 끝부분이나 잔향의 꼬리에서 소리가 부자연스럽게 끊기거나, 특정 레벨에서 뭉개지듯 사라질 수 있습니다. 반면 디더를 적용하면 소리가 더 부드럽고 자연스럽게 노이즈 바닥 쪽으로 사라집니다. 즉, 디더는 신호를 더 조용하게 만드는 기술이 아니라, 아주 작은 신호가 사라지는 방식을 더 자연스럽게 만드는 기술입니다.

여기에 노이즈 셰이핑(noise shaping)이라는 개념도 함께 등장합니다. 노이즈 셰이핑은 디더 노이즈의 총량을 없애는 것이 아니라, 인간의 귀가 상대적으로 덜 민감한 주파수 대역으로 그 에너지를 더 밀어 넣어 체감상 덜 거슬리게 만드는 방법입니다. 그래서 같은 디더라도 노이즈 셰이핑이 적용되면 더 조용하게 느껴질 수 있습니다. 다만 이것도 결국 아주 작은 노이즈를 더하는 방식이라는 점은 같습니다.

실무적으로는 비트 뎁스를 최종 출력 포맷으로 낮추는 순간에 디더링이 중요합니다. 많은 DAW는 내부에서 32-bit floating point나 64-bit floating point 정밀도로 오디오를 처리하므로, 최종 파일이 24-bit이든 16-bit이든 더 낮은 정수 비트 뎁스로 내보내는 단계에서는 디더를 적용하는 편이 일반적으로 더 바람직합니다. 물론 24-bit는 16-bit보다 양자화 왜곡이 문제가 되는 지점이 훨씬 더 낮기 때문에 체감 차이가 덜 클 수 있지만, 그렇다고 디더가 불필요한 것은 아닙니다. 특히 16-bit로 낮출 때는 그 중요성이 더 분명해집니다. 따라서 제작 과정에서는 높은 내부 정밀도를 유지하며 작업하고, 최종 배포 포맷이 24-bit이든 16-bit이든 실제 비트 뎁스 축소가 일어나는 마지막 단계에서 적절한 디더를 한 번 적용하는 것이 일반적인 흐름입니다. 반대로 작업 중간 단계마다 반복해서 디더를 거는 것은 보통 바람직하지 않습니다.

적절한 작업 흐름을 유지한다면 디더는 매 순간 의식해야 하는 복잡한 문제가 아닙니다. 평소에는 24-bit 정도의 충분한 정밀도로 작업하고, 최종적으로 더 낮은 정수 비트 뎁스로 내려갈 때 적절한 디더를 켜 두면 대부분의 경우 양자화 왜곡을 실무 문제로 크게 걱정할 필요가 없습니다.

이미지에서의 디더링을 떠올리면 이 개념을 더 직관적으로 이해할 수 있습니다. 예를 들어 부드러운 회색 그라데이션을 1-bit 이미지처럼 검정과 흰색 두 단계만으로 표현해야 한다고 생각해 보면, 디더링이 없을 때는 어느 지점에서 검정이 흰색으로 갑자기 바뀌어 경계가 매우 거칠게 보입니다. 반면 디더링을 적용하면 검정과 흰색 점을 일정한 패턴이나 무작위성으로 섞어, 실제로는 두 색밖에 없더라도 멀리서 볼 때 중간 밝기처럼 느껴지게 만들 수 있습니다. 오디오의 디더도 이와 비슷하게, 원래 신호와 강하게 연결된 거친 왜곡 패턴을 아주 작은 노이즈로 바꾸어 더 자연스럽게 지각되도록 돕습니다.

이미지 디더링 예시 — 원본 그라데이션, 1-bit 무디더, 1-bit 디더 비교
이미지 디더링 예시 — 원본 그라데이션, 1-bit 무디더, 1-bit 디더 비교

즉, 디더는 정보를 마술처럼 되살리는 기술이 아니라, 제한된 해상도 안에서 생길 수밖에 없는 오차를 더 덜 거슬리는 방식으로 분산시키는 기술입니다. 이미지에서는 계조의 경계를 덜 거칠게 보이게 만들고, 오디오에서는 작은 신호가 사라질 때의 느낌을 더 자연스럽게 만드는 쪽으로 작동합니다.

아래 예시는 같은 소리를 원본, 디더 없이 비트 뎁스를 낮춘 버전, 일반 디더를 더한 버전, 노이즈 셰이프 디더를 더한 버전으로 나누어 둔 것입니다. 특히 소리의 끝부분이 얼마나 거칠게 끊기는지, 또는 얼마나 자연스럽게 사라지는지에 집중해서 비교할 수 있습니다.

🎧 실습도구 11

실제 오디오로 듣는 디더 비교

같은 소리를 원본, 무디더 저비트, 디더 적용, 노이즈 셰이프 디더 적용 상태로 나누어 두었습니다. 특히 아주 작은 끝부분, 잔향, 페이드아웃이 어떻게 사라지는지에 집중해서 비교해 보세요.

원본

비트 뎁스를 줄이기 전의 기준 신호입니다.

저비트 변환 (무디더)

비트 뎁스를 낮췄지만 디더를 넣지 않은 예입니다. 작은 신호의 끝부분이 더 거칠게 들릴 수 있습니다.

저비트 변환 + 디더

아주 작은 노이즈를 더해 양자화 왜곡의 패턴을 풀어 준 예입니다. 잔향이나 페이드아웃이 더 자연스럽게 느껴지는지 들어 보세요.

저비트 변환 + 노이즈 셰이프 디더

디더 노이즈를 귀가 덜 민감한 대역 쪽으로 더 밀어 넣은 예입니다. 체감상 더 조용하게 느껴지는지 비교해 보세요.

팁: 네 파일의 볼륨 차이보다 작은 신호가 사라지는 질감잔향 꼬리의 자연스러움을 중심으로 들어 보시면 차이가 더 잘 들립니다.

디지털-아날로그 변환 (DAC)

디지털로 저장한 오디오는 결국 다시 들어야 하기 때문에, 마지막에는 반드시 DAC가 필요합니다. DAC는 각 샘플의 숫자값에 해당하는 전압을 만들어 내고, 그 값을 시간 순서대로 출력합니다. 하지만 컴퓨터 화면에 보이는 파형은 종종 계단 모양처럼 보이므로, 실제로도 그런 형태의 출력이 그대로 나오는 것으로 오해하기 쉽습니다. 그러나 실제 DAC의 최종 출력은 그렇게 동작하지 않습니다.

소프트웨어 화면의 파형 표현 — 실제 출력과 다름
소프트웨어 화면의 파형 표현 — 실제 출력과 다름

실제 DAC 뒤에는 재구성 필터(reconstruction filter)가 있어서, 개별 샘플값을 바탕으로 부드럽고 연속적인 아날로그 파형을 다시 만들어 냅니다. 즉, 디지털 오디오의 출력은 화면에서 보는 단순한 점과 선의 그림보다 훨씬 물리적으로 자연스러운 형태입니다.

이 과정을 비유적으로 설명하면, 소프트웨어 화면은 샘플 점을 계단이나 직선으로 이어 그려 보여 주지만, 실제 DAC 출력은 그 점들 사이를 물리 법칙에 따라 자연스럽게 이어 주는 곡선에 더 가깝습니다. DAC가 만드는 각 샘플 시점의 전압과 재구성 필터의 동작이 합쳐져, 화면의 단순한 도식보다 훨씬 매끄러운 파형이 실제로 형성됩니다.

이 배경에는 나이퀴스트-섀넌 샘플링 정리(Nyquist–Shannon sampling theorem)가 있습니다. 이 정리에 따르면, 어떤 연속 신호가 일정한 최고 주파수 이하의 성분만 가지고 있다면 그 최고 주파수의 두 배보다 큰 속도로 샘플링할 때 원래 신호를 이론적으로 완벽하게 복원할 수 있습니다. 따라서 올바르게 샘플링된 신호는 단지 듬성듬성 기록된 조각이 아니라, 원래 파형을 재구성할 수 있는 충분한 정보를 담고 있다고 볼 수 있습니다.

재구성 필터를 거친 실제 DAC 출력 — 부드러운 곡선
재구성 필터를 거친 실제 DAC 출력 — 부드러운 곡선

실무에서는 오디오 소프트웨어 화면의 계단 모양 파형 때문에 디지털 소리는 원래 각지고 부자연스럽다는 오해가 생기기도 합니다. 그러나 그것은 시각화의 편의상 샘플 포인트를 단순하게 연결해 보여 주는 것일 뿐입니다. 실제 DAC 출력은 그런 단순한 직선 연결이 아니라, 필터와 물리 법칙에 의해 부드러운 아날로그 파형으로 나옵니다.

다음 실습도구에서는 48 kHz 샘플레이트로 기록한 1 kHz, 10 kHz, 20 kHz 사인파를 비교할 수 있습니다. 화면에서는 샘플 포인트가 직선으로 이어져 각지고 불연속적으로 보일 수 있지만, 실제 재생 후 오실로스코프로 보면 DAC의 재구성 과정을 거쳐 다시 연속적인 사인파로 나타납니다. 이 비교는 디지털 기록이 겉보기에는 삐뚤삐뚤해 보여도, 나이퀴스트-섀넌 샘플링 정리가 성립하는 조건에서는 실제 재생에서 원래 파형을 정확하게 복원할 수 있다는 점을 직관적으로 보여 줍니다.

📐 실습도구 12

디지털 샘플 점과 실제 재생 파형

48 kHz 샘플레이트에서 1 kHz, 10 kHz, 20 kHz 사인파를 샘플링하면 화면에서는 샘플 점들이 직선으로 이어져 각지게 보일 수 있습니다. 하지만 실제 DAC 재생 후에는 재구성 필터를 거쳐 연속적인 사인파로 출력됩니다.

디지털화된 모습 (샘플 점 + 직선 연결)

오디오 소프트웨어 화면이 흔히 보여 주는 방식입니다. 샘플 포인트를 단순히 직선으로 이어서 그리기 때문에, 특히 고주파일수록 삐뚤삐뚤해 보입니다.

진폭시간

실제 재생 후 오실로스코프에서 본 파형

DAC와 재구성 필터를 거친 실제 출력은 직선 계단이 아니라 연속적인 아날로그 파형입니다. 조건을 만족하면 원래 사인파가 자연스럽게 복원됩니다.

진폭시간
선택 주파수
1 kHz
48 kHz에서 한 주기당 샘플 수
48.00
핵심 의미
보기에는 각져도, 재생은 연속 파형으로 복원됩니다.
이 도구의 핵심은 화면에서 보이는 직선 연결이 실제 DAC 출력 자체는 아니라는 점을 보여 주는 것입니다. 샘플레이트가 신호의 최고 주파수의 두 배보다 충분히 높다면, 나이퀴스트-섀넌 샘플링 정리에 따라 원래 파형을 이론적으로 복원할 수 있습니다.

44.1kHz나 48kHz만으로도 인간의 가청 범위를 담을 수 있다면, 왜 96kHz나 그 이상의 샘플레이트가 존재할까요? 가장 핵심적인 이유 중 하나는 필터 설계의 여유입니다. 샘플레이트가 높아지면 나이퀴스트 주파수도 올라가고, 안티에일리어싱 필터나 재구성 필터가 가청 범위 바깥에서 더 완만하게 작동할 수 있습니다. 이로 인해 가청 대역 안쪽에서의 위상 왜곡이나 필터 부담이 줄어드는 경우가 있습니다.

다만 이것이 곧 무조건 높은 샘플레이트가 항상 더 낫다는 뜻은 아닙니다. 샘플레이트가 올라가면 파일 크기와 처리량도 늘어나고, 시스템 부담이 커집니다. 어떤 환경에서는 초음파 대역의 불필요한 정보나 장비 특성 때문에 오히려 다른 문제가 생길 수도 있습니다. 또한 44.1kHz를 넘는 샘플레이트가 가청 범위 내의 신호 자체를 자동으로 더 정확하게 만드는 것은 아닙니다. 경우에 따라 초음파를 다뤄야 하는 특수 목적, 예를 들어 박쥐나 돌고래 같은 초음파를 기록하는 상황이 아니라면, 지나치게 높은 샘플레이트가 항상 실질적 이득을 주는 것은 아닙니다.

디지털 포맷과 데이터 압축

디지털 오디오 파일을 저장하고 다른 사람과 공유할 때는, 보통 음질과 파일 크기 사이에 어느 정도의 절충이 생깁니다. 이때 사용할 수 있는 파일 포맷은 크게 세 가지로 나눌 수 있습니다. 비압축(uncompressed), 무손실 압축(lossless compression), 손실 압축(lossy compression)입니다. 여기서 말하는 압축은 데이터 압축이지, 다이나믹 레인지 압축과는 전혀 다른 개념입니다. 이름만 비슷할 뿐 완전히 다른 문제이므로 혼동하지 않는 것이 중요합니다.

먼저 WAV와 AIFF는 대표적인 비압축 포맷입니다. 각 샘플이 거의 그대로 저장되므로 구조가 단순하고 원본 보존에 유리하지만, 파일 크기가 큽니다. 이 파일들은 단순한 숫자 목록만 있는 것이 아니라, 샘플레이트, 비트 뎁스, 채널 구성, 좌우 채널의 배치 방식 같은 해석 방법이 함께 기록된 헤더 정보를 포함합니다. 즉, 오디오 데이터 자체와 그 데이터를 어떻게 읽어야 하는지에 대한 안내가 함께 들어 있는 셈입니다.

그다음은 무손실 압축(lossless compression) 포맷입니다. FLAC과 ALAC 같은 포맷이 여기에 속합니다. 무손실이라는 말은 다시 풀었을 때 원본과 완전히 동일한 샘플 데이터를 복원할 수 있다는 뜻이고, 압축이라는 말은 그 상태에서 저장 공간을 더 적게 차지한다는 뜻입니다. 구조적으로는 zip 압축처럼 데이터를 더 효율적으로 표현하는 방식에 가깝습니다. 예를 들어 반복되는 값이 많으면 그것을 더 짧은 방식으로 기록하는 식입니다. 그래서 무손실 압축 파일은 보통 원본보다 약 20~50% 정도 저장 공간을 덜 차지하면서도, 소리는 비압축 원본과 완전히 같습니다. FLAC은 Free Lossless Audio Codec의 약자이고, 여기서 codec은 compressor / decompressor를 줄인 말입니다. 오늘날 많은 음악 서비스가 무손실 스트리밍을 지원하면서 이런 포맷의 중요성도 더 커지고 있습니다.

마지막은 손실 압축(lossy compression) 포맷입니다. MP3, AAC, Ogg Vorbis, WMA 같은 포맷이 대표적입니다. 이 방식은 훨씬 더 작은 파일 크기를 얻는 대신, 원본 오디오 정보의 일부를 버립니다. 즉, 파일은 더 작아지지만 원본과 완전히 동일한 신호는 아닙니다. 손실 압축은 심리음향학(psychoacoustics), 즉 인간이 소리를 어떻게 지각하는가에 대한 연구를 바탕으로 어떤 정보를 남기고 어떤 정보를 줄일지 결정합니다. 예를 들어 어떤 순간에 특정 주파수의 아주 큰 소리가 나고 있을 때, 그 근처 주파수의 더 작은 소리는 실제로 잘 들리지 않을 수 있습니다. 코덱은 이런 특성을 이용해 귀에 거의 들리지 않을 것으로 판단되는 정보를 생략합니다.

손실 압축 파일을 만들 때 중요한 기준 중 하나가 비트레이트(bitrate)입니다. 비트레이트는 코덱이 1초 동안 오디오를 저장하는 데 사용할 수 있는 정보량이라고 생각하면 됩니다. 보통 kbps, 즉 초당 킬로비트 수로 표시하며 128kbps, 192kbps, 256kbps, 320kbps 같은 값이 흔히 사용됩니다. 비트레이트가 낮을수록 코덱은 더 많은 정보를 버려야 하고, 비트레이트가 높을수록 원본에 가까운 정보를 더 많이 유지할 수 있습니다.

따라서 비트레이트가 낮을수록 고역이 먹먹해지거나, 심벌즈가 거칠고 지글거리는 느낌이 나거나, 복잡한 소리에서 뭉개지는 느낌이 나는 등 압축 아티팩트가 늘어날 수 있습니다. 오래전 낮은 비트레이트 MP3가 나쁜 평판을 얻은 이유도 여기에 있습니다. 당시에는 96kbps 같은 낮은 비트레이트를 자주 사용했고, 코덱 자체도 지금보다 덜 정교했기 때문에 어떤 정보를 버리고 어떤 정보를 남겨야 하는지에 대한 판단이 지금보다 서툴렀습니다. 그 결과 고역이 답답해지거나 이상한 왜곡이 들리는 경우가 많았습니다.

하지만 오늘날의 코덱은 훨씬 정교해졌습니다. 현대적인 MP3나 AAC 인코더는 과거보다 훨씬 나은 심리음향 모델을 사용하므로, 적절히 높은 비트레이트에서는 많은 상황에서 원본과 구별하기 어려운 결과를 냅니다. 실제로 많은 경우 192kbps 이상에서는 일반적인 청취 환경과 장비에서 원본과 구별하기 어려운 경우가 많습니다. 다만 그 지점은 사람마다, 사용하는 장비마다, 음악의 종류마다, 그리고 어떤 코덱을 쓰느냐에 따라 달라질 수 있습니다.

이 차이를 더 엄밀하게 확인하려면 더블 블라인드(double-blind) 방식의 ABX 테스트를 사용할 수 있습니다. 이런 테스트는 청취자가 어떤 파일이 원본인지, 어떤 파일이 압축본인지 모르는 상태에서 실제로 구분할 수 있는지를 확인하는 방법입니다. 즉, 느낌상 같다가 아니라 실제로 들을 수 있는 차이가 있는지를 검증하는 데 도움이 됩니다.

정리하면, 비압축 포맷은 가장 단순하고 원본 보존에 유리하지만 파일이 크고, 무손실 압축 포맷은 더 작은 파일 크기로도 원본을 완전히 유지할 수 있으며, 손실 압축 포맷은 훨씬 작은 파일을 만들 수 있지만 그 대가로 일부 오디오 정보가 사라집니다. 그래서 손실 압축 포맷은 휴대기기나 스트리밍, 일상적 청취에는 매우 유용하지만, 작업용 원본이나 보관용 아카이브는 언제나 무손실 상태로 유지하는 것이 안전합니다. 한번 손실 압축된 오디오는 다시 WAV나 AIFF로 변환해도 원래 사라진 정보가 되살아나지 않기 때문입니다.

🎧 실습도구 13

오디오 압축 포맷 비교

같은 음악을 원본, 무손실 압축, 낮은 비트레이트 손실 압축으로 바꿔 들으며 차이를 비교해 보세요. 포맷을 바꿔도 같은 재생 위치를 유지하도록 구성했습니다.

현재 비교 중

WAV (원본) · 비압축 · 8.2MB

0:000:00
원본 기준 파일입니다. 비교할 때 기준점으로 삼으세요.

디지털 연결의 작동 방식

디지털 오디오를 장비 사이에서 주고받으려면 단지 파일 포맷만 아는 것으로는 부족합니다. 실제 연결을 이해할 때는 세 가지 층을 나누어 생각하면 도움이 됩니다. 첫째는 물리적 연결, 즉 케이블과 커넥터의 모양입니다. 둘째는 통신 프로토콜, 즉 데이터를 어떤 방식으로 주고받는가입니다. 셋째는 오디오 포맷, 즉 샘플레이트와 비트 뎁스, 채널 수 같은 실제 오디오 데이터의 규격입니다.

가장 흔한 연결은 USB입니다. USB는 오디오 인터페이스와 컴퓨터를 연결하는 대표적인 방식이며, 입력과 출력 데이터를 동시에 양방향으로 주고받을 수 있습니다. 오디오 인터페이스는 아날로그 입력에서 ADC를 거쳐 디지털 데이터를 만들고, 그 데이터를 USB를 통해 컴퓨터로 보냅니다. 동시에 컴퓨터에서 재생되는 오디오는 다시 USB를 통해 인터페이스로 내려와 DAC를 거쳐 스피커나 헤드폰으로 출력됩니다.

이 과정을 조금 더 자세히 보면, 마이크는 인터페이스의 아날로그 입력으로 들어가고, 내부 프리앰프가 그 신호를 라인 레벨로 끌어올립니다. 그다음 ADC가 샘플링을 수행하고, 인터페이스는 그 샘플들을 USB 프로토콜로 컴퓨터에 전송합니다. 동시에 컴퓨터는 같은 USB 연결을 통해 재생용 오디오를 다시 인터페이스로 보내고, 필요하면 샘플레이트 변경, 비트 뎁스 설정 같은 제어 명령도 주고받을 수 있습니다. 즉, USB 한 가닥 안에서 오디오와 제어 정보가 함께 오갑니다.

썬더볼트(Thunderbolt)도 비슷한 목적에 쓰이지만, 더 높은 대역폭과 더 낮은 지연 시간을 제공해 많은 채널을 다루는 전문 시스템에서 선호되기도 합니다. 과거에는 파이어와이어(FireWire)도 많이 사용되었지만, 현재는 대부분 USB와 썬더볼트가 그 자리를 대체했습니다.

USB와 썬더볼트 커넥터 — USB Type-A, USB Type-B, USB-C, Thunderbolt
USB와 썬더볼트 커넥터 — USB Type-A, USB Type-B, USB-C, Thunderbolt

전용 디지털 오디오 연결로는 AES/EBU, S/PDIF, ADAT가 있습니다. AES/EBU는 보통 2채널 디지털 오디오를 전송하며, XLR 형태의 커넥터를 쓰지만 마이크 케이블과는 전기적 특성이 다릅니다. S/PDIF는 RCA 또는 광 단자를 통해 2채널 오디오를 전송합니다. ADAT는 광 케이블 하나로 여러 채널을 동시에 보낼 수 있어, 인터페이스 입력 확장 등에 자주 활용됩니다.

디지털 오디오 커넥터 — XLR(AES/EBU), RCA(S/PDIF), Toslink 광섬유
디지털 오디오 커넥터 — XLR(AES/EBU), RCA(S/PDIF), Toslink 광섬유

최근에는 Dante, AVB, AES67 같은 네트워크 오디오도 점점 중요해지고 있습니다. 이 방식들은 일반적인 이더넷 네트워크를 이용해 많은 수의 오디오 채널을 유연하게 라우팅할 수 있어, 방송국이나 공연장, 대형 스튜디오처럼 복잡한 환경에서 큰 장점을 가집니다.

이렇게 보면 디지털 연결은 크게 컴퓨터 주변장치용 범용 연결과, 컴퓨터 없이도 장비끼리 직접 연결할 수 있는 전용 오디오 연결로 나누어 생각할 수 있습니다. 오늘날 홈 스튜디오에서는 대부분 컴퓨터가 중심이기 때문에 USB나 썬더볼트 같은 연결이 가장 흔하지만, 대형 시스템이나 특정 장비 환경에서는 AES/EBU, S/PDIF, ADAT, 네트워크 오디오가 여전히 중요한 역할을 합니다.

디지털 케이블을 선택할 때는, 흔히 말하는 음질 차이보다 먼저 신뢰성과 호환성이 중요합니다. 디지털 연결은 대체로 제대로 작동하면 원래 데이터가 정확히 전달되고, 문제가 생기면 아예 끊기거나 팝, 클릭, 심한 오류가 발생합니다. 따라서 디지털 케이블은 신비한 음색 변화의 도구라기보다 안정적인 데이터 전송 수단으로 이해하는 편이 적절합니다.

다음 주 준비물

다음 주 6주차 낭독 녹음 실습을 위해 짧은 읽을거리(시 등)를 준비해 오세요. 두 문단 또는 두 연 이상인 글을 권장합니다. 읽었을 때 전체 길이가 약 20초에서 50초 사이가 되도록 준비하면 적절합니다. 또한 욕설이 포함되지 않아야 하며, 12세 이용가 수준을 넘어서지 않는 내용을 골라 주세요.