Search This Blog

Sunday, May 9, 2010

음향 코덱의 원리- 심리음향학

음향 코덱의 원리- 심리음향학


By Victor Vergara, Christopher Davis
원문: http://www.audiodesignline.com/howto/audioprocessing/175800470

Audio DesignLine
(01/02/2006 3:14 $  EST)

심리음향학
인간의 음향 인지에 대한 연구는 음향 코덱의 개발에 매우 중요한 요소입니다. 손실 음향 데이터 압축은 특정 음향 정보가 인지되지 않는 원리에 기인하지요. 심리음향학은 생리학적/심리적 요소를 수반하는 難문제입니다.


Figure 1: 달팽이관은, 3개의 액체가 채워진 부분으로 나뉜 달팽이를 닮은 구조를 가지고 있습니다. 3개 중 2개는 압력을 전달하는 管이며, 나머지 하나는 압력 임펄스를 감지하는 코르티(Corti) 기관입니다. 정보는 청각 신경을 통해 뇌로 전달되는 전기적 임펄스로 변환됩니다.


外耳 & 中耳 가 특정 주파수를 여과하여 음을 변조(역주: 頭部伝達関数; Head-Related Transfer Function)하는 반면, 음향 스펙트럼의 인지는 內耳, 그것도 달팽이관에서 주로 이뤄집니다. 달팽이관은 달팽이를 닮은 외관을 가진, 액체로 채워져 있는 나선형 管입니다. 달팽이관의 내부는 음향-신경 변환기의 역할을 하는 기저막(基底膜)으로 덮혀 있는데, 기저막은 달팽이관을 거치는 음파의 순간적 푸리에 변환을 생성하는 주파수에 민감하게 반응합니다. 그리고 주파수 정보는 신경 계통을 거쳐 뇌로 받아 들여지지요.

몇가지의 심리음향학적 효과는 신호 처리에 있어 매우 중요합니다.
다섯 가지의 주요 효과:
- 고주파 제한(high frequency limit)
- 절대 가청임계(absolute threshold of hearing)
- 절대 고통임계(absolute threshold of pain)
- 계속 차폐(temporal masking)
- 동시 차폐(simultaneous masking)




고주파 제한
인간이 들을 수 있는 최대 정현 주파수는 음의 강도와 청취자의 나이에 따라 결정됩니다. 연소자들은 20 kHz까지 들을 수 있는 반면에, 나이가 60~70세 정도 되면 10 kHz 까지 밖에 들을 수 없습니다. 대부분의 스피커는 15 kHz 와 같거나 혹은 그 이상의 재생 대역을 명세합니다. 디지털 녹음의 고역 한계는 보통 22.05 kHz (44.1 kHz 샘플링레이트) 와 24 kHz (48 kHz 샘플링레이트) 정도 인데, 심리음향학과 나이키스트 한계에 의하면 이러한 샘플링레이트는 가청 스펙트럼을 커버하기에 충분합니다. 그러나, 앨리어싱과 잡음을 줄이기 위해 더 높은 샘플링레이트가 필요하기도 하지요.


절대 가청임계 / 절대 고통임계
절대 가청임계(ATH)는 평범한 사람이 들을 수 있는 순음의 최소 강도입니다. 이 임계는 1 kHz ~ 5 kHz 사이에서 최소값을 가지는 주파수의 함수입니다.  가청 임계는 20 Pa의 SPL(음압 단계)로 표준화 되었으며, SPL 단위의 기준은 데시벨(dBSPL) 입니다.

음파의 강도가 고통 임계에 도달하면, 청각에 해를 끼칠 뿐만 아니라 청취자가 견딜 수 없도록 만듭니다. 이 고통 임계의 통상치는 120 dBSPL입니다만, 절대 가청임계와 마찬가지로 절대 고통임계도 주파수 의존적이나, 청각 대역폭에서의 변수가 절대 가청임계만큼 크지는 않습니다.

인간의 청각은 넓은 동적 영역 (120 dBSPL)을 가지고 있습니다. 샘플링된 음의 통용되는 동적 영역은 비트수에 따라 달라지게 되는데, 8 비트는 42 dB, 16 비트는 90 dB, 그리고 24 비트는 138 dB가 됩니다. 가장 보편적인 형식은 16 비트입니다만, 이는 16 비트가 좋은 메모리 용량 對 해상도 比를 가지고 있기 때문입니다. 음질이 우선시되지 않는 (음성 전송 등을 고려하는) 경우엔 8 비트가 가장 좋지요.


계속 & 동시 차폐
두 순음이 가까운 거리(주파수)에 위치하나 진폭은 크게 다른 경우엔, 소리가 더 큰 음이 작은 음을 들리지 않게 만듭니다. 이러한 현상은 차폐(masking)라고 알려져 있지요. 두 순음이 동시에 재생하게 되면, 차폐는 '동시적'이게 됩니다. 음들이 작은 시간차를 두고 반응하는 경우에 발생하는 차폐는 '계속 차폐'라고 알려져 있습니다.

특정 주파수를 가진 음의 존재는 특정 대역폭의 가청 임계를 상승시키게 됩니다. 변조된 가청 임계보다 진폭이 적은 모든 스펙트럼 성분은 이 대역폭 이내에서 차폐가 됩니다. 나아가서, 대역 제한 잡음은 나머지 약한 신호를 모조리 차폐하게 되지요. 청각 주파수 스펙트럼은 약한 소리가 잡음의 개입으로 차폐될 수 있는 서너개의 대역으로 세분화 됩니다. 이러한 세분화를 구하는 방법은 여러가지가 있습니다만: 그 중 하나는 바크 스케일입니다. 500 Hz 이하의 주파수는 100 Hz 단위로 차폐되지요. 그 이상의 주파수(f)는 f의 0.2배로 정해집니다. 주파수 대역의 구분은 다음과 같습니다: 0, 100, 200, 300, 400, 510, 630, 770, 920, 1080, 1270, 1480, 1720, 2000, 2320, 2700, 3150, 3700, 4400, 5300, 6400, 7700, 9500, 12000, 15500

차폐는 주파수 성분을 삭제할지, 혹은 더욱 압축 할지에 대한 여부를 판단하기 위해서 음향 압축에 사용됩니다. 일단, 음향 신호는 필터 뱅크를 통과하여 서너개의 치명 대역으로 분할됩니다. 각 대역의 평균 진폭이 계산되면, 이 평균 진폭을 기준으로 각 대역에 맞는 가청 임계가 드러납니다. 변조된 가청임계 이하의 모든 주파수는 비가청 신호로 간주, 삭제됩니다. 이렇게 되면 음원의 전체 엔트로피는 감소, 더욱 높은 압축률이 구현되는 결과를 가져오지요. 이는 특히나 무손실 압축 알고리즘 (허프만 코드와 같은) 이 상기 주파수 삭제를 거친 음에 적용될 경우에 더욱 잘 드러나게 됩니다.

각종 음향 코덱들은, 어떤 음향 신호가 불필요한지 판단하기 위해서 각기 다른 복잡성과 정확도를 가진 심리음향학적 모델들을 이용합니다. 음향 시스템 설계자의 요구 사항에 적합한 코덱의 현명한 선택은 음질, 메모리 사용량, 처리 요건 같은 제품의 성능을 최적화 시킬 수 있습니다.


[MP3의 원리 요약]


About the authors
Christopher Davis received his B.S. in Computer Science from the University of New Mexico in 2001 and his M.S. in Computer Science from the University of New Mexico in 2005. He is currently employed by Respec Information Technologies as a contractor for Sandia National Laboratories. He can be reached by email at chris2d@unm.edu

Victor M. Vergara is a Doctoral candidate in Eletrical Engineering at th University of New Mexico. He received his B.S.E.E. degree from the University of Panama, and M.S.E.E. from UNM. He can be reached by email at vmve@yahoo.com

1 comment:

  1. 공부하는데 많은 도움이 됐습니다
    정말 감사합니다

    ReplyDelete