연구

RESEARCH

연구성과

최정우 교수 연구팀, 인간처럼 종합적 단서로 소리를 분석하는 공간음향 인공지능 DeepASA 개발

교수님 연구팀
<(왼쪽부터) KAIST 전기및전자공학부 최정우 교수, 이동헌 박사, 권영후 석박통합과정>

우리 학부 최정우 교수 연구팀이 다양한 음향 단서를 활용하여 인간과 같은 종합적인 음향 장면 분석이 가능한  통합 음향 인공지능 모델 DeepASA를 개발하였으며, 해당 연구를 세계 최고 인공지능학회인 NeurIPS 2025에 발표하였다 (논문명: DeepASA: An Object-Oriented Multi-Purpose Network for Auditory Scene Analysis).  인간은 양 귀로 수집한 소리를 분석하여 소리가 발생한 방향이나 그 종류, 발생 시간, 그리고 소리가 반사된 공간에 대한 정보를 수집하는 지능을 가지고 있다. 또한, 여러 종류의 소리가 함께 들려올 때, 각 소리에 집중하여 개별적인 소리를 분리하여 이해하는 능력도 갖추고 있다. 

 

f1
< (좌) 연구팀이 우승한 DCASE Challenge Task 4 소개 (중) 연구진 사진 (우) 최우수 학생 발표상>

 

이처럼 고도화 된 청각 인공지능은 이전에는 없던 수준의 소리 기반 위험 물체 식별과 탐지를 가능케 한다. 예를 들면, 소리를 기반으로 장거리의 드론을 탐지하거나, 국경 감시 체계에서 이상 활동의 소리를 조기에 탐지할 수 있으며, 잡음에 묻혀 들리지 않는 소리를 복원하는 등 국방/보안 분야에서 위험 요소를 탐지하고 정보를 추출하기 위한 필수 인공지능 기술로 활용될 수 있다. 또한, 가상현실이나 증강 현실과 같이 다른 현장에서 취득된 공간 음향을 사용자에게 입체감 있게 제공하고자 할 때, 녹음된 공간 음향을 음원 별로 분리하고 소리의 방향이나 방의 특징 등을 추출하여, 재편집을 가능하게 한다. 즉, 공간음향의 완벽한 재편집과 재창조를 가능하게 해주는 차세대 AR/VR 오디오 렌더링의 핵심 기술이라 할 수 있다.

 

DeepASA 연구에는 KAIST 이동헌 박사와 권영후 석박통합과정이 참여했으며, 한국연구재단 (중견연구자지원사업) 과학기술정보통신부 (STEAM 연구사업) 및 국방과학연구소 (미래국방연구센터 사업)의 지원으로 수행되었다. 

 

f2
<음향 장면 분석 결과 예: (좌) 복잡한 실내 음향 장면 (우) 분석된 개별 음원의 종류 및 이벤트 탐지, 방향 탐지, 분리 결과. 각각 실제와 추정치 비교>

 

연구진은 종합적인 태스크 수행으로 각각 태스크에 대한 성능이 한층 개선됨을 보였을 뿐만 아니라, 분리된 음원과 음원 종류, 방향이 발생하는 시간 패턴의 정합성 분석 (Temporal coherence matching)을 통해 재추론을 진행하는 ‘단계적 추론 방식 (Chain of Inference)’ 방식이 청각인공지능 모델의 성능을 한층 강화할 수 있음을 보였다.

 

image03
<단계적 추론 방식 (Chain of Inference)을 갖는 DeepASA 구조>

 

NeurIPS 발표 이전에도, 연구진은 해당 기술의 일부를 사용하여 세계 최고 권위 음향 탐지 및 분석 대회인 DCASE 챌린지 2025의 Task 4에서 1위를 차지한 바 있다. 해당 태스크는 ‘공간 의미 기반 음향 장면 분할 (Spatial Semantic Segmentation of Sound Scenes)’을 다루며, 2025년 10월에 개최된 DCASE 2025 Workshop에서 단 한 팀에게 주어지는 Best Student Paper Award를 수상하였고, 분야별 우수 논문에게 주어지는 Best Judge’s Award도 동시 수상하였다.

 

f3
< (좌) 연구팀이 우승한 DCASE Challenge Task 4 소개 (중) 연구진 사진 (우) 최우수 학생 발표상>

 

이처럼 고도화 된 청각 인공지능은 이전에는 없던 수준의 소리 기반 위험 물체 식별과 탐지를 가능케 한다. 예를 들면, 소리를 기반으로 장거리의 드론을 탐지하거나, 국경 감시 체계에서 이상 활동의 소리를 조기에 탐지할 수 있으며, 잡음에 묻혀 들리지 않는 소리를 복원하는 등 국방/보안 분야에서 위험 요소를 탐지하고 정보를 추출하기 위한 필수 인공지능 기술로 활용될 수 있다. 또한, 가상현실이나 증강 현실과 같이 다른 현장에서 취득된 공간 음향을 사용자에게 입체감 있게 제공하고자 할 때, 녹음된 공간 음향을 음원 별로 분리하고 소리의 방향이나 방의 특징 등을 추출하여, 재편집을 가능하게 한다. 즉, 공간음향의 완벽한 재편집과 재창조를 가능하게 해주는 차세대 AR/VR 오디오 렌더링의 핵심 기술이라 할 수 있다.

 

DeepASA 연구에는 KAIST 이동헌 박사와 권영후 석박통합과정이 참여했으며, 한국연구재단 (중견연구자지원사업) 과학기술정보통신부 (STEAM 연구사업) 및 국방과학연구소 (미래국방연구센터 사업)의 지원으로 수행되었다.