AI in EEAI and machine learning are a key thrust in EE researchAI and machine learning are a key thrust in EE research
AI/machine learning efforts are already a big part of ongoing
research in all 6 divisions - Computer, Communication, Signal,
Wave, Circuit and Device - of KAIST EE
< 사진 1. (왼쪽부터) 권영후 석박사통합과정, 김도환 석사과정, 최정우 교수, 이동헌 박사 >
‘음향 분리 및 분류 기술’은 드론, 공장 배관, 국경 감시 시스템 등에서 이상 음향을 조기에 탐지하거나, AR/VR 콘텐츠 제작 시 공간 음향(Spatial Audio)을 음원별로 분리해 편집할 수 있도록 하는 차세대 인공지능(AI) 핵심 기술이다.
우리 학부 최정우 교수 연구팀이 세계 최고 권위의 음향 탐지 및 분석 대회인 ‘IEEE DCASE 챌린지 2025’에서 ‘공간 의미 기반 음향 장면 분할(Spatial Semantic Segmentation of Sound Scenes)’ 분야에서 우승을 차지했다.
이번 대회에서 연구팀은 전 세계 86개 참가팀과 총 6개 분야에서 경쟁 끝에 최초 참가임에도 세계 1위 성과를 거두었다. 최정우 교수 연구팀은 이동헌 박사, 권영후 석박통합과정생, 김도환 석사과정생으로 구성되었다.
연구팀이 참가한 ‘공간 의미 기반 음향 장면 분할’의 ‘태스크(Task) 4’ 분야는 여러 음원이 혼합된 다채널 신호의 공간 정보를 분석해 개별 소리를 분리하고 18종으로의 분류를 수행해야 하는 기술 난이도가 매우 높은 분야이다. 연구팀은 오는 10월, 바르셀로나에서 열리는 DCASE 워크숍에서 기술을 발표할 예정이다.
연구팀의 이동헌 박사는 올해 초 트랜스포머(Transformer)와 맘바(Mamba) 아키텍처를 결합한 세계 최고 성능의 음원 분리 인공지능을 개발했으며, 챌린지 기간 동안 권영후 연구원을 중심으로 1차로 분리된 음원의 파형과 종류를 단서로 해 다시 음원 분리와 분류를 수행하는 ‘단계적 추론 방식’의 AI 모델을 완성했다.
< 그림 1. 여러 소리가 혼합된 음향 장면의 예 >
이는 사람이 복잡한 소리를 들을 때 소리의 종류나 리듬, 방향 등 특정 단서에 기반해 개별 소리를 분리해 듣는 방식을 AI가 모방한 모델이다.
이를 통해, 순위를 결정하는 척도인 AI가 소리를 얼마나 잘 분리하고 분류했는지 평가하는 ‘음원의 신호대 왜곡비 향상도(CA-SDRi)*’에서 참가팀 중 유일하게 두 자릿수 대의 성능(11 dB)을 보여, 기술적인 우수성을 입증하였다. *음원의 신호대 왜곡비 향상도(CA-SDRi): 기존의 오디오와 비교해 얼마나 더 선명하게(덜 왜곡되게) 원하는 소리를 분리했는지를 dB(데시벨) 단위로 측정하고 숫자가 클수록 더 정확하고 깔끔하게 소리를 분리했다는 뜻임
최정우 교수는 “연구팀은 최근 3년간 세계 최고의 음향 분리 AI 모델을 선보여 왔으며, 그 결과를 공식적으로 인정받는 계기가 되어 기쁘다”면서 “난이도가 대폭 향상되고, 타 학회 일정과 기말고사로 불과 몇 주간만 개발이 가능했음에도 집중력 있는 연구를 통해 1위를 차지한 연구팀 개개인이 자랑스럽다”고 소감을 밝혔다.
< 그림 2. 혼합 음원으로부터 분리된 음원들의 시간-주파수 패턴 >
‘IEEE DCASE 챌린지 2025’는 온라인으로 진행됐으며, 4월 1일부터 시작해 6월 15일 인공지능 모델 투고를 마감했고 지난 6월 30일 결과가 발표됐다. 각종 음향 관련 탐지 및 분류 기술을 평가하는 IEEE 신호처리학회(Signal Processing Society) 산하 국제대회인 본 챌린지는 2013년 개최된 이래 음향 분야 인공지능 모델의 세계적인 경연의 장으로 자리매김해 왔다.
최근 음성 언어 모델(Spoken Language Model, SLM)은 텍스트 없이 인간의 음성을 학습해 음성의 언어적, 비언어적 정보를 이해 및 생성하는 기술로 텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 각광받고 있다. 하지만 기존 모델은 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서 한계가 두드러졌는데, 우리 연구진이 이런 한계를 뛰어넘어, 시간 제약 없이 일관되고 자연스러운 음성 생성을 실현한‘스피치SSM’을 개발하는데 성공했다.
우리 학부 노용만 교수 연구팀의 박세진 박사과정 학생이 장시간 음성 생성이 가능한 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다.
이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 전체 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 뛰어난 연구 역량을 입증할 뿐만 아니라 우리 학부의 인공지능 연구 능력이 세계 최고 수준임을 다시 한번 보여주는 계기가 될 전망이다.
음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질의 음성을 빠르게 생성할 수 있다는 점이 큰 강점이다.
< 그림 1. SpeechSSM 개요. SpeechSSM의 하이브리드 상태공간 모델은 중첩된 고정 크기 윈도우로 인코딩된 의미 토큰(USM-v2)에 대해 LM 목표로 학습됨. 비자기회귀 방식의 음성 디코더(SoundStorm)는 중첩된 의미 토큰 윈도우를 화자 조건에 따라 음향 코덱(SoundStream)으로 변환함 >
그러나 기존 모델은 음성을 아주 세밀하게 잘게 쪼개서 아주 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 사용하는 메모리 소비도 증가하는 문제로 인해 장시간 음성의 의미적, 화자적 일관성을 유지하기 어려웠다.
연구팀은 이러한 문제를 해결하기 위해 하이브리드 상태공간 모델(Hybrid State-Space Model)을 사용한 음성 언어 모델인 ‘스피치SSM’를 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 설계했다.
이 모델은 최근 정보에 집중하는 ‘어텐션 레이어(attention layer)’와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는‘순환 레이어(recurrent layer)’를 교차 배치한‘하이브리드 구조’를 통해 긴 시간 동안 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다. 또한, 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간의 음성을 안정적이고 효율적으로 학습하고 생성할 수 있다.
스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스(unbounded speech sequence)를 효과적으로 처리할 수 있게 했다.
또한 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀(Non-Autoregressive)’ 방식의 오디오 합성 모델(SoundStorm)을 사용해, 고품질의 음성을 빠르게 생성할 수 있게 했다.
기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 ‘LibriSpeech-Long’을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다.
기존 음성 모델 평가 지표인 말이 문법적으로 맞는지 정도만 알려주는 PPL(Perplexity)에 비해, 연구팀은 시간이 지나면서도 내용이 잘 이어지는지 보는 ‘SC-L(semantic coherence over time)’, 자연스럽게 들리는 정도를 시간 따라 보는 ‘N-MOS-T(naturalness mean opinion score over time)’ 등 새로운 평가 지표들을 제안해 보다 효과적이고 정밀하게 평가했다.
< 그림 2. 다양한 음성 언어 모델(Spoken LM)에서 고려된 최대 시퀀스 길이. 기존 음성 언어 모델은 최대 200초 길이까지 학습 및 평가가 이루어졌으나, SpeechSSM은 16분 길이의 음성을 학습하고 평가할 수 있음. 본 연구의 모델은 일정한 메모리 사용으로 이론적으로 무한 길이 생성이 가능하지만, 실험에서는 평가를 위해 16분으로 제한함 >
새로운 평가를 통해 스피치SSM 음성 언어 모델로 생성된 음성은 긴 시간 생성에도 불구하고 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 모습을 확인했다. 이는 기존 모델들이 장시간 생성 시 쉽게 주제를 잃고 반복되는 현상을 보였던 것과 크게 대조적이다.
박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며“이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”라고 밝혔다.
< 그림 3. 임베딩 유사도(SC-L)를 이용하여 측정한 10초 프롬프트와 16분 생성 결과의 100단어 구간 간 의미 유사도. 생성 길이가 길어짐에 따라 의미 일관성이 저하되는 기존 방법들과 달리 SpeechSSM은 실제 음성과 비슷한 추이로 의미 일관성을 유지함 >
이 연구는 제1 저자인 우리 대학 박세진 박사과정 학생이 구글 딥마인드(Google DeepMind)와 협력해,ICML(국제 머신러닝 학회) 2025에서 7월 16일 구두 발표로 소개될 예정이다.
※ 논문제목: Long-Form Speech Generation with Spoken Language Models
※ DOI: 10.48550/arXiv.2412.18603
한편, 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상(Outstanding Paper Award) 수상 등을 통해 우수한 연구 역량을 입증한 바 있다.
< 그림 4. SpeechSSM의 연산 효율성. (좌) TPU v5e에서 모델별 및 생성 길이별 배치 디코딩 최대 처리량 (우) TPU v5e에서 단일 샘플(batch size 1)을 목표 길이까지 디코딩하는 데 소요된 시간 >
우리 학부 박사과정 노경하(지도교수 정준선), 박석준(지도교수 최진석), 임준택(지도교수 유민수) 학생이 제2기 대학원 대통령과학장학생 수혜자로 선정됐다.
노경하 학생은 멀티모달 자기지도학습, 멀티모달 인식 및 생성 모델 연구를 연구하고 있으며, 박석준 학생은 차세대 6G 통신을 위한 위성 및 다중접속기반 저전력 빔포밍 최적화 기술과 AI 기반 통합 센싱-통신 시스템의 예측 빔포밍 분야를 연구하고 있다. 임준택 박사과정학생은 하드웨어-소프트웨어 전 계층의 통합 보안을 통한 효율적이고 신뢰가능한 컴퓨팅 시스템을 구축하는 것을 목표로 연구하고 있다.
대학원 대통령과학장학금은 세계 최고 수준의 이공계 연구인력을 양성하기 위해 한국 장학재단이지난해 신설한 사업으로 최종 선발된 대학원 대통령과학장학생에게는 대통령 명의의 장학증서를 수여하고, 석사과정생 매월 150만원(연간 1,800만 원), 박사과정생 매월 200만원(연 2,400만원)의 장학금을 지급한다.
올해 대학원 대통령과학장학생 선발 경쟁률은 120명 모집에 2,355명이 지원해 약 20:1의 높은 경쟁률을 기록했다.
송영민 교수님이 사용하시는 임시 오피스 위치는 새늘동(E3-4) 1410호입니다. 송영민 교수님의 주요 연구분야는 플렉서블 광전자소자 및 나노포토닉스 분야이며, 지능형 로봇을 위한 생체모방형 카메라, 광뉴로모픽 소자 및 시스템, 나노포토닉스 기반 반사형 디스플레이, 적외선 제어를 통한 복사 냉각 소자 등을 연구합니다. 송영민 교수님의 자세한 연구내용은 홈페이지를 참고 부탁드립니다.
우리 학부 장동의 교수 연구실의 ‘Team ACE’ 팀이 6월 14일부터 16일까지 3일 동안 진행된 ‘Hugging Face LeRobot Worldwide Hackathon’에서 우수한 성적으로 Third Prize를 수상하는 성과를 거두었습니다.
장동의 교수 연구실의 권석준 석사과정(팀장), 장희덕 박사과정, 권호준 석사과정, Guining Pertin 석사과정, 이경돈 석사과정으로 구성된 ‘Team ACE’는 VLA를 이용한 협동 로봇 간 물체 전달 시스템을 개발하여, 전 세계의 600개 이상의 팀 중 20위에 올라 Third Prize (6위~24위)를 수상하였습니다. 또한 국내 대구 지역 주최측으로부터 “한국로봇산업진흥원장상”을 동시에 수상하는 성과도 거두었습니다.
<‘Team ACE’ 팀이 개발한 VLA 기반 협동 로봇 간 물체 전달 시스템>
‘Hugging Face’는 미국의 인공지능 스타트업으로, 트랜스포머나 데이터셋과 같은 머신러닝 라이브러리 및 최근에는 로보틱스와 관련된 인공지능 자원도 활발히 제공하고 있는 세계 최대의 인공지능 플랫폼 중 하나입니다.
Hugging Face에서는 주기적으로 해커톤을 개최하며, 전세계의 연구자와 학생들이 AI와 관련된 다양한 아이디어로 서로의 실력을 겨루는 자리를 마련하고 있습니다.
이번 해커톤은 전 세계 45개국에서 2천 5백명 이상의 AI·로봇 전문가들이 동시에 참여한 ‘LeRobot Worldwide Hackathon‘ 으로, 로봇팔에 VLA (Vision Language Action) 모델, 강화학습 등을 적용하여 산업 및 일상 생활에서의 문제를 자유 주제로 해결하는 것을 목표로 이루어졌습니다.
‘Team ACE’는 해당 대회에서의 성과를 통해 전 세계의 로보틱스 커뮤니티 및 국내의 전문가들로 부터 기술력과 창의성을 인정받았습니다. 해당 대회와 ‘Team ACE’의 활약은 지역 언론의 주목을 받으며 활발히 보도되었습니다.