학부소개 세계 최고 IT 강국,
KAIST 전기 및
전자공학부가 만들어갑니다.
세계 최고 IT 강국, KAIST 전기 및 전자공학부가 만들어갑니다.

전기및전자공학부는 KAIST공과대학 소속의 학교
최대학과로서 대한민국, 나아가 전세계 전기및
전자공학 분야의 발전을 기원하고 있습니다.

  • 1
  • 6
Learn More
학부소개 세계 최고 IT 강국,
KAIST 전기 및
전자공학부가 만들어갑니다.
세계 최고 IT 강국, KAIST 전기 및 전자공학부가 만들어갑니다.

전기및전자공학부는 KAIST공과대학 소속의 학교
최대학과로서 대한민국, 나아가 전세계 전기및
전자공학 분야의 발전을 기원하고 있습니다.

  • 2
  • 6
Learn More
학부소개 세계 최고 IT 강국,
KAIST 전기 및
전자공학부가 만들어갑니다.
세계 최고 IT 강국, KAIST 전기 및 전자공학부가 만들어갑니다.

전기및전자공학부는 KAIST공과대학 소속의 학교
최대학과로서 대한민국, 나아가 전세계 전기및
전자공학 분야의 발전을 기원하고 있습니다.

  • 3
  • 6
Learn More
학부소개 세계 최고 IT 강국,
KAIST 전기 및
전자공학부가 만들어갑니다.
세계 최고 IT 강국, KAIST 전기 및 전자공학부가 만들어갑니다.

전기및전자공학부는 KAIST공과대학 소속의 학교
최대학과로서 대한민국, 나아가 전세계 전기및
전자공학 분야의 발전을 기원하고 있습니다.

  • 4
  • 6
Learn More
학부소개 세계 최고 IT 강국,
KAIST 전기 및
전자공학부가 만들어갑니다.
세계 최고 IT 강국, KAIST 전기 및 전자공학부가 만들어갑니다.

전기및전자공학부는 KAIST공과대학 소속의 학교
최대학과로서 대한민국, 나아가 전세계 전기및
전자공학 분야의 발전을 기원하고 있습니다.

  • 5
  • 6
Learn More
AI in EE AI and machine learning
are a key thrust
in EE research
AI and machine learning are a key thrust in EE research

AI/machine learning  efforts are already   a big part of   ongoing
research in all 6 divisions - Computer, Communication, Signal,
Wave, Circuit and Device - of KAIST EE 

  • 6
  • 6
Learn More
Previous slide
Next slide
정재웅 교수팀
온도에 따라 강도가 바뀌는
전자잉크 개발
Read more...
권경하 교수팀
자가발전형
이산화탄소 실시간 모니터링 시스템 개발
Read more...
김용대 · 윤인수 교수팀
금융 필수 보안 소프트웨어의
해킹 악용 가능성 밝혀​
Read more...
명현 교수팀
ICRA NSS 챌린지
종합 1위
Read more...
이성주 교수팀
음악 창작 돕는 작곡 AI 동료
‘어뮤즈’ 공개
Read more...
심현철 교수팀
A2RL 드론 침피언십 리그
세계3위
Read more...
유민수 교수팀
챗GPT 등 대형 AI모델
학습 최적화 시뮬레이션 개발​
Read more...
윤준보 교수팀
정밀한 압력 감지가 가능한
인공 촉각 시스템 개발
Read more...
신승원 교수팀
챗GPT를 이용한
개인정보 악용 가능성 규명
Read more...
유승협 교수팀
저전력 고속 웨어러블
이산화탄소 센서 개발
Read more...
Previous slide
Next slide

Highlights

이현주 교수님 팀 360 1
이현주 교수팀
< (왼쪽부터) 전기및전자공학부 최경철 교수, 이현주 교수, 이소민 박사 >

 

광유전학 기술은 빛에 반응하는 광 단백질이 발현된 뉴런에 특정 파장의 빛 자극을 통해 뉴런의 활성을 조절하는 기술로 다양한 뇌질환의 원인을 규명하며 난치성 뇌질환의 새로운 치료 방법을 개발할 가능성을 열고 있다. 이 기술은 인체의 뇌에 삽입하여 자극을 주는 의료 기기인 ‘뉴럴 프로브’를 통해 정확하게 자극하고 무른 뇌 조직의 손상을 최소화해야 한다. 
 
 
우리 학부 최경철 · 이현주 교수 연구팀이 공동 연구를 통해, 유연한 마이크로 OLED가 집적된 광유전학용 뉴럴 프로브 개발에 성공해 얇고 유연한 인체 삽입형 의료기기로 구현함으로써 뉴럴 프로브의 새로운 패러다임을 제시했다.
 
 
광유전학 연구에서 주요 기술은 광원의 빛을 뇌로 전달하는 방식으로 외부 광원으로부터의 깊은 뇌 영역까지 빛을 전달하기 위해 수십 년간 광섬유를 사용해 왔다. 하지만 단일 뉴런을 자극하기 위한 유연 광섬유, 초미세 광원 집적 뉴럴 프로브 등 관련 연구가 이뤄지고 있다.
 
 
연구팀은 마이크로 OLED는 높은 공간적 해상도와 유연성을 가져, 매우 작은 영역의 뉴런에서도 정확하게 빛을 조사할 수 있어 세밀한 뇌 회로 분석이 가능하고 동물의 움직임에 불편함을 주지 않으면서 부작용을 최소화하는 장점에 주목했다. 그뿐만 아니라, 미세한 파장 조절을 통해 정밀한 빛 조절이 가능하며 다중 자극을 통한 복잡한 뇌 기능 연구가 가능하다.
 
2. 마이크로 OLED 집적 광유전학용 유연 뉴럴 프로브
< 그림 1. 마이크로 OLED 집적 광유전학용 유연 뉴럴 프로브 (a) 모식도, (b) 다중 레이어 구조 (c) 마이크로 OLED 개별 픽셀 구동 시연 (d) 프로브 위 집적된 마이크로 OLED의 전기광학적 특성 그래프 >
 
하지만, 체내 수분이나 물에 의해 전기적 특성이 쉽게 열화되기 때문에 생체 삽입형 전자장치로 활용되는데 한계가 있었고, 얇고 유연한 탐침 위 고해상도 집적 공정에 대한 세부적인 최적화도 필요했다.
 
공동연구팀은 수분과 산소가 많은 생체 내 환경에서 OLED의 구동 신뢰성을 높이며 생체 삽입 시 조직 손상을 최소화하고자, 산화알루미늄/파릴렌-C(Al2O3/parylene-C)로 구성된 초박막 유연 봉지막*을 얇은 탐침 형태인 260~600마이크로미터(μm) 너비로 패터닝해 생체친화성을 유지했다. * 봉지막: 소자를 외부 환경요인인 산소와 물 분자로부터 완전히 차단하는 막 기술로 소자의 수명을 유지시키고 신뢰성을 줌
 
또한, 고해상도 마이크로 OLED를 집적함에 있어 전체 소자의 유연성과 생체친화성을 유지하기 위해, 봉지막과 동일한 생체친화 재료인 파릴렌-C(parylene-C)를 활용하였다. 아울러, 인접한 OLED 픽셀 간 전기적 간섭 현상을 제거하고 각 픽셀을 공간적으로 분리하기 위해 구조적 레이어인 ‘화소 정의막(pixel define layer)’을 도입함으로써, 8개의 마이크로 OLED를 독립적으로 개별 구동할 수 있도록 구현했다.
 
마지막으로, 소자 내 다중 박막층의 잔류 응력과 두께를 정밀하게 조절함으로써, 생체 내 환경에서도 소자의 유연성을 유지할 수 있도록 하였다. 이를 통해 외부 셔틀이나 바늘과 같은 보조 장치 없이도 단일 탐침만으로 휘어짐 없이 삽입이 가능하도록, 소자의 기계적 스트레스를 최적화해 설계했다.
 
1. 논문의 전면표지 그림
< 그림 2. 어드밴스드 펑셔널 머터리얼즈 (Advanced Functional Materials) 논문지의 전면표지 그림 (Front Cover Image) – 마이크로 올레드(Micro-OLED) 집적 광유전학용 유연 뉴럴 프로브 개념도) >

결론적으로 연구팀은 채널로돕신2의 활성화에 적합한 470나노미터(nm) 파장에서 1밀리와트/제곱밀리미터(mW/mm²)이상의 광 파워 밀도를 가지는 즉, 광유전학 및 생체조직 자극 응용에서 상당히 높은 수준의 광출력을 가진 마이크로 OLED 집적 유연 뉴럴 프로브를 개발했다. 

 

또한, 초박막 유연 봉지막은 2.66×10⁻⁵ g/m²/day의 낮은 수분 투습률을 보이며 소자 수명은 10년 이상 유지할 수 있고, 패릴렌-C(parylene-C)를 기반으로 생체 내 높은 봉지막 성능을 발휘하며, 전기적 간섭과 휨 이슈 없이 집적된 OLED의 개별 구동을 성공적으로 시연했다. 

 

이번 연구를 주도한 최경철 교수 연구팀의 이소민 박사는 “고유연·고해상도의 마이크로 OLED를 얇은 유연 탐침 위에 집적하는 세부 공정 및 생체 적용성, 친화성 향상에 집중했다”며 “이번 연구는 기존 연구를 넘어 유연 프로브 형태에 최초로 개발해 보고된 사례로, 유연 OLED가 인체 삽입형 측정 및 치료 의료기기로서의 새로운 패러다임을 제시할 것으로 기대된다”고 말했다. 

 

이번 연구는 전기및전자공학부 이소민 박사가 제1 저자로 나노 분야의 권위 있는 국제 학술지 ‘어드밴스드 펑셔널 머터리얼즈(Advanced Functional Materials, IF 18.5)’에 지난 3월 26일 字로 온라인 게재됐으며, 전면 표지 논문으로 이번 7월에 선정됐다.

 

※ 논문명: Advanced Micro-OLED Integration on Thin and Flexible Polymer Neural Probes for Targeted Optogenetic Stimulation

※ DOI: https://doi.org/10.1002/adfm.202420758 

 

한편, 이번 연구는 과학기술정보통신부 한국연구재단의 전자약 기술개발사업(연구 과제명: 뇌인지-정서 향상 빛 자극 전자약의 핵심원천기술 개발 및 생체 적용가능성 검증)의 지원을 받아 수행됐다.

교수님 360
png
< (왼쪽부터) 전기및전자공학부 김용대 교수, 성균관대 김형식 교수, 우리 대학 전산학부 오혜연 교수, 국가보안기술연구소 고우영 선임연구원 >

 

생성형 AI 기술이 발전하면서 이를 악용한 온라인 여론 조작 우려가 커지고 있다. 이에 따른 AI 생성글 탐지 기술도 개발되었는데 대부분 영어로 된 장문의 정형화된 글을 기반으로 개발돼, 짧고(평균 51자), 구어체 표현이 많은 한국어 뉴스 댓글에는 적용이 어려웠다. 우리 학부 연구진이 한국어 AI 생성 댓글을 탐지하는 기술을 개발해서 화제다.

 

김용대 교수 연구팀이 국가보안기술연구소(국보연)와 협력해, 한국어 AI 생성 댓글을 탐지하는 기술 ‘XDAC’를 세계 최초로 개발했다. 


최근 생성형 AI는 뉴스 기사 맥락에 맞춰 감정과 논조까지 조절할 수 있으며, 몇 시간 만에 수십만 개의 댓글을 자동 생성할 수 있어 여론 조작에 악용될 수 있다. OpenAI의 GPT-4o API를 기준으로 하면 댓글 1개 생성 비용은 약 1원 수준이며, 국내 주요 뉴스 플랫폼의 하루 평균 댓글 수인 20만 개를 생성하는 데 단 20만 원이면 가능할 정도다. 공개 LLM은 자체 GPU 인프라만 갖추면 사실상 무상으로도 대량의 댓글 생성을 수행할 수 있다. 


연구팀은 AI 생성 댓글과 사람 작성 댓글을 사람이 구별할 수 있는지 실험했다. 총 210개의 댓글을 평가한 결과, AI 생성 댓글의 67%를 사람이 작성한 것으로 착각했고, 실제 사람 작성 댓글도 73%만 정확히 구분해냈다. 즉, 사람조차 AI 생성 댓글을 정확히 구별하기 어려운 수준에 이르렀다는 의미다. AI 생성 댓글은 오히려 기사 맥락 관련성(95% vs 87%), 문장 유창성(71% vs 45%), 편향성 인식(33% vs 50%)에서 사람 작성 댓글보다 높은 평가를 받았다. 


그동안 AI 생성글 탐지 기술은 대부분 영어로 된 장문의 정형화된 글을 기반으로 개발되어 한국어의 짧은 댓글에는 적용이 어려웠다. 짧은 댓글은 통계적 특징이 불충분하고, 이모지·비속어·반복 문자 등 비정형 구어 표현이 많아 기존 탐지 모델이 효과적으로 작동하지 않는다. 또한, 현실적인 한국어 AI 생성 댓글 데이터셋이 부족하고, 기존의 단순한 프롬프팅 방식으로는 다양하고 실제적인 댓글을 생성하는 데 한계가 있었다. 


이에 연구팀은 ▲14종의 다양한 LLM 활용 ▲자연스러움 강화 ▲세밀한 감정 제어 ▲참조자료를 통한 증강 생성의 네 가지 전략을 적용한 AI 댓글 생성 프레임워크를 개발해, 실제 이용자 스타일을 모방한 한국어 AI 생성 댓글 데이터셋을 구축하고 이 중 일부를 벤치마크 데이터셋으로 공개했다. 또 설명 가능한 AI(XAI) 기법을 적용해 언어 표현을 정밀 분석한 결과, AI 생성 댓글에는 사람과 다른 고유한 말투 패턴이 있음을 확인했다.

 

1. AI 댓글 생성 프레임워크 구성
< 그림 1. AI 댓글 생성 프레임워크 구성 >

 

예를 들어, AI는 “것 같다”, “에 대해” 등 형식적 표현과 높은 접속어 사용률을 보였고, 사람은 반복 문자(ㅋㅋㅋㅋ), 감정 표현, 줄바꿈, 특수기호 등 자유로운 구어체 표현을 즐겨 사용했다. 


특수문자 사용에서도 AI는 전 세계적으로 통용되는 표준화된 이모지를 주로 사용하는 반면, 사람은 한국어 자음(ㅋ, ㅠ, ㅜ 등)이나 특수 기호(ㆍ, ♡, ★, • 등) 등 문화적 특수성이 담긴 다양한 문자를 활용했다. 


특히, 서식 문자(줄바꿈, 여러 칸 띄어쓰기 등) 사용에서 사람 작성 댓글의 26%는 이런 서식 문자를 포함했지만, AI 생성 댓글은 단 1%만 사용했다. 반복 문자(예: ㅋㅋㅋㅋ, ㅎㅎㅎㅎ 등) 사용 비율도 사람 작성 댓글이 52%로, AI 생성 댓글(12%)보다 훨씬 높았다. 


XDAC는 이러한 차이를 정교하게 반영해 탐지 성능을 높였다. 줄바꿈, 공백 등 서식 문자를 변환하고, 반복 문자 패턴을 기계가 이해할 수 있도록 변환하는 방식이 적용됐다. 또 각 LLM의 고유 말투 특징을 파악해 어떤 AI 모델이 댓글을 생성했는지도 식별 가능하게 설계됐다. 


이러한 최적화로 XDAC는 AI 생성 댓글 탐지에서 98.5% F1 점수로 기존 연구 대비 68% 성능을 향상시켰으며, 댓글 생성 LLM 식별에서도 84.3% F1 성능을 기록했다.

 

< 그림 2. XDAC 데모. 탐지 및 식별 시연 예시 >
< 그림 2. XDAC 데모. 탐지 및 식별 시연 예시 >

 

고우영 선임연구원은 “이번 연구는 생성형 AI가 작성한 짧은 댓글을 높은 정확도로 탐지하고, 생성 모델까지 식별할 수 있는 세계 최초 기술”이라며 “AI 기반 여론 조작 대응의 기술적 기반을 마련한 데 큰 의의가 있다”고 강조했다.

 

연구팀은 XDAC의 탐지 기술이 단순 판별을 넘어 심리적 억제 장치로도 작용할 수 있다고 설명했다. 마치 음주단속, 마약 검사, CCTV 설치 등이 범죄 억제 효과를 가지듯, 정밀 탐지 기술의 존재 자체가 AI 악용 시도를 줄일 수 있다는 것이다.

 

XDAC는 플랫폼 사업자가 의심스러운 계정이나 조직적 여론 조작 시도를 정밀 감시·대응하는 데 활용될 수 있으며, 향후 실시간 감시 시스템이나 자동 대응 알고리즘으로 확장 가능성이 크다.

 

이번 연구는 설명가능 인공지능(XAI) 기반 탐지 프레임워크를 제안한 것이 핵심이며, 인공지능 자연어처리 분야 최고 권위 학술대회인 7월 27일부터 개최되는 ‘ACL 2025’ 메인 콘퍼런스에 채택되며 기술력을 인정받았다.

※논문 제목: XDAC: XAI-Driven Detection and Attribution of LLM-Generated News Comments in Korean

※논문원본: https://github.com/airobotlab/XDAC/blob/main/paper/250611_XDAC_ACL2025_camera_ready.pdf 


이번 연구는 김용대 교수의 지도 아래 국보연 소속이자 우리 학부 박사과정인 고우영 선임연구원이 제1 저자로 참여했으며, 성균관대학교 김형식 교수와 우리 대학 오혜연 교수가 공동 연구자로 참여했다.

교수님팀 750 1
교수님팀 750
< 사진 1. (왼쪽부터) 권영후 석박사통합과정, 김도환 석사과정, 최정우 교수, 이동헌 박사 >
‘음향 분리 및 분류 기술’은 드론, 공장 배관, 국경 감시 시스템 등에서 이상 음향을 조기에 탐지하거나, AR/VR 콘텐츠 제작 시 공간 음향(Spatial Audio)을 음원별로 분리해 편집할 수 있도록 하는 차세대 인공지능(AI) 핵심 기술이다.
 
 
우리 학부 최정우 교수 연구팀이 세계 최고 권위의 음향 탐지 및 분석 대회인 ‘IEEE DCASE 챌린지 2025’에서 ‘공간 의미 기반 음향 장면 분할(Spatial Semantic Segmentation of Sound Scenes)’ 분야에서 우승을 차지했다.
 
 
이번 대회에서 연구팀은 전 세계 86개 참가팀과 총 6개 분야에서 경쟁 끝에 최초 참가임에도 세계 1위 성과를 거두었다. 최정우 교수 연구팀은 이동헌 박사, 권영후 석박통합과정생, 김도환 석사과정생으로 구성되었다.
 
 
연구팀이 참가한 ‘공간 의미 기반 음향 장면 분할’의 ‘태스크(Task) 4’ 분야는 여러 음원이 혼합된 다채널 신호의 공간 정보를 분석해 개별 소리를 분리하고 18종으로의 분류를 수행해야 하는 기술 난이도가 매우 높은 분야이다. 연구팀은 오는 10월, 바르셀로나에서 열리는 DCASE 워크숍에서 기술을 발표할 예정이다.
 
 
연구팀의 이동헌 박사는 올해 초 트랜스포머(Transformer)와 맘바(Mamba) 아키텍처를 결합한 세계 최고 성능의 음원 분리 인공지능을 개발했으며, 챌린지 기간 동안 권영후 연구원을 중심으로 1차로 분리된 음원의 파형과 종류를 단서로 해 다시 음원 분리와 분류를 수행하는 ‘단계적 추론 방식’의 AI 모델을 완성했다.
 
1. 여러 소리가 혼합된 음향 장면의 예
< 그림 1. 여러 소리가 혼합된 음향 장면의 예 >
 
이는 사람이 복잡한 소리를 들을 때 소리의 종류나 리듬, 방향 등 특정 단서에 기반해 개별 소리를 분리해 듣는 방식을 AI가 모방한 모델이다.
 
 
이를 통해, 순위를 결정하는 척도인 AI가 소리를 얼마나 잘 분리하고 분류했는지 평가하는 ‘음원의 신호대 왜곡비 향상도(CA-SDRi)*’에서 참가팀 중 유일하게 두 자릿수 대의 성능(11 dB)을 보여, 기술적인 우수성을 입증하였다. *음원의 신호대 왜곡비 향상도(CA-SDRi): 기존의 오디오와 비교해 얼마나 더 선명하게(덜 왜곡되게) 원하는 소리를 분리했는지를 dB(데시벨) 단위로 측정하고 숫자가 클수록 더 정확하고 깔끔하게 소리를 분리했다는 뜻임
 
 
최정우 교수는 “연구팀은 최근 3년간 세계 최고의 음향 분리 AI 모델을 선보여 왔으며, 그 결과를 공식적으로 인정받는 계기가 되어 기쁘다”면서 “난이도가 대폭 향상되고, 타 학회 일정과 기말고사로 불과 몇 주간만 개발이 가능했음에도 집중력 있는 연구를 통해 1위를 차지한 연구팀 개개인이 자랑스럽다”고 소감을 밝혔다.

 

2. 혼합 음원으로부터 분리된 음원들의 시간 주파수 패턴
< 그림 2. 혼합 음원으로부터 분리된 음원들의 시간-주파수 패턴 >
 
‘IEEE DCASE 챌린지 2025’는 온라인으로 진행됐으며, 4월 1일부터 시작해 6월 15일 인공지능 모델 투고를 마감했고 지난 6월 30일 결과가 발표됐다. 각종 음향 관련 탐지 및 분류 기술을 평가하는 IEEE 신호처리학회(Signal Processing Society) 산하 국제대회인 본 챌린지는 2013년 개최된 이래 음향 분야 인공지능 모델의 세계적인 경연의 장으로 자리매김해 왔다.
 
 
한편, 해당 연구는 교육과학기술부의 재원으로 한국연구재단 중견연구자지원사업, STEAM 연구사업 지원 및 방위사업청 및 국방과학연구소 재원으로 미래국방연구센터 지원을 받아 수행됐다.
 
3. 연구진이 개발한 음향의 분리 및 분류 AI 구조
< 그림 3. 연구진 개발 음향의 분리 및 분류 AI 구조 >
 
images 000102 image333.png
< 대회 결과 보드, 신호대 왜곡비 향상도(CA-SDRi)가 높을수록 높은 점수임. (단위: 데시벨 (dB)) >
교수님 360
교수님 750
< (왼쪽부터) 전기및전자공학부 노용만 교수, 박세진 박사과정 >

최근 음성 언어 모델(Spoken Language Model, SLM)은 텍스트 없이 인간의 음성을 학습해 음성의 언어적, 비언어적 정보를 이해 및 생성하는 기술로 텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 각광받고 있다. 하지만 기존 모델은 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서 한계가 두드러졌는데, 우리 연구진이 이런 한계를 뛰어넘어, 시간 제약 없이 일관되고 자연스러운 음성 생성을 실현한‘스피치SSM’을 개발하는데 성공했다. 

 

우리 학부 노용만 교수 연구팀의 박세진 박사과정 학생이 장시간 음성 생성이 가능한 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다. 

 

이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 전체 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 뛰어난 연구 역량을 입증할 뿐만 아니라 우리 학부의 인공지능 연구 능력이 세계 최고 수준임을 다시 한번 보여주는 계기가 될 전망이다.

 

음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질의 음성을 빠르게 생성할 수 있다는 점이 큰 강점이다.

 

1. SpeechSSM 개요
< 그림 1. SpeechSSM 개요. SpeechSSM의 하이브리드 상태공간 모델은 중첩된 고정 크기 윈도우로 인코딩된 의미 토큰(USM-v2)에 대해 LM 목표로 학습됨. 비자기회귀 방식의 음성 디코더(SoundStorm)는 중첩된 의미 토큰 윈도우를 화자 조건에 따라 음향 코덱(SoundStream)으로 변환함 >

 

그러나 기존 모델은 음성을 아주 세밀하게 잘게 쪼개서 아주 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 사용하는 메모리 소비도 증가하는 문제로 인해 장시간 음성의 의미적, 화자적 일관성을 유지하기 어려웠다. 

 

연구팀은 이러한 문제를 해결하기 위해 하이브리드 상태공간 모델(Hybrid State-Space Model)을 사용한 음성 언어 모델인 ‘스피치SSM’를 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 설계했다. 

 

이 모델은 최근 정보에 집중하는 ‘어텐션 레이어(attention layer)’와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는‘순환 레이어(recurrent layer)’를 교차 배치한‘하이브리드 구조’를 통해 긴 시간 동안 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다. 또한, 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간의 음성을 안정적이고 효율적으로 학습하고 생성할 수 있다. 

 

스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스(unbounded speech sequence)를 효과적으로 처리할 수 있게 했다. 

 

또한 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀(Non-Autoregressive)’ 방식의 오디오 합성 모델(SoundStorm)을 사용해, 고품질의 음성을 빠르게 생성할 수 있게 했다. 

 

기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 ‘LibriSpeech-Long’을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다. 

 

기존 음성 모델 평가 지표인 말이 문법적으로 맞는지 정도만 알려주는 PPL(Perplexity)에 비해, 연구팀은 시간이 지나면서도 내용이 잘 이어지는지 보는 ‘SC-L(semantic coherence over time)’, 자연스럽게 들리는 정도를 시간 따라 보는 ‘N-MOS-T(naturalness mean opinion score over time)’ 등 새로운 평가 지표들을 제안해 보다 효과적이고 정밀하게 평가했다.

 

2. 다양한 음성 언어 모델에서 고려된 최대 시퀀스 길이
< 그림 2. 다양한 음성 언어 모델(Spoken LM)에서 고려된 최대 시퀀스 길이. 기존 음성 언어 모델은 최대 200초 길이까지 학습 및 평가가 이루어졌으나, SpeechSSM은 16분 길이의 음성을 학습하고 평가할 수 있음. 본 연구의 모델은 일정한 메모리 사용으로 이론적으로 무한 길이 생성이 가능하지만, 실험에서는 평가를 위해 16분으로 제한함 >

 

새로운 평가를 통해 스피치SSM 음성 언어 모델로 생성된 음성은 긴 시간 생성에도 불구하고 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 모습을 확인했다. 이는 기존 모델들이 장시간 생성 시 쉽게 주제를 잃고 반복되는 현상을 보였던 것과 크게 대조적이다. 

 

박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며“이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”라고 밝혔다.

 

3. 임베딩 유사도를 이용해 측정한 10초 프롬프트와 16분 생성 결과의 의미 유사도
< 그림 3. 임베딩 유사도(SC-L)를 이용하여 측정한 10초 프롬프트와 16분 생성 결과의 100단어 구간 간 의미 유사도. 생성 길이가 길어짐에 따라 의미 일관성이 저하되는 기존 방법들과 달리 SpeechSSM은 실제 음성과 비슷한 추이로 의미 일관성을 유지함 >

 

이 연구는 제1 저자인 우리 대학 박세진 박사과정 학생이 구글 딥마인드(Google DeepMind)와 협력해,ICML(국제 머신러닝 학회) 2025에서 7월 16일 구두 발표로 소개될 예정이다. 

 

※ 논문제목: Long-Form Speech Generation with Spoken Language Models

※ DOI: 10.48550/arXiv.2412.18603 

한편, 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상(Outstanding Paper Award) 수상 등을 통해 우수한 연구 역량을 입증한 바 있다.

 

images 000101 image4.jpg 2
< 그림 4. SpeechSSM의 연산 효율성. (좌) TPU v5e에서 모델별 및 생성 길이별 배치 디코딩 최대 처리량 (우) TPU v5e에서 단일 샘플(batch size 1)을 목표 길이까지 디코딩하는 데 소요된 시간 >

 

[데모 페이지 링크]

260
입력해주세요 001 2 enhancer
<왼쪽부터 노경하, 박석준, 임준택 박사과정 학생>

우리 학부 박사과정 노경하(지도교수 정준선), 박석준(지도교수 최진석), 임준택(지도교수 유민수) 학생이 제2기 대학원 대통령과학장학생 수혜자로 선정됐다. 

 

노경하 학생은 멀티모달 자기지도학습, 멀티모달 인식 및 생성 모델 연구를 연구하고 있으며, 박석준 학생은 차세대 6G 통신을 위한 위성 및 다중접속기반 저전력 빔포밍 최적화 기술과 AI 기반 통합 센싱-통신 시스템의 예측 빔포밍 분야를 연구하고 있다. 임준택 박사과정학생은 하드웨어-소프트웨어 전 계층의 통합 보안을 통한 효율적이고 신뢰가능한 컴퓨팅 시스템을 구축하는 것을 목표로 연구하고 있다.

 

대학원 대통령과학장학금은 세계 최고 수준의 이공계 연구인력을 양성하기 위해 한국 장학재단이지난해 신설한 사업으로 최종 선발된 대학원 대통령과학장학생에게는 대통령 명의의 장학증서를 수여하고, 석사과정생 매월 150만원(연간 1,800만 원), 박사과정생 매월 200만원(연 2,400만원)의 장학금을 지급한다.

 

올해 대학원 대통령과학장학생 선발 경쟁률은 120명 모집에 2,355명이 지원해 약 20:1의 높은 경쟁률을 기록했다.

대학원 2

2026학년도 봄학기 대학원 신입생 모집과 관련하여, KAIST 대학원입학팀에 제출하는 서류 외에 KAIST 전기및전자공학부  행정팀에별도로 제출해야 하는 서류에 대해 안내드립니다.

 

아래 첨부된 파일을 다운로드하여 내용을 반드시 확인해주시기 바랍니다.

 

※   2026학년도 봄학기부터 석·박사 통합과정 지원자의 제출 서류가 변경되었습니다. 해당 과정에 지원하실 분들은 반드시 변경된 내용을 숙지하시어, 제출 서류 누락이나 오류가 발생하지 않도록 각별히 유의하시기 바랍니다.   

 

※ 석·박사 통합과정 지원을 고려하시는 경우, 지원 전 지도 예정 교수님과의 면담을 적극 권장드립니다. 해당 교수님의 TO(정원) 여부를 확인하신 후 지원해주시기 바랍니다.

 

▣ 문의 및 서류 제출처

– KAIST 전기및전자공학부 행정팀(E3-2, 1212호)

– 이메일: 송영주 dudwn@kaist.ac.kr

   이메일 제출 가능(※ 단, 자필 서명이 포함된 스캔본을 제출)

– 전화: 042-350-3402

 

감사합니다.

안내문25가을 3

   KAIST 전기및전자공학부 석사과정/석∙박사통합과정에 합격하신 것을 진심으로 축하드립니다.

   2025학년도 가을학기 신입생 여러분의 랩 배정과 관련하여 아래와 같이 안내드리오니, 참고하여 주시기 바랍니다.

                                                                             = 아    래 =

  1. 랩 배정 기간: 2025. 6. 23.(월) – 7. 15.(화)까지

           학부 홈페이지를 방문하여 교수진, 실험실, 연구분야 등 관련된 다양한 정보를 습득

           (학부 홈페이지 : (https://ee.kaist.ac.kr/)                                                                                                                                                                                                                                                                                                                                        

  1. 국비 T/O 현황: 홈페이지 국비석사TO   국비석사TO                                                                                                                                                                                                                                                                                                                                                                                                                                                        
  2. KAIST 장학생 및 일반장학생 배정: 홈페이지 전임교수 현황정년후교수현황 참조하시어 자 유롭게 면담(교수님T/O제한없음)

         * 정년후교수님은 KAIST장학생 및 일반장학생 배정                                                                                                                                                                                                                                                                                                                          

  1. 산학프로그램 장학생: 각 산학프로그램 홈페이지의 현재 참여교수님을 확인하여 지도 신청 을 하시기 바랍니다.

          EPSS 홈페이지: http://epss.kaist.ac.kr/

          KEPSI 홈페이지: http://kepsi.kaist.ac.kr

          EPSD 홈페이지: https://epsd.kaist.ac.kr/

          EPLN 홈페이지: https://me.kaist.ac.kr/education/education_060100.html                                                                                                                                                                                                                                                                          

  1. 연구실 배정 방법: 원하는 교수님과 면담 후 첨부의 양식에 서명을 받아서 지도예정교수님 참조하여 이메일 제출

 

  1. 제출서류: 2025. 7. 15(화)까지

          (1) 연구실 확정이 된 경우 : “[첨부1] 신입생 연구실 배정 확정서” 제출

          (2) 연구실 확정이 안 된 경우 : “[첨부2] 지도교수 배정 신청서” 제출                                                                                                                                                                                                                                                                                              

  1. 랩배정 결과 발표: 7월 21일(월) 17시 이후, 학부 홈페이지 공지사항

 

  1. 담당자: 전기및전자공학부 사무실(E3-2, 1212호실)

            송영주(350-3402, dudwn@kaist.ac.kr)/ 김태연(042-350-3402, barbie1975@kaist.ac.kr )

 

 

001
송영민 교수 enhancer
<송영민 교수님>

우리 학부에 송영민 교수님께서 2025년 7월 1일부로 부임하십니다. 축하드립니다. 

 

송영민 교수님이 사용하시는 임시 오피스 위치는 새늘동(E3-4) 1410호입니다. 송영민 교수님의 주요 연구분야는 플렉서블 광전자소자 및 나노포토닉스 분야이며, 지능형 로봇을 위한 생체모방형 카메라, 광뉴로모픽 소자 및 시스템, 나노포토닉스 기반 반사형 디스플레이, 적외선 제어를 통한 복사 냉각 소자 등을 연구합니다. 송영민 교수님의 자세한 연구내용은 홈페이지를 참고 부탁드립니다.

* 홈페이지 링크: https://www.ymsong.net

* 송영민 교수님 최근 네이쳐 인터뷰 기사(바로 가기)

 

송영민 교수님의 부임을 다시 한 번 축하드립니다.  

 

교수님 장표

공지사항

MORE

세미나 및 행사

전임교원 채용

Full-Time Faculty Recruitment