전기및전자공학부 김창익 교수 연구팀, 비디오 인식의 새로운 패러다임을 여는 고효율 모델 ‘VideoMamba’ 개발

전기및전자공학부 김창익 교수 연구팀, 비디오 인식의 새로운 패러다임을 여는 고효율 모델 ‘VideoMamba’ 개발

1 1

<(좌측부터) 김창익교수, 박진영 석박통합과정, 김희선 박사과정, 고강욱 박사과정, 김민범 박사과정 사진>

 

챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록했으며, 추론 속도 또한 기존 트랜스포머 기반 모델 대비 4배의 매우 빠른 속도를 달성한 동영상 인식기술이 우리 연구진에 의해 개발됐다. 

우리 대학 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다. 

비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.

 

 

1 2

< 그림 1. 비디오맘바의 트랜스포머 기반 비디오 인식 모델 대비 낮은 메모리 사용량과 빠른 추론속도 >

 

김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM)* 메커니즘을 활용해 선형 복잡도**로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다.

*선택적 상태 공간 모델(Selective SSM): 입력에 따라 동적으로 매개변수를 조정하여 시퀀스 데이터의 문맥을 더 잘 이해하는 상태 공간 모델

**선형 복잡도:입력 데이터의 크기에 비례하여 계산량이 증가하는 알고리즘 복잡도 

 

김창익 교수 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입했다. 

이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 향상한다. 연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증했다. 

 

연구팀이 개발한 비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율주행에서는 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 

의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다. 스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다.

 

2

< 그림 2. 비디오맘바 내부의 시공간적 전방 및 후방 선택적 상태 공간 모델 상세 구조 >

 

연구를 주도한 김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 그리고 뛰어난 성능은 우리 생활에서의 다양한 동영상 활용 분야에 큰 장점을 제공할 것이다”고 연구의 의의를 설명했다. 

이번 연구에는 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 전기및전자공학부 김창익 교수가 교신 저자로 참여했다. 

 

연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model) 

한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발)

전기및전자공학부 신승원 교수 연구팀, 컴퓨터 분야 최우수 학회(USENIX Security) 논문 게재

전기및전자공학부 신승원 교수 연구팀, 컴퓨터 분야 최우수 학회(USENIX Security) 논문 게재

3849308447258157867.3850060435471870133@dooray

<신승원 교수 사진>

 

전기및전자공학부 신승원 교수 연구팀은 애플의 새로운 M시리즈 프로세서에서 데이터 프리패칭 기능이 기존 캐시 공격에 더욱 효과적으로 활용될 수 있다는 연구 결과를 발표했다. 데이터 프리패칭은 프로세서의 주요 최적화 기능 중 하나로, 프로그램이 필요로 하는 데이터를 미리 캐시에 로드하여 메모리 접근 시간을 줄이는 데 사용된다. 

 

프로세서들은 하드웨어적인 프리패칭 기능과 함께 소프트웨어적으로 프리패칭을 지원하기 위한 명령어 셋을 기본적으로 제공한다. 신승원 교수 연구팀은 x86과 ARM의 ISA를 비교 분석하여 ARM 기반 프로세서에서 데이터 프리패칭 기능이 캐시 공격에 더욱 효과적으로 활용될 수 있음을 증명했다. 이를 통해 세 가지 새로운 캐시 기반 공격을 고안했으며, Apple의 M시리즈 프로세서를 대상으로 코버트 채널을 구현하여 기존 캐시 공격보다 3배 이상의 속도로 데이터 전송이 가능함을 보였다. 

 

또한 암호화 키를 추출하는 사이드채널 공격에서도 기존 연구 대비 약 8배의 성능 향상을 입증했다. 신승원 교수 연구팀은 Apple이 ARM 프로세서 기반의 데스크탑용 프로세서를 직접 제작하기 시작하면서 본격적으로 펼쳐질 ARM 기반 프로세서들에 대한 취약점 연구를 선제적으로 수행했다는 점에 큰 의의가 있다고 설명했다. 

 

해당 연구는 2024년 8월 컴퓨터 보안 분야 최우수 학회 중 하나인 USENIX Security에서 발표될 예정이며, 학회 홈페이지를 통해 확인할 수 있다.

(https://www.usenix.org/conference/usenixsecurity24/presentation/choi)

3849308447258157867.3849311937720073324@dooray

전기및전자공학부 윤찬현 교수 연구팀, 확산 모델의 비정상 데이터 생성 방지 기술 개발

전기및전자공학부 윤찬현 교수 연구팀, 확산 모델의 비정상 데이터 생성 방지 기술 개발

3844436294526049410.3844438125282115741@dooray3844436294526049410.3844438125927810200@dooray3844436294526049410.3844438125940979132@dooray3844436294526049410.3844438125961007299@dooray

<(좌측부터) 윤찬현 교수, 장진혁 박사과정, 이창하 박사과정, 전민수 박사 사진>

 

우리 학부 윤찬현 교수 연구팀은 확산 모델 기반의 생성형 AI가 빈번하게 비정상 데이터를 생성하는 문제를 개선할 수 있는 Momentum기반 생성 기술을 개발하였다.

최근 큰 관심을 받고 있는 확산 모델 기반의 생성형 AI은 전체적으로 사실적인 영상을 생성하지만, 기이하게 꺾인 관절, 세 개뿐인 말의 다리 등 세부적인 부분에서 비현실적인 영상이 빈번하게 생성된다는 문제가 있다. 

 

3844436294526049410.3844438125977094538@dooray

그림 1 : 제안된 기법이 적용된 Stable Diffusion 생성 결과

 

연구팀은 문제해결을 위해 확산 모델의 생성 과정을 경사하강법과 같은 최적화 문제로 재해석하였다. 확산 모델의 생성 과정과 경사하강법은 모두 Generalized Expectation-Maximization 문제로 표현될 수 있으며, 시각화를 통해 생성과정에 실제로 수많은 Local Minima 및 Saddle Point들이 존재함을 확인할 수 있었다. 이를 통해, 부적절한 결과물들이 일종의 Local Minima 혹은 Saddle Point와 같음을 보였다.

이런 관찰에 기반해, 연구팀은 최적화에서 널리 사용되는 Momentum 기법을 생성 과정에 도입했다. 

 

다양한 실험을 통해 추가 학습이 없이도 부적절한 영상의 생성이 현저히 줄어들고, 연산량 대비 생성 영상의 품질이 올라감을 확인할 수 있었다. 본 결과는 확산모델의 생성 과정이 모두 점진적 최적화 문제라는 재해석을 제시하고, Momentum 기법을 생성 과정에 도입해 부적절한 결과물을 줄이는 결과를 보였다.

새로운 연구 성과를 통해 생성 결과의 개선뿐 아니라 생성형 AI에 대한 새로운 해석 및 다양한 후속연구를 가져올 것으로 기대된다. 해당 연구 결과는 올해 2월 캐나다 벤쿠버에서 열린 AI 분야 최우수 국제 학회 중 하나인 38th Annual AAAI Conference on Artificial Intelligence (AAAI 2024)에서 ‘Rethinking Peculiar Images by Diffusion Models: Revealing Local Minima’s Role’라는 제목으로 발표되었다.

전기및전자공학부 윤찬현 교수 연구팀, 데이터셋 저작권 보호를 위한 워터마킹 기술 개발

전기및전자공학부 윤찬현 교수 연구팀, 데이터셋 저작권 보호를 위한 워터마킹 기술 개발
 

3844433368535702746.3844433843193700912@dooray3844433368535702746.3844433843969348630@dooray

<(좌측부터) 윤찬현 교수, 장진혁 박사과정 사진>

 

전기및전자공학부 윤찬현 교수 연구팀은 AI에서 가장 중요한 요소들 중 하나인 데이터셋의 저작권을 보호할 수 있는 데이터셋 워터마킹 기술 ‘Undercover Bias’를 개발하였다.

Undercover Bias는 모든 데이터셋에는 편향이 존재하며, 편향 자체만으로도 변별력을 가지고 있다는 점에 착안해 인공적으로 생성된 가상의 편향을 삽입하는 기술이다. 본 연구는 기존의 기법들과 비교했을 때 빠르고, 눈에 보이지 않으며, 비인가 사용을 안정적으로 판별해낼 수 있다는 장점을 가지고 있다.

 

3844433368535702746.3844433843982137038@dooray

그림 1 : 제안된 기법 Undercover Bias 의 구동 방식

 

해당 기술은 최근 AI와 관련해 사회적으로 문제가 되고 있는 데이터의 저작권 및 개인 정보의 보호 문제를 해결하기 위한 방법으로, 목적이 되는 데이터셋에 아주 미미한 워터마크를 숨긴다. 이 때, 워터마크는 사람 눈으로 구별하기가 거의 불가능하며, 또한 기존 방법들과 달리 정답 Label에 아무런 변화도 주지 않는다는 특징이 있다.

그러나, 워터마크가 숨겨진 데이터셋으로 학습된 AI 모델들은 워터마크를 판별할 수 있다는 특징을 갖게 되며, 이 특징의 유무를 기반으로 해당 모델이 데이터셋을 비인가사용을 했는지 여부를 증명할 수 있다. 

 

연구팀은 제안된 방법을 통해 다양한 벤치마크에 대해 비인가 사용을 통해 학습된 모델을 100% 판별할 수 있음을 보였으며, 또한 인가 사용을 통해 학습된 모델을 3e-5%의 확률 이하로 오판별됨을 보여 매우 신뢰할 수 있음을 증명했다.

 
해당 연구 결과는 올해 10월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 European Conference on Computer Vision (ECCV) 2024에서 ‘Rethinking Data Bias: Dataset Copyright Protection via Embedding Class-wise Hidden Bias’라는 제목으로 발표될 예정이다. ECCV은 컴퓨터 비전 분야에서 권위 있는 국제 학술대회로,  CVPR, ICCV 등의 학술대회와 함께 해당 분야 최고 수준의 국제 학회로 손꼽히고 있다. 

전기및전자공학부 윤찬현 교수 연구팀, 인공 신경망의 신뢰도 향상을 위한 네트워크 보정 기술 개발

전기및전자공학부 윤찬현 교수 연구팀, 인공 신경망의 신뢰도 향상을 위한 네트워크 보정 기술 개발

   3844424708055224837.3844427237967205768@dooray3844424708055224837.3844427238207885858@dooray

<(좌측부터) 윤찬현 교수, 조규상 박사과정 사진>

 

전기및전자공학부 윤찬현 교수 연구팀은 신경망의 신뢰도 향상을 위한 네트워크 보정 알고리즘 “Tilt and Average ; TNA” 를  개발하는데 성공하였다.  TNA 기법은 기존의 보정 지도를 기반으로하는 접근 방식과는 다른 방식으로, 분류기의 마지막 층의 가중치를 변환하는 알고리즘으로, 기존의 기법과 매끄럽게 통합될 수 있다는데에 큰 장점을 보이며, 해당 연구는 인공지능 신뢰성 증진 연구에서  탁월한 기술로 평가받고 있다. 

 

3844424708055224837.3844427238236031186@dooray

그림 1 : 제안된 기법 (TNA; Tilt And Average) 알고리즘의 가중치 조정 방식

 

해당 기술은 기존 인공 신경망이 가지고 있던 overconfident prediction 문제를 해결하기 위한 새로운 알고리즘을 제안한다. 마지막 선형 층의 고차원 기하학을 활용하는 해당 알고리즘은, 가중치의 행 벡터간 각도적 측면에 집중하여 방향을 조정(Tilt)하고 평균치를 계산(Average)하는 메커니즘을 제안하였다. 

 

연구팀은 제안된 방법을 통해 보정에러를 최대 20%까지 줄일 수 있음을 확인하였으며, 해당 알고리즘은 기존의 보정 지도 기반 기술과 통합될 수 있다는 점에 장점을 가진다. 해당 연구 결과는 올해 7월 오스트리아 비엔나에서 열리는 인공지능 분야 최우수 국제 학회 중 하나인 ICML (International Confernce on Machine Learning, https://icml.cc)에서 발표될 예정이다. 올해로 41회째를 맞은 ICML은 머신 러닝 분야에서 오랜 역사와 최고의 권위를 가지고 있는 국제 학술대회로,  CVPR, ICLR, NeurIPs 등의 학술대회와 함께 해당 분야 최고 수준의 국제 학회로 손꼽히고 있다. 

 

한편, 이번 연구는 해양경찰청 의 지원과(RS-2023-00238652) 방위사업청(DAPA) 의 지원 (KRIT-CT-23-020)을 받아 수행됐으며, 해당 논문은 Gyusang Cho and Chan-Hyun Youn, “Tilt and Average : Geometric Adjustment of the Last Layer for Recalibration” , ICML (2024) 로 찾아볼 수 있다.

전기및전자공학부 정명수 교수 연구팀, ‘CXL-GPU’시장 개화.. KAIST, 고용량과 성능 모두 잡은 GPU 개발

 전기및전자공학부 정명수 교수 연구팀, ‘CXL-GPU’시장 개화.. KAIST, 고용량과 성능 모두 잡은 GPU 개발

3842864258736465856.3843537081479012957@dooray

<정명수 교수 연구팀 사진>

 

최근 대규모 AI 서비스 제공 최전선에 있는 빅테크들은 더 좋은 성능을 사용자들에게 제공하기 위해 경쟁적으로 모델 및 데이터의 크기를 증가시키는 추세이며, 최신 대규모 언어모델은 학습을 위해 수에서 수십 테라바이트(TB, 10^12 바이트)의 메모리를 요구한다. 국내 연구진이 현재 AI 가속기 시장을 독점하고 있는 엔비디아(NVIDIA)에 맞설 수 있는 차세대 인터페이스 기술이 활성화된 고용량·고성능 AI 가속기를 개발했다.

 

전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 차세대 인터페이스 기술인 CXL(Compute Express Link)이 활성화된 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는 기술을 개발했다고 8일 밝혔다. 

 

최신 GPU의 내부 메모리 용량은 수십 기가바이트(GB, 10^9 바이트)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 대규모 AI 모델이 요구하는 메모리 용량을 제공하기 위해 업계에서는 일반적으로 GPU 여러 대를 연결하는 방식을 채택하지만, 이 방법은 최신 GPU의 높은 가격으로 인해 총소유비용(TCO·Total Cost of Ownership)을 과도하게 높이는 문제를 일으킨다.

 

CXL-GPU 대표 그림

< CXL-GPU 대표 그림 >

 

이에 차세대 연결 기술인 CXL(Compute Express Link)을 활용해 대용량 메모리를 GPU 장치에 직접 연결하는‘CXL-GPU*’구조 기술이 다양한 산업계에서 활발히 검토되고 있다. 하지만 CXL-GPU의 고용량 특징만으로는 실제 AI 서비스에 활용되기 어렵다. 대규모 AI 서비스는 빠른 추론·학습 성능을 요구하기 때문에, GPU에 직접적으로 연결된 메모리 확장 장치로의 메모리 읽기/성능이 기존 GPU의 로컬 메모리에 준하는 성능이 보장될 때 비로소 실제 서비스에 활용될 수 있다.

 

*CXL-GPU: CXL을 통해 연결된 메모리 확장 장치들의 메모리 공간을 GPU 메모리 공간에 통합시킴으로써 고용량을 지원한다. 통합된 메모리 공간 관리에 필요한 동작들은 CXL 컨트롤러가 자동으로 처리해주므로, GPU는 기존에 로컬 메모리에 접근하던 방식과 동일한 방식으로 확장된 메모리 공간에 접근할 수 있다. 기존 메모리 용량을 늘리기 위해 고가의 GPU를 추가 구매하던 방식과 달리, CXL-GPU는 GPU에 메모리 자원만 선택적으로 추가할 수 있어 시스템 구축 비용을 획기적으로 절감할 수 있다. 

 

우리 연구진은 CXL-GPU 장치의 메모리 읽기/쓰기 성능이 저하되는 원인을 분석해 이를 개선하는 기술을 개발했다. 메모리 확장 장치가 메모리 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발하여 GPU 장치가 메모리 확장 장치에 메모리 쓰기를 요청하면서 동시에 GPU 로컬 메모리에도 쓰기를 수행하도록 설계했다. 즉, 메모리 확장 장치가 내부 작업을 수행 상태에 따라 작업을 하도록 하여, GPU는 메모리 쓰기 작업의 완료 여부가 확인될 때까지 기다릴 필요가 없어 쓰기 성능 저하 문제를 해결할 수 있도록 했다.

제안하는 CXL-GPU의 구조

< 제안하는 CXL-GPU의 구조 >

 

또한 연구진은 메모리 확장 장치가 사전에 메모리 읽기를 수행할 수 있도록 GPU 장치 측에서 미리 힌트를 주는 기술을 개발했다. 이 기술을 활용하면 메모리 확장 장치가 메모리 읽기를 더 빨리 시작하게 되어, GPU 장치가 실제 데이터를 필요로 할 때는 캐시(작지만 빠른 임시 데이터 저장공간)에서 데이터를 읽어 더욱 빠른 메모리 읽기 성능을 달성할 수 있다.

CXL-GPU의 하드웨어 프로토타입

< CXL-GPU의 하드웨어 프로토타입 >

 

이번 연구는 반도체 팹리스 스타트업인 파네시아(Panmnesia)*의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐다. 연구팀은 파네시아의 CXL-GPU 프로토타입을 활용한 기술 실효성 검증을 통해 기존 GPU 메모리 확장 기술보다 2.36배 빠르게 AI 서비스를 실행할 수 있음을 확인했다. 해당 연구는 오는 7월 산타클라라 USENIX 연합 학회와 핫스토리지의 연구 발표장에서 결과를 선보인다.

 

*파네시아는 업계 최초로 CXL 메모리 관리 동작에 소요되는 왕복 지연시간을 두 자리 나노초(nanosecond, 10^9분의 1초) 이하로 줄인 순수 국내기술의 자체 CXL 컨트롤러를 보유하고 있다. 이는 전세계 최신 CXL 컨트롤러등 대비 3배 이상 빠른 속도다. 파네시아는 고속 CXL 컨트롤러를 활용해 여러 개의 메모리 확장 장치를 GPU에 바로 연결함으로써 단일 GPU가 테라바이트 수준의 대규모 메모리 공간을 형성할 수 있도록 했다. 

정명수 교수는 “CXL-GPU의 시장 개화 시기를 가속해 대규모 AI 서비스를 운영하는 빅테크 기업의 메모리 확장 비용을 획기적으로 낮추는 데 기여할 수 있을 것”이라 말했다.

CXL-GPU 실행 시간 평가 결과

< CXL-GPU 실행 시간 평가 결과 >

 

전기및전자공학부 유민수 교수, 2024 미국 전기전자공학회(IEEE)/전산공학회(ACM) International Symposium on Computer Architecture 학술대회의 명예의 전당 헌액

전기및전자공학부 유민수 교수, 2024 미국 전기전자공학회(IEEE)/전산공학회(ACM) International Symposium on Computer Architecture 학술대회의 명예의 전당 헌액

Inline image 2024 07 02 10.57.33.530

<유민수 교수 사진>

 

전기및전자공학부 유민수 교수가 올해 미국 전기전자공학회(IEEE)/전산공학회(ACM) International Symposium on Computer Architecture 학술대회(약칭 ISCA)의 명예의 전당(Hall of Fame)에 헌액되었다.
 
올해로 51회 째를 맞은 ISCA (https://www.iscaconf.org/isca2024/)는 컴퓨터 아키텍쳐 분야에서 오랜 역사와 최고의 권위를 가지고 있는 국제 학술대회로서, MICRO (IEEE/ACM International Symposium on Microarchitecture), HPCA (IEEE International Symposium on High-Performance Computer Architecture) 학술대회와 함께 컴퓨터 아키텍쳐 분야 3대 국제 학회로 손꼽히고 있다.
 
유민수 교수는 컴퓨터 아키텍쳐 연구 분야 중에서 인공지능 (AI) 반도체 및 GPU 기반의 고성능 컴퓨팅 시스템 연구에 대한 국내 최고 권위자로, 2021년 HPCA 학술대회 명예의 전당, 2022년 MICRO 학술대회 명예의 전당에 입성한 데에 이어서 올해 2024년 ISCA 학술대회에도 총 8편 이상의 논문을 게재하여 ISCA 명예의 전당에 회원으로 추대되었다.
 
한편 이번 2024년 ISCA 학술대회는 6월 29일부터 7월 3일까지 아르헨티나 부에노스아이레스에서 열리며, 유민수 교수 연구팀은 해당 학술대회에서 총 3편의 논문을 발표할 예정이다 (아래 참고).
 
[유민수 교수 연구팀 ISCA 발표 논문 정보]
 
1. Yujeong Choi, Jiin Kim, and Minsoo Rhu, “ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models,” ISCA-51
 arXiv paper link: https://arxiv.org/abs/2406.06955v1
 
2. Yunjae Lee, Hyeseong Kim, and Minsoo Rhu, “PreSto: An In-Storage Data Preprocessing System for Training Recommendation Models,” ISCA-51
 arXiv paper link: https://arxiv.org/abs/2406.14571
 
3. Ranggi Hwang, Jianyu Wei, Shijie Cao, Changho Hwang, Xiaohu Tang, Ting Cao, and Mao Yang, “Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference,” ISCA-51 
arXiv paper link: https://arxiv.org/abs/2308.12066

 

 

전기및전자공학부 김이섭 교수 연구실 박준영 석사졸업생 국제 반도체 설계 자동화 학회(Design Automation Coference) 최우수 논문상 수상

전기및전자공학부 김이섭 교수 연구실 박준영 석사졸업생 국제 반도체 설계 자동화 학회(Design Automation Coference) 최우수 논문상 수상

 

Inline image 2024 07 02 11.10.07.255

<(좌측부터) 김이섭 교수, 박준영 석사졸업생, 강명구 박사졸업생, 김양곤 석사졸업생, 신재강 박사졸업생, 한윤기 박사과정 학생 사진>

 
우리 학부 김이섭 교수 연구실의 박준영 석사졸업생이 6월 23일 ~ 6월 27일, 미국 샌프란시스코에서 개최된 국제 반도체 설계 자동화 학회 (Design Automation Conference, 이하 DAC) 에서 최우수 논문상(Best Paper Award)을 수상하는 성과를 거두었다.  DAC은 1964년에 설립돼 올해 61회째를 맞은, 반도체설계자동화, 인공지능 알고리즘과 칩 설계 등을 포함하는 국제학술대회로서, 제출된 논문 중 상위 20퍼센트 정도만 선정하는, 관련 분야 최고 권위의 학회이다.

수상한 연구는 박준영 씨의 석사 졸업 논문에 기반한 것으로서, Large Language Model 모델 추론의 문제점이 되는 KV 캐싱의 메모리 전송을 줄이는 알고리즘 근사 기법과 하드웨어 아키텍처를 제안하였으며학회 best paper award 선정 위원회로부터 그 우수성을 인정받아 발표논문 337편 중 (제출논문 1,545편) 선정된 4편의 후보 논문중에서 최종 best paper award 수상논문으로 선정되었다.

자세한 내용은 다음과 같다.

 

– 학 회 명 : 2024 61st IEEE/ACM Design Automation Conference (DAC)

– 개최기간 : 2024 6 23 ~ 27

– 수 상 명 : Best Paper Award

– 저자 : 박준영강명구한윤기김양곤신재강김이섭(지도교수)

– 논 문 명 : Token-Picker : Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation

Inline image 2024 07 02 11.11.15.807

 

전기및전자공학부 최신현 교수 연구팀, 차세대 뉴로모픽 컴퓨팅 신뢰성 문제를 풀다

전기및전자공학부 최신현 교수 연구팀, 차세대 뉴로모픽 컴퓨팅 신뢰성 문제를 풀다

images 000078 photo1.jpg 12

<(좌측부터) 최신현 교수, 배종민 석사과정, 한양대 권초아 박사후연구원, 김상태 교수 사진>

 
최근 인간의 뇌를 모방해 하드웨어 기반으로 인공지능 연산을 구현하는 뉴로모픽 컴퓨팅 기술이 최근 주목받고 있다. 뉴로모픽 컴퓨팅의 단위 소자로 활용되는 멤리스터(전도성 변화 소자)는 저전력, 고집적, 고효율 등의 장점이 있지만 멤리스터로 대용량 뉴로모픽 컴퓨팅 시스템을 구현하는데 불규칙한 소자 특성으로 인한 신뢰성 문제가 발견되었다. 
 

전기및전자공학부 최신현 교수 연구팀이 한양대학교 연구진과의 공동 연구를 통해 차세대 메모리 소자의 신뢰성과 성능을 높일 수 있는 이종원자가 이온* 도핑 방법을 개발했다고 21일 밝혔다. 

* 이종원자가 이온(Aliovalent ion): 원래 존재하던 원자와 다른 원자가(공유 결합의 척도, valance)를 갖는 이온을 말함 

 

공동연구팀은 기존 차세대 메모리 소자의 가장 큰 문제인 불규칙한 소자 특성 변화 문제를 개선하기 위해, 이종원자가 이온을 도핑하는 방식으로 소자의 균일성과 성능을 향상할 수 있다는 사실을 실험과 원자 수준의 시뮬레이션을 통해 원리를 규명했다.

 

images 000078 image1.jpg 11

< 그림 1. 본 연구에서 개발한 이종원자가 이온 도핑 결과, 그리고 개선 효과와 이에 기반하는 물질적인 원리 개념도 >

 

공동 연구팀은 이러한 불규칙한 소자 신뢰성 문제를 해결하기 위해 이종원자가 할라이드(halide) 이온을 산화물 층 내에 적절히 주입하는 방법이 소자의 신뢰성과 성능을 향상할 수 있음을 보고했다. 연구팀은 이러한 방법으로 소자 동작의 균일성, 동작 속도, 그리고 성능이 증대됨을 실험적으로 확인했다. 

 

연구팀은 또한, 원자 단위 시뮬레이션 분석을 통해 결정질과 비결정질 환경에서 모두 실험적으로 확인한 결과와 일치하는 소자 성능 개선 효과가 나타남을 보고했다. 그 과정에서 도핑된 이종원자가 이온이 근처 산소 빈자리(oxygen vacancy)를 끌어당겨 안정적인 소자 동작을 가능하게 하고, 이온 근처 공간을 넓혀 빠른 소자 동작을 가능하게 하는 원리를 밝혀냈다. 

 

최신현 교수는 “이번에 개발한 이종원자가 이온 도핑 방법은 뉴로모픽 소자의 신뢰성과 성능을 획기적으로 높이는 방법으로서, 차세대 멤리스터 기반 뉴로모픽 컴퓨팅의 상용화에 기여할 수 있고, 밝혀낸 성능 향상 원리를 다양한 반도체 소자들에 응용할 수 있을 것이다ˮ 고 밝혔다. 

전기및전자공학부 배종민 석사과정, 한양대학교 권초아 박사후연구원이 공동 제1 저자로 참여한 이번 연구는 국제 학술지 `사이언스 어드밴시스(Science Advances)’ 6월호에 출판됐다. (논문명 : Tunable ion energy barrier modulation through aliovalent halide doping for reliable and dynamic memristive neuromorphic systems) 

 

한편 이번 연구는 한국연구재단 신소자원천기술개발사업, 신재료PIM소자사업, 우수신진연구사업, 나노종합기술원 반도체공정기반 나노메디컬 디바이스개발 사업, 그리고 국가슈퍼컴퓨팅센터 혁신지원프로그램의 지원을 받아 수행됐다.

 

전기및전자공학부 노용만 교수 연구팀, GPT-4V 뛰어넘는 멀티모달 대형언어모델 개발

전기및전자공학부 노용만 교수 연구팀, GPT-4V 뛰어넘는 멀티모달 대형언어모델 개발

 

Inline image 2024 05 31 15.36.55.915

<(좌측부터) 노용만 교수, 이병관 박사과정, 박범찬 석박통합과정, 김채원 박사과정 사진>
 
전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)와 같은 비공개형 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다. 멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다.
 
최근 대형언어모델(LLM)의 발전과 시각적 지시 조정(Visual Instruction Tuning)의 등장으로 멀티모달 대형언어모델이 큰 주목을 받고 있다.
그러나, 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준의 파라미터를 가진 초대형모델들이 만들어지고 있고, 개발된 모델들이 비공개로 개발되다 보니 학계 수준에서 개발된 대형언어모델과 비교했을 때, 성능 및 기술 격차가 나날이 커지고 있다.
 
다시 말해, 현재까지 개발된 공개형 대형언어모델들은 현재까지 비공개형 대형언어모델인 GPT-4V와 제미나이-프로(Gemini-Pro)와 유사한 성능을 내지 못할 뿐 아니라 여전히 현저한 성능 차이를 보이고 있었다.
 
멀티모달 대형언어모델의 성능을 올리기 위해 기존의 공개형 대형언어모델들은 모델의 크기를 키워 학습할 수 있는 역량을 키우거나 다양한 시각 언어 태스크(Vision Language Task)를 다루는 시각적 지시 조정 데이터셋(Visual Instruction Tuning Dataset)을 더욱 고품질로 만들어 확장하는 방식을 사용했다. 
하지만 이런 방식은 아주 큰 연산 자원을 요구하거나 노동집약적인 단점이 있어, 멀티모달 대형언어모델의 성능을 높이기 위한 새로운 효율적인 방법의 필요성이 대두되고 있다.
 
KAIST 전기및전자공학부 노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 기술 2개를 연속적으로 개발했다고 밝혔다.
연구팀이 개발한 첫번째 기술인 ‘콜라보(CoLLaVO)’는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다. 
그리고, 모델의 물체 수준 이미지 이해 능력이 시각-언어 태스크 처리 능력에 대한 결정적인 성능과 유의미한 상관관계가 있다는 것을 밝혔다.
 
Inline image 2024 05 31 15.25.02.940
연구팀은 해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 ‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했는데, 이는 컴퓨터 비전 모델 중 하나인 전체적 분할(panoptic segmentation) 모델을 활용해 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법을 뜻한다.
 
추가로, 연구팀은 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 ‘듀얼 큐로라(Dual QLoRA)’라는 학습 전략을 사용해 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략을 제안했다. 이를 통해, 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다.

 

Inline image 2024 05 31 15.25.53.251

노용만 교수 연구팀은 곧이어 두 번째 대형언어모델 ‘모아이(MoAI)’를 개발 및 공개했는데, 이는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다.
 
이는 기존 멀티모달 대형언어모델이 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 지적하며, 이런 인지과학적인 요소를 멀티모달 대형언어모델에 부여하기 위해서 전체적 분할(Panoptic Segmentation), 검출할 수 있는 물체에 한계가 없는 물체 검출기(Open-World Object Detection), 상황 그래프 생성(Scene Graph Generation), 그리고 글자 인식(Optical Character Recognition), 이렇게 4가지의 컴퓨터 비전 모델을 종합적으로 사용한다. 
이런 4가지 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.
 
이러한 간단하고 효율적인 방식인 콜라보(CoLLaVO)의 크레용 프롬프트(Crayon Prompt), 듀얼큐로라(DualQLoRA)와 모아이(MoAI)의 다양한 컴퓨터 비전모델의 집합체를 이용해 비공개형 상업 모델인 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 성능을 검증했다고 연구팀은 밝혔다. 
 
Inline image 2024 05 31 15.27.06.852
 
2가지 연속적인 멀티모달 대형언어모델인 콜라보(CoLLaVO)와 모아이(MoAI)는 KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다.
 
연구팀이 개발한 콜라보(CoLLaVO) 공개형 대형언어모델은 자연어 처리(NLP) 분야 최고의 국제 학회인 ‘Findings of the Association for Computational Linguistics(ACL Findings) 2024’에 5월 16일 자로 학회에 승인받았고, 모아이(MoAI)는 컴퓨터 비전 최고의 국제 학회인 ‘European Conference on Computer Vision(ECCV) 2024’학회 승인 결과를 기다리고 있다고 밝혔다.
 

[1] CoLLaVO 데모 GIF 영상 https://github.com/ByungKwanLee/CoLLaVO

images 000078 imga4.jpg

< CoLLaVO 데모 GIF 영상 >

 

[2] MoAI 데모 GIF 영상 https://github.com/ByungKwanLee/MoAI

images 000078 image5.png
< MoAI 데모 GIF 영상 >