전기및전자공학부 신영수 교수 2023년 10월 과학기술인상 수상, AI로 반도체 공정 최적화

전기및전자공학부 신영수 교수 2023년 10월 과학기술인상 수상, AI로 반도체 공정 최적화

 

651f50dab0926

<사진 신영수 교수>

 

과학기술정보통신부와 한국연구재단은 ‘이달의 과학기술인상’ 10월 수상자로 한국과학기술원(KAIST) 전기및전자공학부 신영수 교수를 선정했다고 4일 밝혔다. 

신 교수는 기계학습을 이용해 기존보다 10배 빠르고 해상도도 높은 반도체 리소그래피 최적화 기술을 개발한 공로를 인정받았다. 

 

리소그래피는 패턴이 새겨진 마스크에 빛을 비춰 웨이퍼 위에 소자를 만들어가는 공정이다. 반도체 수율을 결정하는 주요 공정으로 꼽힌다.

 

이때 웨이퍼에 다각형을 만들려면 마스크에 복잡한 패턴을 그려 넣어야 하는데, 이런 패턴을 찾아가는 과정인 OPC(광학 근접 보정)는 마스크 형상을 고치고 시뮬레이션을 통해 웨이퍼 위 이미지를 확인하는 과정을 반복해야 해 긴 시간이 걸렸다.

 

신 교수는 마스크 형상과 이 마스크로 만들어지는 웨이퍼 이미지 집합을 인공지능(AI)에 학습시켜 더 빠르면서도 해상도가 높은 OPC 최적화 기술을 개발했다.

 

또 신 교수는 생성형 AI를 통해 기존 레이아웃(반도체 도면) 패턴과 구조적으론 비슷하지만, 기존에 존재하지 않던 레이아웃 패턴을 만드는 방법도 개발했다.

이렇게 만든 레이아웃 패턴과 기존 샘플 패턴을 최적화에 적용하면 기계학습 모델의 정확도가 더 높아지는 것도 확인했다.

관련 연구성과는 2021년 국제학술지 국제전기전자공학회(IEEE) TSM’에 실렸으며, 이 학술지가 한 해 한 건 선정하는 ‘베스트 페이퍼 어워드’를 받기도 했다.

 

신 교수는 “이번 연구는 기존 반도체 리소그래피 연구와 달리 기계학습과 인공지능을 적용했다는 점에서 차별성이 크다”며 “소수의 외국회사가 독점하면서 발생하는 라이센스 비용과 기술개발의 정체 문제를 해결하는 데 이바지할 수 있기를 기대한다”고 말했다.

 

   * 참고 : 10월 과기인상에 신영수 교수…AI로 반도체 공정 최적화 (naver.com)

 

전기및전자공학부 김주영 교수 연구팀, 2.4배 가격 효율적인 챗GPT 핵심 AI 반도체 개발

전기및전자공학부 김주영 교수 연구팀, 2.4배 가격 효율적인 챗GPT 핵심 AI 반도체 개발

 

김주영교수님

 

오픈AI가 출시한 챗GPT는 전 세계적으로 화두이며 이 기술이 가져올 변화에 모두 주목하고 있다. 이 기술은 거대 언어 모델을 기반으로 하고 있다.

거대 언어 모델은 기존 인공지능과는 달리 전례 없는 큰 규모의 인공지능 모델이다. 이를 운영하기 위해서는 수많은 고성능 GPU가 필요해, 천문학적인 컴퓨팅 비용이 든다는 문제점이 있다.

전기및전자공학부 김주영 교수 연구팀이 챗GPT에 핵심으로 사용되는 거대 언어 모델의 추론 연산을 효율적으로 가속하는 AI 반도체를 개발했다. 연구팀이 개발한 AI 반도체 ‘LPU(Latency Processing Unit)’는 거대 언어 모델의 추론 연산을 효율적으로 가속한다.

메모리 대역폭 사용을 극대화하고 추론에 필요한 모든 연산을 고속으로 수행 가능한 연산 엔진을 갖춘 AI 반도체이며, 자체 네트워킹을 내장하여 다수개 가속기로 확장이 용이하다.

이 LPU 기반의 가속 어플라이언스 서버는 업계 최고의 고성능 GPU인 엔비디아 A100 기반 슈퍼컴퓨터보다 성능은 최대 50%, 가격 대비 성능은 2.4배가량 높였다. 이는 최근 급격하게 생성형 AI 서비스 수요가 증가하고 있는 데이터센터의에서 고성능 GPU를 대체할 수 있을 것으로 기대한다.

이번 연구는 김주영 교수의 창업기업인 ㈜하이퍼엑셀에서 수행했으며 미국시간 7월 12일 샌프란시스코에서 진행된 국제 반도체 설계 자동화 학회(Design Automation Conference, 이하 DAC)에서 공학 부문 최고 발표상(Engineering Best Presentation Award)을 수상하는 쾌거를 이뤘다.

DAC은 국제 반도체 설계 분야의 대표 학회이며, 특히 전자 설계 자동화(Electronic Design Automation, EDA)와 반도체 설계자산(Semiconductor Intellectual Property, IP) 기술 관련하여 세계적인 반도체 설계 기술을 선보이는 학회다.

DAC에는 인텔, 엔비디아, AMD, 구글, 마이크로소프트, 삼성, TSMC 등 세계적인 반도체 설계 기업이 참가하며, 하버드대학교, MIT, 스탠퍼드대학교 등 세계 최고의 대학도 많이 참가한다. 세계적인 반도체 기술들 사이에서 김 교수팀이 거대 언어 모델을 위한 AI 반도체 기술로 유일하게 수상한 것은 매우 의미가 크다.

이번 수상으로 거대 언어 모델의 추론에 필요한 막대한 비용을 획기적으로 절감할 수 있는 AI 반도체 솔루션으로 세계 무대에서 인정받은 것이다. 

김주영 교수는 “미래 거대 인공지능 연산을 위한 새로운 프로세서 ‘LPU’로 글로벌 시장을 개척하고, 빅테크 기업들의 기술력보다 우위를 선점하겠다”라며 큰 포부를 밝혔다.

 

국문

 

[언론보도]
조선일보 : 챗GPT 가성비 2.4배 높이는 반도체 나왔다 – 조선비즈 (chosun.com) 
동아사이인스 : 챗GPT 효율 높일 ‘AI 반도체’ 개발…국제학회서 ‘최고 발표상’ : 동아사이언스 (dongascience.com) 

전기및전자공학부 김주영 교수 연구팀, CACM Megazine “South Korea’s Nationwide Effort for AI Semiconductor Industry” 게재

전기및전자공학부 김주영 교수 연구팀, CACM Megazine “South Korea’s Nationwide Effort for AI Semiconductor Industry” 게재

 

전기및전자공학부 김주영 교수 연구팀이 컴퓨터 과학 분야 대표 월간 학술 매거진 중 하나인 CACM (Communications of the ACM)에 “South Korea’s Nationwide Effort for AI Semiconductor Industry(2023. 7.)”이라는 아티클을 게재하였다.

 

64bf224354240

 

이 아티클에서 김주영 교수 연구팀은 국내에서 진행 중인 AI 반도체 산업을 위한 국가적 노력을 깊이 있는 분석을 통해 소개하고 있다.

 

연구팀은 정부, 산업, 학계 간의 다방면에서 이뤄지고 있는 노력들을 분석하여 세계 최고의 반도체 공급망을 구축하기 위한 정부의 투자 계획, 삼성전자, SK하이닉스 등 주요 기업들의 야심찬 AI 반도체 사업 계획, 그리고 특정 응용 분야를 위한 AI 연산 가속기를 개발하는 팹리스 스타트업들(퓨리오사, 리벨리온, 사피온, 하이퍼엑셀, 오픈엣지, 모빌린트, 딥엑스, 텔레칩스)의 부상 등을 심도있게 조명하였다.

 

이와 더불어, 현재 KAIST 반도체시스템학과와 더불어 AISS, PIM 연구센터와 칩 설계 분야의 연구 지원을 위한 IDEC의 다양한 프로그램들을 함께 소개하고 있다.

 

이 아티클은 국가 차원에서의 전략적인 기술 개발과 기업들의 적극적인 참여가 결합된 AI 반도체 분야에서의 대한민국의 발전 방향과 성과를 엿볼 수 있으며, 이를 국제적으로 알린 것에 의미가 있다.

앞으로의 AI 반도체 산업에 대한 통찰과 미래 기술에 대한 탐구를 원하는 독자들에게 유익한 정보를 제공하고 있다.

링크: https://dl.acm.org/doi/10.1145/3587264

 

 

 

 

EE학부 김주영 교수, 2022 AI 반도체 미래기술 컨퍼런스 ‘과기정통부 장관상’ 수상

김주영 교수, 2022 AI 반도체 미래기술 컨퍼런스 ‘과학기술정보통신부 장관상’ 수상
 
2022년 12월 12일, 과학기술정보통신부(과기정통부)는 경기창조경제혁신센터(판교)에서 열린 ‘2022 AI반도체 미래기술 컨퍼런스’에서 김주영 교수에게 인공지능 반도체 산업 발전에 기여한 공로로 ‘과학기술정보통신부 장관상’을 수여했다.
 
김주영 교수는 국내 AI 프로세서 및 PIM 반도체 기술 연구·개발을 선도하고 미래 반도체 인력 양성과 팹리스 생태계 조성에 기여한 공로를 인정받아 유공자 포상자로 선정되었으며, 최근 각광 받고 있는 거대 인공지능 모델을 위한 AI 반도체와 메모리-로직 융합 PIM 반도체 연구 등을 활발히 수행하고 있다.
 
jyKim 1 e1663644687523 360x270 1
[김주영 교수 사진]
 
LGW 5192
[과기정통부 시상식 사진]
 

KAIST 김주영 교수 센터(인공지능반도체시스템 연구센터), 과학기술정보통신부 장관상 수상

dataURItoBlob 1

[김주영 교수(센터장)]
 
KAIST 김주영 교수가 이끄는 인공지능반도체시스템 연구센터(이하 AISS)가 지난 11월 10일, 탁월한 인재 양성 성과를 인정 받아 과학기술정보통신부 장관상을 수상하였다.
 
김주영 교수가 센터장으로 있는 AISS는 지난 2020년부터 과학기술정보통신부의 대학ICT연구센터육성지원사업을 수행중으로, 미래 인공지능 사회를 위한 인공지능 반도체 핵심원천기술 및 응용 기술을 개발하고 석박사급 전문 인재를 양성하는 데 있어 다각도로 매진해왔다. 
 
특히 2021년도에는 인턴쉽, 기술이전, 기업가정신교육, 창의자율과제 등 다채로운 주제와 프로그램을 통해 96명의 학생연구원을 꾸준히 양성하였으며, 이중 42%에 달하는 인재가 석박사 학위 취득, 인공지능 반도체 관련 글로벌 기업으로의 취업 등 괄목할 만한 성과를 기록함으로써 타 센터의 모범이 되었다. 
 
AISS는 현재 김주영 연구책임자를 비롯해 KAIST 유회준, 김이섭, 박인철, 류승탁, 김현식, 연세대학교 김한준, 송진호, 이화여자대학교 김지훈, 박성민, UNIST 이규호 교수가 프로젝트 책임으로 활발한 연구 활동을 펼친다. 또한 2021년보다 10% 증가된 110여 명의 석박사급 인재가 참여함으로써 명실상부한 인공지능 반도체 분야의 대한민국 허브를 향해 힘찬 발걸음을 내딛고 있다. 
 
수상의 영광을 안은 연구책임자 김주영 교수는 “앞으로도 대학의 ICT 및 지능형 반도체 기술 역량을 토대로 국내 유수의 대학, 기업 등과 연계를 강화해 대한민국이 진정한 반도체 기술 강국으로 거듭나는 데 있어 필수적인 시스템 반도체 인력 양성에 중추적인 역할을 하겠다”고 수상 소감을 밝혔다. 
 
사진 dataURItoBlob
[수상식 사진]
 

 

Sunwha Koh, Younggwang Jung, Daijoon Hyun, and Youngsoo Shin, “Routability optimization for extreme aspect ratio design using convolutional neural network,” Proc. Int’l Symp. on Circuits and Systems (ISCAS), May 2021

  • Title: Routability optimization for extreme aspect ratio design using convolutional neural network,
  • Authors: Sunwha Koh, Younggwang Jung, Daijoon Hyun, Youngsoo Shin
  • Abstract :

     Circuits that are placed with very low (or high) aspect ratio are susceptible to routing overflows. Such designs are difficult to close and usually end up with larger area with low area utilization. We observe that non-uniform setting of utilization target greatly helps in these designs, specifically low utilization in the center and gradually higher utilization toward the ends. We introduce a convolutional neural network (CNN) model to predict the setting of utilization target values. Experiments indicate that routing congestion overflows are reduced by 29% on average of test designs with 40% reduction in wirelength.

  • 1 2

ARCHON: A 332.7TOPS/W 5b Variation-Tolerant Analog CNN Processor Featuring Analog Neuronal Computation Unit and Analog Memory

Title: ARCHON: A 332.7TOPS/W 5b Variation-Tolerant Analog CNN Processor Featuring Analog Neuronal Computation Unit and Analog Memory

Abstract: In this paper, we present a fully analog CNN processor featuring convolution, pooling, and non-linearity (RELU) datapath fully (end-to-end) in the analog domain, with no analog-to-digital conversion between layers. The processor adopts a variation-tolerant analog design approach, including analog memory with a write-with-feedback scheme that allows the fully analog processor to be robust to PVT variations. The 28nm chip achieves a peak efficiency of 332.7TOPS/W for 5b equivalent precision.

1

NAND-Net: A 133.6TOPS/W Compute-In-Memory SRAM Macro with Fully Parallel One-Step Multi-Bit Computation

Title: NAND-Net: A 133.6TOPS/W Compute-In-Memory SRAM Macro with Fully Parallel One-Step Multi-Bit Computation 

Authors: Edward Choi, Injun Choi, Chanhee Jeon, Gichan Yun, Donghyeon Yi, Sohmyung Ha, Ik-Joon Chang, Minkyu Je1

SRAM-based compute-in-memory (CIM) structures have shown ways to perform deep neural network (DNN) computations in the mixed-signal domain with high energy efficiency but suffer from the tradeoff and limitations in their accuracy arising from analog nonidealities. Recently, circuit techniques were developed to support multi-bit analog computations in SRAM-based CIM macro [1], [2], which computes multiplication and accumulation by using transistor currents. However, the transistor current has nonlinear characteristics with respect to the gate voltage, significantly degrading the accuracies of DNNs. Some works address this problem by using charge-based computation [3], [4], where the multiplication results between 1b weight and multi-bit inputs are firstly stored in capacitors. Multi-bit-weight computations are then achieved by shifting and adding the multiplication result outputs either in the digital domain [3] or in the analog domain using a charge-sharing method [1]. The digital method typically requires a higher ADC precision and one ADC for every accumulation, becoming power heavy. The analog charge-sharing method requires switches to control, being exposed to charge injection noise and dissipating considerable power to turn on and off the switches. To address these issues, this work proposes an 8T1C SRAM-based CIM macro structure, which supports (1) multi-bit-weight chargebased computation without additional switches used for charge sharing; (2) a simple and fast computation where multi-bit-weight multiply-accumulate-averaging (MAV) voltage is immediately formed when the input is given, namely “one-step” computation; (3) compact 8T1C bit cell using metal-oxide-metal (MOM) capacitor which incurs only 1.5× cell area of the conventional 6T SRAM under logic rules; and (4) no additional power consumption in bit-shift for energy-efficient computing. We fabricated the proposed 4kb SRAM CIM macro in a 65nm process, whose structure is shown in Fig. 1, supporting a fully parallel computation of 1024 MAV operations with 64 4b inputs and 16 4b weights.

 

1

A 49.5 mW Multi-scale Linear Quantized Online Learning Processor for Real-Time Adaptive Object Detection (유회준교수 연구실)

Online training is essential to maintain a high object detection (OD) in various environments. However, additional computation workload, EMA, and high bit precision is the problem of conventional online learning scheme on mobile devices. Therefore, a low power real-time online learning OD processor is proposed with three key features. In this paper, we present low power online learning processor for mobile devices with 3 key features: 1) Multiscale linear quantization and architecture to support it for low-bit fxp-based arithmetic at all stages of online learning. 2) Low-gradient channel skipping for computation reduction and EMA reduction. 3) Gradient Norm Estimation to support gradient norm clipping with less than 0.1% additional computations for fast adaptation. As a result, the proposed processor achieves 34 frame-per-second real-time OD with accurate online learning while only consuming 49.5mW.

Related papers:

Song, Seokchan, et al. “A 49.5 mW Multi-scale Linear Quantized Online Learning Processor for Real-Time Adaptive Object Detection.” IEEE Transactions on Circuits and Systems II: Express Briefs (2022).

Song, Seokchan, et al. “A 49.5 mW Multi-Scale Linear Quantized Online Learning Processor for Real-Time Adaptive Object Detection”, IEEE International Symposium on Circuits and Systems (ISCAS), May. 2022

11

A 161.6 TOPS/W Mixed-mode Computing-in-Memory Processor for Energy-Efficient Mixed-Precision Deep Neural Networks (유회준교수 연구실)

A Mixed-mode Computing-in memory (CIM) processor for the mixed-precision Deep Neural Network (DNN) processing is proposed. Due to the bit-serial processing for the multi-bit data, the previous CIM processors could not exploit the energy-efficient computation of mixed-precision DNNs. This paper proposes an energy-efficient mixed-mode CIM processor with two key features: 1) Mixed-Mode Mixed precision CIM (M3-CIM) which achieves 55.46% energy efficiency improvement. 2) Digital-CIM for In-memory MAC for the increased throughput of M3-CIM. The proposed CIM processor was simulated in 28nm CMOS technology and occupies 1.96 mm2. It achieves a state-of-the-art energy efficiency of 161.6 TOPS/W with 72.8% accuracy at ImageNet (ResNet50).

Related papers:

Wooyoung Jo, Sangjin Kim, Juhyoung Lee, Soyeon Um, Zhiyong Li, and Hoi-jun Yoo, “A 161.6 TOPS/W Mixed-mode Computing-in-Memory Processor for Energy-Efficient Mixed-Precision Deep Neural Networks”, Int’l Symp. on Circuits and Systems (ISCAS), May 2022.

10