“MGen: A Framework for Energy-Efficient In-ReRAM Acceleration of Multi-Task BERT,” IEEE Transactions on Computers ( Volume: 72, Issue: 11, November 2023) Accept (김이섭 교수 연구실)

Myeonggu Kang; Hyein Shin; Junkyum Kim; Lee-Sup Kim, MGen: A Framework for Energy-Efficient In-ReRAM Acceleration of Multi-Task BERT,” IEEE Transactions on Computers ( Volume: 72, Issue: 11, November 2023)

Abstract: Recently, multiple transformer models, such as BERT, have been utilized together to support multiple natural language processing (NLP) tasks in a system, also known as multi-task BERT. Multi-task BERT with very high weight parameters increases the area requirement of a processing in resistive memory (ReRAM) architecture, and several works have attempted to address this model size issue. Despite the reduced parameters, the number of multi-task BERT computations remains the same, leading to massive energy consumption in ReRAM-based deep neural network (DNN) accelerators. Therefore, we suggest a framework for better energy efficiency during the ReRAM acceleration of multi-task BERT. First, we analyze the inherent redundancies of multi-task BERT and the computational properties of the ReRAM-based DNN accelerator, after which we propose what is termed the model generator, which produces optimal BERT models supporting multiple tasks. The model generator reduces multi-task BERT computations while maintaining the algorithmic performance. Furthermore, we present task scheduler, which adjusts the execution order of multiple tasks, to run the produced models efficiently. As a result, the proposed framework achieves maximally 4.4× higher energy efficiency over the baseline, and it can also be combined with the previous multi-task BERT works to achieve both a smaller area and higher energy efficiency.1

“A Compact and Low-Power Column Readout Circuit based on Digital Delay Chain”, IEEE International Symposium on Circuits and Systems (ISCAS), 2024 Accept (정완영 교수 연구실)

Minkyu Yang, Changjoo Park, Wanyeong Jung, “A Compact and Low-Power Column Readout Circuit based on Digital Delay Chain“, IEEE International Symposium on Circuits and Systems (ISCAS), 2024

Abstract: This paper presents a column readout integrated circuit (ROIC) optimized for analog compute-in-memory (CIM) arrays in AI applications in terms of size, design simplicity, robustness, and energy efficiency. The digital delay chain with capacitive feedback converts current and charge input to a thermometer code with high accuracy. Adopting dynamic AND gates allows for sequentially changing the negative feedback loop through unit capacitors controlled by a loop-unrolled chain topology. The readout circuit shows superior linearity with essentially no stability problems. Simulated with a 28 nm CMOS technology, the circuit achieves a 5-bit resolution with a DNL of +1.148/-1.147 LSB and an INL of +0.817/-0.677 LSB in the case of current input for 3σ mismatch. The power consumption is 54.8 µW from a 0.9 V supply at the conversion rate of 400 MS/s, and the circuit occupies 29 µm2.3

“MAC-DO: DRAM-Based Multi-Bit Analog Accelerator Using Output Stationary,” IEEE International Symposium on Circuits and Systems (ISCAS), 2024 Accept (정완영 교수 연구실)

Minki Jeong, Wanyeong Jung, “MAC-DO: DRAM-Based Multi-Bit Analog Accelerator Using Output Stationary,” IEEE International Symposium on Circuits and Systems (ISCAS), 2024

Abstract: DRAM-based accelerators have shown their potential in addressing the memory wall challenge of the traditional von Neumann architecture. Such accelerators exploit charge sharing or logic circuits for simple logic operations. As a result, they require many cycles for more complex operations such as a multi-bit multiply-accumulate (MAC) operation, resulting in significant data access and movement and potentially worsening power efficiency.

To overcome these limitations, this paper presents MAC-DO, an efficient and low-power DRAM-based accelerator. Compared to previous DRAM-based accelerators, a MAC-DO cell, consisting of two 1T1C DRAM cells, innately supports a multi-bit MAC operation within a single cycle, significantly improving power efficiency while maintaining good linearity and compatibility with existing 1T1C DRAM cell and array structures. This achievement is facilitated by a novel analog computation method utilizing charge steering. As a result, MAC-DO efficiently can accelerate convolutions based on output stationary mapping, supporting the majority of computations performed in deep neural networks.

Our evaluation using transistor-level simulation shows that a test MAC-DO array with 16×16 MAC-DO cells achieves 120.96 TOPS/W and 97.07% Top-1 accuracy for MNIST dataset without retraining.2

“VVIP: Versatile Vertical Indexing Processor for Edge Computing,” ACM/IEEE Design Automation Conference (DAC), 2024 Accept (정완영 교수 연구실)

Hyungjoon Bae, Da Won Kim, Wanyeong Jung, “VVIP: Versatile Vertical Indexing Processor for Edge Computing,” ACM/IEEE Design Automation Conference (DAC), 2024

Abstract: This paper presents a versatile vertical indexing processor (VVIP) based on a single-instruction multiple-data architecture for edge computing. In VVIP, the vertical source and destination indexing instructions are customized for area-efficient computations. The proposed indexing method reorders data within a processing module by using more registers and data-steering logic in the calculations. In particular, VVIP supports multibit-serial multiplication and sparse data operations by leveraging register files as lookup tables or accumulators. The VVIP, verified on a vector processor, has an area overhead of less than 2.8%. It exhibits an average computation rate that is 10.1 times faster than the 1-bit-serial multiplication in linear algebra benchmark1s, and 1.2 times average performance improvement in unstructured sparse point-wise convolution tasks when compared to conventional control sequences.

Skew-CIM: Process-Variation-Resilient and Energy-Efficient Computation-in-Memory Design Technique With Skewed Weights (제민규 교수 연구실)

– Title: Skew-CIM: Process-Variation-Resilient and Energy-Efficient Computation-in-Memory Design Technique With Skewed Weights

Authors: Donghyeon Yi; Seoyoung Lee; Injun Choi; Gichan Yun; Edward Jongyoon Choi; Jonghee Park; Jonghoon Kwak; Sung-Joon Jang; Sohmyung Ha; Ik-Joon Chang; Minkyu Je

– Journal: IEEE Transactions on Circuits and Systems I (TCAS-I)

– Abstract: In analog-mixed-signal (AMS) compute-in-memory (CIM) systems, the two’s-complement (2SC) format provides better area efficiency than the sign-and-magnitude (SNM) one. However, the 2SC format exacerbates the challenges of AMS-CIM systems, suffering from significant DNN accuracy drop under process variations and high computation currents from activating multiple WLs. In the 2SC format, ‘0’ and ‘1’ are nearly balanced for all logical-order bits, unlike ‘0’-skewed higher-order bits in the SNM format. Consequently, the 2SC-based AMS-CIM systems have much more on-cells than the SNM-based counterpart, deteriorating the above challenges. We propose Skew-CIM, a software-hardware co-design technique to relax these challenges. Our proposed weight skewing (WESK) breaks the ‘0’ and ‘1’ balance at the software level. The potential accuracy drops resulting from WESK are successfully compensated by retraining DNNs. The offsets caused by WESK can be easily corrected using online hardware-level processing. Our Skew-CIM technique can be applied to most AMS-CIM systems with memories showing large on-off cell current ratios. As an example, we use it in a custom-designed 8T-SRAM-based CIM device, demonstrating a significant reduction in the DNN classification error by 7.6 times compared to the 2SC-based AMS-CIM without our Skew-CIM technique. Furthermore, our Skew-CIM markedly enhances energy efficiency by up to 39.9%, outperforming conventional SNM-based AMS-CIM systems.

A 333TOPS/W Logic-Compatible Multi-Level Embedded Flash Compute-In-Memory Macro with Dual-Slope Computation (제민규 교수 연구실)

– Title: A 333TOPS/W Logic-Compatible Multi-Level Embedded Flash Compute-In-Memory Macro with Dual-Slope Computation

– Conference: 2023 IEEE Custom Integrated Circuits Conference (CICC)

– Abstract: Computing-in-memory (CIM) has been an ongoing prominent research area for easing the energy efficiency of machine learning tasks in edge devices. Recently, embedded non-volatile memory (eNVM) CIM architectures have been popular as an edge device, where it can turn off their supply during standby for low power consumption. However, most eNVMs (e.g., MRAMs and RRAMs) require the use of specialized technologies and are mostly used as single-level cell (SLC) data storage. In the technologies that do not provide eNVMs, logic-compatible single-poly non-volatile embedded flash (eflash) memory can be considered an alternative. Although the cell area of the single-poly non-volatile eflash is significant, we can considerably compensate for the cell area penalty by using multi-level cells (MLCS). Further, in eNVM CIMs, the analog computations must be quantized with an ADC, where the SAR ADCs are a popular conversion topology. However, SAR ADC designs result in significant power consumption and area overhead due to its capacitor DAC driving and high accuracy comparators. In this work, we propose to overcome such challenges by proposing 1) a logic-compatible single-poly nonvolatile eflash memory macro using MLC and an SLC at the same time to increase computation density while maintaining a reasonable signal margin, 2) a resolution configurable differential SAR TDC used for both memory programming and computing with replacing analog voltage comparators to inverters in order to reduce power consumption and area, and 3) an energy-efficient 2’s complement dual-slope computation with MLC and SLC sharing a single differential TDC for multi-bit weight computation. We fabricated the proposed eFlash CIM macro in a 65 nm CMOS process. Our measurements show that the proposed CIM macro achieves up to 333 TOPS/W energy efficiency and 186.2 GOPS throughput.

 

 

– Main figure

전기및전자공학부 신영수 교수 2023년 10월 과학기술인상 수상, AI로 반도체 공정 최적화

전기및전자공학부 신영수 교수 2023년 10월 과학기술인상 수상, AI로 반도체 공정 최적화

 

651f50dab0926

<사진 신영수 교수>

 

과학기술정보통신부와 한국연구재단은 ‘이달의 과학기술인상’ 10월 수상자로 한국과학기술원(KAIST) 전기및전자공학부 신영수 교수를 선정했다고 4일 밝혔다. 

신 교수는 기계학습을 이용해 기존보다 10배 빠르고 해상도도 높은 반도체 리소그래피 최적화 기술을 개발한 공로를 인정받았다. 

 

리소그래피는 패턴이 새겨진 마스크에 빛을 비춰 웨이퍼 위에 소자를 만들어가는 공정이다. 반도체 수율을 결정하는 주요 공정으로 꼽힌다.

 

이때 웨이퍼에 다각형을 만들려면 마스크에 복잡한 패턴을 그려 넣어야 하는데, 이런 패턴을 찾아가는 과정인 OPC(광학 근접 보정)는 마스크 형상을 고치고 시뮬레이션을 통해 웨이퍼 위 이미지를 확인하는 과정을 반복해야 해 긴 시간이 걸렸다.

 

신 교수는 마스크 형상과 이 마스크로 만들어지는 웨이퍼 이미지 집합을 인공지능(AI)에 학습시켜 더 빠르면서도 해상도가 높은 OPC 최적화 기술을 개발했다.

 

또 신 교수는 생성형 AI를 통해 기존 레이아웃(반도체 도면) 패턴과 구조적으론 비슷하지만, 기존에 존재하지 않던 레이아웃 패턴을 만드는 방법도 개발했다.

이렇게 만든 레이아웃 패턴과 기존 샘플 패턴을 최적화에 적용하면 기계학습 모델의 정확도가 더 높아지는 것도 확인했다.

관련 연구성과는 2021년 국제학술지 국제전기전자공학회(IEEE) TSM’에 실렸으며, 이 학술지가 한 해 한 건 선정하는 ‘베스트 페이퍼 어워드’를 받기도 했다.

 

신 교수는 “이번 연구는 기존 반도체 리소그래피 연구와 달리 기계학습과 인공지능을 적용했다는 점에서 차별성이 크다”며 “소수의 외국회사가 독점하면서 발생하는 라이센스 비용과 기술개발의 정체 문제를 해결하는 데 이바지할 수 있기를 기대한다”고 말했다.

 

   * 참고 : 10월 과기인상에 신영수 교수…AI로 반도체 공정 최적화 (naver.com)

 

전기및전자공학부 김주영 교수 연구팀, 2.4배 가격 효율적인 챗GPT 핵심 AI 반도체 개발

전기및전자공학부 김주영 교수 연구팀, 2.4배 가격 효율적인 챗GPT 핵심 AI 반도체 개발

 

김주영교수님

 

오픈AI가 출시한 챗GPT는 전 세계적으로 화두이며 이 기술이 가져올 변화에 모두 주목하고 있다. 이 기술은 거대 언어 모델을 기반으로 하고 있다.

거대 언어 모델은 기존 인공지능과는 달리 전례 없는 큰 규모의 인공지능 모델이다. 이를 운영하기 위해서는 수많은 고성능 GPU가 필요해, 천문학적인 컴퓨팅 비용이 든다는 문제점이 있다.

전기및전자공학부 김주영 교수 연구팀이 챗GPT에 핵심으로 사용되는 거대 언어 모델의 추론 연산을 효율적으로 가속하는 AI 반도체를 개발했다. 연구팀이 개발한 AI 반도체 ‘LPU(Latency Processing Unit)’는 거대 언어 모델의 추론 연산을 효율적으로 가속한다.

메모리 대역폭 사용을 극대화하고 추론에 필요한 모든 연산을 고속으로 수행 가능한 연산 엔진을 갖춘 AI 반도체이며, 자체 네트워킹을 내장하여 다수개 가속기로 확장이 용이하다.

이 LPU 기반의 가속 어플라이언스 서버는 업계 최고의 고성능 GPU인 엔비디아 A100 기반 슈퍼컴퓨터보다 성능은 최대 50%, 가격 대비 성능은 2.4배가량 높였다. 이는 최근 급격하게 생성형 AI 서비스 수요가 증가하고 있는 데이터센터의에서 고성능 GPU를 대체할 수 있을 것으로 기대한다.

이번 연구는 김주영 교수의 창업기업인 ㈜하이퍼엑셀에서 수행했으며 미국시간 7월 12일 샌프란시스코에서 진행된 국제 반도체 설계 자동화 학회(Design Automation Conference, 이하 DAC)에서 공학 부문 최고 발표상(Engineering Best Presentation Award)을 수상하는 쾌거를 이뤘다.

DAC은 국제 반도체 설계 분야의 대표 학회이며, 특히 전자 설계 자동화(Electronic Design Automation, EDA)와 반도체 설계자산(Semiconductor Intellectual Property, IP) 기술 관련하여 세계적인 반도체 설계 기술을 선보이는 학회다.

DAC에는 인텔, 엔비디아, AMD, 구글, 마이크로소프트, 삼성, TSMC 등 세계적인 반도체 설계 기업이 참가하며, 하버드대학교, MIT, 스탠퍼드대학교 등 세계 최고의 대학도 많이 참가한다. 세계적인 반도체 기술들 사이에서 김 교수팀이 거대 언어 모델을 위한 AI 반도체 기술로 유일하게 수상한 것은 매우 의미가 크다.

이번 수상으로 거대 언어 모델의 추론에 필요한 막대한 비용을 획기적으로 절감할 수 있는 AI 반도체 솔루션으로 세계 무대에서 인정받은 것이다. 

김주영 교수는 “미래 거대 인공지능 연산을 위한 새로운 프로세서 ‘LPU’로 글로벌 시장을 개척하고, 빅테크 기업들의 기술력보다 우위를 선점하겠다”라며 큰 포부를 밝혔다.

 

국문

 

[언론보도]
조선일보 : 챗GPT 가성비 2.4배 높이는 반도체 나왔다 – 조선비즈 (chosun.com) 
동아사이인스 : 챗GPT 효율 높일 ‘AI 반도체’ 개발…국제학회서 ‘최고 발표상’ : 동아사이언스 (dongascience.com) 

전기및전자공학부 김주영 교수 연구팀, CACM Megazine “South Korea’s Nationwide Effort for AI Semiconductor Industry” 게재

전기및전자공학부 김주영 교수 연구팀, CACM Megazine “South Korea’s Nationwide Effort for AI Semiconductor Industry” 게재

 

전기및전자공학부 김주영 교수 연구팀이 컴퓨터 과학 분야 대표 월간 학술 매거진 중 하나인 CACM (Communications of the ACM)에 “South Korea’s Nationwide Effort for AI Semiconductor Industry(2023. 7.)”이라는 아티클을 게재하였다.

 

64bf224354240

 

이 아티클에서 김주영 교수 연구팀은 국내에서 진행 중인 AI 반도체 산업을 위한 국가적 노력을 깊이 있는 분석을 통해 소개하고 있다.

 

연구팀은 정부, 산업, 학계 간의 다방면에서 이뤄지고 있는 노력들을 분석하여 세계 최고의 반도체 공급망을 구축하기 위한 정부의 투자 계획, 삼성전자, SK하이닉스 등 주요 기업들의 야심찬 AI 반도체 사업 계획, 그리고 특정 응용 분야를 위한 AI 연산 가속기를 개발하는 팹리스 스타트업들(퓨리오사, 리벨리온, 사피온, 하이퍼엑셀, 오픈엣지, 모빌린트, 딥엑스, 텔레칩스)의 부상 등을 심도있게 조명하였다.

 

이와 더불어, 현재 KAIST 반도체시스템학과와 더불어 AISS, PIM 연구센터와 칩 설계 분야의 연구 지원을 위한 IDEC의 다양한 프로그램들을 함께 소개하고 있다.

 

이 아티클은 국가 차원에서의 전략적인 기술 개발과 기업들의 적극적인 참여가 결합된 AI 반도체 분야에서의 대한민국의 발전 방향과 성과를 엿볼 수 있으며, 이를 국제적으로 알린 것에 의미가 있다.

앞으로의 AI 반도체 산업에 대한 통찰과 미래 기술에 대한 탐구를 원하는 독자들에게 유익한 정보를 제공하고 있다.

링크: https://dl.acm.org/doi/10.1145/3587264

 

 

 

 

EE학부 김주영 교수, 2022 AI 반도체 미래기술 컨퍼런스 ‘과기정통부 장관상’ 수상

김주영 교수, 2022 AI 반도체 미래기술 컨퍼런스 ‘과학기술정보통신부 장관상’ 수상
 
2022년 12월 12일, 과학기술정보통신부(과기정통부)는 경기창조경제혁신센터(판교)에서 열린 ‘2022 AI반도체 미래기술 컨퍼런스’에서 김주영 교수에게 인공지능 반도체 산업 발전에 기여한 공로로 ‘과학기술정보통신부 장관상’을 수여했다.
 
김주영 교수는 국내 AI 프로세서 및 PIM 반도체 기술 연구·개발을 선도하고 미래 반도체 인력 양성과 팹리스 생태계 조성에 기여한 공로를 인정받아 유공자 포상자로 선정되었으며, 최근 각광 받고 있는 거대 인공지능 모델을 위한 AI 반도체와 메모리-로직 융합 PIM 반도체 연구 등을 활발히 수행하고 있다.
 
jyKim 1 e1663644687523 360x270 1
[김주영 교수 사진]
 
LGW 5192
[과기정통부 시상식 사진]