EE학부 최유정 (유민수 교수 랩) 등, 2022 구글 PhD 펠로우 선정

[(왼쪽부터) 전기및전자공학부 최유정 박사과정, 이하연 박사과정]
 

우리 대학 전기및전자공학부 박사과정 최유정 학생(지도교수 유민수)과 전산학부 박사과정 이하연 학생(지도교수 황성주)이 ‘2022 구글 PhD 펠로우’에 선정됐다.

구글 PhD 펠로우십은 컴퓨터과학과 관련된 유망 연구 분야에서 우수한 성과를 낸 대학원생을 지원하는 장학 프로그램으로 올해는 전 세계에서 61명이 선발됐다. 선정된 펠로우에게는 1만 달러의 장학금과 구글 각 분야 전문가 멘토와의 일대일 연구 토의, 피드백 등의 혜택이 주어진다. 

최유정 학생은 시스템 및 네트워크(Systems and Networking) 분야에서 펠로우로 선정됐다. 최유정 학생은 머신러닝을 위한 컴퓨터 구조 및 시스템 설계 분야의 탁월한 연구 성과를 인정받아 선정됐다. 이하연 학생은 기계학습(Machine Learning) 분야에서 신경망 구조 탐색(Neural Architecture Search)과 메타학습(Meta-learning) 분야의 탁월한 연구성과들을 인정받아 선정되었다.

 

최유정 학생은 머신러닝의 추론을 위한 컴퓨터 구조 및 시스템 설계에 대한 탁월한 연구 성과를 인정받았다. 특히 다수의 머신러닝 모델을 동시에 처리하여 연산 효율을 높이는 가속기 설계를 최초로 제안하여 주목을 받았다. 또한, 머신러닝 서버 및 시스템에 최적화된 스케줄링과 자원 관리 방법을 제안하여 효율적인 머신러닝 서비스 제공을 가능하게 하였다. 이러한 다양한 연구들은 HPCA, ASPLOS, DAC 등의 유수 컴퓨터 구조 분야 국제학술대회에 발표되었으며, 그의 연구는 매년 컴퓨터 구조 분야의 우수한 연구 성과를 선정하는 IEEE Micro Top Picks 2020에도 선정된 바가 있다.

 

< 그림 1. 최유정 박사과정 연구성과도: 유동적인 배칭을 적용한 머신러닝 추론 서버 >

 

이하연 학생은 메타 학습을 이용한 신경망 탐색 모델을 설계하여, 메타 학습과 신경망 탐색이라는 기계 학습의 주요 두 분야에서 탁월한 연구성과를 인정받았다. 신경망 탐색이라는 대규모 작업에 메타 학습을 적용하여 메타 학습의 확장성을 보였으며, 메타지식을 이용하여 빠른 신경망 탐색을 가능하게 했다. 이러한 다양한 연구성과들은 NeurIPS, ICLR 등 기계학습 및 딥러닝 분야의 최고 학회에 다수 선정되었다. 

특히 5편 중 3편이 상위 5% 이내의 성적을 의미하는 스포트라이트 (spotlight), 1편이 상위 2% 이내의 성적을 의미하는 구두 (oral) 발표에 초청되었다. 또한 연구 인턴십을 통해 메타 (Meta) 연구진과 협력하여 효율적이며 고성능인 신경망 모델 탐색 연구를 수행하고 있다.

 

< 그림 2. 이하연 박사과정 연구성과도: 메타 학습을 이용한 빠른 신경망 탐색 모델 >

 

시상식은 COVID-19 상황으로 인해, 7월 27일부터 7월 28일 양일간 가상으로 열린 구글 PhD 펠로우십 서밋(Google PhD Fellowship Summit)에서 진행됐으며, 수상자 리스트는 구글 홈페이지에 게시돼 있다.(홈페이지 주소 : https://research.google/outreach/phd-fellowship/recipients)
 
 
학교 포털링크 : https://news.kaist.ac.kr/news/html/news/?mode=V&mng_no=23310

EE학부 정명수 교수 연구팀, 항상 일정한 입출력 지연시간을 가지는 키벨류 데이터베이스를 위한 하드웨어-소프트웨어 SSD 프레임워크 세계 최초 개발 성

<(왼쪽부터) 전기및전자공학부 정명수 교수, 권미령 박사과정, 이승준 통합과정, 최현규 박사과정>

 

우리 학부 정명수 교수 연구팀이 세계 최초로 PLM SSD 기반, 키밸류 (KV) 저장장치용 하드웨어-소프트웨어 SSD 프레임워크를 삼성과 공동 개발에 성공하고 기존 데이터센터향 저장장치 및 스토리지 스택에 비해 항상 일정한 입출력 지연시간을 보장함으로서 페이스북/야후등의 사용자 워크로드에서 탁월한 성능향상을 보였습니다.

 

정명수 교수님 연구팀은 일정한 읽기 지연시간을 제공하는 NVMe에서 제시된 새로운 예측 지연 모드(Predictable Latency Mode, PLM) 인터페이스를 실제 데이터센터향 SSD 하드웨어 적용하여 긴 꼬리 지연시간을 제거한 로그 기반의 통합 키밸류 저장장치(Log-Structured Merge Key-Value Stores, LSM KV Store)용 하드웨어-소프트웨어 프레임워크, Vigil-KV를 세계 최초로 개발하였습니다. 이는 기존 데이터센터의 LSM KV Store 대비, 3.19배 빠른 꼬리 지연시간 및 34% 빠른 평균 지연시간을 자랑합니다.

데이터베이스의 한 종류인 LSM KV Store는 다양한 응용 데이터를 관리하는 데 사용되어, 사용자 읽기 경험을 저하하지 않도록 특정 시간 안에 사용자 요청을 처리해야 합니다. 이러한 문제를 해결하기 위해, SSD 내부 작업을 수행하지 않고 읽기 서비스와 관련된 결정적 (Deterministic) 모드에서 일정한 읽기 지연시간을 보장하는 PLM SSD를 활용하였습니다.

 

구체적으로 Vigil-KV 하드웨어는 여러 개의 PLM SSD를 연결해주는 PLM SSD 배열장치(RAID)로 구성함으로써 시스템 내부에 결정적 모드 SSD가 항상 존재하도록 하여 SSD 내부 작업을 없앱니다. 또한, Vigil-KV 소프트웨어는 LSM KV Store 내부 동작으로 인해 결정적 모드가 해제되지 않도록 통합/완전저장(Compaction/Flush) 연산과 같은 LSM KV Store 동작과 사용자 요청을 스케줄링하였습니다.

 

연구팀이 제안한 연구성과 중 특히 주목할 만한 점은 세계 최초로 실제 SSD에서 PLM 인터페이스를 구현하였고, LSM KV Store용 하드웨어-소프트웨어 프레임워크로 일정한 읽기 지연시간을 제공한다는 것입니다. 연구팀은 Linux 4.19.91 및 RocksDB 6.23.0을 사용하여 Vigil-KV 소프트웨어를 구현하였고, 1.92TB 데이터센터향 NVMe SSD에서 Vigil-KV 하드웨어의 프로토타입을 제작했습니다.

 

권미령, 이승준, 최현규 박사과정생들이 참여한 이번 논문은 이번 논문은 미국 칼스배드에서 지난 7월 11일에 열린 시스템 분야 최우수 학술대회인 2022 유즈닉스 연례학술대회(USENIX Annual Technical Conference, ATC)에서 논문명(Vigil-KV: Hardware-Software Co-Design to Integrate Strong Latency Determinism into Log-Structured Merge Key-Value Stores)으로 발표되었습니다.

 

또한 본 연구의 결과는 페이스북/야후의 사용자 입출력 실험에서 우수한 성능을 인정받고 삼성전자 산학협력 우수논문상에서 최우수상을 수상하였습니다 (최재혁 교수님 회로 연구와 공동 수상).

해당 연구는 삼성전자 전략산학의 지원을 받아 진행되었으며 해당 연구에 대한 자세한 내용은 연구실 웹사이트(http://camelab.org)에서 확인하실 수 있습니다.

 

<삼성전자 우수논문상 최우수상을 수상 중인 권미령 박사과정생>

 

<수상 발표>

 

<연구 내용을 발표 중인 권미령 박사과정생>

 

<LSM KV store용 하드웨어-소프트웨어 프레임워크>

 

<평가 결과>

 

KAIST EE학부 유민수 교수팀, 세계 최초 개인정보 보호 적용된 인공지능 반도체 개발

KAIST 유민수 교수팀, 세계 최초 개인정보 보호 적용된 인공지능 반도체 개발,

구글 TPUv3 대비 차등 프라이버시 학습 과정을 3.6배 빠르게

 

[유민수교수 사진]
 
전기및전자공학부 유민수 교수 연구팀이 `차등 프라이버시 기술이 적용된 인공지능(AI) 어플리케이션(Differentially private machine learning)’의 성능을 비약적으로 높이는 인공지능 반도체를 개발했다.
유민수 교수 연구팀은 차등 프라이버시 기술의 성능 병목 구간을 분석해 해당 기술이 적용된 어플리케이션의 성능을 크게 시킬 수 있는 `차등 프라이버시 머신러닝을 위한 인공지능(AI) 반도체 칩’을 개발한 것이다.
유 교수팀이 개발한 인공지능 반도체는 외적 기반 연산기와 덧셈기 트리 기반의 후처리 연산기 등으로 구성돼 있으며, 현재 가장 널리 사용되는 인공지능 프로세서인 구글 TPUv3 대비 차등 프라이버시 인공지능 학습 과정을 3.6 배 빠르게 실행시킬 수 있고,
엔비디아의 최신 GPU A100 대비 10배 적은 자원으로 대등한 성능을 낼 수 있다.
 
 
[(왼쪽부터) 공동 제1 저자 박범식, 황랑기 연구원, 공동 저자 윤동호, 최윤혁 연구원]
 
KAIST 전기및전자공학부 박범식, 황랑기 연구원이 공동 제1 저자로, 윤동호, 최윤혁 연구원이 공동 저자로 참여한 이번 연구는 현지시간 오는 10월 1일부터 5일까지 미국 시카고에서 열리는 컴퓨터 구조 분야 최우수 국제 학술대회인 `55th IEEE/ACM International Symposium on Microarchitecture(MICRO 2022)’에서 발표(논문명 : DiVa: An Accelerator for Differentially Private Machine Learning)될 예정이다.
 
 
[연구성과도 : ‘개인정보 보호 인공지능 AI 반도체 가속기’의 구조 모식도]
 
유민수교수의 당회 성과는 인공지능신문을 비롯한 주요언론에 소개 되었다.
 
관련 링크 :
인공지능신문 : http://www.aitimes.com/news/articleView.html?idxno=146435
연합뉴스 : https://www.yna.co.kr/view/AKR20201116072400063?input=1195m
파이낸셜 뉴스 : https://www.fnnews.com/news/202208212349474072
동아사이언스 : https://www.dongascience.com/news.php?idx=55893
Industry News : http://www.industrynews.co.kr/news/articleView.html?idxno=46829

황의종 교수 연구팀, 공정하고 견고한 머신러닝 학습에 대한 국제 튜토리얼 진행

전기및전자공학부 황의종 교수님과 전산학부 이재길 교수님 연구팀에서 신뢰할 수 있는 인공지능의 주요 요소인 공정성과 견고성에 대한 튜토리얼을 진행했습니다. 본 튜토리얼에는 노유지 박사과정(지도교수 황의종)과 송환준 박사(네이버 AI, KAIST 이재길 교수님 연구실 졸업)가 참여했습니다.

 

최근 머신러닝 기술의 화려한 성과 이면에 다양한 신뢰성 문제가 존재함이 지속적으로 드러나고 있습니다. 이에 따라 단순히 높은 정확도를 가지는 것을 넘어서, 공정성(fairness), 견고성(robustness), 투명성(transparency), 설명가능성(explainability) 등의 요소를 갖춘 인공지능의 필요성이 대두되고 있습니다.

 

본 튜토리얼에서는 신뢰할 수 있는 인공지능을 위한 필수 요소 중, 학습 데이터 내에서 서로 상호 영향을 미치는 공정성(fairness)과 견고성(robustness)을 함께 다루었습니다. 연구팀은 먼저 공정성과 견고성이라는 두 개의 축을 각각 구성하는 핵심 연구들을 소개하고, 더 나아가 최근 활발히 연구되기 시작한 두 요소의 “융합(convergence)”에 대한 주요 관점들을 정립했습니다.

 

본 연구팀은 해당 튜토리얼을 통해 공정하고 견고한 인공지능을 위한 연구의 방향성을 제시할 수 있을 것이라고 설명했습니다. 또한 인공지능의 신뢰성 문제에 대한 중요도가 더욱 높아짐에 따라, 해당 튜토리얼이 갖는 시의성이 매우 클 것으로 예상됩니다. 본 튜토리얼은 데이터마이닝 최고 권위 학회인 ACM SIGKDD (Conference on Knowledge Discovery and Data Mining) 2021에서 발표되었습니다.

 

자세한 튜토리얼 내용은 하단의 링크에서 확인하실 수 있습니다.

 

[Tutorial Information and Links

Title: Machine Learning Robustness, Fairness, and their Convergence (Tutorial)

Authors: Jae-Gil Lee (KAIST CS), Yuji Roh (KAIST EE), Hwanjun Song (Naver AI Lab), Steven Euijong Whang (KAIST EE)

 

논문 링크: https://dl.acm.org/doi/10.1145/3447548.3470799?sid=SCITRUS

튜토리얼 자료: https://docs.google.com/presentation/d/1mV6oF_boGtnk14qh64Y4DaiKstcGJIfZiw-5AgTTgVQ/edit?usp=sharing

튜토리얼 영상: https://youtube.com/playlist?list=PLHULDvHaIwSwnbwkAOrJSs_TMQl1nhZ72

튜토리얼 홈페이지: https://kdd21tutorial-robust-fair-learning.github.io/

 

황의종 & 서창호 교수 연구팀, 공정하고 견고한 머신러닝 모델 학습을 위한 새로운 데이터 샘플 선택 기법 개발

전기및전자공학부 황의종 교수님과 서창호 교수님 연구팀에서 공정하고 견고한 머신러닝 모델 학습을 위한 새로운 데이터 샘플 선택 기법을 개발했습니다. 본 연구는 노유지 박사과정(지도교수 황의종)이 주저자로 참여했고, 위스콘신 매디슨 전기컴퓨터공학부 이강욱 교수님과의 공동 연구로 진행되었습니다.

 

인공지능 기술이 사회 전반에 걸쳐 광범위하게 활용되면서, 인공지능의 신뢰성 문제가 점차 대두되고 있습니다. 이에 따라 단순히 높은 정확도를 가지는 것을 넘어서, 공정성(fairness), 견고성(robustness), 설명가능성(explainability) 등의 요소를 갖춘 인공지능의 필요성에 대한 사회적인 공감이 커지고 있습니다.

 

본 연구팀은 신뢰할 수 있는 인공지능을 위한 필수 요소 중, 학습 데이터 내에서 서로 상호 영향을 미치는 공정성(fairness)과 견고성(robustness)을 함께 높일 수 있는 새로운 데이터 샘플 선택 기법을 제안합니다. 기존의 공정성과 견고성을 위한 머신러닝 기법들은 알고리즘 자체에 큰 수정이 필요하거나 추가적인 외부 데이터의 활용이 요구되었는데, 이와는 달리 본 샘플 선택 기법은 데이터를 샘플링하는 배치 선택 단계에서 한 줄의 코드 변경만으로 공정성과 견고성을 효과적으로 달성합니다. 본 기법은 세 개의 최적화 문제의 결합을 기반으로 하며, 학습 데이터가 손상되었을 때에도 공정성과 견고성을 동시에 높일 수 있음을 보였습니다.

 

연구팀은 본 샘플 선택 기법이 높은 성능을 달성함과 동시에 실제 머신러닝 파이프라인에 쉽게 적용될 수 있다는 장점을 가졌기에, 해당 학습 기법을 다양한 어플리케이션에 적용할 수 있을 것이라고 설명했습니다. 또한 신뢰할 수 있는 인공지능에 대한 사회적 요구가 더욱 커짐에 따라, 이에 대한 활발한 후속 연구가 진행될 것으로 예상됩니다. 본 연구 성과는 머신러닝 최고 권위 학회인 NeurIPS (Neural Information Processing Systems) 2021에서 발표되었습니다.

 

자세한 연구 내용은 하단의 링크에서 확인하실 수 있습니다.

 

 

[Paper information and links]
Title: Sample Selection for Fair and Robust Training

Authors: Yuji Roh (KAIST EE), Kangwook Lee (Wisconsin-Madison Electrical & Computer Engineering), Steven Euijong Whang (KAIST EE), and Changho Suh (KAIST EE)

 

Paper: https://openreview.net/forum?id=2Dg2UQyRpQ

Source code: https://github.com/yuji-roh/fair-robust-selection

Slides: https://docs.google.com/presentation/d/1lauJc5lQEG4UEivts8OiosuI78KSLR6PJL1r47_aaus/edit?usp=sharing

BWA-MEME: BWA-MEM emulated with a machine learning approach

Motivation

The growing use of next-generation sequencing and enlarged sequencing throughput require efficient short-read alignment, where seeding is one of the major performance bottlenecks. The key challenge in the seeding phase is searching for exact matches of substrings of short reads in the reference DNA sequence. Existing algorithms, however, present limitations in performance due to their frequent memory accesses.

Results

This article presents BWA-MEME, the first full-fledged short read alignment software that leverages learned indices for solving the exact match search problem for efficient seeding. BWA-MEME is a practical and efficient seeding algorithm based on a suffix array search algorithm that solves the challenges in utilizing learned indices for SMEM search which is extensively used in the seeding phase. Our evaluation shows that BWA-MEME achieves up to 3.45× speedup in seeding throughput over BWA-MEM2 by reducing the number of instructions by 4.60×, memory accesses by 8.77× and LLC misses by 2.21×, while ensuring the identical SAM output to BWA-MEM2.

GRAF: A Graph Neural Network based Proactive Resource Allocation Framework for SLO-Oriented Microservices

Microservice is an architectural style that has been widely adopted in various latency-sensitive applications. Similar to the monolith, autoscaling has attracted the attention of operators for managing resource utilization of microservices. However, it is still challenging to optimize resources in terms of latency service-level-objective (SLO) without human intervention. In this paper, we present GRAF, a graph neural network-based proactive resource allocation framework for minimizing total CPU resources while satisfying latency SLO. GRAF leverages front-end workload, distributed tracing data, and machine learning approaches to (a) observe/estimate impact of traffic change (b) find optimal resource combinations (c) make proactive resource allocation. Experiments using various open-source benchmarks demonstrate that GRAF successfully targets latency SLO while saving up to 19% of total CPU resources compared to the fine-tuned autoscaler. Moreover, GRAF handles traffic surge with 36% fewer resources while achieving up to 2.6x faster tail latency convergence compared to the Kubernetes autoscaler.

A Multivariate Time Series Prediction-Based Adaptive Data Transmission Period Control Algorithm for IoT Networks (https://ieeexplore.ieee.org/document/9598874)

In order to reduce unnecessary data transmissions from Internet of Things (IoT) sensors, this paper proposes a multivariate time series prediction-based adaptive data transmission period control (PBATPC) algorithm for IoT networks. Based on the spatio-temporal correlation between multivariate time series data, we developed a novel multivariate time series data encoding scheme utilizing the proposed time series distance measure ADMWD

Composed of two significant factors for a multivariate time series prediction, i.e., the absolute deviation from the mean (ADM) and the weighted differential distance (WD), the ADMWD considers both the time distance from a prediction point and a negative correlation between the time series data concurrently.

Utilizing the convolutional neural network (CNN) model, a subset of IoT sensor readings can be predicted from encoded multivariate time series measurements, and we compared the predicted sensor values with actual readings to obtain the adaptive data transmission period. Extensive performance evaluations show a substantial performance gain of the proposed algorithm in terms of the average power reduction ratio (approximately 12%) and average data reconstruction error (approximately 8.32% MAPE). Finally, this paper also provides a practical implementation of the proposed PBATPC algorithm via the HTTP protocol under the IEEE 802.11-based WLAN network.

 

zTT: Learning-based DVFS with Zero Thermal Throttling for Mobile Devices (ACM Mobisys 2021 Best Paper Award)

Authors: Seyeon Kim (KAIST), Kyungmin Bin (SNU), Sangtae Ha (CU Boulder), Song Chong (KAIST)

 

Abstract:

DVFS(dynamic voltage and frequency scaling) is a system-level technique that adjusts voltage and frequency levels of CPU/GPU at runtime to balance energy efficiency and high performance. DVFS has been studied for many years, but it is considered still challenging to realize a DVFS that performs ideally for mobile devices for two main reasons: i) an optimal power budget distribution between CPU and GPU in a power-constrained platform can only be defined by the application performance, but conventional DVFS implementations are mostly application-agnostic; ii) mobile platforms experience dynamic thermal environments for many reasons such as mobility and holding methods, but conventional implementations are not adaptive enough to such environmental changes. In this work, we propose a deep reinforcement learning-based frequency scaling technique, zTT. zTT learns thermal environmental characteristics and jointly scales CPU and GPU frequencies to maximize the application performance in an energy-efficient manner while achieving zero thermal throttling. Our evaluations for zTT implemented on Google Pixel 3a and NVIDIA JETSON TX2 platform with various applications show that zTT can adapt quickly to changing thermal environments, consistently resulting in high application performance with energy efficiency. In a high-temperature environment where a rendering application with the default mobile DVFS fails to keep producing more than a target frame rate, zTT successfully manages to do so even with 23.9% less average power consumption.

 

<The purpose and impact of learning in zTT>

(Figure) Figure illustrates the purpose and impact of learning in zTT. The lattice points within the total power budget curve for a mobile device represent all available CPU/GPU power consumption combinations. The graph shows that the better the cooling, the more combinations are usable, thus providing better performance for an application. To find out the best possible combination at the moment, zTT learns the environment and application performance.

Hardware/Software Co-Programmable Framework for Computational SSDs to Accelerate Deep Learning Service on Large-Scale Graphs

Graph neural networks (GNNs) process large-scale graphs consisting of a hundred billion edges. In contrast to traditional deep learning, unique behaviors of the emerging GNNs are engaged with a large set of graphs and embedding data on storage, which exhibits complex and irregular preprocessing. We propose a novel deep learning framework on large graphs, HolisticGNN, that provides an easy-to-use, nearstorage inference infrastructure for fast, energy-efficient GNN processing. To achieve the best end-to-end latency and high energy efficiency, HolisticGNN allows users to implement various GNN algorithms and directly executes them where the actual data exist in a holistic manner. It also enables RPC over PCIe such that the users can simply program GNNs through a graph semantic library without any knowledge of the underlying hardware or storage configurations. We fabricate HolisticGNN’s hardware RTL and implement its software on an FPGA-based computational SSD (CSSD). Our empirical evaluations show that the inference time of HolisticGNN outperforms GNN inference services using high-performance modern GPUs by 7.1× while reducing energy consumption by 33.2×, on average.

학과뉴스링크: https://ee.kaist.ac.kr/en/press/22890/
학회링크: https://www.usenix.org/conference/fast22/presentation/kwon