Manh Tuan Do, Noseong Park, Kijung Shin
Neural Processing Letters
Graph neural networks (GNNs) have received massive attention in the field of machine learning on graphs. Inspired by the success of neural networks, a line of research has been conducted to train GNNs to deal with various tasks, such as node classification, graph classification, and link prediction. In this work, our task of interest is graph classification. Several GNN models have been proposed and shown great accuracy in this task. However, the question is whether usual training methods fully realize the capacity of the GNN models. In this work, we propose a two-stage training framework based on triplet loss. In the first stage, GNN is trained to map each graph to a Euclidean-space vector so that graphs of the same class are close while those of different classes are mapped far apart. Once graphs are well-separated based on labels, a classifier is trained to distinguish between different classes. This method is generic in the sense that it is compatible with any GNN model. By adapting five GNN models to our method, we demonstrate the consistent improvement in accuracy and utilization of each GNN’s allocated capacity over the original training method of each model up to 5.4% points in 12 datasets.

Geon Lee, Chanyoung Park, and Kijung Shin
ICDM 2022: IEEE International Conference on Data Mining
Abstract: Sets have been used for modeling various types of objects (e.g., a document as the set of keywords in it and a customer as the set of the items that she has purchased). Measuring similarity (e.g., Jaccard Index) between sets has been a key building block of a wide range of applications, including, plagiarism detection, recommendation, and graph compression. However, as sets have grown in numbers and sizes, the computational cost and storage required for set similarity computation have become substantial, and this has led to the development of hashing and sketching based solutions. In this work, we propose Set2Box, a learning-based approach for compressed representations of sets from which various similarity measures can be estimated accurately in constant time. The key idea is to represent sets as boxes to precisely capture overlaps of sets. Additionally, based on the proposed box quantization scheme, we design Set2Box+, which yields more concise but more accurate box representations of sets. Through extensive experiments on 8 real-world datasets, we show that, compared to baseline approaches, Set2Box+ is (a) Accurate: achieving up to 40.8X smaller estimation error while requiring 60% fewer bits to encode sets, (b) Concise: yielding up to 96.8X more concise representations with similar estimation error, and (c) Versatile: enabling the estimation of four set-similarity measures from a single representation of each set.

Sunwoo Kim, Minyoung Choe, Jaemin Yoo, and Kijung Shin
ICDM 2022: IEEE International Conference on Data Mining
Abstract: Group interactions are prevalent in a variety of areas. Many of them, including email exchanges, chemical reactions, and bitcoin transactions, are directional, and thus they are naturally modeled as directed hypergraphs, where each hyperarc consists of the set of source nodes and the set of destination nodes. For directed graphs, which are a special case of directed hypergraphs, reciprocity has played a key role as a fundamental graph statistic in revealing organizing principles of graphs and in solving graph learning tasks. For general directed hypergraphs, however, even no systematic measure of reciprocity has been developed. In this work, we investigate the reciprocity of 11 real-world hypergraphs. To this end, we first introduce eight axioms that any reasonable measure of reciprocity should satisfy. Second, we propose HyperRec, a principled measure of hypergraph reciprocity that satisfies all the axioms. Third, we develop Ferret, a fast and exact algorithm for computing the measure, whose search space is up to smaller than that of naive computation. Fourth, using them, we examine 11 real-world hypergraphs and discover patterns that distinguish them from random hypergraphs. Lastly, we propose ReDi, an intuitive generative model for directed hypergraphs exhibiting the patterns.


우리학부 심현철 교수 연구팀 (김보성 박사과정, 박재용 석사과정)이 개발한 자율 비행 드론이 8월 31일에 개최된 제 5회 Army TIGER 드론봇 임무형 챌린지 대회의 과업 4에 해당하는 건물 내부 정찰 종목에서 1위인 우수상과 상금 1000만원을 차지하였다.
시상식은 10월 4일 대전에 위치한 육군 교육 사령부에서 진행되었다.
심현철 교수 연구팀은 자체 개발한 3차원 라이다 센서 기반 정밀측위 (SLAM) 알고리즘과 3차원 장애물 회피 경로 생성 알고리즘, 미확인 지역 탐사 알고리즘을 사용하여 건물 내부를 탐사하고 숨겨져있던 특정 객체들을 탐지, 실시간 관제센터 전송 등 모든 미션을 완벽하게 수행하였다.
육군 본부에서 주최하는 이번 대회는 건물 외부 주차장에서 출발하여 2층 창문으로 진입 후 여러 방들을 탐사하며 숨겨져 있는 특정 객체들을 찾아내고 그 종류와 위치를 관제 센터로 실시간 전송, 홈으로 복귀 등의 임무가 주어졌다.
본선 진출 8개팀 중 심현철교수 연구팀의 드론만이 이륙 후 복귀까지 완벽하게 자율비행을 수행하고 숨겨져 있던 모든 객체를 AI로 탐지 후 결과를 실시간으로 전송하는 우수한 기량을 선보였다.
심현철교수 연구팀의 실내 자율 비행 기술 연구는 미래 전장상황, 재난 상황에서 사용될 실내 정찰 드론의 핵심기술로 이번 대회를 통해 KAIST의 자율 비행 드론 기술 역량을 다시한번 알리는 계기가 되었다.
[김보성, 박재용, 심현철교수, 왼쪽부터]

[이성주 교수, 신진우 교수, 박사과정 공태식, 박사과정 정종헌, 석사과정 김예원, 학사과정 김태원, 왼쪽부터]
전기및전자공학부 이성주 교수와 AI대학원 신진우 교수 연구팀이 공동연구를 통해 스스로 환경변화에 적응하는 테스트타임 적응 (Test-Time Adaptation) 인공지능 기술을 개발하였다. 연구팀이 제안한 알고리즘은 기존의 최고 성능 알고리즘보다 평균 11% 향상된 정확도를 보였다.
본 연구는 “NOTE: Robust Continual Test-time Adaptation Against Temporal Correlation”라는 제목으로 인공지능 분야 최고권위 국제학술대회 ‘신경정보처리시스템학회 (NeurIPS) 2022’에서12월 발표될 예정이다. 공태식 박사과정이 제1저자로 연구를 이끌었고, 정종헌 박사과정, 김태원 학사과정, 김예원 석사과정이 공동 저자로 기여하였다.
이성주 교수와 신진우 교수는 ”테스트타임 도메인 적응은 인공지능이 스스로 환경 변화에 적응하여 성능을 향상시키는 기술로, 활용도가 무궁무진하다. 이번에 발표될 NOTE 기술은 실제 데이터 분포에서 성능향상을 보인 최초의 기술이고 자율주행, 인공지능 의료, 모바일 헬스케어 등 다양한 분야에 적용이 가능할 것으로 기대된다.” 라고 밝혔다.
[연구성과도 : 본 연구의 테스트타임 도메인적응 기술의 개요]
이 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원 (No. NRF-2020R1A2C1004062)과 방위사업청과 국방과학연구소의 지원(UD190031RD)으로 한국과학기술원 미래 국방 인공지능 특화연구센터에서 수행된 연구이다.
전기및전자공학부 황의종 교수님과 전산학부 이재길 교수님 연구팀에서 신뢰할 수 있는 인공지능의 주요 요소인 공정성과 견고성에 대한 튜토리얼을 진행했습니다. 본 튜토리얼에는 노유지 박사과정(지도교수 황의종)과 송환준 박사(네이버 AI, KAIST 이재길 교수님 연구실 졸업)가 참여했습니다.
최근 머신러닝 기술의 화려한 성과 이면에 다양한 신뢰성 문제가 존재함이 지속적으로 드러나고 있습니다. 이에 따라 단순히 높은 정확도를 가지는 것을 넘어서, 공정성(fairness), 견고성(robustness), 투명성(transparency), 설명가능성(explainability) 등의 요소를 갖춘 인공지능의 필요성이 대두되고 있습니다.
본 튜토리얼에서는 신뢰할 수 있는 인공지능을 위한 필수 요소 중, 학습 데이터 내에서 서로 상호 영향을 미치는 공정성(fairness)과 견고성(robustness)을 함께 다루었습니다. 연구팀은 먼저 공정성과 견고성이라는 두 개의 축을 각각 구성하는 핵심 연구들을 소개하고, 더 나아가 최근 활발히 연구되기 시작한 두 요소의 “융합(convergence)”에 대한 주요 관점들을 정립했습니다.
본 연구팀은 해당 튜토리얼을 통해 공정하고 견고한 인공지능을 위한 연구의 방향성을 제시할 수 있을 것이라고 설명했습니다. 또한 인공지능의 신뢰성 문제에 대한 중요도가 더욱 높아짐에 따라, 해당 튜토리얼이 갖는 시의성이 매우 클 것으로 예상됩니다. 본 튜토리얼은 데이터마이닝 최고 권위 학회인 ACM SIGKDD (Conference on Knowledge Discovery and Data Mining) 2021에서 발표되었습니다.
자세한 튜토리얼 내용은 하단의 링크에서 확인하실 수 있습니다.
[Tutorial Information and Links
Title: Machine Learning Robustness, Fairness, and their Convergence (Tutorial)
Authors: Jae-Gil Lee (KAIST CS), Yuji Roh (KAIST EE), Hwanjun Song (Naver AI Lab), Steven Euijong Whang (KAIST EE)
논문 링크: https://dl.acm.org/doi/10.1145/3447548.3470799?sid=SCITRUS
튜토리얼 자료: https://docs.google.com/presentation/d/1mV6oF_boGtnk14qh64Y4DaiKstcGJIfZiw-5AgTTgVQ/edit?usp=sharing
튜토리얼 영상: https://youtube.com/playlist?list=PLHULDvHaIwSwnbwkAOrJSs_TMQl1nhZ72
튜토리얼 홈페이지: https://kdd21tutorial-robust-fair-learning.github.io/

전기및전자공학부 황의종 교수님과 서창호 교수님 연구팀에서 공정하고 견고한 머신러닝 모델 학습을 위한 새로운 데이터 샘플 선택 기법을 개발했습니다. 본 연구는 노유지 박사과정(지도교수 황의종)이 주저자로 참여했고, 위스콘신 매디슨 전기컴퓨터공학부 이강욱 교수님과의 공동 연구로 진행되었습니다.
인공지능 기술이 사회 전반에 걸쳐 광범위하게 활용되면서, 인공지능의 신뢰성 문제가 점차 대두되고 있습니다. 이에 따라 단순히 높은 정확도를 가지는 것을 넘어서, 공정성(fairness), 견고성(robustness), 설명가능성(explainability) 등의 요소를 갖춘 인공지능의 필요성에 대한 사회적인 공감이 커지고 있습니다.
본 연구팀은 신뢰할 수 있는 인공지능을 위한 필수 요소 중, 학습 데이터 내에서 서로 상호 영향을 미치는 공정성(fairness)과 견고성(robustness)을 함께 높일 수 있는 새로운 데이터 샘플 선택 기법을 제안합니다. 기존의 공정성과 견고성을 위한 머신러닝 기법들은 알고리즘 자체에 큰 수정이 필요하거나 추가적인 외부 데이터의 활용이 요구되었는데, 이와는 달리 본 샘플 선택 기법은 데이터를 샘플링하는 배치 선택 단계에서 한 줄의 코드 변경만으로 공정성과 견고성을 효과적으로 달성합니다. 본 기법은 세 개의 최적화 문제의 결합을 기반으로 하며, 학습 데이터가 손상되었을 때에도 공정성과 견고성을 동시에 높일 수 있음을 보였습니다.
연구팀은 본 샘플 선택 기법이 높은 성능을 달성함과 동시에 실제 머신러닝 파이프라인에 쉽게 적용될 수 있다는 장점을 가졌기에, 해당 학습 기법을 다양한 어플리케이션에 적용할 수 있을 것이라고 설명했습니다. 또한 신뢰할 수 있는 인공지능에 대한 사회적 요구가 더욱 커짐에 따라, 이에 대한 활발한 후속 연구가 진행될 것으로 예상됩니다. 본 연구 성과는 머신러닝 최고 권위 학회인 NeurIPS (Neural Information Processing Systems) 2021에서 발표되었습니다.
자세한 연구 내용은 하단의 링크에서 확인하실 수 있습니다.

[Paper information and links]
Title: Sample Selection for Fair and Robust Training
Authors: Yuji Roh (KAIST EE), Kangwook Lee (Wisconsin-Madison Electrical & Computer Engineering), Steven Euijong Whang (KAIST EE), and Changho Suh (KAIST EE)
Paper: https://openreview.net/forum?id=2Dg2UQyRpQ
Source code: https://github.com/yuji-roh/fair-robust-selection
Slides: https://docs.google.com/presentation/d/1lauJc5lQEG4UEivts8OiosuI78KSLR6PJL1r47_aaus/edit?usp=sharing
Motivation
The growing use of next-generation sequencing and enlarged sequencing throughput require efficient short-read alignment, where seeding is one of the major performance bottlenecks. The key challenge in the seeding phase is searching for exact matches of substrings of short reads in the reference DNA sequence. Existing algorithms, however, present limitations in performance due to their frequent memory accesses.
Results
This article presents BWA-MEME, the first full-fledged short read alignment software that leverages learned indices for solving the exact match search problem for efficient seeding. BWA-MEME is a practical and efficient seeding algorithm based on a suffix array search algorithm that solves the challenges in utilizing learned indices for SMEM search which is extensively used in the seeding phase. Our evaluation shows that BWA-MEME achieves up to 3.45× speedup in seeding throughput over BWA-MEM2 by reducing the number of instructions by 4.60×, memory accesses by 8.77× and LLC misses by 2.21×, while ensuring the identical SAM output to BWA-MEM2.

Microservice is an architectural style that has been widely adopted in various latency-sensitive applications. Similar to the monolith, autoscaling has attracted the attention of operators for managing resource utilization of microservices. However, it is still challenging to optimize resources in terms of latency service-level-objective (SLO) without human intervention. In this paper, we present GRAF, a graph neural network-based proactive resource allocation framework for minimizing total CPU resources while satisfying latency SLO. GRAF leverages front-end workload, distributed tracing data, and machine learning approaches to (a) observe/estimate impact of traffic change (b) find optimal resource combinations (c) make proactive resource allocation. Experiments using various open-source benchmarks demonstrate that GRAF successfully targets latency SLO while saving up to 19% of total CPU resources compared to the fine-tuned autoscaler. Moreover, GRAF handles traffic surge with 36% fewer resources while achieving up to 2.6x faster tail latency convergence compared to the Kubernetes autoscaler.
