Self-Supervised Interpretable Sensorimotor Learning via Latent Functional Modularity, ICML 2024 (심현철 교수 연구실)

Abstract: We introduce MoNet, a novel functionally modular network for self-supervised and interpretable end-to-end learning. By leveraging its functional modularity with a latent-guided contrastive loss function, MoNet efficiently learns task-specific decision-making processes in latent space without requiring task-level supervision. Moreover, our method incorporates an online, post-hoc explainability approach that enhances the interpretability of end-to-end inferences without compromising sensorimotor control performance. In real-world indoor environments, MoNet demonstrates effective visual autonomous navigation, outperforming baseline models by 7% to 28% in task specificity analysis. We further explore the interpretability of our network through post-hoc analysis of perceptual saliency maps and latent decision vectors. This provides valuable insights into the incorporation of explainable artificial intelligence into robotic learning, encompassing both perceptual and behavioral perspectives. Supplementary materials are available at https://sites.google.com/view/monet-lgc.

Main Figure:

1

(FL)²: Overcoming Few Labels in Federated Semi-Supervised Learning, NeurIPS 2024 (이성주 교수 연구실)

Abstract: Federated Learning (FL) is a distributed machine learning framework that trains accurate global models while preserving clients’ privacy-sensitive data. However, most FL approaches assume that clients possess labeled data, which is often not the case in practice. Federated Semi-Supervised Learning (FSSL) addresses this label deficiency problem, targeting situations where only the server has a small amount of labeled data while clients do not. However, a significant performance gap exists between Centralized Semi-Supervised Learning (SSL) and FSSL. This gap arises from confirmation bias, which is more pronounced in FSSL due to multiple local training epochs and the separation of labeled and unlabeled data. We propose (FL)², a robust training method for unlabeled clients using sharpness-aware consistency regularization. We show that regularizing the original pseudo-labeling loss is suboptimal, and hence we carefully select unlabeled samples for regularization. We further introduce client-specific adaptive thresholding and learning status-aware aggregation to adjust the training process based on the learning progress of each client. Our experiments on three benchmark datasets demonstrate that our approach significantly improves performance and bridges the gap with SSL, particularly in scenarios with scarce labeled data.

 

Main Figure:3 1

 

ContrastSense: Domain-invariant Contrastive Learning for In-the-wild Wearable Sensing, ACM IMWUT 2024 (이성주 교수 연구실)

Abstract: Existing wearable sensing models often struggle with domain shifts and class label scarcity. Contrastive learning is a promising technique to address class label scarcity, which however captures domain-related features and suffers from low quality negatives. To address both problems, we propose ContrastSense, a domain-invariant contrastive learning scheme for a realistic wearable sensing scenario where domain shifts and class label scarcity are presented simultaneously. To capture domain-invariant information, ContrastSense exploits unlabeled data and domain labels specifying user IDs or devices to minimize the discrepancy across domains. To improve the quality of negatives, time and domain labels are leveraged to select samples and refine negatives. In addition, ContrastSense designs a parameter-wise penalty to preserve domain- invariant knowledge during fine-tuning to further maintain model robustness. Extensive experiments show that ContrastSense outperforms the state-of-the-art baselines by 8.9% on human activity recognition with inertial measurement units and 5.6% on gesture recognition with electromyography when presented with domain shifts across users. Besides, when presented with different kinds of domain shifts across devices, on-body positions, and datasets, ContrastSense achieves consistent improvements compared with the best baselines.

 

Main Figure:

2 1

By MyEyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting, EMNLP 2024 (이성주 교수 연구실)

Abstract: Large language models (LLMs) have demonstrated exceptional abilities across various domains. However, utilizing LLMs for ubiquitous sensing applications remains challenging as existing text-prompt methods show significant performance degradation when handling long sensor data sequences. We propose a visual prompting approach for sensor data using multimodal LLMs (MLLMs). We design a visual prompt that directs MLLMs to utilize visualized sensor data alongside the target sensory task descriptions. Additionally, we introduce a visualization generator that automates the creation of optimal visualizations tailored to a given sensory task, eliminating the need for prior task-specific knowledge. We evaluated our approach on nine sensory tasks involving four sensing modalities, achieving an average of 10% higher accuracy than text-based prompts and reducing token costs by 15.8x. Our findings highlight the effectiveness and cost-efficiency of visual prompts with MLLMs for various sensory tasks. The source code is available at https://github.com/diamond264/ByMyEyes.

 

Main Figure:

1

 

 

Rethinking Data Bias: Dataset Copyright Protection via Embedding Class-wise Hidden Bias, ECCV 2024, Jinhyeok Jang, ByungOk Han, Jaehong Kim, and Chan-Hyun Youn (윤찬현 교수 연구실)

Abstract: Public datasets play a crucial role in advancing data-centric AI, yet they remain vulnerable to illicit uses. This paper presents ‘undercover bias,’ a novel dataset watermarking method that can reliably identify and verify unauthorized data usage. Our approach is inspired by an observation that trained models often inadvertently learn biased knowledge and can function on bias-only data, even without any information directly related to a target task. Leveraging this, we deliberately embed class-wise hidden bias via unnoticeable watermarks, which are unrelated to the target dataset but share the same labels. Consequently, a model trained on this watermarked data covertly learns to classify these watermarks. The model’s performance in classifying the watermarks serves as irrefutable evidence of unauthorized usage, which cannot be achieved by chance. Our approach presents multiple benefits: 1) stealthy and model-agnostic watermarks; 2) minimal impact on the target task; 3) irrefutable evidence of misuse; and 4) improved applicability in practical scenarios. We validate these benefits through extensive experiments and extend our method to fine-grained classification and image segmentation tasks.

 

Main Figure:

2 1

 

Tilt and Average : Geometric Adjustment of the Last Layer for Recalibration, ICML 2024 (윤찬현 교수 연구실)

Abstract: After the revelation that neural networks tend to produce overconfident predictions, the problem of calibration, which aims to align confidence with accuracy to enhance the reliability of predictions, has gained significant importance. Several solutions based on calibration maps have been proposed to address the problem of recalibrating a trained classifier using additional datasets. In this paper, we offer an algorithm that transforms the weights of the last layer of the classifier, distinct from the calibration-map-based approach. We concentrate on the geometry of the final linear layer, specifically its angular aspect, and adjust the weights of the corresponding layer. We name the method Tilt and Average(TNA), and validate the calibration effect empirically and theoretically. Through this, we demonstrate that our approach, in addition to the existing calibration-map-based techniques, can yield improved calibration performance.

Main Figure:

1

Logical/Physical Topology-Aware Collective Communication in Deep Learning Training (김동준 교수 연구실)

Abstract

Training is an important aspect of deep learning to enable network models to be deployed. To scale training, multiple GPUs are commonly used with data parallelism to exploit the additional GPU compute and memory capacity. However, one challenge in scalability is the collective communication between GPUs. In this work, we propose to accelerate the AllReduce collective. AllReduce communication is often based on a logical topology (e.g., ring or tree algorithms) that is mapped to a physical topology or the physical connectivity between the nodes. In this work, we propose a logical/physical topology-aware collective communication that we refer to as C-Cube architecture – Chaining Collective Communication with Computation. C-Cube exploits the opportunity to overlap or chain different phases of collective communication as well as forward computation in a tree algorithm AllReduce. We exploit the communication pattern in a logical tree topology to overlap the different phases of communication. Since ordering is maintained in the tree collective algorithm, we propose gradient queuing to enable chaining of communication with forward computation to accelerate overall performance while having no impact on training accuracy. We also exploit the physical topology characteristics to further improve the performance, including proposing detour connections for collective communication while leveraging the additional connectivity to enable a double-tree C-Cube implementation. We implement a C-Cube proof-of-concept on a real system (8- GPU NVIDIA DGX-1) and show C-Cube results in performance improvement in communication performance compared to nonoverlapped tree algorithms as well as overall performance.

전기및전자공학부 한동수교수 연구팀, 일반 소비자용 GPU로 분산 환경에서 AI 모델 학습 가속화 기술 개발

전기및전자공학부 한동수교수 연구팀, 일반 소비자용 GPU로 분산 환경에서 AI 모델 학습 가속화 기술 개발

2024 09 02 211619

<(좌측부터) 한동수 교수, 임휘준 박사, 예준철 박사과정 사진>

 

전기및전자공학부 한동수 교수 연구팀이 일반 소비자용 GPU를 활용해 네트워크 대역폭이 제한된 분산 환경에서 AI 모델 학습을 획기적으로 가속하는 기술을 개발했다.

 

최신의 AI 모델을 학습하기 위해서는 수천만 원대의 고성능 GPU와 고속 전용 네트워크 등 고비용 인프라가 필요하다.

이로 인해 학계 및 중소기업의 대다수 연구자는 저렴한 일반 소비자용 GPU에 의존해 모델을 학습하고 있지만, 네트워크 대역폭 제약으로 효율적인 모델 학습에 어려움을 겪고 있는 실정이다.

 

Inline image 2024 09 02 14.59.01.205

<그림 1. 기존 저비용 분산 딥러닝 환경에서의 문제>

 

한동수 교수 연구팀은 이러한 문제를 해결하기 위해 StellaTrain이라는 분산 학습 프레임워크를 개발하였다.

StellaTrain은 저비용 GPU에서 모델 학습을 가속하기 위해 CPU와 GPU를 함께 활용하는 파이프라인을 도입했고, 네트워크 환경에 따라 배치 크기 및 압축률을 동적으로 결정하는 알고리즘을 통합 적용해 고속 전용 네트워크 없이도 다중 클러스터 및 다중 노드 환경에서 빠른 모델 학습을 달성할 수 있게 했다.

 

StellaTrain은 학습 파이프라인을 최적화하여 GPU 활용률을 극대화하기 위해 그래디언트 압축과 최적화 과정을 CPU로 오프로딩하는 전략을 채택했다.

특히 CPU에서 효율적으로 동작하는 희소 최적화 기술과 캐시 인식 기반의 그래디언트 압축 기술을 새롭게 개발해 적용함으로써, CPU의 작업이 GPU의 연산과 중첩되는 끊임없는 학습 파이프라인을 구현했다.

또한 네트워크 상황에 따라 배치 크기와 압축률을 실시간으로 조절하는 동적 최적화 기술을 적용해 제한된 네트워크 환경에서도 높은 GPU 활용률을 달성했다.

 

Inline image 2024 09 02 14.59.01.206

<그림 2. StellaTrain 학습 파이프라인 개요도>

 

이를 통해 StellaTrain은 저비용 멀티 클라우드 환경에서 분산 모델 학습 속도를 크게 향상시켜, 기존 PyTorch DDP 대비 최대 104배의 성능 향상을 달성하였다.

한동수 교수 연구팀은 이번 연구를 통해 고가의 데이터센터급 GPU와 고속 네트워크 없이도 AI 모델을 효율적으로 학습시킬 수 있는 길을 열었으며, 이는 학계와 중소기업 등 자원이 제한된 환경에서 AI 연구 및 개발을 가속하는 데 큰 도움이 될 것으로 기대된다.

 

한동수 교수는 “KAIST가 AI 시스템 분야에서 우리나라의 리더십을 발휘하며 두각을 나타내고 있다”고 강조했다.

그는 “거대 IT 기업의 전유물로 여겨지던 대규모 언어 모델(LLM) 학습을 보다 저렴한 컴퓨팅 환경에서 구현할 수 있도록 적극적인 연구를 진행하겠다”며, “이번 연구가 그 목표를 향한 중요한 초석이 되기를 기대한다”고 덧붙였다.

 

이번 연구에는 KAIST 임휘준 박사와 예준철 박사과정, 그리고 UC Irvine의 Sangeetha Abdu Jyothi 교수가 참여했으며, 본 연구 결과는 8월 4일부터 8일까지 호주 시드니에서 열린 컴퓨터 네트워킹 분야 최고 권위의 국제 학회인 ACM SIGCOMM 2024에서 발표되었다 (논문명: Accelerating Model Training in Multi-cluster Environments with Consumer-grade GPUs).

 

한편, 한동수 교수 연구팀은 최근 오스트리아 빈에서 열린 ICML 2024에서 MoE (Mixture of Experts) 모델 학습을 가속할 수 있는 프레임워크인 ES-MoE를 발표하는 등 AI 시스템 분야에서 지속적인 연구 성과를 내고 있다.

 

한동수 교수 연구팀은 GPU 메모리 한계를 극복하고 대규모 MoE 모델 학습의 확장성과 효율성을 크게 향상시켜, 단 4개의 GPU로 150억 파라미터 규모의 언어 모델을 미세 조정할 수 있게 하는 성과를 거뒀다.

이는 한정된 컴퓨팅 자원으로도 대규모 AI 모델을 효과적으로 학습할 가능성을 열었다는 점에서 큰 의의가 있다.

 

 

Inline image 2024 09 02 14.59.01.207 1

<그림 3. ES-MoE 프레임워크 개요도>

 

Inline image 2024 09 02 14.59.01.207

<그림 4. 한동수 교수 연구팀은 StellaTrain과 ES-MoE 연구를 통해 GPU 수가 제한적이거나 고성능 GPU가 없는 상황에서도 저렴한 컴퓨팅 환경으로 AI 모델 학습을 가능하게 했다.>

 

 

 

 

 

황의종 교수 연구팀, 공정한 엑티브 러닝 기법 개발

황의종 교수 연구팀, 공정한 엑티브 러닝 기법 개발

 

전기및전자공학부 황의종 교수님 연구팀에서 MAB(Multi-armed Bandit)을 이용한 공정한 엑티브 러닝 기법을 개발했다. 본 연구는 태기현 박사과정(주저자), 박재영 박사과정, 조지아텍 컴퓨터과학과 Kexin Rong 교수님과 Hantian Zhang 박사과정의 공동연구로 이뤄졌다. 

 

인공지능이 널리 보급되고 고용 및 의료 시스템에도 적용됨에 따라, 인공지능 모델의 높은 정확도 뿐만 아니라 인공지능 공정성(AI fairness)의 개념이 중요해지고 있다. 연구팀은 이러한 불공정성의 주된 원인은 인공지능 모델 학습에 사용된 편향된 데이터에 있다는 점에 착안해 레이블이 없는 데이터가 충분한 환경에서 데이터 라벨링(data labeling)을 통해 학습 모델의 불공정성을 완화하고자 하였다.

 

일반적으로 데이터 라벨링은 비용이 많이 들기 때문에, 유용한 데이터를 우선적으로 선별할 수 있는 다양한 액티브 러닝(active learning) 기법들이 제안되어 왔는데 기존 액티브 러닝 기법들은 모델 정확도를 최대화하는 것에만 초점을 맞추고 있기에 공정성도 함께 고려한 기술에 대한 연구가 부족한 반면 연구팀에서 제시한 기법(FALCON)의 경우 정확도 뿐만 아니라 공정성 지표 또한 개선할 수 있도록 하였다.

 

FALCON에서는 크게 두가지 기법을 활용하여 공정성을 개선시키는데, 먼저 모델의 공정성을 악화시킬 수 있는 데이터의 경우 모델 훈련에 사용하지 않고 지연시키는 시행착오 전략을 사용하였다. 또한 적대적 MAB를 통해 모델의 공정성을 개선시킬 수 있는 최적의 데이터를 선택하도록 하였다. 본 연구 성과는 데이터베이스 분야 최고 권위 학회중 하나인 VLDB 2024에서 발표될 예정이다.

 

해당 연구에 대한 자세한 내용은 연구실 홈페이지(https://sites.google.com/view/whanglab/di-lab)에서 확인할 수 있다.

 

전기및전자공학부 황의종 교수님 연구팀에서 MAB(Multi-armed Bandit)을 이용한 공정한 엑티브 러닝 기법을 개발했다. 본 연구는 태기현 박사과정(주저자), 박재영 박사과정, 조지아텍 컴퓨터과학과 Kexin Rong 교수님과 Hantian Zhang 박사과정의 공동연구로 이뤄졌다. 

 

인공지능이 널리 보급되고 고용 및 의료 시스템에도 적용됨에 따라, 인공지능 모델의 높은 정확도 뿐만 아니라 인공지능 공정성(AI fairness)의 개념이 중요해지고 있다. 연구팀은 이러한 불공정성의 주된 원인은 인공지능 모델 학습에 사용된 편향된 데이터에 있다는 점에 착안해 레이블이 없는 데이터가 충분한 환경에서 데이터 라벨링(data labeling)을 통해 학습 모델의 불공정성을 완화하고자 하였다.

 

일반적으로 데이터 라벨링은 비용이 많이 들기 때문에, 유용한 데이터를 우선적으로 선별할 수 있는 다양한 액티브 러닝(active learning) 기법들이 제안되어 왔는데 기존 액티브 러닝 기법들은 모델 정확도를 최대화하는 것에만 초점을 맞추고 있기에 공정성도 함께 고려한 기술에 대한 연구가 부족한 반면 연구팀에서 제시한 기법(FALCON)의 경우 정확도 뿐만 아니라 공정성 지표 또한 개선할 수 있도록 하였다.

 

FALCON에서는 크게 두가지 기법을 활용하여 공정성을 개선시키는데, 먼저 모델의 공정성을 악화시킬 수 있는 데이터의 경우 모델 훈련에 사용하지 않고 지연시키는 시행착오 전략을 사용하였다. 또한 적대적 MAB를 통해 모델의 공정성을 개선시킬 수 있는 최적의 데이터를 선택하도록 하였다. 본 연구 성과는 데이터베이스 분야 최고 권위 학회중 하나인 VLDB 2024에서 발표될 예정이다.

 

해당 연구에 대한 자세한 내용은 연구실 홈페이지(https://sites.google.com/view/whanglab/di-lab)에서 확인할 수 있다.

 

1

[그림 1. 공정한 엑티브 러닝]

 

 

2

[그림 2. FALCON 워크플로우]

이성주 교수 연구팀, 사용자 음성 및 테스트 기반 정신 건강 진단 스마트폰 인공지능 시스템 개발

이성주 교수 연구팀, 사용자 음성 및 테스트 기반 정신 건강 진단 스마트폰 인공지능 시스템 개발

 

6583fcfb97c76

전기및전자공학부 이성주 교수 연구팀이 사용자의 언어 사용 패턴을 개인정보 유출 없이 스마트폰에서 자동으로 분석해 사용자의 정신건강 상태를 모니터링하는 인공지능 기술을 개발했다.
 
사용자가 스마트폰을 소지하고 일상적으로 사용하기만 해도 스마트폰이 사용자의 정신건강 상태를 분석 및 진단할 수 있는 것이다. 
연구팀은 임상적으로 이뤄지는 정신질환 진단이 환자와의 상담을 통한 언어 사용 분석에서 이루어진다는 점에 착안해 연구를 진행했다. 
 
이번 기술에서는 (1) 사용자가 직접 작성한 문자 메시지 등의 키보드 입력 내용과, (2) 스마트폰 위 마이크에서 실시간으로 수집되는 사용자의 음성 데이터를 기반으로 정신건강 진단을 수행한다. 
이러한 언어 데이터는 사용자의 민감한 정보를 담고 있을 수 있어 기존에는 활용이 어려웠다. 
 
이러한 문제의 해결을 위해 이번 기술에는 연합학습 인공지능 기술이 적용됐는데, 이는 사용자 기기 외부로의 데이터 유출 없이 인공지능 모델을 학습해 사생활 침해의 우려가 없다는 것이 특징이다. 
인공지능 모델은 일상 대화 내용과 화자의 정신건강을 바탕으로 한 데이터셋을 기반으로 학습되었다. 모델은 스마트폰에서 입력으로 주어지는 대화를 실시간으로 분석하여 학습된 내용을 바탕으로 사용자의 정신건강 척도를 예측한다. 
 
더 나아가, 연구팀은 스마트폰 위 대량으로 주어지는 사용자 언어 데이터로부터 효과적인 정신건강 진단을 수행하는 방법론을 개발했다. 연구팀은 사용자들이 언어를 사용하는 패턴이 실생활 속 다양한 상황에 따라 다르다는 것에 착안해, 스마트폰 위에서 주어지는 현재 상황에 대한 단서를 기반으로, 인공지능 모델이 상대적으로 중요한 언어 데이터에 집중하도록 설계했다. 
 
예를 들어, 업무 시간보다는 저녁 시간에 가족 또는 친구들과 나누는 대화에 정신건강을 모니터링 할 수 있는 단서가 많다고 인공지능 모델이 판단해 중점을 두고 분석하는 식이다. 
 
이번 논문은 KAIST 신재민 박사과정(전산학부), 윤형준 박사과정, 이승주 석사과정, 이성주 교수(이상 전기및전자공학부)와 박성준 SoftlyAI 대표(KAIST 졸업생), 중국 칭화대학교 윤신 리우(Yunxin Liu) 교수, 그리고 미국 에모리(Emory) 대학교 최진호 교수의 공동연구로 이뤄졌다. 
 
이번 논문은 올해 12월 6일부터 10일까지 싱가폴에서 열린 자연어 처리 분야 최고 권위 학회인 EMNLP(Conference on Empirical Methods in Natural Language Processing)에서 발표됐다. 
※ 논문명(FedTherapist: Mental Health Monitoring with User-Generated Linguistic Expressions on Smartphones via Federated Learning)
 
이성주 교수는 “이번 연구는 모바일 센싱, 자연어 처리, 인공지능, 심리학 전문가들의 협력으로 이루어져서 의미가 깊으며, 정신질환으로 어려워하는 사람들이 많은데, 개인정보 유출이나 사생활 침범의 걱정 없이 스마트폰 사용만으로 정신건강 상태를 조기진단 할 수 있게 되었다ˮ라며, “이번 연구가 서비스화되어 사회에 도움이 되면 좋겠다ˮ라고 소감을 밝혔다.
 
이 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2022-0-00495, 휴대폰 단말에서의 보이스피싱 탐지 예방 기술 개발, No. 2022-0-00064, 감정노동자의 정신건강 위험 예측 및 관리를 위한 휴먼 디지털 트윈 기술 개발)
 
Inline image 2023 12 19 16.28.15.531
 
<그림 1. 스마트폰 위 사용자 음성 및 키보드 입력 기반, 연합학습을 활용한 정신 건강 진단 기술>
 
 
Inline image 2023 12 19 16.28.42.148
 
<그림 2. 본 연구의 스마트폰 위 사용자 음성 및 키보드 입력 기반, 연합학습을 활용한 정신건강 진단 기술의 모식도>