AI in Computer division - 13 / 10 페이지 - KAIST 전기 및 전자공학부

Neuro-DCF: Design of Wireless MAC via Multi-Agent Reinforcement Learning Approach; Sangwoo Moon, Sumyeong Ahn, Kyunghwan Son, Jinwoo Park, Yung Yi, ACM Mobhoc, 2021

채널 감지 다중 접근 (CSMA) 알고리즘은 단순성과 일반성에 근거하여 표준 802.11 구현의 무선 매체 접근 제어 (MAC) 기법으로 사용되었다. CSMA 에 대한 연구는 실용적인 프로토콜로서도, 최적의 MAC 스케줄링을 달성하기 위한 분산적인 기법으로서도 광범위하게 이루어졌다. 하지만, 현재 개발되어 있는 가장 최신의 CSMA 기법 조차도 특정 상황, 특히 다중 홉 통신 환경 등에서 취약한 성능을 보인다. 이러한 성능의 개선을 위해 연구된 기법들은 지엽적인 상황에 대한 성능 보완을 하는 형식의 기법들이고, 모든 무선 통신 상황을 위한 범용성이 떨어지는 경향을 보인다. 본 논문에서는, 현재 새로운 제어 패러다임으로 대두되는 경험 기반 접근 방식에 근거하여, 심층 강화 학습으로 CSMA-기반 무선 MAC 알고리즘을 학습시키는 기법을 제시한다. 본 논문에서 새롭게 소개하는 기법은 Neuro-DCF 로 명명되고, 이 기법에 대한 설명은 두 가지의 핵심 설계 목표에 기반한다. 설계 목표를 설명하자면, 학습 방식은 (i) 분산적인 제어기 동작을 위한 안정적인 훈련 기법어야 하고, (ii) 다양한 간섭 패턴과 무선 환경에 모두 적용 가능한 통합 학습 방식이어야 한다. 목표 (i) 를 위해 본 논문에서는 다중 에이전트 강화 학습 프레임워크를 적용하였고, 목표 (ii) 를 위해서는 그래프 신경망에 기반한 학습 구조를 제안한다. 제안된 Neuro-DCF 의 성능 검증을 위해 다양한 무선 간섭 환경에서 802.11 DCF 와 O-DCF 기법 등과 성능 비교를 제시한다. O-DCF 는 이론에 기반되어 설계된 최적 CSMA 기법이고, 이러한 기존 방식들에 비하여 Neuro-DCF 는 최적의 성능 지표 달성을 유지하면서 전송 지연 시간을 비약적으로 줄일 수 있었다. 저자는 본 논문에서 제안한 다중 에이전트 강화 학습 방식이 이러한 네트워크 제어기 학습 기법에 대한 연구에 기여하고, MAC 계층 이외의 다른 계층에서도 분산 제어 방식의 훈련을 위한 하나의 프레임워크로서 기능하기를 기대한다.

[Eunju Yang and Chan-Hyun Youn, “Individual Load Forecasting for Multi-Customers with Distribution-aware Temporal Pooling”, to proceed in IEEE International Conference on Computer Communications (INFOCOM) 2021, May, Canada.]

개별 부하 예측은 스마트 그리드 서비스를 위한 주요 컴포넌트 중 하나이다. 스마트 그리드의 엣지인 스마트 미터 들에서 계측된 데이터들은 실시간으로 클라우드 서버로 수집되고, 이를 기반으로 한 다양한 지능형 서비스를 제공하기 위해 각 스마트 미터 들의 장/단기 전력 소모량 예측이 수행된다. 서비스 제공자의 관점에서 중앙 서버에서 다중 계측기의 개별 부하 예측을 위한 모델을 학습할 때, 각 스마트 미터 들 간의 분포 격차에 대한 고려가 필요하다. 다중 고객들의 개별 예측을 처리하기 위한 방법으로 크게 두 가지 접근 방법이 수행되어 왔다:1) 각 고객별로 독립적 모델을 학습하거나 2) 다중 고객 정보들을 모두 포함할 수 있는 큰 모델을 학습 방식이 있다. 독립적인 방식은 후자보다 더 높은 정확도를 보이지만, 서비스 제공자의 관점에서 자원 및 관리 비 효율적이다. 반면 후자의 경우 그 반대로, 이 두 방식의 절충안인 클러스터링 기반의 예측 방식이 좋은 대안이 될 수 있다. 하지만, 기존의 클러스터링 기반 연구들의 경우 누적 부하에 초점을 맞추기 때문에 시간이 지남에 따라 분포 변화가 발생하는 개별 부하 예측의 개념 드리프트 문제를 고려하지 않는다는 점에서 한계가 있다. 이를 해결하기 위해 우리는 새로운 클러스터링 기반의 개별 부하 예측 프레임워크인 분포 인지형 시계열 풀링 기법 (Distribution-aware Temporal Pooling)을 제안한다. 클러스터링을 위해 VaRDE (Variational Recurrent Deep Embeding)를 제안하는데, 이는 시계열 데이터의 분포를 추정하는 형태로 클러스터링을 수행하기 때문에 높은 불규칙성을 갖는 개별 부하 예측 클러스터링에 적합하다. 뿐만 아니라, 전체 프레임워크는 모든 고객의 매 시점 데이터에 대해 클러스터를 할당하도록 동작하며, 매 시점의 시계열 데이터 분포를 추론하고 이를 바탕으로 클러스터링을 수행하기 때문에 고객의 데이터 분포가 시간에 따라 변하더라도 매 시점에 가장 적합한 예측 모델이 이를 처리하도록 한다. 우리는 실 AMI 데이터를 사용하여 제안 기법을 평가하였으며, 그 결과들은 제안 기법이 기존의 방식과 비교하여 우수한 성능을 가짐을 보여주었다. 그 뿐만 아니라, 본 기법은 학습에 사용되지 않은 새로운 스마트 미터 데이터에 대해서 역시 가장 우수한 성능을 보여주었으며, 이는 본 프레임워크가 중앙 서버에서 다중 고객을 처리하기에 높은 확장성을 가짐을 보여주었다.

[Heejae Kim, Kyungchae Lee, Changha Lee, SangHyun Hwang, and Chan-Hyun Youn, “An Alternating Training Method of Attention-based Adapters for Visual Explanation of Multi-domain Satellite Images”, IEEE Access, Vol.9, pp. 62332 – 62346, April. 2021.]

원격 탐사 기술의 발달과 함께, 위성 이미지는 환경 모니터링, 재해 예측 등 다양한 관련 분야에 활용되고 있다. 최근, 위성 이미지 분석에 있어서의 자동화 시도들이 활발히 진행되고 있으며, 이는 주로 합성곱 신경망을 기반으로 연구되고 있다. 하지만, 현재까지의 딥러닝 기반 위성 이미지 분석 시스템들을 실제로 적용하기 위해서는 다음 사항들이 해결되어야 한다. 먼저, 재해 예측 등의 많은 위성 이미지 분석 시스템들은 극단적으로 높은 정확도를 요구하며 해당 시스템의 잘못된 판단은 커다란 문제를 낳기 때문에, 해당 딥러닝 기반 시스템의 경우 신뢰성을 필수적으로 갖추어야 한다. 이는 즉, 딥 네트워크가 도출한 결과에 대한 설명가능성을 제공해야 함을 의미한다. 또한, 다수의 위성들로부터의 이미지들에 대한 분석을 다루는 경우, 그것들 사이의 도메인 이동을 고려하여 딥 네트워크에 대한 학습이 이루어져야 한다. 여기서, 도메인 이동은 주로 위성간 공간 해상도 등이 상이함으로 인하여 발생하며, 이러한 다중 도메인 이미지를 활용한 학습에서는 각각의 소스 도메인 모두에서의 정확도를 내기 위한 학습이 필요하다. 이를 해결하기 위하여 본 논문에서는 주의 집중 어뎁터 기반의 다중 도메인 학습 방법을 제안한다. 해당 어뎁터 모듈은 백본 네트워크의 플러그인으로써 동작하며, 도메인 고유 특징 추출 뿐만 아니라 입력 이미지에 대한 채널 및 공간 주의 집중을 개선하는 효과를 보인다. 이어 우리는 해당 백본 네트워크와 도메인 어뎁터의 대체 훈련 기법을 제시한다. 해당 기법에서의 학습은 백본 네트워크와 도메인 어뎁터가 번갈아가며 동결되는 방식으로 진행되며, 이는 효과적으로 도메인 고유 및 도메인 공통 특징을 효과적으로 분리할 수 있도록 한다. 마지막으로, 우리는 Grad-CAM 및 LIME을 사용하여 제안 네트워크 구조에서의 예측에 대한 설명을 제공한다. 성능 평가를 통하여, 제안된 방법들이 높은 다중 클래스 객체 인식 성능을 가질 뿐만 아니라, 개선된 설명 시각화 특성을 나타냄을 보인다.

[Kyung-No Joo and Chan-Hyun Youn, “Accelerating Distributed SGD with Group Hybrid Parallelism”, IEEE Access, Vol.9, pp. 52601 – 52618, March. 2021.]

다양한 분야에서 높은 정확성을 얻기 위해 딥러닝 모델 및 데이터셋의 규모가 빠르게 증가하고 있다. 하지만 대규모 심층 신경망 (DNN) 모델을 훈련하려면 엄청난 양의 계산과 메모리가 필요하며, 따라서 대규모 DNN 모델을 훈련하기위한 병렬화 기술이 주목받고 있다. 대규모 DNN 모델을 병렬화하기 위한 여러 접근 방식이 제안되었지만 이러한 방식은 통신 시간이 길고 작업자 메모리가 제한되어 확장성이 부족하다. 기존 방식들은 통신 시간을 줄이기 위해 정확도를 희생하기도 한다.

이 연구에서 우리는 정확도 손실없이 훈련 시간을 최소화하기 위해 그룹 하이브리드 병렬 처리 (GHP)라는 효율적인 병렬 처리 기법을 제안한다. 두 가지 핵심 아이디어로 접근하였다. 첫째, 작업자를 그룹화하고 그룹별로 교육하면 작업자 간의 불필요한 커뮤니케이션 오버 헤드가 줄어든다. 이를 통해 대규모 네트워크 훈련 과정에서 엄청난 양의 네트워크 리소스를 절약한다. 둘째, 데이터와 모델 병렬 처리를 혼합하면 통신 시간을 줄이고 작업자 메모리 문제를 완화한다. 데이터와 모델 병렬화는 서로 보완 적이므로 결합시 훈련 시간을 향상시킬 수 있다. 데이터의 학습 시간 모델을 수학적으로 제시하였으며, 모델 병렬화와 학습 시간 모델을 기반으로 학습 시간 최소화를위한 병렬화 방법을 결정하는 휴리스틱을 제안한다.

제안하는 그룹 하이브리드 병렬 처리 기법이 처리량 측면에서 다른 기법들을 능가하는 결과를 얻어 정확도 손실 없이 학습을 가속화함을 확인하였다.

D. Hong, S. Lee, Y. H. Cho, D. Baek, J. Kim and N. Chang, "Least-Energy Path Planning With Building Accurate Power Consumption Model of Rotary Unmanned Aerial Vehicle," in IEEE Transactions on Vehicular Technology, vol. 69, no. 12, pp. 14803-14817, Dec. 2

abstract

흔히 드론이라고 불리는 로터리형 무인 비행체는 비행 거리의 제한 때문에 아직도 그 실제 활용에 한계를 가지고 있지만 하드웨어의 향상에 의한 비행거리의 증가는 이미 한계에 다다른 상태이다. 이 논문은 electronic design automation (EDA) 의 framework 를 끼반으로 한 시스템적인 드론의 저전력 최적화 방법을 소개한다.

우리는 드론의 유체역학, 제어역학 적 이해 없이 기계학습과 드론의 간단한 물리적 파라미터 (삼축 속도, 가속도, 높이, 무게 및 볼륨, 그리고 바람의 영향 등) 를 이용하여 파워 모델링을 소개하고, 디테일한 실험방법, 성능 검증, 그리고 에너지 최적 경로 형성을 위한 최적화 과정을 제시한다.

그 결과, 우리는 실제 비행의 약 90 %의 정확도에 달하는 파워 모델링을 제작하였고, 외력을 고려한 실질적인 무인 비행기의 경로 최적화를 진행하였다. 제안한 방법은 약 24.01% 의 에너지 절약 효과를 보인다.

Youngeun Kwon, Yunjae Lee, and Minsoo Rhu, "Tensor Casting: Co-Designing Algorithm-Architecture for Personalized Recommendation Training," The 27th IEEE International Symposium on High-Performance Computer Architecture (HPCA-27), Seoul, South Korea, Feb.

초록

클라우드 데이터센터에서 가장 널리 사용되는 인공지능 워크로드는 개인 맞춤형 추천 서비스이다. 근래에는 이와 같은 중요성에 입각하여 인공지능 기반의 추천 서비스의 추론 과정 가속을 위한 고성능 아키텍처 연구가 발표되고 있으나, 아직 이와 같은 추천 인공지능의 학습에 대한 연구는 미비한 상태이다. 본 논문에서는 추천 인공지능 학습과정에 대한 상세한 분석을 통해 희소 임베딩 레이어의 학습과정이 주된 병목을 야기함을 밝혀내었으며, 이를 해결하기 위한 텐서 캐스팅 기법을 개발하였다. 텐서 캐스팅 기법은 임베딩 레이어 학습을 위한 모든 핵심연산을 취합-환산 연산으로 단일화하는 방법을 제공함으로써 임베딩 레이어 학습을 위한 범용적 가속기 아키텍처 설계를 가능하게 하였다. 실제 CPU-GPU 시스템에서 작동하는 프로토타입에서의 실험 결과 텐서 캐스팅 기법을 통해 기존 시스템 대비 1.9-15배의 학습 성능 향상을 얻을 수 있었다.

Lazy Batching: An SLA-aware Batching System for Cloud Machine Learning Inference, The 27th IEEE International Symposium on High-Performance Computer Architecture (HPCA-27), Seoul, South Korea, Feb. 2021

초록

클라우드 인공지능 추론 시스템에서 배칭은 연산 처리량을 늘리고 총소유비용을 절감할 수 있도록 하는 필수적인 기술이다. 기존 추론 서버에서 활용하는 그래프 단위의 배칭은 다수의 사용자 데이터에 대한 추론 연산을 전체 인공지능 그래프 단위로 동시에 실행한다. 본 연구진은 이러한 전체 그래프 단위의 배칭은 동적인 연산 요청을 처리가 요구되는 인공지능 추론 상황에서 심각한 연산 비효율을 야기하여 성능을 극대화하지 못한다는 문제점을 발견하였다. 이에 본 연구진은 그래프 단위의 수행에서 벗어나 개별 레이어 단위로 유동적인 배칭을 가능하게 하는 레이지 배칭을 제안한다. 레이지 배칭은 개별 레이어 단위로 여러 입력을 동시에 실행할 수 있는 고도화된 알고리즘을 통해 기존 배칭 방법을 개선한다. 레이지 배칭은 기존 추론 서버의 배칭 방법 대비 평균응답시간, 처리량, 서비스수준규약 만족 정도를 각각 평균 15배, 1.5배, 5.5배 향상시킨다.

다대다 자율 레이싱을 위한 게임 이론 기반 모델 예측 기반 제어 및 데이터 기반 차량 모델 식별

저자 : 정찬영, 이승욱, 성현기, 안드레아 피나치, 심현철

Workshop: IEEE ICRA 2021 : Opportunities and challenges with autonomous racing [Best paper award]

Link : https://linklab-uva.github.io/icra-autonomous-racing/

자율 주행의 특수한 상황에서의 어려움을 해결하기 위해, 다대다 자율 주행 레이싱은 학계 및 산업계에서 많은 관심을 받고 있다. 본 연구에서는 다대다 자율 주행 레이싱을 위한 게임 이론 기반 모델 예측 제어 방법과 데이터 기반 차량 모델 식별법을 제안한다. 제안하는 제어기는 1) 게임 이론 기반 주변 차량 예측, 2) 레이싱 전략 계획 3)모델 예측 기반 차량 제어기로 구성되어있다. 제안하는 방법론은 Indy Autonomous Challenge의 공식 시뮬레이터의 다양한 레이싱 시나리오에서 검증되었다. 제안하는 방법을 통해 우리의 방법은 레이싱 트렉을 빠르게 주행하면서도 주변 차량을 충돌없이 추월할 수 있음을 실험적으로 검증하였다.

그림1. 다대다 자율 레이싱을 위한 방법론 시각화

그림2. Head-to-head simulation racing results

역강화 학습 기반 도심 자율 주행용 다중 컨텍스가 반영된 주행 가능 맵 생성 (정찬영, 심현철)

주변 물체가 존재하는 환경에서의 자율 주행은 여전히 어려운 문제이다. 주요 기술적 어려움은 내적, 환경적, 사회적 컨텍스트를 고려하여 확률적으로 근미래 궤적을 표현하는 주행 가능 맵을 정확하게 예측하는 것이다. 이를 해결하기 위해 다양한 방법들이 제안되어왔다. 하지만 기존 연구들은 대부분 개별적인 컨텍스트를 반영하는 것에 집중하였다. 또한 대부분의 기존 연구들에서는 HD맵과 같은 값비산 사전 정보를 입력으로 사용하여 방법의 확장성을 제한하였다.

본 연구에서는 동적 환경에서 자율 주행을 위한 다중 컨텍스트가 반영된 주행 가능 맵 예측이 가능한 역강화 학습 기법을 제안하였다. 주행 환경의 사전 정보를 사용하는 대신, 우리는 실시간으로 입력되는 센서로부터 다양한 컨텍스트를 추출하고, 이를 최종 출력인 보상 맵에 반영하는 딥뉴럴 네트워크를 제안한다. 우리의 방법은 현재 자신의 위치로부터 확률적으로 주행 가능한 맵을 보상 맵으로 부터 유추한다.

제안된 방법은 실제 교통 데이터를 바탕으로 다양한 베이스라인과 함께 양적, 질적으로 검증되었다. 실험 결과는 다른 방법들에 비해 정확한 예측 정확도를 보였고, 실제 운전자와도 유사한 경로를 예측하는 것으로 확인되었다.

그림1. 역강화 학습을 이용한 다중 컨텍스트가 반영된 주행 가능 맵 예측 방법

그림2 . 제안하는 네트워크 아키텍쳐 시각화 결과

그림3. 시간에 따른 주행 가능 지도 가시화 결과

우리 학부 황창호, 김태현 박사과정 학생 인공지능 학습 가속을 위한 고성능 GPU 클러스터 자원 관리 프레임워크 개발

우리 학부 황창호, 김태현 박사과정 연구원이 (박경수 (지도교수), 신진우 교수, MIT CSAIL 김승현 학생 공동연구) 인공지능 학습을 가속하기 위한 고성능 GPU 클러스터 자원 관리 프레임워크인 CoDDL 시스템을 개발하였습니다. 본 시스템은 한국전자통신연구원 (ETRI)과의 협력하에 개발되었습니다.

인공지능 모델을 학습하기 위한 GPU 자원의 수요가 폭발적으로 늘어남에 따라, 많은 기업들 및 클라우드 컴퓨팅 사업자들은 각자의 GPU 클러스터를 구축하고 인공지능 개발자들에게 GPU를 분배하여 학습 연산에 활용할 수 있도록 지원하고 있습니다. 이러한 GPU 클러스터는 구축하는데 높은 초기비용이 들 뿐 아니라 매우 많은 전력을 소모하기 때문에, 클러스터의 GPU 자원을 효율적으로 관리하기 위한 시스템을 구현하는 것이 더욱 중요해지고 있습니다.

본 연구팀이 개발한 CoDDL 시스템은 인공지능 개발자들이 구현한 모델이 GPU 클러스터 내에서 빠르고 효율적으로 학습되도록 자동으로 관리해주는 시스템입니다. 개발자들이 학습시키고자 하는 모델을 시스템에 제출하면, 모델이 여러 GPU를 동시에 활용하여 고속 학습되도록 자동으로 병렬화 해주며, 특히 학습이 진행되는 도중에도 클러스터의 전체적인 성능을 최적화하기 위해 각 학습 작업이 사용하는 GPU 개수를 탄력적으로 변경하는 작업 스케줄러가 구현되어 있습니다. CoDDL 시스템은 각 학습 작업에 할당된 GPU 개수를 변경하는데 소요되는 시간을 최소화함으로써 작업 스케줄러가 더욱 효율적이고 정교한 자원 배분을 할 수 있도록 하고, 따라서 전체적인 학습 속도를 크게 높일 수 있습니다.

본 연구에서 제안한 AFS-P 스케줄러는 마이크로소프트가 공개한 인공지능 학습용 GPU 클러스터 트레이스에서 기존 최고 스케줄러 대비 최대 3.11배 빠른 평균 작업 완료 시간 (average job completion time)을 보였으며, 본 성과는 네트워크 컴퓨터 시스템 분야 최고 권위 학회 중 하나인 USENIX NSDI 2021에서 발표되었습니다.

그림: CoDDL 시스템 개요

자세한 연구 내용은 하단의 링크에서 확인하실 수 있습니다.

논문: https://www.usenix.org/system/files/nsdi21-hwang.pdf

학회 발표 영상: https://www.usenix.org/conference/nsdi21/presentation/hwang

[보관함:] AI in Computer division