AI in EE

AI IN DIVISIONS

AI in Computer Division

AI in EE

AI IN DIVISIONS

AI in Computer Division ​

AI in Computer Division

우리 학부 황창호, 김태현 박사과정 학생 인공지능 학습 가속을 위한 고성능 GPU 클러스터 자원 관리 프레임워크 개발

우리 학부 황창호, 김태현 박사과정 연구원이 (박경수 (지도교수), 신진우 교수, MIT CSAIL 김승현 학생 공동연구) 인공지능 학습을 가속하기 위한 고성능 GPU 클러스터 자원 관리 프레임워크인 CoDDL 시스템을 개발하였습니다. 본 시스템은 한국전자통신연구원 (ETRI)과의 협력하에 개발되었습니다.

인공지능 모델을 학습하기 위한 GPU 자원의 수요가 폭발적으로 늘어남에 따라, 많은 기업들 및 클라우드 컴퓨팅 사업자들은 각자의 GPU 클러스터를 구축하고 인공지능 개발자들에게 GPU를 분배하여 학습 연산에 활용할 수 있도록 지원하고 있습니다. 이러한 GPU 클러스터는 구축하는데 높은 초기비용이 들 뿐 아니라 매우 많은 전력을 소모하기 때문에, 클러스터의 GPU 자원을 효율적으로 관리하기 위한 시스템을 구현하는 것이 더욱 중요해지고 있습니다.

본 연구팀이 개발한 CoDDL 시스템은 인공지능 개발자들이 구현한 모델이 GPU 클러스터 내에서 빠르고 효율적으로 학습되도록 자동으로 관리해주는 시스템입니다. 개발자들이 학습시키고자 하는 모델을 시스템에 제출하면, 모델이 여러 GPU를 동시에 활용하여 고속 학습되도록 자동으로 병렬화 해주며, 특히 학습이 진행되는 도중에도 클러스터의 전체적인 성능을 최적화하기 위해 각 학습 작업이 사용하는 GPU 개수를 탄력적으로 변경하는 작업 스케줄러가 구현되어 있습니다. CoDDL 시스템은 각 학습 작업에 할당된 GPU 개수를 변경하는데 소요되는 시간을 최소화함으로써 작업 스케줄러가 더욱 효율적이고 정교한 자원 배분을 할 수 있도록 하고, 따라서 전체적인 학습 속도를 크게 높일 수 있습니다.

본 연구에서 제안한 AFS-P 스케줄러는 마이크로소프트가 공개한 인공지능 학습용 GPU 클러스터 트레이스에서 기존 최고 스케줄러 대비 최대 3.11배 빠른 평균 작업 완료 시간 (average job completion time)을 보였으며, 본 성과는 네트워크 컴퓨터 시스템 분야 최고 권위 학회 중 하나인 USENIX NSDI 2021에서 발표되었습니다.

 

 

그림: CoDDL 시스템 개요

자세한 연구 내용은 하단의 링크에서 확인하실 수 있습니다.

논문: https://www.usenix.org/system/files/nsdi21-hwang.pdf

학회 발표 영상: https://www.usenix.org/conference/nsdi21/presentation/hwang