
우리 학부 한동수 교수 연구팀이 저렴한 소비자급 GPU를 활용하여 대규모 언어모델(LLM) 서비스 비용을 획기적으로 절감하는 엣지 지원 추론 프레임워크를 개발했다.
현재 LLM 추론 서비스는 데이터센터의 전용 가속기 및 GPU에 전적으로 의존하고 있어, 대규모 언어 모델 서비스에 막대한 재정 및 인프라가 필요하다. 데이터센터 GPU보다 저렴한 고성능 소비자급 GPU가 데이터센터 밖 엣지에 널리 보급되었지만, 통신 인프라가 제한적인 인터넷 환경에서는 기존 LLM 추론 아키텍처의 구조적 한계로 인해 이를 효율적으로 활용하지 못하고 있다.
한동수 교수 연구팀은 이러한 문제를 해결하기 위해 엣지 지원 추론 프레임워크 SpecEdge를 개발하였다. SpecEdge는 소비자급 엣지 GPU와 데이터센터 GPU 간 연산을 효과적으로 분담하여 LLM 추론 비용을 절감한다. 또한 추측적 디코딩(Speculative Decoding) 기법을 채택하여 인터넷 환경에서 엣지 GPU와 데이터센터 GPU 간 통신을 원활하게 구현하였다. 추측적 디코딩은 비교적 작은 언어모델로 확률이 높은 여러 토큰을 빠르게 생성한 뒤, 대규모 언어모델이 이를 검증하는 기법이다. SpecEdge는 엣지 GPU에 작은 모델을 배치해 확률 높은 토큰 시퀀스를 한 번에 생성하고, 이를 데이터센터 GPU로 전송하여 일괄 검증한다.

SpecEdge는 엣지 GPU가 서버의 검증 결과를 기다리는 동안에도 지속적으로 토큰을 생성하는 전략을 채택했다. 초기 토큰 생성 후 엣지는 가장 높은 확률의 경로를 따라 추가 토큰을 미리 생성하며, 검증 결과가 모두 일치하면 미리 생성한 토큰을 즉시 활용할 수 있다. 또한 서버측 파이프라인 최적화를 통해 여러 엣지의 검증 요청을 지능적으로 배치하여 서버 GPU 활용도를 극대화한다. 한 엣지 GPU가 초안을 생성하는 동안 서버는 다른 요청을 검증함으로써 유휴 시간을 제거하고 더 많은 요청을 처리할 수 있다.


이번 연구는 엣지에 널리 보급된 GPU를 활용하여 데이터센터 내 GPU 의존도를 낮출 수 있는 가능성을 제시하였다. 엣지 상 NPU까지 확장 가능한 SpecEdge 프레임워크는 비용과 데이터센터의 한정적 GPU 수량 문제를 해결하여 고품질 LLM 서비스 배포 기회를 제공한다. 이는 AI 서비스 시장의 진입장벽을 낮추고 경쟁을 활성화하여 국내 AI 산업 생태계 발전에 토대를 마련할 수 있다.
한동수 교수는 “엣지 클라우드의 GPU를 넘어 사용자의 엣지 디바이스를 LLM 인프라로 활용할 수 있게 하는 연구를 지속하겠다”며, “사용자의 엣지 자원 활용은 서비스 제공자의 비용 부담을 줄여 고품질 LLM 접근 장벽을 낮추고 모두를 위한 AI의 기반이 될 것”이라고 덧붙였다.
이번 연구에는 KAIST 박진우 박사와 조승근 석사과정이 참여했으며, 연구 결과는 12월 2일부터 7일까지 미국 샌디에이고에서 열린 인공지능 분야 최고 권위 국제 학회인 Annual Conference on Neural Information Processing Systems (NeurIPS)에서 Spotlight로 (상위 3.2% 논문) 발표될 예정이다(논문명: SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs).