우리 학부 윤찬현 교수 연구팀은 AI 안전에서 중요한 요소인 Machine Unlearning 에 대해 새로운 접근법으로 과거 가중치 예측 모델 InvWNN을 개발하였다. 이 기술은 문제가 되는 데이터를 기반으로 훈련된 AI 모델에서 해당 데이터를 선택적으로 제거하는 것을 목표로 한다. 기존의 기법들은 전체 훈련 데이터 접근을 요구하거나 성능 저하 문제를 유발하는 문제가 있다. 이를 해결하고자, 가중치 히스토리를 학습해 과거의 가중치를 예측할 수 있는 모델을 제시하고, 이를 반복적으로 사용해 점진적으로 데이터의 영향을 제거하는 새로운 방법을 제안하였다.
이 기술은 특정 데이터에 대한 Finetuning과 가중치 예측 과정을 반복함으로써, 문제가 되는 데이터를 점진적으로 제거한다. 특히, 해당 접근법은 잔여 데이터에 대한 접근 없이도 작동 가능하며, 다양한 데이터셋과 아키텍처에서 효과적으로 적용될 수 있다는 장점이 있다. 본 연구는 기존 방법들과 비교했을 때 학습 데이터로부터 불필요한 지식을 정확히 제거하고 부작용을 최소화하는 데 있어 우수한 성능을 보였다. 또한, 별다른 추가 절차 없이도 다양한 Task에 바로 적용이 가능하다는 장점도 확인할 수 있었다.
연구팀은 제안된 방법을 통해 다양한 벤치마크에서 높은 정확도의 성능을 입증했으며, 이러한 결과는 머신 언러닝 기술의 실질적 응용 가능성을 크게 확장하는 데 기여할 것으로 기대된다.
해당 연구 결과는 내년 2월 미국에서 열리는 인공지능 분야 최우수 국제 학회 중 하나인 The 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025)에서 ‘Learning to Rewind via Iterative Prediction of Past Weights for Unlearning’라는 제목으로 발표될 예정이다.