뉴스펍

"AI, 보고 들을 때 왜 강할까"…UNIST, 멀티모달 원리 규명

IT/과학

이데일리,

2026년 6월 28일, 오전 09:02

윤성환 울산과학기술원 교수. (사진=울산과학기술원)

[이데일리 한광범 기자] 이미지나 소리, 텍스트 등 다양한 형태의 데이터를 함께 학습하는 멀티모달 인공지능(AI)이 왜 단일 데이터만 학습한 AI보다 더 정확하고 안정적인지 수학적으로 규명됐다.

울산과학기술원(UNIST) 인공지능대학원 윤성환 교수팀은 멀티모달 AI가 단일모달 AI보다 더 좋은 성능을 내는 원리를 ‘손실 지형(Loss Landscape)’의 평탄화 관점에서 규명했다고 밝혔다.

일반적으로 멀티모달 학습은 단일모달 학습보다 성능이 뛰어나다고 알려졌지만, 그동안 실제 딥러닝 학습 과정과 연결해 설명하는 이론적 근거는 부족했다.

연구팀에 따르면 음성이나 이미지와 같은 여러 형태의 데이터를 함께 학습하는 경우 손실 지형이 더 평탄해져, 학습 과정에서 배우지 못한 상황에 대응하는 능력인 ‘강건성’이 향상된다. AI가 학습 과정에서 겪는 오차와 모델 내부 설정값들의 관계를 공간으로 나타낸 손실 지형이 완만할수록 새로운 데이터가 들어와도 성능을 안정적으로 유지하기 쉽다.

연구팀은 손실 지형이 평탄화되는 이유를 서로 다른 데이터가 오차의 거친 변화를 평균 내듯 완화하는 수학적 ‘합성곱 스무딩 효과’로 설명했다. 이미지 하나만 보고 학습할 때 생기는 뾰족한 오차 변화가 음성이나 문장 정보와 함께 학습되면서 눌리고 퍼지는 원리다.

이를 기반으로 멀티모달 학습 성능을 더 높일 수 있는 새로운 학습법인 ‘분포 기반 멀티모달 학습(DML)’도 제안했다. 기존에는 이미지 하나와 정확히 대응하는 문장 하나를 고정된 쌍으로 묶어 학습했으나, DML은 같은 정답 범주 안에서 데이터들을 무작위로 다시 짝지어 학습 데이터 조합을 다양하게 만들고 평탄화 효과를 극대화한다. 네 가지 멀티모달 데이터셋에서 검증한 결과 기존 방식보다 분류 정확도와 검색 성능이 일관되게 향상됐다.

연구팀은 “이번 연구는 멀티모달 AI가 왜 더 강건하게 일반화될 수 있는지에 대한 이론적 근거와 효율적인 샘플링 학습 방법을 제시했다”며 “향후 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 중요한 기반 기술이 될 것”이라고 강조했다.

이번 연구는 UNIST 인공지능대학원 이재준 연구원이 제1저자로 참여했으며, 인공지능 분야 국제 학술대회인 국제 머신러닝 학회(ICML 2026)에서 발표될 예정이다.

"AI, 보고 들을 때 왜 강할까"…UNIST, 멀티모달 원리 규명

IT/과학

추천 뉴스