기존 AI 허브 데이터, 최신 AI 환경에 맞게 재가공

IT/과학

뉴스1,

2026년 5월 07일, 오후 12:00

과학기술정보통신부 /뉴스1

과학기술정보통신부와 한국지능정보사회진흥원은 기존 AI 허브 데이터를 최신 생성형 AI 기술 환경에 맞게 재가공하는 'AI 학습용데이터 업사이클링' 사업 공고가 시작된다고 7일 밝혔다.

데이터는 AI 경쟁에서 가장 중요한 요소로 꼽힌다. 좋은 데이터를 확보해야 경쟁력 있는 모델을 구축할 수 있기에 데이터는 국가 AI 경쟁력의 핵심이다.

정부는 기존 판별형 AI 중심 라벨링 데이터를 재가공해 추론 과정과 행동 정보를 포함하는 생성형 AI용 데이터로 전환함으로써 보다 복잡한 문제 해결이 가능하도록 AI 기술 경쟁력 확보를 지원할 계획이다.

이번 사업은 LLM(대규모 언어 모델)과 피지컬 AI 분야를 중심으로 총 30종의 데이터셋을 재가공(30억 원 규모)하며, 학습 데이터를 신규 구축하는 것에 비해 예산 투입 대비 정책 효과를 높일 수 있을 것으로 기대된다.

LLM 데이터 분야에서는 기존 텍스트 데이터를 기반으로 질문-근거 검토-오류 검증-답변 확정에 이르는 추론 과정을 포함하도록 데이터를 재구성한다.

이를 통해 단일 정답 제시에 그치지 않고, 다양한 판단 경로와 자기 검증 과정을 학습할 수 있는 데이터로 확장할 계획이다. 특히 동일한 문제에 대해 복수의 추론 경로를 구성하고 근거 기반 판단 및 오류 수정 과정을 포함함으로써, 복잡한 문제 해결이 가능한 추론형 AI 학습 기반을 마련할 예정이다.

피지컬 AI 분야에서는 기존 이미지·영상 데이터를 기반으로 시각 정보(V), 언어명령(L), 행동 및 제어(A)를 통합한 구조로 데이터를 고도화한다. 이를 통해 객체 인식 수준을 넘어, 시간 흐름에 따른 상황 변화와 객체 간 상호작용을 이해하고 목표 기반 행동을 생성할 수 있는 데이터로 확장할 계획이다.

업사이클링된 데이터는 향후 'AI Hub'를 통해 공개되어 기업, 연구기관, 스타트업 등이 자유롭게 활용할 수 있도록 제공될 예정이다.

최동원 과기정통부 인공지능인프라정책관은 "이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다"고 말했다.

yjra@news1.kr

추천 뉴스