(AI 생성 이미지)
LLM 분야에서는 복잡한 문서 이해와 논리적 판단, 도구 활용 등 문제 해결 과정에서 단계적 추론과 판단 근거를 포함하는 데이터를 확보한다. 세부적으로는 여러 페이지에 분산된 텍스트·표·차트 등을 종합해 문서 전체 맥락에 기반한 판단과 결론을 도출하도록 학습하는 복합 문서 기반 전문 추론데이터를 구축한다.
또 과학·공학적 연구데이터와 실험 이력 등을 구조화한 AI for Science 데이터, 공공·민간 서비스의 API를 선택해 요구사항을 수행하는 한국어 기반 도구호출(Tool Calling) 추론데이터가 포함된다. 웹 및 모바일 환경에서 사용자의 행동 과정을 단계적으로 이해하는 웹/GUI 기반 행동 추론데이터와 한국어 이해·생성 과정의 오류를 논리적 근거로 수정하도록 구성한 오류 증강 및 교정 추론데이터도 함께 구축될 예정이다.
피지컬 AI 분야에서는 제조 환경의 돌발 변수와 문제 상황에 대해 AI가 원인을 분석하고 해결 방안을 도출하는 자율 제조 기반 데이터를 확보한다. 설비의 다중 센서 데이터를 구조와 결합해 전문가의 판단 프로세스로 이상 징후를 진단하는 제조설비 멀티센서 진단 및 원인 추론데이터, 단순 불량 판정을 넘어 발생 원인까지 규명하는 표면 결함 원인 분석 및 품질 판정 추론데이터가 주요 과제다.
로봇 분야에서는 작업 실패 맥락을 분석해 최적의 복구 계획을 수립하는 로봇 작업 실패 원인 추론 및 복구 행동 데이터와 가상 물리 시뮬레이션 환경에서 정교한 동작을 조정하는 휴머노이드 행동 생성 물리 시뮬레이션 추론데이터를 구축한다. 공정 간 시차가 발생하는 비동기적 특성을 고려해 공정 조건이 품질에 미치는 영향을 추론하는 비동기 공정 인과성 분석 및 추론데이터도 구축 대상에 포함됐다.
이번 사업을 통해 구축된 데이터는 향후 AI 허브를 통해 공개되어 기업과 연구기관, 스타트업 등이 자유롭게 활용할 수 있도록 제공될 예정이다. 최동원 과기정통부 인공지능인프라정책관은 “생성형 AI 확산으로 고차원적 추론과 맥락 이해가 가능한 학습용 데이터 수요가 증가하고 있다”며 “이번 사업을 통해 실제 산업 현장에서 필요한 맞춤형 추론데이터를 확보해 대한민국 AI 산업의 질적 도약을 적극 지원하겠다”고 밝혔다.









