기존 월드모델들이 다음 화면의 상태를 이미지(픽셀) 단위로 생성해 글자 뭉개짐이나 형태 왜곡이 발생했다면, gWorld-32B는 ‘실행 가능한 웹 코드(HTML·CSS)’ 형태로 예측해 기존 모델의 구조적 한계를 혁신적으로 개선했다.
해당 기술은 다음 화면의 사진을 찍어 보내는 방식이 아닌 정교한 설계도에 해당하는 코드를 생성해 실시간 고화질 렌더링(Rendering)을 유도한다. 이를 통해 렌더링 실패율을 1% 미만으로 낮췄으며, 텍스트와 아이콘을 왜곡 없이 선명하게 유지하는 높은 정확도를 확보했다.
특히 모델 최적화 기술로 매개변수 규모가 50배 이상 큰 초거대 AI 모델인 ‘Llama-4-402B’를 상회하는 GUI(Graphical User Interface, 사용자가 화면 속 아이콘이나 메뉴를 통해 기기와 소통하는 시각적 체계) 예측 성능을 기록했다. 이는 gWorld-32B이 실제 모바일 환경에서 화면 변화와 인터페이스 동작을 예측·생성할 수 있는 ‘실전형 멀티모달’ 모델임을 보여준다.
또한 국내 모바일 환경에 특화된 한국어 벤치마크인 KApps(한국 모바일 앱 조작 성능 평가 지표)에서도 별도의 추가 학습 없이 바로 실전에 투입 가능한 ‘제로샷(Zero-shot, AI가 특정 데이터를 추가로 학습하지 않고도 처음 접하는 과업을 즉시 수행하는 것)’성능을 구현했다.
신재민 트릴리온랩스 대표는 “묻고 답하는 AI를 넘어, 복잡한 디지털·물리적 환경에서 직접 행동하는 ‘실행형 AI’의 시대가 도래했다”며 “이는 정부 AI 전략 과제가 본격화되기 이전부터 월드모델에 집중해온 결과물로, 로보틱스와 공공 서비스 자동화 등 다양한 영역에서 대한민국 AI 주권과 산업 경쟁력에 혁신을 가져올 것으로 기대한다”고 말했다.









