뉴스펍

[이데일리 윤정훈 기자]생성형 AI 솔루션 전문 기업 제논은 컴퓨터 화면 내 요소를 정밀하게 식별하고 이를 직접 조작할 수 있는 VLM 모델 ‘훈민(Hunmin) VLM 235B’를 공개했다고 4일 밝혔다.

(사진=제논)

이번에 공개한 ‘훈민 VLM 235B(Hunmin_vlm_235b_v0.11_merged_cua)’는 지난해 7월 선보인 ‘훈민 32B’의 성능을 대폭 강화한 후속 버전이다. 기존 모델의 뛰어난 범용 지능을 유지하면서 시각적 인지 능력을 비약적으로 향상시켜 실무 환경에서의 실행력을 갖춘 것이 특징이다.

제논은 자사 AI 솔루션 ‘원에이전트(OneAgent)’의 업무 수행 역량을 극대화하기 위해 이번 모델 업그레이드를 진행했다. 특히 컴퓨터 화면을 정확히 식별해 원하는 위치를 클릭하는 ‘컴퓨터 유즈(Computer Use)’ 기술과 웹사이트를 넘나들며 복잡한 업무를 수행하는 ‘브라우저 유즈(Browser Use)’ 역량 강화에 초점을 맞췄다. 사용자의 명령을 이해해 업무의 시작부터 완결까지 직접 수행하는 ‘액셔너블(Actionable) AI’로서의 완성도와 실효성을 높였다는 설명이다.

훈민 VLM 235B는 범용 모델이 가진 방대한 지식 체계 위에 실무 환경에서의 ‘실행력’을 이식하는 데 집중했다. 알리바바의 Qwen3-VL(235B) 모델을 기반으로 UI 이해 및 마우스 이동 경로 등 엄선된 1,000여 개의 시나리오를 학습해 업무 수행 역량을 향상시켰다. 또한 자사 생성형AI 플랫폼인 제노스(GenOS)의 멀티테넌트(Multi-tenant) 서빙 기능을 활용해, 별도의 인프라 확장 없이도 단일 GPU 자원에서 기존 서비스와 동시 구동이 가능하도록 설계했다.

정교한 튜닝을 통해 특정 분야 학습 과정에서 범용 지능이 저하되는 ‘치명적 망각(Catastrophic Forgetting)’ 현상도 성공적으로 완화했다. 내부 테스트 결과, 훈민 VLM 235B는 한국어 VLM 벤치마크 점수를 유지함과 동시에 정밀 조작(Fine-grained Manipulation) 영역에서 기존 모델 대비 3.9% 향상된 성능을 기록했다. 또한 일상 업무 수행(Daily Apps)에서 6.0%, 미디어 도구 조작(VLC)에서 13.5%의 향상된 수치를 보이며 웹 탐색 및 문서 작업 등 실무 과업에서의 뛰어난 활용성을 확인했다.

제논은 이번 모델에 적용된 시각 인지 기술을 고도화해 향후 피지컬 AI 영역으로 확장할 계획이다. 현재 진행 중인 그라운딩(Grounding, 화면 요소 인식 능력) 역량 강화 PoC를 바탕으로 디지털 세계(SW)의 업무 능력을 물리적 환경(HW)으로 전이해 공정 자동화 기기나 서비스 로봇을 제어하는 ‘피지컬 원에이전트’의 초석을 다진다는 방침이다.

명대우 제논 부사장(CTO)은 “현재의 LoRA 튜닝 단계를 넘어 향후 풀 파라미터(Full Parameter) 학습으로 확장하고, 강화학습(RL) 및 시뮬레이션 기반 데이터 생성 파이프라인 고도화를 통해 자율 수행 능력을 지속적으로 업데이트할 것”이라며 “액셔너블 AI를 넘어 피지컬 AI까지 기술력을 단계적으로 확장해 산업 현장의 AI 전환을 실질적으로 이끄는 핵심 기술 기업으로 도약하겠다”고 말했다.

제논은 ‘훈민 VLM 235B’ 모델을 3일 글로벌 AI 커뮤니티인 허깅페이스(Hugging Face)에 오픈소스로 공개했다. 모델의 가중치뿐 아니라 학습 데이터 구성과 방법론 전체를 투명하게 공개함으로써 기술적 신뢰를 확보하고 국내외 AI 연구 생태계 발전에 기여한다는 방침이다.

제논, ‘훈민 VLM 235B’ 공개…액셔너블 AI 솔루션 고도화

IT/과학

추천 뉴스