한컴, 벤치마크 1위 ‘오픈데이터로더 2.0’ 공개...AI 문서파싱 주도권 승부수

IT/과학

이데일리,

2026년 3월 12일, 오전 11:45

[이데일리 김현아 기자] 한글과컴퓨터(030520)가 오픈소스 PDF 데이터 추출 기술 ‘오픈데이터로더(OpenDataLoader) PDF v2.0’을 공개하며 글로벌 AI 문서 파싱 시장 공략에 속도를 낸다.

단순한 기능 개선을 넘어, AI 에이전트 시대의 핵심 인프라로 꼽히는 문서 파싱 기술을 오픈소스로 전면 개방해 생태계 주도권을 선점하겠다는 전략이다.

12일 업계에 따르면 오픈데이터로더 PDF v2.0의 핵심은 ‘로컬 기반 하이브리드 엔진’이다. 규칙 기반의 직접 추출 방식에 AI 처리를 결합해 복잡한 문서 구조까지 정밀하게 분석하면서도, 문서를 외부 서버로 보내지 않고 로컬 환경에서 처리할 수 있도록 설계됐다. 깃허브 저장소에도 “Deterministic local mode + AI hybrid mode for complex pages”라고 명시돼 있다.

한컴은 이번 버전이 벤치마크에서 최고 수준 성능을 기록했다고 강조했다. 공식 깃허브 저장소에 공개된 수치에 따르면 오픈데이터로더 하이브리드 버전은 읽기 순서, 표, 제목 추출 정확도를 종합한 전체 점수에서 0.90을 기록해 비교 대상 가운데 1위를 차지했다. 표 정확도는 0.93, 읽기 순서 정확도는 0.94로 제시됐다. 한컴은 관련 벤치마크 데이터와 재현 가능한 코드도 함께 공개했다.

이번 공개의 또 다른 포인트는 개방성 강화다. 오픈데이터로더 PDF는 이번 2.0 버전부터 기존 MPL 2.0이 아닌 아파치 2.0 라이선스를 적용했다. 저장소에도 현재 라이선스가 Apache License 2.0으로 표시돼 있으며, “2.0 이전 버전은 MPL 2.0”이라고 적시돼 있다. 상업적 활용 제약을 낮춰 웹앱, 서비스형소프트웨어(SaaS) 등 다양한 비즈니스 모델 확산을 겨냥한 조치로 풀이된다.

기능 측면에서는 무료 AI 애드온 확대가 눈에 띈다. 공식 설명에 따르면 하이브리드 모드에서 광학문서인식(OCR), 복잡한 표 추출, 수식 추출, 차트·이미지 설명 기능을 지원한다. 스캔 PDF용 OCR은 80개 이상 언어를 지원하고, 복잡하거나 경계선이 없는 표도 처리할 수 있으며, 수식은 LaTeX 형태로 추출할 수 있다. 차트와 이미지에 대해서는 AI 기반 설명 생성 기능도 제공한다.

한컴은 이를 AI 에이전트 시대의 문서 인프라로 키운다는 구상이다. 저장소에는 이미 랭체인 연동이 가능하다고 소개돼 있고, 향후 다양한 AI 프레임워크와의 확장 계획도 제시돼 있다. 또 2026년 2분기에는 태그드 PDF 자동 생성 기능을 무료 오픈소스로 제공하겠다는 로드맵도 담겼다. 한컴은 이를 바탕으로 문서 접근성 자동화까지 사업 영역을 넓히겠다는 전략이다.

한컴의 승부수는 기업 고객이 민감하게 보는 보안성과 개발자가 중시하는 개방성, 그리고 AI 시대에 필요한 문서 구조화 성능을 한 번에 묶어 글로벌 표준 도구로 자리 잡겠다는 것이다.

AI 모델 경쟁이 치열해질수록, 이들 모델이 읽고 이해할 문서를 얼마나 정확히 구조화하느냐가 성능을 좌우하는 만큼 한컴도 ‘문서 추출 엔진’이라는 기반 시장에서 존재감을 키우려는 것으로 보인다.

추천 뉴스