한국어에 약한 AI, 이유 있었다…“소버린 AI, 데이터 넘어 설계부터 바꿔야”

IT/과학

이데일리,

2026년 1월 11일, 오후 07:04

[이데일리 권하영 기자] 데이터가 곧 자원인 시대, 인공지능(AI)은 기업의 생존을 위한 필수 도구가 됐다. 하지만 명확한 이유 없이 오작동하는 AI의 ‘블랙박스’ 문제는 여전히 AI의 산업 현장 도입을 가로막는 걸림돌이다. 이 난제에 대해 사이버 보안을 넘어 ‘데이터 인텔리전스’로 해법을 제시하는 기업이 있다. 바로 에스투더블유(488280)(S2W)다.

최근 경기도 성남시 본사에서 만난 박근태 S2W 최고기술책임자(CTO)가 이데일리와 인터뷰하고 있는 모습. 사진=S2W
S2W는 지난해 11월 세계 최고 권위의 자연어처리(NLP) 학회인 ‘EMNLP 2025’에 대규모언어모델(LLM)의 구조적 취약점을 규명한 논문을 등재시키며, 4년 연속 세계 3대 AI 학회(ACL·NAACL·EMNLP)에 입성하는 쾌거를 이뤘다.

최근 경기도 성남시 본사에서 만난 박근태 S2W 최고기술책임자(CTO)는 이번 성과에 대해 “AI 모델의 기초 언어 단위인 ‘토크나이저’에서 발생하는 비영어권 언어의 구조적 불평등을 입증한 것”이라며 “결국 신뢰할 수 있는 AI를 만들기 위해서는 ‘설명 가능하고 통제 가능한 기술’이 필수적임을 시사한다”고 강조했다.

◇영어는 1바이트, 한국어는 3바이트…‘깨진 조각’이 부르는 AI 환각

S2W와 KAIST 공동연구팀이 발표한 논문의 핵심은 명확하다. LLM이 언어를 이해하기 위해 문자를 바이트(byte) 단위로 쪼개는 도구인 ‘토크나이저’가 영어가 아닌 언어를 처리할 때 태생적인 결함을 드러낸다는 것이다.

1바이트로 구성되는 영어 알파벳과 달리 한국어나 중국어 등은 한 글자가 3바이트 이상으로 구성되는데, 이러한 다중 바이트 글자들은 처리 속도와 효율성을 위해 1바이트 단위로 분절하는 현재의 토크나이저 불완전한 조각으로 쪼개지기 쉽다.

박 CTO는 이를 ‘고구려 유리왕 설화’에 비유해 “주몽이 부러진 칼 조각을 맞춰 유리왕의 아들임을 증명했듯, 토큰도 조각이 서로 맞물려야 비로소 의미가 생긴다”며 “의미가 깨진 바이트 조각(불완전 토큰)들이 입력되면 AI는 이를 엉뚱한 맥락으로 해석해 환각(Hallucination)을 일으킨다”고 설명했다.

◇‘설명·통제 가능한 AI’ 필요성…온톨로지 기술 대두

이 문제는 결국 각국이 자국 데이터와 언어를 주권적으로 다루는 ‘소버린(Sovereign) AI’의 필요성을 역설적으로 증명한다.

박 CTO는 “이러한 불완전 토큰 문제를 해소하려면 단순히 자국 언어 데이터를 많이 학습시키는 것을 넘어, 언어 처리의 메커니즘 단계에서부터 기술적 보완이 필수적”이라며 “해당 언어의 특성을 가장 예민하게 이해하는 주체는 그 언어를 쓰는 국가와 기업인 만큼, 토크나이저 설계나 전처리 등 기술적 밑단에서부터 우리 언어에 맞는 해법을 찾는 것이 소버린 AI의 역할”이라고 강조했다.

여기서 S2W가 정의하는 소버린 AI의 핵심은 ‘설명할 수 있고, 통제 가능한 AI’다. AI 모델이 구조적으로 완벽할 수 없다면, 그 결과를 검증하고 통제할 수 있는 시스템을 갖춰야 한다는 논리다. 그리고 이를 위해서는 결국 AI의 ‘블랙박스(내부 작동 원리를 알 수 없는 상태)’ 문제를 해결해야 한다.

S2W는 그 해법으로 ‘온톨로지(Ontology)’와 ‘지식그래프(Knowledge Graph)’를 제시한다. 온톨로지는 사물과 사물 간의 관계를 컴퓨터가 이해할 수 있도록 규정한 약속이며, 지식그래프는 이를 바탕으로 데이터를 연결해 맥락을 시각화한 결과물이다.

박 CTO는 “AI가 어떤 과정을 통해 결론을 내렸는지 설명할 수 있어야 산업 현장에서 의사결정의 도구로 쓸 수 있다”며 “지식그래프를 활용하면 AI의 추론 과정을 투명하게 시각화하고, 잘못된 연결 고리를 사람이 직접 수정해 통제할 수 있다”고 설명했다.

이는 S2W가 다크웹 분석에서 쌓은 독보적인 역량이기도 하다. 다크웹의 무질서하고 비정형화된 데이터를 수집하고 분석하던 기술력이 이제는 기업의 복잡한 데이터를 체계적으로 정리하는 핵심 무기가 된 셈이다.

◇“보안 기업 넘어 ‘믿고 쓰는 AI 에이전트’ 파트너 될 것”

현재 S2W는 도메인 특화 온톨로지 플랫폼인 ‘SAIP’를 공급하며 시장을 확장하고 있다. SAIP는 각 산업 전문가의 지식을 온톨로지 구조로 체계화하고 이를 조직 데이터와 연계해 지식그래프로 구축하는 플랫폼이다. 각 산업 특성에 맞는 답변을 제공할 뿐 아니라, AI의 모든 추론 과정과 근거를 직접 확인할 수 있어 신뢰도가 높다. 현대제철이 공정 데이터 구조화에 S2W의 기술을 도입한 것이 대표적 사례다.

이와 함께 독자 개발한 다크웹 특화 언어모델 ‘다크버트’를 탑재한 공공·안보용 데이터 분석 플랫폼 ‘자비스(XARVIS)’, 기업용 보안 위협 분석 플랫폼 ‘퀘이사(QUAXAR)’ 등 자체 솔루션으로 사업의 양축을 공고히 하고 있다.

S2W는 글로벌 데이터 분석 강자 팔란티어와의 차별점도 자신한다. 박 CTO는 “팔란티어가 거대한 시스템 전환을 요구하는 ‘빅뱅’ 방식이라면, S2W는 필요한 도메인별로 특화 모델을 레고 블록처럼 조립하는 ‘민첩함’이 강점”이라며 효율성 측면의 경쟁우위를 확신했다.

다음 목표는 ‘AI 에이전트’다. 단순히 질문에 답하는 챗봇을 넘어, 스스로 판단하고 행동하는 AI 에이전트가 되려면 무엇보다 ‘신뢰’가 전제되어야 한다.

박 CTO는 “단순히 질문에 답하는 생성형 AI만으로는 사용자들이 기대 만큼의 만족감을 얻지 못하고, 결국 사람이 다시 판단해야 하는 번거로움을 느끼고 있다”며 “이제는 스스로 판단하고 행동하며 실질적으로 업무를 덜어줄 수 있는 AI 에이전트가 필요한 시점”이라고 말했다.

이어 “AI 에이전트가 의사결정을 돕거나 자동화된 행동을 하려면, 그 결과가 설명 가능하고 통제 가능하다는 것을 반드시 입증해야 한다”며 “S2W는 보안 영역에서 검증된 온톨로지와 지식그래프 기술을 바탕으로, 산업 현장에서도 궁극적으로 ‘믿고 맡길 수 있는 AI 에이전트’를 제공하는 기업이 될 것”이라고 포부를 밝혔다.

추천 뉴스