뉴스펍

[이데일리 김현아 기자] 이르면 16일쯤 정부가 추진해온 ‘독자 AI 파운데이션 모델’ 심사에 참여한 5개 컨소시엄 가운데 탈락 업체가 발표될 전망이다. 심사 대상에 오른 업스테이지에 이어 네이버클라우드까지 ‘독자 모델’ 논란에 휘말리면서, 평가 기준을 둘러싼 논쟁도 다시 커지고 있다.

업스테이지 ‘솔라(Solar)’를 둘러싼 중국 모델 복제 논란은 해프닝으로 일단락되는 분위기지만, “단순히 ‘프롬 스크래치(From Scratch·백지 상태에서 시작)’로 구동에 성공했다는 사실만으로 수천억 원의 세금이 투입된 국가 사업의 취지를 충족할 수 있느냐”는 질문은 여전히 남는다. 오픈소스를 활용하되 출처를 표기했다면, 그 자체로 설계의 독자성을 인정받을 수 있는지를 두고도 해석이 엇갈린다.

이현종 빅스터 대표. 출처=본인 페이스북

“핵심은 데이터가 아니라 소스코드”

이런 가운데 검색엔진 개발 업체 출신으로, 현재 에이전트 전문기업 빅스터를 이끄는 이현종 대표는 7일 이데일리와의 인터뷰에서 “독자성 판단의 핵심은 학습 데이터가 아니라 소스코드”라며 “정부 과제일수록 소스코드 검증을 더 엄격하게 해야 한다”고 주장했다.

이 대표는 업스테이지와 네이버를 둘러싼 의혹이 반복되는 배경으로 ‘프롬 스크래치’ 개념의 혼용과 오픈소스 의존 문제를 지목했다. 그는 평가 기준을 ‘소스코드 수준의 독자성’으로 명확히 세워야 한다고 강조했다.

그는 “AI 모델을 구성하는 요소는 소스코드, 학습 데이터, 학습 과정”이라며 “경험상 비중은 소스코드 80%, 데이터 10%, 학습 과정 10%”라고 말했다. 일부 오픈소스 라이브러리를 활용하는 것은 가능하지만, 핵심 소스코드를 통째로 가져다 쓰고 일부만 바꾸는 방식은 독자성을 인정받기 어렵다는 취지다.

또한 그는 오픈소스를 “출처 표기 의무가 있는 무료 공유주방”에 비유했다. 누구나 쓸 수는 있지만 어떤 주방의 도구와 규칙을 가져다 썼는지에 따라 결과물이 달라지고, 특정 환경에 종속되면 ‘독자’라는 주장도 흔들릴 수 있다는 설명이다.

이 대표는 AI 개발 과정을 요리에 빗대기도 했다. 엔지니어는 셰프, 학습 데이터는 재료, 아키텍처·알고리즘은 레시피에 해당한다. 토크나이저는 재료 손질, 임베딩은 재료 배합, 가중치 조절은 화력과 간 맞추기라는 식이다. “재료(데이터)를 바꿨다고 해서 주방과 레시피(소스코드)가 내 것이 되는 건 아니다”라는 논리다.

특히 그는 “from scratch 학습”과 “from scratch 모델”을 구분해야 한다고 선을 그었다. 동일한 소스코드(기존 모델 구조)를 가져와 새 데이터를 처음부터 학습시키는 것은 ‘처음부터 학습했다’는 의미에서는 맞을 수 있어도, 그 자체를 ‘프롬 스크래치 모델’이나 ‘파운데이션 모델’로 부르는 데는 무리가 있다는 주장이다. “모델 독자성을 말하려면 소스코드 수준에서의 독자성이 먼저 확인돼야 한다”는 것이다.

업스테이지·네이버는 검증 필요…“통제력 따져야”

업스테이지 설명에 대해서는 “기존 모델을 가져와도 데이터를 처음부터 학습하면 독자 모델”이라는 주장만으로는 “논란이 완전히 해소된 게 아니다”라며, 오픈소스를 가져다 썼다면 숨기지 말고 공개해야 한다고 언급했다.

네이버에 대해서도 같은 잣대를 들이댔다. 그는 “네이버가 비전 모델(하이퍼클로바X Omni-8B)에서 이슈가 터졌다”며 “비전 코드 일부 활용이라면 ‘오픈소스를 잘 활용했다고 볼 여지가 있지만, 가중치까지 가져왔다면 통제 가능한지 검증이 필요한 부분”이라고 했다.

다만 그는 “개별 기업이 잘했다 못했다를 단정하려는 게 아니라 원칙을 말하는 것”이라며, 정부 과제로 추진되는 ‘독자 AI’라면 이런 부분을 더 엄격하게 따져야 한다고 강조했다.

LG(003550) AI연구원에 대해서는 상대적으로 긍정적인 평가를 내렸다. 그는 “LG 쪽은 프롬 스크래치 소스코드라고 알고 있다”고 했다. LG만이 ‘하이브리드 어텐션’ 등 모델 구조에 대한 고민을 내놓았을 뿐, 나머지 기업들은 정부가 요구한 ‘4개월’이라는 짧은 일정에 쫓겨 외국 모델 구조를 참고한 ‘프롬 스크래치’ 수준에 머물렀다는 의미로 설명했다.

기술 넘어 법적 리스크…“라이선스 바뀌면 끝”

오픈소스 의존이 기술 문제가 아니라 법적 리스크로 번질 수 있다는 경고도 덧붙였다. “오픈소스를 내놓은 쪽에서 라이선스를 바꾸거나 철회하는 상황이 오면, 이미 쓰던 쪽은 대응이 어려울 수 있다”는 것이다. 이 경우 “통제력 확보가 핵심인 독자성·소버린 논의가 한순간에 무너질 수 있다”고 했다.

이 대표의 주장은 오픈소스 활용은 현실적으로 불가피할 수 있지만, ‘독자 AI 파운데이션 모델’을 국가 프로젝트로 추진한다면 용어를 흐리게 써서는 안 되며, 무엇보다 소스코드 수준에서의 독자성을 검증해야 한다는 것이다. 그는 “국민들 자존심에 스크래치가 나지 않았으면 한다”며, 이견이 있다면 공개 토론을 통해 기준을 명확히 하자고 제안했다.

LG만 독자 AI?…“국가대표AI, 소스코드부터 검증하라”

IT/과학

추천 뉴스