이번 업데이트의 핵심은 업계 최초로 도입된 ‘시간 기반 메타데이터 추출(Time Based Metadata)’ 방식이다. AI가 영상을 단순히 시청하는 수준을 넘어, 사용자가 정의한 기준에 따라 영상을 정밀하게 구간 분할(Segmentation)하고 각 구간의 시작과 종료 시점 및 상세 내용을 데이터로 추출해내는 기술이다.
그동안 영상 편집과 아카이빙은 숙련된 인력이 수천 시간의 영상을 일일이 확인해야 하는 수작업에 의존해 왔다. 하지만 페가수스 1.5는 이 과정을 ‘언어’ 하나로 자동화한다. 개발자가 복잡한 코드를 짤 필요 없이 “뉴스 앵커가 바뀔 때마다 구간을 나눠줘”라거나 “특정 출연자가 등장하는 서사 위주로 챕터를 구성해줘”와 같은 자연어 명령만으로 영상 구조를 설계할 수 있다.
트웰브랩스는 활용 범위도 넓다고 강조했다. 엔터테인먼트 분야에서는 특정 인물 두 명의 이미지를 입력해 수십 회차의 영상 속에서 두 사람이 함께 등장하는 장면만 선별해 하나의 서사로 재구성할 수 있다. 미디어 환경에서도 “날씨 코너만 분리해줘” 같은 요청으로 전체 뉴스 영상을 자동 챕터화해 숏폼 콘텐츠로 재가공하는 것이 가능하다.
스포츠 분야 역시 경기 영상을 플레이 단위로 분할하거나 득점 상황, 특정 선수의 활약 장면을 자동 추출해 하이라이트 클립을 만드는 등 콘텐츠 제작 워크플로우를 대폭 단축할 수 있다. 특히 농구나 미식축구처럼 공수 전환이 빠르고 플레이 단위가 명확한 종목에서 정밀한 분석 강점을 보인다.
페가수스 1.5는 시각·청각·맥락 신호를 동시에 읽어내는 멀티모달 기술의 정점을 구현했다는 평가다. 화면 전환이나 오디오 변화는 물론, 주제가 바뀌는 미세한 흐름까지 감지해 구간 경계를 찾아낸다. 최대 2시간 분량의 긴 영상도 단 한 번의 API 호출로 정밀하게 구조화할 수 있어 대규모 영상 자산을 보유한 기업들의 운영 효율이 극대화될 것으로 기대된다.
성능 면에서도 기존 대규모 언어 모델들보다 우수한 지표를 기록했다고 트웰브랩스는 전했다. 구간 분할 정확도 평가에서 구글의 제미나이 3.1 프로(Google Gemini 3.1 Pro) 대비 13.1% 높은 성능을 보였으며, 구간 시간 경계 정확도는 약 350밀리초 이내로 유지된다. 인덱싱이나 전처리 작업 없이 원본 파일만으로 즉시 결과를 도출할 수 있다는 점도 차별화된 경쟁력이다.
이재성 트웰브랩스 대표는 “영상 안에 무엇이 있는지를 아는 것과 그것이 정확히 어디에 있는지를 찾아내는 것은 전혀 다른 차원의 문제”라며 “페가수스 1.5는 이 두 번째 질문을 본격적으로 해결한 모델”이라고 밝혔다. 이어 “사용자가 기준만 정의하면 AI가 영상 구조를 자동 설계하는 방식이 보편화되면서, 영상 콘텐츠는 더 이상 소비 대상이 아니라 기업이 자유롭게 가공·활용하는 데이터 자산으로 확장될 것”이라고 강조했다.









