샘 올트먼(Sam Altman) 오픈AI CEO. 2025.10.1 © 뉴스1 안은나 기자
오픈AI가 AI와 이용자의 대화 과정을 더 자연스럽게 만들고 실시간으로 음성을 인식할 수 있는 음성 AI 모델 3종을 선보였다.
오픈AI는 7일(현지시간) △복잡한 음성 대화와 추론을 수행하는 'GPT-리얼타임-2' △실시간 다국어 음성 번역 모델 'GPT-Realtime-Translate' △실시간 음성 전사 모델 'GPT-Realtime-Whisper' 등을 공개했다.
GPT-리얼타임-2는 GPT-5 수준의 추론 능력을 갖춘 음성 모델이다. 이 모델은 이용자와 대화 도중 요청이 바뀌거나, 말을 끊는 상황에도 자연스럽게 대처하는 것이 특징이다.
또한 이용자의 요청 이해 및 문맥 유지가 가능하고 여러 도구를 동시 호출해 작업을 수행할 수 있다. 예를 들어 일정 확인, 예약 변경, 고객 응대 등을 음성 대화 형태로 처리할 수 있는 것이다.
GPT-리얼타임-트랜슬레이트는 70개 이상의 입력 언어를 13개 언어로 실시간 번역해 주는 모델이다. 고객 지원, 교육, 글로벌 행사, 해외 영업 등에 활용될 것으로 기대된다.
GPT-리얼타임-위스퍼는 음성을 텍스트로 변환해 주는 모델로 회의록 작성, 회의 자막 등에 활용 가능할 것으로 보인다.
오픈AI는 "음성은 사람이 소프트웨어를 사용하는 가장 자연스러운 인터페이스 중 하나로 자리 잡고 있다"며 "이번 모델은 단순한 음성 응답을 넘어 실제 작업을 수행할 수 있는 AI 음성 에이전트를 구현하기 위한 것"이라고 설명했다.
이는 오픈AI가 준비하고 있는 자체 AI 기기와도 연관이 있을 것으로 풀이된다. 오픈AI는 지난해 조니 아이브 전 애플 최고 디자인책임자가 설립했던 AI 기기 스타트업 '아이오'(Io)를 약 65억 달러에 인수, 음성으로 작동하는 형태의 AI 기기를 개발 중인 것으로 알려졌다.
yjra@news1.kr









