GPT-5.2 출시 이전에 나온 오픈AI의 분석에 따르면 기업에 배포되는 챗GPT 엔터프라이즈 사용자는 평균적으로 40~60분의 업무 시간을 줄이고 있으며, 헤비 유저의 경우 주당 10시간 이상의 업무 시간을 절약하고 있는 것으로 조사된 바 있다. 이제 이 같은 영향은 더욱 커질 것으로 기대된다.
GPT-5.2는 GDPval에서 70.9% (GPT-5.2 Thinking)를 기록하는 등 다양한 벤치마크에서 새로운 최고 성능(SOTA)를 기록했다. GDPval은 GDP에 기여가 큰 44개 핵심 지식노동 영역에서 AI가 얼마나 높은 성과를 발휘하는지 살펴보는 벤치마크로, 이 과제에는 프레젠테이션, 스프레드시트 등의 실제 산출물이 포함된다.
특히 GPT-5.2 씽킹은 GDPval 과제에서 전문가 대비 11배 이상 빠른 속도, 1% 미만의 비용으로 결과를 생성했다(과거 지표 기준, 챗GPT 내 속도는 달라질 수 있음). 인간의 검토가 결합될 경우 전문 업무를 효과적으로 지원할 수 있음을 시사한다. 한 GDPval 심사위원은 “출력 품질이 눈에 띄게 도약했으며, 전문 회사가 제작한 것처럼 보인다”고 평가했다.
GPT-5.2 씽킹은 실제 소프트웨어 엔지니어링 역량을 엄격하게 평가하는 SWE-Bench Pro 벤치마크에서도 55.6%로 새로운 SOTA를 기록했다. 실무적으로는 코드를 더 안정적으로 디버깅하고, 기능 요청을 구현하며, 대규모 코드베이스를 리팩터링하며, 사람의 수작업 개입을 줄인 상태에서 수정 사항을 처음부터 끝까지 배포할 수 있게 됐다. 특히 프런트엔드 소프트웨어 엔지니어링에서 뛰어나, 초기 테스터들은 특히 3D 요소가 포함된 작업처럼 복잡하거나 기존 방식에서 벗어난 UI 구현에서 성능이 크게 향상되었다고 평가했다.
GPT-5.2 씽킹은 GPT-5.1 씽킹보다 환각에서도 개선을 이뤘다. 챗GPT에서 수집한 비식별화(de-identified) 질의 세트에서 오류가 있는 응답의 비율이 30% 상대적으로 감소했다. 전문가 관점에서 이는 리서치, 글쓰기, 분석, 의사결정 지원에 모델을 활용할 때 실수가 더 줄어든다는 뜻이며, 일상적인 지식 업무에서 더 신뢰할 수 있는 모델이 됐다는 의미다.
GPT-5.2는 이날부터 챗GPT 유료 사용자들을 시작으로 순차적으로 출시된다. API에서는 모든 개발자가 즉시 사용할 수 있다.









