GPT-5.4는 챗GPT, API, 코덱스(Codex) 등 오픈AI의 주요 제품 전반에 적용되는 가장 뛰어나고 효율적인 프론티어 모델로, 추론 능력과 코딩 성능, 그리고 에이전트 기반 워크플로를 하나의 모델로 통합한 것이 특징이다. GPT-5.4는 특히 GPT-5.3-코덱스의 업계 최고 수준 코딩 능력을 통합하면서 스프레드시트, 프레젠테이션, 문서와 같은 전문 업무 환경에서 다양한 도구와 소프트웨어를 활용하는 방식을 크게 개선했다. 이를 통해 복잡한 실제 업무를 보다 정확하고 효율적으로 수행할 수 있으며, 사용자가 원하는 결과를 얻기까지 필요한 반복 작업도 줄였다.
성능 측면에서도 GPT-5.4는 주요 벤치마크에서 의미 있는 개선을 보였다. AI 에이전트가 실제 지식 기반 업무를 수행하는 능력을 평가하는 GDPval 벤치마크에서 GPT-5.4는 전체 업무 과제 비교 중 83%에서 산업 전문가와 동등하거나 더 높은 수준의 결과를 보였다.
특히 코딩 능력을 재는 ‘SWE-벤치 프로 퍼블릭’ 지표에서는 GPT-5.4가 57.7%를 받았는데, 이는 제미나이3.1 프로(54.2%)를 상회하는 점수다.
다만 범용적인 AI 성능을 측정하는 지표 ‘인류 마지막 시험(HLE)’ 성적은 39.8%(GPT-5.4프로는 42.7%)로 제미나이 3.1프로(45.9%)를 뛰어넘지 못했다. 이에 GPT-5.2 출시 이후 4개월간 준비한 모델임에도 성능 수준이 기대에 못 미쳤다는 평가가 나온다.
또 오픈AI는 지금껏 코딩 능력 평가 기준으로 삼아왔던 ‘SWE-벤치 베리파이드’ 지표는 공개하지 않았다. 오픈AI는 이 지표가 AI 훈련 데이터 등에 노출돼 결과가 오염됐기 때문이라고 설명했다. ‘SWE-벤치 베리파이드’에서는 지금까지 클로드 오퍼스 4.6이 가장 높은 점수를 유지해 오고 있다.









