"AI 조교? 아직 멀었다"…대학 에세이 채점 정확도 '절반' 수준

IT/과학

뉴스1,

2026년 5월 26일, 오전 06:10

(챗GPT 생성 이미지)

생성형 인공지능(AI)이 대학생 에세이 채점에서 인간 평가와 절반 수준만 일치하는 것으로 나타났다. 특히 AI는 학문적 깊이보다는 문장 구조나 어휘 수준에 더 민감하게 반응하는 것으로 분석됐다.

26일 업계에 따르면 케임브리지대학교가 주도한 연구팀은 영국 3개 대학의 심리학 학부생들이 제출한 761편의 에세이를 대상으로 챗GPT-5.4, 클로드 오퍼스 4.6 , 제미나이 3 플래시 등 3종의 AI를 활용해 채점을 진행한 결과를 분석했다.

연구 결과 AI가 인간 평가자가 부여한 학위 등급과 일치한 비율은 케임브리지대 63%, 노팅엄대 53%, 맨체스터 메트로폴리탄대 35% 수준으로 나타났다.

연구진은 AI 채점 결과가 인간 채점 결과와 차이를 보이는 이유 중 하나로 AI가 통계적 예측에 기반하기 때문이라고 지적했다.

연구진은 인간이 채점한 75점짜리 에세이는 모든 AI 시스템에서 평균적으로 몇 점 더 낮게 평가되고, 50점짜리 에세이는 몇 점 더 높게 평가됐다고 설명했다. AI가 우수한 에세이는 상대적으로 낮게, 낮은 점수를 받은 에세이는 실제보다 높게 평가해 '중간 점수'를 맞추려는 경향을 보인다는 것이다.

연구에 참여한 케임브리지 기술인문연구소의 알렉산드루 마르코치 박사는 "AI는 모든 제출물에 중간 점수를 부여해 가장 우수한 에세이와 가장 형편없는 에세이를 특히 부정확하게 채점하는 결과를 낳는다"고 말했다.

마르코치 박사는 "이러한 편향의 결과는 최우수와 상위 등급을 구분하거나 합격과 불합격을 가르는 경계선에서 정확도가 떨어진다는 것"이라고 덧붙였다.

또한 연구진은 AI가 에세이의 학문적 완성도보다 언어적 특징에 더 집중하는 모습을 보였다고 분석했다. AI가 논리성, 비판적 사고, 학문적 깊이 등 인간 평가자가 중요하게 여기는 요소를 판단하는 데 한계를 보였고 복잡한 문장 구조, 어려운 어휘 등에 따라 더 높은 점수를 부여했다는 것이다.

연구진은 현재 단계에서 AI가 학부생의 에세이 과제를 채점하기에는 역량이 부족하고 일관성이 떨어진다며 인간이 반드시 최종적으로 채점해야 한다고 조언했다.

케임브리지대의 심리학자 데보라 탈미 박사는 "AI 모델에 지나치게 의존하면 학생들의 성적이 획일화되고 재능을 과소평가하게 될 것이다. 또한 건전한 학문적 판단보다 언어적 스타일을 우선시하게 될 것"이라고 경고했다.

이어 탈미 박사는 "평가는 단순히 점수를 매기는 시스템이 아니다. 이를 통해 학생들은 인정받고 교육 기준이 유지된다"며 "인공지능을 평가에 활용하는 것은 이러한 가치들을 위협한다"고 말했다.

yjra@news1.kr

추천 뉴스