플리토, 아랍어 음성 데이터 수집 착수…AI 언어 격차 해소 나서

IT/과학

이데일리,

2026년 2월 10일, 오전 08:55

[이데일리 이소현 기자] 인공지능(AI) 데이터 및 솔루션 전문 기업 플리토(300080)는 AI 모델의 다국어 인식률 향상을 위해 고품질 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다고 10일 밝혔다.

플리토 아랍어 음성 데이터 수집 프로젝트로 글로벌 AI 언어 격차 해소(사진=플리토)
이번 프로젝트는 음성인식(STT) 모델의 취약 언어로 꼽히는 아랍어의 낮은 인식률을 개선하고, 지역별 방언 차이를 체계적으로 반영하기 위해 기획됐다. 아랍어는 표준어(MSA) 외에도 30개 이상의 방언이 존재하고, 일상 회화에서는 표준어와 방언을 혼용하는 코드 스위칭 현상이 빈번해 AI 학습 데이터 구축 난이도가 높은 언어로 알려졌다.

플리토는 자사 모바일 애플리케이션 내 음성 데이터 수집 기능인 ‘아케이드’를 활용해 아랍어 음성 데이터 수집 이벤트를 운영하고 있다. 이용자가 제시된 문장을 읽고 발음을 녹음하면, AI 시스템이 이를 자동 분석해 발화 음성의 방언 유형을 판별하는 방식이다. 방언 유형이 불분명할 경우에는 추가 문장을 제시해 재참여를 유도함으로써 데이터 정확도를 높이도록 설계했다.

플리토는 최근 글로벌 빅테크 기업을 중심으로 다국어 음성 데이터 수요가 꾸준히 증가하면서 실제 프로젝트 요청도 확대되고 있다며, 이번 프로젝트를 통해 향후 잠재 수요에 선제적으로 대응한다는 계획이다.

회사 측은 이번 아랍어 음성 데이터 수집을 통해 단순 음성 정보뿐 아니라 발화자의 패턴, 억양, 어휘 선택 등 언어적 다양성이 반영된 정교한 학습용 데이터 구축이 가능할 것으로 기대하고 있다. 이를 통해 언어 자원 편차에 따른 AI 학습 편향을 완화하고, 실사용 환경에서도 높은 인식률을 구현할 수 있는 데이터셋으로 발전시킨다는 방침이다.

이정수 플리토 대표는 “아랍어는 전 세계 4억 명 이상이 사용하는 주요 언어지만, 사용 인구에 비해 AI 학습용 데이터가 부족한 저자원 언어에 속한다”며 “이번 프로젝트를 통해 아랍어 고유의 특성과 실제 사용 맥락을 반영한 데이터 구축으로 글로벌 AI 모델의 아랍어 인식 품질을 한층 끌어올리는 데 기여하겠다”고 말했다.

추천 뉴스