(사진=로이터)
18일 MS에 따르면, MS 자율 코드 보안(ACS) 팀이 구축한 MDASH는 단일 모델 접근 방식의 한계를 보완하기 위해 프런티어 모델과 증류 모델을 결합한 앙상블 아키텍처를 적용했다. 100개 이상의 전문 AI 에이전트가 취약점 발견부터 검증·토론, 악용 가능성 증명까지 전 과정을 엔드투엔드로 수행하도록 설계된 것이 특징이다. 개발에는 DARPA AI 사이버 챌린지에서 우승한 ‘팀 애틀랜타’ 출신 핵심 엔지니어들이 참여했다.
MDASH는 공개 사이버짐(CyberGym) 벤치마크 리더보드 평가에서 성공률 88.45%를 기록하며 최고 점수로 1위에 올랐다. 이는 188개 OSS-Fuzz 프로젝트에서 추출한 1507개 취약점 재현 과제를 기반으로 한 평가다.
특히 이번 평가 결과에서 MDASH는 경쟁사들의 차세대 모델들을 모두 제쳤다. MDASH는 2위를 기록한 앤스로픽의 미공개 프론티어 모델 ‘클로드 미토스 프리뷰(Claude Mythos Preview, 83.1%)’보다 약 5포인트 높은 점수를 기록했다.
공개 사이버짐 벤치마크 리더보드(88.4%)에서 1위를 기록한 마이크로소프트 MDASH. (MS 제공)
◇앤스로픽 미토스·오픈AI GPT-5.5 꺾고 리더보드 1위
MS 오펜시브 리서치&보안 엔지니어링(MORSE) 팀 및 윈도우 공격 리서치&보호(WARP) 팀과의 협업을 통해 실전 탐지 능력도 입증됐다. 이번 5월 패치 화요일(Patch Tuesday)을 통해 윈도우 네트워킹 및 인증 스택 전반에서 MDASH가 식별한 16개의 신규 취약점(CVE)이 반영됐다. 이 가운데 4건은 치명적(Critical) 원격 코드 실행(RCE) 취약점으로, 윈도우 커널 TCP/IP 스택(CVE- 2026- 33827)과 IKEv2 서비스(CVE- 2026- 33824) 등 핵심 구성요소에서 발견됐다.
단일 AI 모델들이 놓쳤던 이러한 복잡한 결함들을 잡아낼 수 있었던 것은 MDASH만의 다단계 시스템 아키텍처 덕분이다. 대표적으로 ‘CVE- 2026- 33827’의 경우 함수 내부에서 인지하기 어려운 커널 레이스 컨디션 기반 UAF(Use-after-free) 오류였으며, ‘CVE- 2026- 33824’는 6개 소스 파일에 걸쳐 분산된 별칭 lifecycle 버그였다.
MDASH는 단일 프롬프트가 아니라 소스 분석(준비)-후보 발굴(스캔)-에이전트 간 교차 토론(검증)-중복 제거(데둡)-실제 트리거 입력 실행(증명)으로 이어지는 5단계 자동화 파이프라인과 100여 개의 전문 에이전트 간 논쟁 프로세스를 통해 이를 완벽히 식별해냈다.
성능 검증을 위해 진행된 다수의 벤치마크에서도 압도적인 수치를 기록했다. 모델의 사전 학습 영향을 배제하기 위해 외부에 공개된 적 없는 비공개 장치 드라이버(StorageDrive) 테스트를 진행한 결과, 의도적으로 주입된 21개 취약점을 오탐 없이 100% 정확히 식별해냈다.
연도별 주요 AI 모델의 취약점 탐지 성공률 추이. (MS 제공)
아울러 MS 보안 대응 센터(MSRC)의 5개년 확정 사례를 기준으로 한 회고 평가에서는 공통 로그 파일 시스템(clfs.sys) 96%(28건), tcpip.sys 100%(7건)의 높은 재현율을 달성했다. 파일 시스템의 인바리언트를 이해하고 트리거 로그를 직접 빌드하는 전용 플러그인 확장성이 주효했다는 설명이다.
MDASH의 또 다른 강점은 ‘모델 불가지론적(Model-agnostic)’ 설계에 있다. 향후 새로운 고성능 AI 모델이 출시되더라도 전체 파이프라인을 재구축할 필요 없이 설정 변경과 A/B 테스트만으로 새 모델의 성능을 그대로 흡수할 수 있어 기술적 지속성을 보장한다.
김태수 MS 에이전틱 보안 부사장은 “MDASH는 마이크로소프트 엔지니어링 팀이 상용 AI 모델을 활용해 보안 성과를 실질적으로 개선하는 데 도움을 주고 있다”며 “앞으로도 마이크로소프트는 모두에게 더 안전한 세상을 만들기 위한 노력을 이어갈 것”이라고 밝혔다.
한편, MS는 현재 일부 고객을 대상으로 MDASH의 제한된 비공개 프리뷰(Limited Private Preview)를 진행 중이며 공식 웹페이지를 통해 참여 신청을 받고 있다.









