"촉각 느끼는 휴머노이드"…MS 첫 피지컬 AI '로-알파' 공개

IT/과학

뉴스1,

2026년 1월 22일, 오전 11:28

자연어 지침 따른 비지박스(BusyBox) 조작 및 특정 과업군(task family) 전반의 어포던스 일반화(Affordance generalization) 성능 시연(마이크로소프트 제공)

마이크로소프트(MS)가 첫 로보틱스 모델 '로-알파'(Rho-alpha·ρα)를 공개하고 피지컬 AI(Physical AI) 시장 공략에 나선다.

MS 리서치가 22일 공개한로-알파는 기존 VLA 모델의 한계를 넘어선 'VLA+' 모델로 인지 측면에서 촉각 센싱을 접목했다.

MS 측은 "파이(Phi) 시리즈 비전-언어 모델을 기반으로 비전-언어-행동(Vision-Language-Action·VLA) 모델을 개발했다"며 "여기에 촉각 센싱을 접목한 VLA+ 모델은 기존VLA에서 일반적으로 사용하는 인지·학습 모달리티의 범위를 넘어 확장했다는 점에서 차별화된다"고 설명했다.

이어 "자연어 명령을 로봇의 제어 신호로 변환해 양손 조작(bimanual manipulation)을 수행할 수 있다는 점이 핵심"이라며 "로봇이 비구조화된 환경에서 자율적으로 작동할 수 있는 새로운 가능성을 제시했다"고 언급했다.

마이크로소프트 리서치 최신 로보틱스 모델 로-알파(Rho-alpha) 공개(마이크로소프트 제공)

구글 딥마인드의 RT-2 등 기존 VLA 모델이 주로 시각과 언어 정보를 학습했다면, 로-알파는 촉각 피드백을 통해 로봇이 물체의 접촉 상태를 감지하고 섬세하게 조작할 수 있다는 설명이다.

로-알파는 사람의 교정 피드백을 지속 학습해 성능을 개선한다. 로봇이 오류를 범할 때 작업자가 3D 마우스 등의 장치로 동작을 바로잡으면 시스템이 실시간으로 이를 학습해 다음 작업에 반영한다.

MS는 로보틱스 데이터 부족 문제를 해결하기 위해엔비디아 아이작 심(NVIDIA Isaac Sim) 프레임워크를 활용해 강화 학습 기반 합성 데이터를 생성한다. 애저(Azure) 클라우드 인프라에서 시뮬레이션을 구동하고 이를 상용 및 실제 시연 데이터셋과 결합해 훈련 효율을 높였다.

중국 유니트리 G1 휴머노이드 로봇에 피지컬 AI 로-알파 탑재(마이크로소프트 제공)

MS 리서치는 로-알파의 성능을 검증하는 물리적 상호작용 벤치마크 '비지박스'(BusyBox)도 공개했다.

비지박스는 스위치·슬라이더·버튼·다이얼 등 6개 모듈로 구성된 3D 프린팅 가능한 키트로 로봇이 기본 어포던스(affordance)를 얼마나 일반화할 수 있는지 등을 평가한다.

현재 MS와 워싱턴대 연구진은 로-알파를 접목한 듀얼 암(dual-arm) 로봇과 휴머노이드 로봇(G1 등)을 대상으로 다양한 조작 환경에서 행동 궤적을 학습하도록 훈련하고 있다.

MS 관계자는 "향후 수개월 내 듀얼 암 시스템 등의 기술 상세 내용을 공개할 계획"이라며 "로봇 제조사와 시스템 통합 업체를 위한 리서치 얼리 액세스 프로그램도 시작했다"고 말했다.

애슐리 로렌스 MS 리서치 액셀러레이터 부사장은 "피지컬 AI가 로보틱스를 재정의하고 있다"며 "로봇이 복잡하고 예측 불가능한 환경에서 인지·추론·행동할 수 있도록 지원한다"고 했다.

ideaed@news1.kr

추천 뉴스