Pollux Logo

RFM(Robot Foundation Model) 한눈에 보기

Robot Foundation Model (RFM) 한눈에 보기

Robot Foundation Model은 로봇이 시각, 언어, 행동 데이터를 통합적으로 학습하여, 다양한 형태와 과제에 일반화된 행동지능을 발휘하도록 설계된 거대 모델이다. 인간의 ‘상식적 물리 이해 + 목표 지향 행동’을 모방하면서, 특정 로봇이나 태스크에 국한되지 않고 범용적인 스킬 전이를 가능하게 한다.

Image

RFM은 WFM이 만들어낸 ‘물리적으로 일관된 상상세계’를 학습의 장으로 사용한다. 그 안에서 수천, 수만 가지의 시뮬레이션 상황을 경험하며, 행동정책(policy)과 전략을 연마한다. 결국 RFM은 현실세계에서의 물리적 제약을 인식하고, 다양한 목표에 맞춰 능동적으로 행동하는 행동지능의 총체가 된다.

  • 핵심 역할:
    • 멀티모달(언어, 비전, 행동) 통합 학습
    • 다양한 로봇 플랫폼과 작업(예: 물체 조작, 내비게이션, 협업 등)에 적용 가능.
    • 대규모 데이터셋을 통해 사전 훈련되며, 도메인별 미세 조정(fine-tuning)으로 특화.
    • 현실환경에서의 일반화된 정책 실행
  • 직접적 목표:
    • 범용 행동지능 (Generalizable Embodied Intelligence)

RFM의 1차 목표는 다양한 로봇 형태와 환경에서도 일관된 행동 원리를 학습이다.

즉, 특정 로봇이나 특정 과제에 고정된 정책이 아니라, 다양한 형태의 로봇(팔, 다리, 모바일, 휴머노이드 등)과 다양한 태스크(조작, 이동, 협업 등)에 공통적으로 적용 가능한 행동 표현(behavior representation) 을 만드는 것이다.

  • 심층적 목표:
    • 의도(Intention)와 목적(Purpose)의 물리화

조금 더 깊게 들어가면, RFM의 최종 목표는 “행동 그 자체”가 아니라 의도(intent)와 목적(goal) 을 물리적 세계에서 실현하는 능력이다.

  • 인간이 “책을 정리한다”는 의도를 세우면, 수많은 미세 행동이 자연스럽게 조직된다.
  • RFM은 그와 같은 상위 의도를 행동적 계층으로 분해하고 실현하는 것을 지향한다.
  • 대표 모델:
    1. NVIDIA GR00T N1 (2025) – 범용 로봇 파운데이션 모델, GR1/H1/G1 등 다형태 로봇 학습
Image
  1. DeepMind RT-X / RT-2 (2023) – 다수 로봇 플랫폼 통합 행동 학습, Large Behavior Model 기반
Image
  1. Physical Intelligence π₀ (pi-zero) (2024) – VLA 플로우 모델, 멀티 로봇/작업, 오픈소스

RFM의 구조 및 학습 체계

RFM은 시각(Perception), 언어(Language), 행동(Action)을 통합한 “Perception–Reasoning–Action Loop” 구조를 가진다.

로봇은 환경으로부터 입력된 관측값을 해석하고(Perception), 언어적 명령이나 목표를 이해한 뒤(Language Reasoning), 행동정책(Policy Model)을 통해 실제 동작(Action)으로 연결한다.

이 과정은 다음의 기술적 프레임워크를 기반으로 한다.

구성 단계주요 기술 기반설명
Perception (인식)Vision Transformer, 3D Point Cloud Encoder, RGB-D Fusion카메라 및 센서 데이터를 통해 장면과 객체 상태를 인식
Reasoning (이해/계획)LLM 기반 Goal Parsing, Graph Transformer언어적 명령과 시각 정보를 통합하여 행동 계획 생성
Action / Policy (행동)Diffusion Policy, Reinforcement Learning, Imitation Learning물리 제약 내에서 최적의 행동정책을 실행
관련 자료:GR00T N1: An Open Foundation Model for Generalist Humanoid Robots — arXiv (2025)
관련 자료:π₀: A Vision-Language-Action Flow Model for General Robot Control — arXiv (2024)

WFM과의 관계 — “World Model + Policy Model” 구조

RFM은 WFM(World Foundation Model)이 생성한 ‘물리적으로 일관된 가상 세계(Consistent Virtual World)’를 학습의 장으로 사용한다.

Image

즉, WFM이 “무엇이 일어날지 (What happens next)”를 예측한다면, RFM은 “무엇을 해야 하는가 (What to do next)”를 결정한다.

Image

이 두 모델의 결합은 “Perception → Simulation → Action”의 완전한 인지–행동 루프(Perception–Action Loop)를 형성하며, AI가 시뮬레이션에서 학습한 정책을 현실 로봇에 이식(Sim-to-Real)할 수 있도록 돕는다. 이러한 구조는 실제로 NVIDIA Cosmos (WFM)NVIDIA GR00T (RFM) 간의 설계 철학으로 이어진다. 즉, Cosmos가 세계의 물리적 법칙을 예측하고 시뮬레이션하는 반면, GR00T는 그 환경 안에서 로봇의 행동정책을 학습하여 현실 환경으로 전이한다.

관련 자료:NVIDIA Newsroom — “Isaac GR00T N1 and Cosmos: A Unified Physical AI Framework” (2025)
Image

GR00T는 합성 모션(Synthetic Motion) 학습 파이프라인을 통해, 인간의 실제 시연 데이터를 증강해 대규모 모방 학습을 수행한다.

이 과정에서 수천 개의 인공 동작 데이터를 생성하여, 적은 수의 인간 시연만으로도 정책 학습 성능을 극적으로 향상시킬 수 있다.

관련 자료:NVIDIA Developer Blog — Building a Synthetic Motion Generation Pipeline for Humanoid Robot Learning

산업 적용 및 활용 분야

RFM은 WFM과 결합되어 다양한 산업 현장에서 지능형 행동 정책 학습 모델로 확장될 수 있다.

Image
분야주요 적용 예시
제조 및 물류로봇팔 조립, 피킹/플레이스, 자동화 라인 제어
모빌리티자율주행 로봇, 동적 장애물 회피, 실내 내비게이션
휴머노이드 / 서비스 로봇인간-로봇 협업, 제스처 기반 상호작용, 환경 반응형 행동
연구 / 교육로봇 정책 연구, 강화학습 실험, 시뮬레이션 검증 플랫폼

글로벌 RFM 동향 & 향후 방향

RFM은 현재 여러 연구기관 및 글로벌 기업에서 범용 로봇 행동 모델(Fundamental Robot Models) 개념으로 연구 중이다.

Image
구분모델개발 주체핵심 특징대표 적용
행동 통합형GR00T N1NVIDIAVision-Language-Action 구조 기반, 휴머노이드 지원물체 조작, 보행 등
대규모 데이터형RT-X / RT-2DeepMind + Google Robotics대규모 행동 데이터 통합 학습다중 플랫폼 행동
RL 융합형π₀ (pi-zero)Physical IntelligenceVision-Language-Action Flow + RL 통합 모델범용 정책 학습
3D 조작형FP3CMU / MIT포인트클라우드 기반 3D 조작 전략로봇팔, 조작 모델
시뮬레이션 확장형NVIDIA Genesis-2NVIDIA Research초고속 시뮬레이션 엔진 + 합성 데이터 생성Sim-to-Real 학습 확대
관련 자료:Robotics Startup Raises $105M to Build AI Model for Robots — Genesis AI

RFM의 진화 방향 — “From Embodied Models to Physical AI”

RFM은 단순히 로봇 행동 정책을 학습하는 모델을 넘어, 언어, 시각, 행동을 통합한 물리적 사고(Physical Reasoning) 를 수행하는 모델로 진화할 것이다.

향후 연구 방향은 다음과 같다.

  1. Embodied Multimodality

언어, 시각, 음성, 촉각 등 복수 센서 모달리티의 통합적 이해

  1. Adaptive Skill Transfer

로봇 형태나 환경 변화에 따라 자동으로 스킬 전이하는 능력

  1. Continual Learning / Life-long Learning

현실 피드백을 통해 지속적으로 행동정책을 갱신

  1. Physical Cognition & Causal Reasoning

환경의 물리 법칙, 인과 관계를 스스로 이해하고 활용

  1. Multi-Agent 협력 지능

여러 로봇 간 협업, 분담 및 공동 목표 수행을 위한 행동 정책 발전

이 글 공유하기:

Copyright 2025. POLLUX All rights reserved.