Pollux Logo

GR00T-Dreams & GR00T-Mimic 한눈에 비교하기

1. 개요

로봇이 실제 환경에서 자율적으로 움직이고 작업을 수행하려면, 매우 많은 수의 학습 데이터가 필요하다.

하지만 현실에서 그 데이터를 직접 수집하는 것은 비용이 많이 들고 시간이 오래 걸린다.

Image

그래서 NVIDIA는 GR00T 생태계라는 이름으로, 로봇이 학습할 데이터를 자동으로 생성하고, 증폭하고, 학습하고, 추론까지 이어지는 전체 파이프라인을 제시하고 있다.

이 문서에서는 특히 그 중에서 GR00T-DreamsGR00T-Mimic이 어떻게 다른지, 그리고 어떻게 로봇이 사용할 수 있는 학습 데이터를 만들어내는지 정리한다.

2. GR00T 생태계 전체 구조

GR00T는 단일 모델이 아니라, 로봇 학습 전체 파이프라인을 구성하는 여러 구성요소들의 생태계이다.

GR00T 생태계 구성요소

  • GR00T-Dreams : 새로운 시나리오, 새로운 행동 데이터를 생성하는 역할 – 텔레옵, 이미지·언어 등 적은 입력에서 시작해 행동 비디오 생성
  • GR00T-Mimic : 이미 존재하는 시연/데모/로봇 데이터를 기반으로 데이터를 다양하게 변형하고 증폭하는 역할(augmentation)
  • Cosmos : Predict / Reason / Transfer – 행동 예측, 3D 이해, 데이터 변환, 증폭 등을 처리하는 모델 모음
  • Isaac Lab / GR00T-Omni : 로봇의 관절/물리 기반 실제 시뮬레이션 환경 – 여기서 강화학습(policy training)이 진행됨
  • GR00T-RT / RFM (Robot Foundation Model) : 학습된 정책을 실제 로봇에서 추론·실행하는 단계

즉, Dreams와 Mimic은 데이터 생성 단계, Isaac Lab은 학습 단계, RFM은 실행 단계라고 이해하면 된다.

3. GR00T-Mimic – 기존 데이터를 확장하는 블루프린트

Image

개념

Mimic은 말 그대로 기존에 가지고 있는 시연 데이터(demonstration)를 모방하고, 변형하고, 확대하는 파이프라인이다.

입력은 다음과 같다:

  • 사람 텔레옵 데이터
  • 기존 로봇 조작 trajectory
  • Isaac Sim에서 기록된 데이터
  • 사람/로봇 전문가 데모

이러한 데이터에서 환경을 바꾸거나, 조명·배치·속도·물체 상태 등을 다양하게 바꿔서 새로운 학습 데이터를 대량 생성한다.

특징

Image
  • 입력: 이미 존재하는 trajectory
  • 출력: 동일 작업(task)에 대한 수천~수만 개의 변형 trajectory
  • 목적: 특정 작업에서 로봇의 숙련도 향상
  • 기술요소: Isaac Sim, Isaac Lab, Cosmos-Transfer 등을 이용한 증폭

요약

Mimic은 “기존 작업을 잘하게 만드는” 데 최적화된 방식이다.

4. GR00T-Dreams – 새로운 시나리오를 만드는 방식

개념

Image

Dreams는 처음부터 새로운 작업 시나리오를 만든다.

아주 적은 입력만으로도 시작할 수 있다.

예시:

  • 한 장의 이미지
  • 텍스트 설명
  • 짧은 텔레옵 시연
Image

Dreams는 이렇게 최소 입력을 기반으로 행동 비디오를 생성하고, Cosmos가 그 비디오를 분석하여 로봇이 실제로 학습할 수 있는 trajectory로 변환한다.

핵심 특징

  • 입력: 최소 정보(이미지/텍스트/간단한 시연)
  • 출력: 완전히 새로운 작업 trajectory
  • 목적: 로봇의 범용성(Generalization) 강화
  • 기술요소: DreamGen, Cosmos Predict/Reason, pose reconstruction

5. Dreams는 단순한 비디오 생성 기술이 아니다

Image

많은 사람들이 “Dreams는 그냥 비디오 생성 기술 아닌가?”라고 생각한다.

하지만 진짜 중요한 것은 비디오 이후 단계이다.

Dreams는 비디오를 생성한 뒤, 로봇 학습에 필요한 구조화된 데이터로 변환하는 전체 파이프라인을 포함한다.

즉, Dreams는 비디오 → 3D Pose → 로봇 trajectory → 물리 기반 토크로 이어지는 전체 변환을 수행한다.

6. GR00T-Dreams 파이프라인: 비디오 → 로봇 학습 데이터

여기서 Dreams의 기술력이 가장 잘 드러난다.

① DreamGen: 행동 비디오 생성

Image
  • 입력: 텍스트, 이미지, 짧은 시연
  • 출력: 자연스러운 사람 행동 영상
  • 아직 joint 데이터는 없음

② Cosmos Predict/Reason: 3D Pose Reconstruction

Image

비디오의 각 프레임에서 다음이 추출된다.

  • 3D skeleton
  • 손 orientation
  • 신체 segment trajectory
  • 물체-손 상호작용

픽셀 기반 영상이 3D 구조화 동작으로 바뀌는 단계다.

③ Retargeting: 인간 동작 → 로봇 관절공간

Image

이 3D 인간 행동을 로봇 관절공간(q, qdot)으로 변환한다.

  • joint limit
  • balance constraints
  • reachable workspace
  • 로봇의 kinematics이 모두 반영된다.

이 단계에서 Action Tokens(로봇 행동 표현) 가 생성된다.

④ Inverse Dynamics: 물리량 재구성

로봇이 실제로 실행하려면 필요한 다음 물리값을 계산한다.

  • torque
  • contact force
  • momentum
  • foot placement force
Image

결과적으로 Dreams는 로봇이 즉시 정책 학습에 사용할 수 있는 완전한 trajectory 데이터를 생성한다.

7. Mimic vs Dreams 요약 비교

항목GR00T-MimicGR00T-Dreams
출발점기존 시연 데이터최소 입력(텍스트/이미지/짧은 시연)
목적숙련성 향상(known task)범용성 향상(novel task)
방식데이터 증폭(augmentation)새로운 시나리오 생성
기술Isaac Sim + Cosmos-TransferDreamGen + Cosmos Predict/Reason
결과물기존 작업 변형 데이터새로운 작업 trajectory & 물리데이터

8. 마무리

Dreams와 Mimic은 서로 목적과 기술이 다르지만, 둘 다 로봇 학습 데이터 확보에서 핵심적인 역할을 한다.

  • Mimic: 이미 알고 있는 작업을 더 잘하게 만드는 방식
  • Dreams: 새로운 작업을 새로 생성해 로봇의 범용성을 키우는 방식
  • Cosmos: Dreams/Mimic의 데이터 처리, 변환을 수행하는 기반 모델
  • Isaac Lab: 로봇의 정책을 학습하는 환경
  • RFM: 실제 로봇에서 학습된 정책을 실행하는 모델

9. 관련 및 참고 링크

Training Humanoid Robots With Isaac GR00T-Dreams

https://www.youtube.com/watch?v=pMWL1MEI-gE

Teaching Robots New Tasks With GR00T-Dreams

https://www.youtube.com/watch?v=QHKH4iYYwJs

GR00T: NVIDIA Humanoid Robotics Foundation Model

https://www.youtube.com/watch?v=ZSxYgW-zHiU

Isaac GR00T-Mimic: Isaac Lab Office Hour

https://www.youtube.com/watch?v=r24CiGLYFQo

이 글 공유하기:

Copyright 2025. POLLUX All rights reserved.