[논문리뷰] SuperPADL: Scaling Language-Directed Physics-Based Control with Progressive Supervised Distillation
SIGGRAPH 2024. Paper
Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng
NVIDIA | Stanford University | University of Toronto | Simon Fraser University
July 2024
Introduction
Physics-Based Character Animation의 확장성 문제
Physics-based character animation에서 강화학습(RL)을 활용한 제어 policy는 locomotion부터 체조, 무술에 이르기까지 다양한 motor skill을 재현할 수 있습니다. 그러나 이러한 RL 기반 방법들은 motion 데이터가 수백 개를 넘어가면 학습이 제대로 이루어지지 않는다는 근본적인 한계가 있습니다. 이전 연구인 PADL(Juravsky et al. 2022)은 약 9분 분량의 motion 데이터에서만 효과적으로 작동하였습니다.
RL이 대규모에서 실패하는 원인은 여러 가지가 복합적으로 작용하는 것으로 보입니다. 첫째, policy가 수천 개의 서로 다른 동작을 하나의 네트워크로 동시에 수행해야 하므로 탐색 공간이 폭발적으로 커집니다. 둘째, discriminator도 수천 개의 동작 스타일을 동시에 구별해야 하므로 학습 난이도가 높아져, policy에 전달되는 reward 신호의 품질이 저하됩니다. 셋째, 한 동작의 학습이 다른 동작의 성능을 악화시키는 간섭(interference) 문제가 발생합니다.
반면 kinematic motion 모델(MDM, MotionDiffuse 등)은 supervised learning을 통해 수천 개의 motion을 성공적으로 학습할 수 있습니다. 이것이 가능한 이유는 학습 데이터의 구조에 있습니다. Kinematic 모델은 텍스트 입력에 대해 관절 위치 시퀀스를 출력하는데, 이 관절 위치가 MoCap 데이터에 직접 존재하기 때문에 입력-출력 쌍이 명확한 supervised learning이 바로 가능합니다. Physics-based 모델에서는 policy가 토크(관절 힘)를 출력해야 하는데, MoCap 데이터에는 관절 위치만 기록되어 있을 뿐 그 동작을 만들어낸 토크 정보가 포함되어 있지 않으므로, supervised learning을 직접 적용할 수 없어 RL에 의존해야 합니다.
그러나 kinematic 모델은 물리 시뮬레이션이 아니기 때문에 물리 법칙을 위반하거나(발이 바닥을 뚫거나, 공중에 떠 있거나), 환경과의 상호작용(외부 힘에 대한 반응, 물체 조작)이 불가능하다는 한계가 있습니다.

인터페이스의 한계
물리 캐릭터를 제어하는 인터페이스에도 한계가 있습니다. 조이스틱이나 waypoint 기반 인터페이스는 사용이 쉽지만 캐릭터의 세밀한 행동을 지정할 수 없습니다. 목표 궤적이나 키프레임 기반 인터페이스는 원칙적으로 모든 동작을 지정할 수 있지만, 참조 동작을 제작하는 것 자체가 MoCap 장비나 전문 지식을 요구하는 노동 집약적 과정입니다. Kinematic text2motion 모델과 low-level tracking controller를 조합하는 방법도 있지만, 시뮬레이션 캐릭터의 능력이 kinematic 모델에 종속되며 동작 품질도 순수 physics-based 시스템보다 낮습니다.
자연어는 접근성(누구나 텍스트를 쓸 수 있음)과 유연성(다양한 동작을 기술 가능)을 모두 갖춘 인터페이스이지만, physics-based 캐릭터를 위한 language-directed controller는 kinematic 모델 수준의 다양성과 확장성에 아직 도달하지 못한 상황입니다.
SuperPADL의 핵심 아이디어
본 논문은 이러한 관찰에 착안하여, RL은 효과적인 소규모에서만 사용하고, 대규모 통합은 supervised learning으로 처리하는 progressive distillation 프레임워크인 SuperPADL을 제안합니다. 기존의 mixture-of-experts 방식은 런타임에 모든 expert를 메모리에 유지해야 하지만, SuperPADL은 distillation을 통해 하나의 네트워크에 압축합니다. 이전의 단일 단계 distillation(MoCapAct, Wagener et al. 2023)이 약 3.5시간 분량으로 확장한 데 비해, SuperPADL은 다단계 progressive distillation으로 8.5시간 분량(5000개 이상 skill)까지 확장합니다.
Overview
Progressive Distillation의 3단계 구조
SuperPADL의 학습은 세 단계로 진행되며, 단계가 진행될수록 RL의 비중이 줄고 supervised learning의 비중이 커지는 구조입니다.
Stage 1 — Per-Motion Expert (순수 RL): 데이터셋의 모든 MoCap 시퀀스에 대해 개별 DeepMimic expert tracking policy를 학습합니다. DeepMimic(Peng et al., SIGGRAPH 2018)은 하나의 MoCap 클립을 프레임 단위로 정확히 따라가는 controller를 RL로 학습하는 방법입니다. 이 단계의 목적은 kinematic MoCap 데이터를 물리 시뮬레이션 도메인으로 변환하여, supervised learning에 사용할 토크(행동) 데이터를 확보하는 것입니다.
Stage 2 — Group Controller (RL + Supervised): 데이터셋을 20개 motion씩 그룹으로 나누고, 각 그룹에 대해 adversarial RL(PADL)과 behaviour cloning(BC)을 결합한 PADL+BC objective로 학습합니다. 이 단계에서 phase 변수가 제거되고, skill 간 전환 능력을 획득합니다.
Stage 3 — Global Controller (순수 Supervised): 모든 group controller를 하나의 텍스트 조건 global policy로 distill합니다. DAGGER 방식의 online imitation learning으로만 학습되어 대규모 데이터셋으로의 확장이 가능합니다.

Stage 1: Per-Motion Expert Tracking Policies
대규모 text-labeled MoCap 데이터셋 \(D = \{(m_i, C_i)\}\)에서 각 motion \(m_i\)에 대해 DeepMimic expert policy \(\pi^e_i(\mathbf{a}_t | \mathbf{o}_t, \phi)\)를 학습합니다. 여기서 \(\phi \in [0, 1]\)는 policy를 참조 동작에 동기화하는 phase 변수입니다. Phase 변수는 "지금 MoCap 클립의 어디쯤인지"를 알려주는 타이머 역할을 하며, \(\phi = 0\)이면 클립 시작, \(\phi = 1\)이면 클립 끝을 의미합니다. 매 프레임마다 \(\phi\)가 조금씩 증가하면서 policy에게 참조 동작의 현재 시점을 알려줍니다.
각 expert는 최대 3000 epoch(약 200M 프레임)까지 학습하되, cartesian pose error가 3cm 이하로 떨어지면 조기 종료합니다. 5cm 이상의 오차가 유지되는 경우 해당 motion은 데이터셋에서 제외됩니다. NVIDIA Isaac Gym의 GPU 가속을 활용하여 대부분의 expert가 1시간 이내에 학습을 완료하며, 전체 motion 중 약 5%만이 제외됩니다. 제외되는 motion은 주로 존재하지 않는 제3자 물체가 관여하는 동작(계단 오르기, 의자에 앉기 등)이거나, 바닥 접촉이 빈번하여 early termination이 발동하는 동작(기어가기 등)입니다.
물리적으로 불가능한 동작의 필터링은 두 단계로 이루어집니다. Stage 1 이전에 캐릭터의 사지 높이를 검사하여 "장시간 공중에 떠 있는" motion을 감지하는 규칙 기반 사전 필터가 적용되며, 2초 미만이나 9초 초과 클립도 제거됩니다. Stage 1 이후에는 expert가 충분히 학습해도 pose error가 5cm 이상으로 남는 motion을 물리적으로 재현 불가능한 것으로 판단하여 제외합니다.
학습 완료 후 각 expert에서 10000개의 observation-action 프레임으로 구성된 궤적 데이터를 수집합니다.
\[T_i = (\mathbf{o}^i_1, \mathbf{a}^i_1, \mathbf{o}^i_2, \mathbf{a}^i_2, \ldots)\]
여기서 행동 \(\mathbf{a}\)는 스칼라가 아니라 모든 관절의 목표 각도를 담은 벡터입니다. 예를 들어 34 DoF 휴머노이드의 경우 \(\mathbf{a}_t\)는 34차원 벡터이며, 각 차원이 하나의 관절에 대응합니다. PD controller가 각 관절의 목표 각도에 맞는 토크를 개별적으로 계산하여 물리 엔진에 적용합니다.
데이터 수집 시 다양성을 높이기 위해 참조 동작의 랜덤 프레임에서 100번 초기화하여 각각 100프레임씩 rollout합니다. 90%의 rollout에서는 stochastic action을 샘플링하여 다양한 상태를 방문하되, 기록되는 action은 항상 policy의 평균(deterministic action)으로 저장합니다. 이는 궤적 데이터에 noise가 섞이는 것을 방지하기 위함입니다. 이렇게 수집된 궤적 데이터셋 \(D_T = \{T_i\}\)이 이후 Stage 2, 3에서 supervised learning의 label로 사용됩니다.
Stage 2: Group Controllers with PADL+BC
Stage 2의 목적
Stage 1 이후 남는 것은 각각 하나의 MoCap 클립만 재현할 수 있는 전문화된 expert들입니다. 이 expert들은 높은 재현 품질을 보이지만 다른 동작을 생성할 수 없으며, 교란이나 out-of-distribution 상태에서의 복원력이 부족합니다. Stage 2의 목표는 개별 expert의 동작 품질은 유지하면서도 여러 동작의 재현, skill 간 전환, phase 변수 없는 동작이 가능한 더 범용적인 controller를 학습하는 것입니다.
데이터 분할
데이터셋을 20개 motion씩 랜덤으로 분할하여 각 그룹에 대한 controller를 학습합니다.
\[P_i = \{(m_{20i+1}, C_{20i+1}), (m_{20i+2}, C_{20i+2}), \ldots, (m_{20i+20}, C_{20i+20})\}\]
랜덤 분할을 사용하는 이유는, 5000개 motion을 의미 기준으로 나누려면 모든 motion에 카테고리 레이블이 필요하고 경계도 모호하여(걸으면서 손 흔드는 건 걷기인지 제스처인지) 분류 작업 자체가 큰 노동이 되기 때문입니다. 또한 Stage 3에서 모든 group controller를 하나로 합치므로, Stage 2에서의 그룹 구성은 최종 결과에 큰 영향을 미치지 않는 것으로 보입니다.
Group Controller의 구조
각 group controller \(\pi^g_i(\mathbf{a}_t | \mathbf{o}_t, I)\)는 현재 캐릭터의 관찰 \(\mathbf{o}_t\)와 motion index \(I \in \{20i+1, \ldots, 20i+20\}\)를 입력으로 받습니다. DeepMimic expert는 하나의 클립 전용이므로 "무엇을 할지" 지정할 필요가 없었지만, group controller는 20개 동작을 모두 수행해야 하므로 어떤 동작을 해야 하는지 알려주는 motion index I가 필요합니다. I는 숫자를 그대로 입력하는 것이 아니라 학습 가능한 임베딩 테이블로 인코딩되어 벡터로 변환됩니다.
Phase 변수의 제거
Expert에서 사용되었던 phase 변수 \(\phi\)는 group controller의 관찰에서 제거됩니다. Phase 변수를 제거한다는 것은 네트워크 입력 차원에서 \(\phi\)를 아예 포함하지 않는 것입니다. Phase가 없으면 policy는 "지금 클립의 몇 번째 프레임인지" 모르는 상태에서 학습해야 합니다.
이때 동작의 타이밍은 현재 관찰 \(\mathbf{o}_t\)로부터 암묵적으로 추론됩니다. 예를 들어 걷기 동작에서 "오른발이 앞에 있고 왼발이 뒤에 있다"는 관찰 자체가 "지금 걷기 사이클의 중간쯤이다"라는 정보를 암묵적으로 포함하고 있습니다.
Phase를 제거하는 이유는 skill 전환 때문입니다. 걷기(I=3, \(\phi\)=0.7) 도중에 펀치(I=7)로 전환하려면 펀치의 \(\phi\)를 어떤 값으로 설정해야 하는지 정답이 없습니다. Phase를 제거해야만 "현재 상태에서 자연스럽게 다음 동작으로 이어가는" 전환이 가능해집니다.
PADL+BC Objective
학습 objective는 adversarial RL(PADL)과 behaviour cloning(BC)을 결합한 것입니다.
\[\mathcal{L} = \mathcal{L}_{\text{PADL}} + 0.01 \mathcal{L}_{\text{BC}}\]
Adversarial RL (PADL) 부분:
PADL은 AMP(Peng et al. 2021)의 adversarial motion prior 아이디어를 확장한 것으로, motion-conditioned discriminator를 사용합니다.
\[\text{Disc}(I, \mathbf{s}, \mathbf{s}') \rightarrow [0, 1]\]
Discriminator는 참조 동작 \(m_I\)의 MoCap 상태 전이(진짜)와 policy가 I로 conditioning되었을 때 생성한 상태 전이(가짜)를 구별하도록 학습됩니다. Policy는 PPO를 통해 discriminator를 "속이는" 방향으로 학습됩니다.
\[r_t = -\log(1 - \text{Disc}(I, \mathbf{s}_{t-1}, \mathbf{s}_t))\]
이 식을 분석하면, \(\text{Disc}(\cdot)\)가 1에 가까울수록(진짜 같을수록) \(1 - \text{Disc}(\cdot)\)는 0에 가까워지고, \(-\log\)를 취하면 매우 큰 양수가 되어 높은 reward가 됩니다. 반대로 가짜 같으면 \(\text{Disc}(\cdot) \approx 0\)이므로 \(-\log(1) = 0\)으로 낮은 reward가 됩니다. 즉 MoCap처럼 자연스러운 동작을 생성할수록 높은 reward를 받습니다.
Behaviour Cloning (BC) 부분:
BC는 가장 단순한 형태의 모방 학습으로, Stage 1에서 수집한 expert 궤적 데이터의 행동을 직접 따라하도록 supervised learning합니다.
\[\mathcal{L}_{\text{BC}} = \mathbb{E}_{I \sim \{20i+1, \ldots, 20i+20\}} \mathbb{E}_{(\mathbf{o}, \mathbf{a}) \sim T_I} \| \pi^g_i(\mathbf{o}, I) - \mathbf{a} \|^2_2\]
Group controller가 출력한 행동과 expert가 같은 상태에서 출력했던 행동(토크 목표 벡터) 사이의 제곱 오차를 최소화합니다. 모든 관절의 목표 각도에 대해 동시에 차이를 측정하는 것입니다.
전환 능력의 학습
Group controller의 전환 능력은 명시적으로 가르치지 않습니다. "걷기에서 펀치로 전환하는 MoCap 데이터"가 따로 존재하는 것이 아니라, 학습 구조에서 자연스럽게 발생합니다.
학습 중 motion index I를 주기적으로 랜덤 변경합니다. 예를 들어 I=3(걷기)으로 시작한 에피소드 도중에 I=7(펀치)로 바꿉니다. 이 순간 discriminator는 I=7 조건으로 현재 전이를 평가하는데, 캐릭터가 아직 걷는 자세이므로 펀치 MoCap 전이와 전혀 닮지 않아 낮은 점수를 줍니다. 중요한 점은 discriminator가 전환 과정을 "잘했다"고 평가하는 것이 아니라, 전환 구간에서는 일관되게 낮은 reward를 부여한다는 것입니다.
그럼에도 전환 능력이 학습되는 이유는 RL이 누적 보상을 최대화하기 때문입니다. 전환 구간에서는 reward가 낮지만, 빨리 목표 동작에 도달하면 이후에 높은 reward를 더 오래 받을 수 있습니다. 따라서 "전환 중 잠깐 손해를 보더라도 빨리 목표 동작의 분포에 도달하는" 전략이 최적이 됩니다. 동시에 early termination(넘어지면 에피소드 종료)이 작동하여, 넘어지면 이후의 모든 보상을 잃게 되므로, "넘어지지 않으면서 가능한 빨리 목표 동작에 도달하는" 균형점을 찾게 됩니다. 이 결과물이 외부에서 보면 자연스러운 전환 동작으로 나타납니다.
이러한 전환 능력은 BC만으로는 달성할 수 없습니다. BC 데이터에는 전환 동작이 존재하지 않기 때문입니다. Adversarial RL이 필요한 핵심적인 이유가 바로 이 전환 능력과 robustness의 획득이며, BC는 기본적인 동작 품질을 빠르게 확보하는 역할을 담당합니다.
PADL+BC의 학습 흐름
학습은 두 단계로 구성됩니다. 먼저 2000 epoch의 BC-only warmup을 수행합니다. 이 단계에서는 RL 없이 Stage 1에서 수집한 expert 궤적 데이터만으로 supervised learning하여, group controller가 "각 동작을 대략적으로 흉내내는" 수준에 도달하도록 합니다. 이 warmup이 중요한 이유는, policy가 완전 랜덤인 상태에서 adversarial RL을 시작하면 discriminator가 구별하기 너무 쉬워 reward 신호가 유용하지 않기 때문입니다.
Warmup 이후에는 실제 물리 시뮬레이션에서 rollout하면서 PADL+BC를 1B 샘플만큼 학습합니다. 순수 PADL의 7B 샘플 대비 크게 줄어든 양이며, 단일 A40 GPU에서 약 12시간이 소요됩니다. 순수 PADL controller는 거의 3일이 필요합니다.

Stage 3: Global Text-Conditioned Policy
Stage 3의 목적
Group controller는 여러 동작의 재현과 skill 간 전환이 가능하지만, 각 controller는 자신이 학습한 20개 motion에 제한되며 자연어 명령을 따를 수 없습니다. Stage 3에서는 모든 group controller를 하나의 텍스트 조건 global policy \(\pi^G(\mathbf{a}_t | \mathbf{o}_t, c)\)로 distill합니다. \(c\)는 자연어 caption이며, CLIP 텍스트 인코더의 pooled embedding으로 인코딩됩니다.
Stage 2와 달리 순수 supervised learning으로만 학습됩니다. RL을 사용하지 않기 때문에 수천 개 motion 규모로의 확장이 가능합니다.
DAGGER 방식의 Online Imitation Learning
학습은 먼저 Stage 1의 궤적 데이터 \(D_T\)를 사용한 offline BC warmup으로 시작합니다. 이는 global policy의 상태 분포를 group controller와 유사하게 초기화하여 teacher의 피드백이 효과적으로 전달될 수 있도록 합니다.
Warmup 이후에는 DAGGER(Dataset Aggregation, Ross et al. 2011) 방식으로 수렴할 때까지 학습합니다. 일반적인 BC는 teacher(expert)의 궤적 데이터를 모아놓고 그것으로만 학습하므로, 학생이 teacher가 방문한 적 없는 상태에 도달하면 올바른 행동을 모르고 점점 더 벗어나는 drift 문제가 발생합니다. DAGGER는 이를 해결하기 위해 학생이 실제로 방문한 상태에서 teacher에게 정답을 물어보는 방식을 사용합니다.
구체적으로 매 epoch마다: (1) 현재 global controller로 시뮬레이션에서 궤적을 생성합니다. (2) 그 궤적의 각 관찰에 대해 해당 group controller(모방하려는 motion에 기반)가 "이 상태에서 나라면 어떤 행동을 하겠는가"를 출력합니다. (3) Global controller가 이 출력을 따르도록 학습합니다.
크로스-그룹 전환의 발생
각 group controller가 자기 그룹 내 20개 motion 사이의 전환만 학습했음에도, global controller는 그룹에 관계없이 임의의 두 motion 사이에서 전환이 가능합니다.
이것이 가능한 이유는 DAGGER의 반복 학습 구조에 있는 것으로 보입니다. 예를 들어 global policy가 "걷기"(그룹 A)를 수행하다가 텍스트 명령이 "발레"(그룹 B)로 바뀌면, global policy가 어설프게 전환을 시도하여 어떤 중간 상태에 도달합니다. 이 상태를 그룹 B의 group controller에게 보여주면, group controller는 발레 동작에 대해서는 잘 알기 때문에 합리적인 행동을 출력할 수 있습니다.
다만 teacher가 안 해본 상태에서의 답이 부정확할 수 있다는 한계는 존재합니다. 이 문제는 DAGGER의 반복적 특성에 의해 점진적으로 완화됩니다. 학생이 나아질수록 도달하는 상태가 teacher가 아는 영역에 가까워지고, teacher의 답의 품질도 함께 올라가는 선순환이 발생합니다. 또한 BC warmup이 학생의 초기 행동을 "대략 비슷한" 수준으로 설정하여, 처음부터 teacher가 전혀 모르는 상태에 빠질 확률을 줄여줍니다.
group controller가 Stage 2에서 adversarial RL을 통해 robustness를 획득했다는 점도 중요합니다. 정확히 학습한 상태가 아닌 약간 벗어난 상태에서도 합리적인 행동을 출력할 수 있는 이 robustness가 크로스-그룹 전환을 가능하게 하는 핵심 요인으로 보입니다.
데이터셋 및 아키텍처
학습 데이터는 AMASS의 필터링된 부분집합으로, expert tracking을 통과한 5587개 motion(총 약 8.5시간)이 최종 학습에 사용됩니다. 자연어 annotation은 HumanML3D 데이터셋의 caption을 활용하며, ChatGPT를 사용한 paraphrase로 다양성을 추가하여 총 48207개의 caption을 확보합니다.
모든 policy(expert, group, global)는 간단한 MLP 구조를 사용합니다. Group controller와 global controller는 현재 프레임만이 아닌 과거 40프레임의 context window에서 8프레임 간격으로 총 5프레임의 관찰을 입력으로 받습니다.
Results
Expert Training
대부분의 expert policy가 1시간 이내에 학습을 완료하며, 30% 이상은 30분 이내에 완료됩니다. Error threshold에 도달하지 못한 약 5%의 policy는 epoch 상한까지 학습되어 전체 학습 비용에서 큰 비중을 차지합니다.

평가 지표: Thresholded Precision and Recall
Phase 변수가 없는 policy의 동작 품질을 평가하기 위해 thresholded precision과 recall 지표를 도입합니다. 참조 동작과 생성된 궤적에서 10프레임 길이의 sliding window를 비교하여, threshold \(\epsilon\) 이내에 일치하는 비율을 측정합니다. 개별 프레임이 아닌 연속 window를 사용하여 동작의 시간적 구조를 반영합니다.
\[\text{Rec}(\tau, \hat{m}, \epsilon) = \frac{1}{n-9} \sum_{i=0}^{n-10} \mathbb{I}\left( \min_{j \in \{0, \ldots, k-10\}} \| \hat{\mathbf{s}}_{i:i+9} - \mathbf{s}_{j:j+9} \|_2 \leq \epsilon \right)\]
\[\text{Prec}(\tau, \hat{m}, \epsilon) = \frac{1}{k-9} \sum_{i=0}^{k-10} \mathbb{I}\left( \min_{j \in \{0, \ldots, n-10\}} \| \mathbf{s}_{i:i+9} - \hat{\mathbf{s}}_{j:j+9} \|_2 \leq \epsilon \right)\]
Recall은 참조 동작 중 policy가 재현한 비율을, precision은 policy가 생성한 궤적 중 참조 동작과 일치하는 비율을 측정합니다.

Global Controller 평가
SuperPADL global controller를 동일한 5587개 motion 데이터셋에 대해 학습한 두 baseline과 비교합니다. 첫 번째는 전체 데이터셋에 PADL을 직접 적용한 것, 두 번째는 전체 데이터셋에 PADL+BC를 적용한 것입니다. 여기서 PADL+BC는 Stage 2에서 사용하는 학습 방법(objective)의 이름이며, SuperPADL은 3단계 전체 프레임워크의 이름이라는 점에 유의해야 합니다.
두 baseline 모두 SuperPADL보다 낮은 precision과 recall을 기록합니다. 정성적으로 이 baseline들은 서 있거나 비틀거리는 정도에 그치며 텍스트 명령에 거의 반응하지 않습니다. 이는 adversarial RL을 수천 개 motion 규모에 직접 적용하는 것이 비효과적임을 보여줍니다. SuperPADL은 RL을 소규모 policy 학습에만 사용하고 global controller 학습에는 전적으로 supervised learning(DAGGER)에 의존합니다.
SuperPADL global controller는 90% 이상의 경우에서 skill 전환에 성공합니다.

Group Controller 평가
PADL+BC group controller는 순수 PADL 대비 더 높은 동작 품질을 달성하면서 학습 시간도 크게 단축됩니다. PADL+BC는 단일 A40 GPU에서 약 12시간, 순수 PADL은 약 67시간이 소요됩니다. 정성적으로 PADL+BC는 참조 동작의 일부만 모방하는 경향이 적고, 동작을 반복(looping)하며 멈추지 않는 능력이 더 뛰어납니다.
Discussion and Limitations
SuperPADL은 RL 기반 방법이 수백 개 이상에서 어려움을 겪는다는 관찰에 기반하여, progressive distillation을 통해 RL과 supervised learning의 장점을 결합한 프레임워크를 제시하였습니다. 최종 controller는 5000개 이상의 motion skill을 재현하고 실시간으로 동작하며, 사용자의 텍스트 명령에 인터랙티브하게 반응합니다.
그러나 몇 가지 한계가 있습니다. 첫째, 발레나 점프와 같은 고도로 역동적인 동작의 재현 품질이 떨어질 수 있습니다. 둘째, group controller에서 잘못 재현된 skill이나 다른 결함이 distillation을 통해 global controller로 전파됩니다. 셋째, 한 발로 서서 다른 발을 뻗고 있는 킥 동작 중에 전환을 요청하는 것처럼 어려운 동작 중 skill 전환 시 균형을 잃을 수 있습니다. 전환 시점을 이러한 민감한 구간을 피하도록 조정하면 전환의 안정성이 크게 향상됩니다.
저자들은 향후 방향으로, 더 긴 MoCap 시퀀스의 학습을 가능하게 하는 더 넓은 context window 아키텍처와, global controller를 deterministic network 대신 diffusion model로 학습하여 multi-modal motion 분포를 더 잘 모델링하는 가능성을 언급하고 있습니다.
'개인공부 > CV' 카테고리의 다른 글
| AMP: Adversarial Motion Priors for Stylized Physics-Based CharacterControl (0) | 2026.04.15 |
|---|---|
| PointNet++ 논문 정리 (0) | 2024.11.10 |