Self-Supervised Critical Phase Detection for VLA Refinement

익명의 저자
익명 기관
프리프린트 · 심사 중 · 2026

두 LIBERO-Long 롤아웃(π0.5 백본)에서 강조 표시된 결정 단계 — 각 롤아웃의 작은 일부에 불과합니다.

TL;DR. 비전-언어-행동(VLA) 정책은 조작 작업의 대부분을 무리 없이 수행하지만, 정작 결과를 좌우하는 한두 순간에서 실패합니다. 우리는 이러한 순간을 결정 단계(critical phase)라고 부르며, 실패 가능성이 아니라 결정 민감도 — 그 시점의 행동이 결과를 얼마나 크게 뒤바꾸는지 — 로 정의합니다. 우리는 이를 성공적인 시연만으로 탐지하는 방법을 학습하고, 강화학습 개선을 오직 그 지점에 집중합니다.

초록

비전-언어-행동(VLA) 정책은 조작 롤아웃의 대부분을 잘 처리하지만, 정작 중요한 몇몇 결정 — 못이 구멍 안에서 처음으로 기울어지는 순간, 잡기가 확정되는 순간 — 에서는 제대로 작동하지 못합니다. 우리는 이러한 순간을 결정 단계(critical phase)라고 부르며 결정 민감도로 정의합니다. 즉, 해당 시점의 행동에 가해진 작은 변화가 롤아웃의 최종 성공 또는 실패를 얼마나 크게 뒤바꾸는지를 나타냅니다.

결정적으로, 결정 단계는 실패 가능성과 같지 않습니다. 성공적인 롤아웃도 똑같은 결정 지점을 거치므로, 중요도(criticality)는 실패 확률이 아니라 결정 구조 자체의 속성입니다. 이는 우리의 목표를 런타임 실패 탐지와 구분 짓는 기준이 됩니다. 런타임 실패 탐지는 현재 단계가 분포를 얼마나 벗어났는지를 측정하므로, 성공할 때는 잠잠하다가 실패가 표면화된 뒤에야 반응합니다.

본 연구에서는 실패 레이블이나 작업별 성공 오라클 없이 성공적인 시연만으로 결정 단계를 탐지하는 방법 — 고정된 정책의 잠재 임베딩과 로봇 상태를 활용 — 과, 강화학습 개선을 바로 그 단계에 집중시켜 못 끼우기(peg-in-hole) 같은 정밀 작업이 훨씬 적은 환경 스텝으로 수렴하도록 만드는 방법을 연구합니다. (방법과 실험은 진행 중입니다.)

결정 단계란 무엇인가?

정밀 조작은 결정 민감한 몇몇 순간에 달려 있습니다. 구멍에 볼트를 박는 작업(peg-in-hole)을 생각해 봅시다. 고전적인 접촉 상태 분해(Mason 1981; Debus et al.)에 따르면, 이 작업은 여러 접촉 영역(contact regime)으로 나뉘며 각 영역에서 서로 다른 제어 변수가 결과를 좌우합니다:

  • 접촉 1 — 접근(approach). 너무 빨리 움직이면 관성이 자기력을 이겨 볼트가 드라이버에서 떨어집니다. 속도가 결정적입니다.
  • 접촉 2 — 표면 접촉(surface touch). 너무 세게 누르면 볼트가 튕겨 나갑니다. 접촉력이 결정적입니다.
  • 접촉 3 — 림 정렬(rim alignment). 볼트는 구멍의 수직(normal) 방향을 따라 움직여야 합니다. 수직 정렬이 결정적입니다.
  • 접촉 4 — 안착(seating). 볼트를 체결하려면 얼마나 돌리고 얼마나 눌러야 하는지. 토크가 결정적입니다.

각 영역에서 작은 행동 오류 하나가 이후 모든 것의 성공과 실패를 가릅니다. 이러한 구간은 역사적으로 수작업으로 구분하고 이름 붙여 왔습니다. 우리는 대신 이를 조작적으로(operationally) 정의합니다. 즉, 결정 단계란 행동에 가한 교란이 결과를 측정 가능할 만큼 뒤바꾸는 시점입니다.

중요도는 실패 확률이 아니다

실패 탐지 결정 단계 (제안 방법)
질문 이번 롤아웃은 실패할까? 결과는 어디서 결정되는가?
신호 출처 현재 단계의 OOD / 불확실성 현재 행동의 결정 민감도
성공 롤아웃에서 평탄하게 유지됨 — 아무 문제 없어 보임 여전히 반응함 — 성공도 결정 지점을 거치기 때문
타이밍 실패가 표면화된 후 (증상) 실패가 돌이킬 수 없게 되기 전 (원인)

결정 단계는 성공적인 실행 내부에 존재하므로 성공 데이터만으로 학습할 수 있으며, 공간적으로 겹치는(spatially-overlapping) 실패 — 성공 매니폴드를 벗어나지 않아 밀도/OOD 기반 탐지기로는 보이지 않는 실패 — 의 결정 지점을 정확히 짚어냅니다.

기여

1. 정의와 탐지

결정 단계를 결정 민감도로 공식화하고, 성공 롤아웃만으로 학습한 시점별 점수 ct를 제시합니다. 이는 반사실적(counterfactual) 실제 결정성 — 시뮬레이션에서 시점 t의 행동을 바꿨을 때 결과가 뒤집히는 비율 — 과 비교해 검증됩니다.

2. 중요도 ≠ 실패

ct가 실패 확률이 아니라는 직접적 증거: 실패 탐지기가 평탄한 성공 롤아웃에서도 반응하며, 기존 탐지기가 놓치는 공간적으로 겹치는 실패의 결정 지점을 포착합니다. LIBERO에서 FAIL-Detect, FIPER, SAFE와 직접 비교합니다.

3. 국소화된 RL 개선

탐지된 결정 단계에 강화학습 개선을 집중하면 고정된 VLA의 정밀 작업 수렴이 빨라져, 균일한 RL 미세조정(VLA-RL, SimpleVLA-RL)보다 높은 샘플 효율을 달성합니다.

단계 안에서 행동하기: 개입 프로브 예비

탐지된 단계를 사용하는 첫 시도입니다. 런타임 실패 확률 탐지기(π0.5 잠재값 위의 LSTM, SAFE 방식)에 가벼운 negate-replay 개입을 붙이고, 성공 롤아웃들로 보정한 task별 functional conformal 임계곡선 δt를 점수가 넘는 순간 개입하도록 했습니다. 아래 각 영상은 기준 롤아웃(왼쪽)동일 롤아웃에 개입을 적용한 경우(오른쪽)이며, 실패 점수와 δt를 함께 표시했습니다.

설정. 고정된 π0.5로 LIBERO 4개 suite의 롤아웃 400편(실패 14편)을 모아 z-feature 위에서 SAFE-LSTM을 학습하고, task별 성공 곡선으로 δt를 보정합니다. 추론 시 점수가 δt를 넘으면 직전 action chunk를 되감아(negate-replay) 개입합니다. 아래 영상의 작업은 LIBERO-Long의 put_the_white_mug_on_the_plate_and_put_the_chocolate_pudding_to_the_right_of_the_plate(index 8)입니다.

LATE ALARM  실패 점수가 t≈366/520(에피소드의 약 70%)까지 성공 밴드 안에 머뭅니다 — 알람은 실패가 이미 진행된 뒤에야 울립니다.

TOO LATE TO ACT  세 번의 되감기 개입이 모두 분기점 이후에 발동 — 롤아웃은 여전히 실패합니다.

이 점이 본 연구의 핵심입니다. 제대로 보정된 임계값에서도 정책 잠재값 위의 실패 확률 신호는 실패가 이미 진행된 뒤에야 울립니다 — 개입하기에는 너무 늦습니다. 실패가 얼마나 그럴듯해 보이는지가 아니라 결과가 실제로 결정되는 지점 — 즉 critical phase — 에서 행동하는 것이 이러한 개입에 필요한 능력입니다.

선행 연구와의 관계

런타임 실패 탐지 — FAIL-Detect (Xu et al., RSS 2025), FIPER (Römer et al., NeurIPS 2025), SAFE (Gu et al., NeurIPS 2025) — 는 OOD나 불확실성 신호로 경보를 울립니다. 이들은 탐지 전용이며 실패 확률을 측정합니다. 우리는 대신 성공적인 롤아웃 내부의 결정 구조를 식별하고 이를 정책 개선과 연결합니다. LIBERO에서 failure-AUROC로 직접 비교합니다.

임계 스텝 / 임계 순간(critical-step / critical-moment) — Liu (ICCV 2023), Tang (2026), Mao / JITI (2025), Kappler (RSS 2015) — 는 각각 리턴 다양성, 보정 단계의 실패 레이블, 정책 토큰 로짓, 공간 특징, 혹은 품질이 섞인 시연을 요구합니다. 우리의 설정은 성공 데이터만, 표현 수준(representation-level), 그리고 시간적(temporal)이며, 정책에 구애받지 않습니다(토큰 로짓 불필요).

방법과 실험 진행 중

탐지기와 결정 단계 국소화 RL 개선기는 활발히 개발 중입니다. 평가 계획은 다음과 같습니다:

테스트베드LIBERO(정량 핵심) + 접촉이 많은 삽입 작업(정성); 시뮬레이션 반사실 롤아웃이 선택 작업에서 실제 결정성을 제공.
백본고정된 VLA — π0.5, π0, OpenVLA — 를 잠재 임베딩 + 로봇 상태로 읽음. 정책 가중치는 갱신하지 않음.
핵심 지표(i) 반사실 실제값과의 결정 민감도 정합; (ii) 평탄한 실패 탐지기 대비 성공 롤아웃에서의 신호; (iii) 결정 단계 전용 개선에서의 RL 샘플 효율.
보조보고된 베이스라인 대비 홀드아웃 failure-AUROC; 작업 간 전이.

실험이 완료되는 대로 수치를 게시하겠습니다.

BibTeX

@article{anonymous2026cpd,
  title   = {Self-Supervised Critical Phase Detection for VLA Refinement},
  author  = {Anonymous},
  journal = {Preprint},
  year    = {2026},
  note    = {Under review},
}