Run any Skill in Manus with one click

sumo-whole-body-locomanipulation

Sim-to-real approach for dynamic whole-body loco-manipulation with test-time steering. Use when: (1) Designing legged robot control systems, (2) Implementing dynamic manipulation with heavy objects, (3) Building generalizable locomotion policies, (4) Transferring simulation-trained policies to real robots. Triggers: legged robots, whole-body control, loco-manipulation, sim-to-real transfer, dynamic manipulation, test-time steering, policy generalization.

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/hiyenwong/ai_collection --skill sumo-whole-body-locomanipulation

Copy and paste this command into Claude Code to install the skill

Source

hiyenwong/ai_collection

Stars1

Forks0

UpdatedJune 4, 2026 at 02:00

SKILL.md

readonly

name

sumo-whole-body-locomanipulation

description

Sumo: Dynamic and Generalizable Whole-Body Loco-Manipulation

Core Innovation

Test-time steering of pre-trained whole-body control policy enables diverse dynamic manipulation tasks without additional training.

Key insight: Sample-based planner + pre-trained policy = flexible, generalizable control.

Problem Solved

Legged robots manipulating large and heavy objects dynamically:

Objects heavier than nominal lifting capacity
Objects larger/taller than robot itself
Diverse tasks without task-specific training

Technical Approach

Three-Stage Architecture

Stage 1: Pre-train Whole-Body Policy

Training approach:

Train in simulation
Cover wide variety of manipulation scenarios
Learn general locomotion + manipulation coordination

Key: Broad coverage → enables later generalization

Stage 2: Test-Time Steering

Steering mechanism:

Sample-based planner provides high-level guidance
Pre-trained policy executes low-level control
Cost function adjustable at test time

Benefit: Single policy solves multiple tasks

Stage 3: Cost Function Tuning

Flexible adaptation:

Adjust cost weights for task requirements
No additional training needed
Test-time configuration enables task diversity

Real-World Demonstrations

Spot Quadruped Tasks

Upright a tire
- Heavier than robot's nominal lifting capacity
- Dynamic whole-body coordination
- Successfully executed
Drag crowd-control barrier
- Larger and taller than robot
- Requires sustained force
- Demonstrates manipulation scale

Humanoid Simulation Tasks

Open a door
- Reach + pull coordination
- Balance maintenance
Push a table
- Continuous force application
- Dynamic locomotion

Key result: Same approach generalizes across robots

Generalization Mechanism

Why Test-Time Steering Works

Traditional approach:

Task-specific policy training
Limited to trained scenarios
Requires extensive data per task

Sumo approach:

Single broad policy
Planner guides to specific task
Test-time cost tuning adapts behavior

Generalization Evidence

Across objects:

Different sizes ✓
Different weights ✓
Different shapes ✓

Across tasks:

Pushing ✓
Pulling ✓
Uprighting ✓
Dragging ✓

Across robots:

Quadruped (Spot) ✓
Humanoid (simulation) ✓

Zero additional tuning or training

System Design Principles

Principle 1: Pre-training Diversity

Train policy on:

Wide range of object properties
Various manipulation modes
Diverse locomotion patterns

Result: Policy has broad coverage for test-time steering

Principle 2: Hierarchical Control

High-level: Planner decides manipulation strategy Low-level: Policy executes detailed coordination

Benefit: Separates task planning from motor control

Principle 3: Test-Time Flexibility

Cost function structure:

cost = w_force * force_cost + 
       w_balance * balance_cost + 
       w_progress * progress_cost

Adjust weights at test time → adapt to task requirements

Implementation Guidance

Training Pipeline

Step 1: Simulation Environment

Requirements:

Physics-accurate simulator
Wide object library
Diverse manipulation scenarios

Setup:

env = SimulationEnv(
    robot_type='spot',  # or 'humanoid'
    object_library=['tire', 'barrier', 'box', 'door'],
    manipulation_modes=['push', 'pull', 'upright', 'drag']
)

Step 2: Policy Architecture

Whole-body policy:

Unified locomotion + manipulation
End-to-end training
Handles dynamic coordination

Step 3: Training Objective

Reward structure:

Task completion bonus
Force application efficiency
Balance maintenance
Energy efficiency

Deployment Pipeline

Step 1: Task Specification

Define task requirements:

Target object properties
Desired manipulation mode
Success criteria

Step 2: Planner Configuration

Sample-based planner:

Generates action sequences
Evaluates outcomes with policy
Selects best trajectory

Step 3: Cost Function Tuning

Task-specific weights:

Tire uprighting: High force weight
Barrier dragging: High progress weight
Door opening: High precision weight

Step 4: Real Robot Execution

Safety considerations:

Balance monitoring
Force limits
Emergency stop conditions

Comparison with Alternatives

Method	Training	Task Flexibility	Real Transfer
Sumo	Single broad policy	High (test-time tuning)	Demonstrated
Task-specific RL	Per-task training	Low	Limited
Model-based control	No training	Medium	Simulation only
Hierarchical RL	Multiple policies	Medium	Limited

Technical Challenges Solved

Challenge 1: Heavy Objects

Problem: Objects exceed nominal capacity Solution: Dynamic whole-body coordination

Use body momentum
Exploit contact forces
Sustained application strategy

Challenge 2: Large Objects

Problem: Objects larger than robot Solution: Multi-contact strategies

Distributed force application
Sequential manipulation phases
Balance-aware planning

Challenge 3: Task Diversity

Problem: Different tasks need different behaviors Solution: Test-time steering

Planner guides task-specific approach
Policy provides execution capability
Cost tuning adapts priorities

Research Context

arXiv: 2604.08508v1
Authors: John Z. Zhang, Maks Sorokin, Jan Brüdigam, Brandon Hung, Stephen Phillips
Published: 2026-04-09
Project page: https://sumo.rai-inst.com/

Practical Applications

Industrial Manipulation

Warehouse object handling
Construction material movement
Heavy equipment positioning

Field Operations

Disaster response (moving debris)
Search and rescue (clearing obstacles)
Outdoor material transport

Service Robotics

Door opening for accessibility
Furniture rearrangement
Heavy item assistance

Attachment representations in early childhood as independent endogenous driver of interbrain synchrony during remote cooperation. Novel Remote Partner-Belief Manipulation paradigm isolates attachment representations by manipulating partner-belief. EEG synchrony concentrated at P4 channel (right TPJ). Activation: attachment, interbrain synchrony, EEG hyperscanning, child-adult interaction, attachment representations, social neuroscience, partner-belief manipulation, early childhood, mother-child interaction, brain synchronization, attachment security, social-emotional development.

2026-06-041

sleep-replay-acceleration-sharp

hiyenwong/ai_collection

SHARP (Sleep-based Hierarchical Accelerated Replay) 方法论 — 睡眠启发的分层加速回放框架用于长程非平稳时序模式识别。受啮齿动物慢波睡眠中加速回放启发，通过分离记忆模块和模式识别模块实现无反向传播的长程信用分配。适用于流式时序学习、长程依赖建模、神经科学启发的 AI 架构。触发词：睡眠回放、加速回放、SHARP、时序学习、长程依赖、流式学习、慢波睡眠、hierarchical replay

2026-06-041

piston-control-two-ion-quantum

hiyenwong/ai_collection

Inverse-engineering methodology for piston operations in trapped-ion quantum devices. One ion serves as classical piston driven by Coulomb interaction with quantum-controlled ion. Stationary state determined self-consistently. Inverse-engineering protocols enable precise control of classical ion motion. Provides route toward controlled piston dynamics in microscopic quantum devices.

2026-06-041

quantum-fault-trees-minimal-cut

hiyenwong/ai_collection

Quantum fault tree analysis methodology using quantum computing. Extends classical reliability engineering fault trees to quantum domain. Identifies minimal cut sets in system reliability analysis using quantum algorithms. Applicable to safety-critical systems, cyber-physical systems, and quantum system reliability engineering.

2026-06-041

adaptive-hybrid-feature-fusion-medical

hiyenwong/ai_collection

Adaptive Hybrid Quantum-Classical Feature Fusion methodology for medical image classification. Addresses optimization asymmetries between quantum and classical paradigms using Temperature-Scaled Hybrid Fusion (TSHF), Dynamic Hybrid Fusion (DHF), and Static Hybrid Fusion (SHF) strategies. Use when designing hybrid quantum-classical ML pipelines for healthcare/medical imaging, especially when combining ResNet backbones with variational quantum circuits for diagnostic tasks.

2026-06-041

adaptive-spiking-neuron-asn

hiyenwong/ai_collection

Adaptive Spiking Neuron (ASN) methodology for vision and language modeling. Implements trainable membrane potential dynamics with adaptive firing mechanisms for efficient Spiking Neural Networks (SNNs). Activation: adaptive spiking neuron, ASN, spiking neural network vision language, SNN adaptive neuron, neuromorphic vision language model.

2026-06-041

Source

hiyenwong

hiyenwong/ai_collection

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

name

sumo-whole-body-locomanipulation

description

Sumo: Dynamic and Generalizable Whole-Body Loco-Manipulation

Core Innovation

Test-time steering of pre-trained whole-body control policy enables diverse dynamic manipulation tasks without additional training.

Key insight: Sample-based planner + pre-trained policy = flexible, generalizable control.

Problem Solved

Legged robots manipulating large and heavy objects dynamically:

Objects heavier than nominal lifting capacity
Objects larger/taller than robot itself
Diverse tasks without task-specific training

Technical Approach

Three-Stage Architecture

Stage 1: Pre-train Whole-Body Policy

Training approach:

Train in simulation
Cover wide variety of manipulation scenarios
Learn general locomotion + manipulation coordination

Key: Broad coverage → enables later generalization

Stage 2: Test-Time Steering

Steering mechanism:

Sample-based planner provides high-level guidance
Pre-trained policy executes low-level control
Cost function adjustable at test time

Benefit: Single policy solves multiple tasks

Stage 3: Cost Function Tuning

Flexible adaptation:

Adjust cost weights for task requirements
No additional training needed
Test-time configuration enables task diversity

Real-World Demonstrations

Spot Quadruped Tasks

Upright a tire
- Heavier than robot's nominal lifting capacity
- Dynamic whole-body coordination
- Successfully executed
Drag crowd-control barrier
- Larger and taller than robot
- Requires sustained force
- Demonstrates manipulation scale

Humanoid Simulation Tasks

Open a door
- Reach + pull coordination
- Balance maintenance
Push a table
- Continuous force application
- Dynamic locomotion

Key result: Same approach generalizes across robots

Generalization Mechanism

Why Test-Time Steering Works

Traditional approach:

Task-specific policy training
Limited to trained scenarios
Requires extensive data per task

Sumo approach:

Single broad policy
Planner guides to specific task
Test-time cost tuning adapts behavior

Generalization Evidence

Across objects:

Different sizes ✓
Different weights ✓
Different shapes ✓

Across tasks:

Pushing ✓
Pulling ✓
Uprighting ✓
Dragging ✓

Across robots:

Quadruped (Spot) ✓
Humanoid (simulation) ✓

Zero additional tuning or training

System Design Principles

Principle 1: Pre-training Diversity

Train policy on:

Wide range of object properties
Various manipulation modes
Diverse locomotion patterns

Result: Policy has broad coverage for test-time steering

Principle 2: Hierarchical Control

High-level: Planner decides manipulation strategy Low-level: Policy executes detailed coordination

Benefit: Separates task planning from motor control

Principle 3: Test-Time Flexibility

Cost function structure:

cost = w_force * force_cost + 
       w_balance * balance_cost + 
       w_progress * progress_cost

Adjust weights at test time → adapt to task requirements

Implementation Guidance

Training Pipeline

Step 1: Simulation Environment

Requirements:

Physics-accurate simulator
Wide object library
Diverse manipulation scenarios

Setup:

env = SimulationEnv(
    robot_type='spot',  # or 'humanoid'
    object_library=['tire', 'barrier', 'box', 'door'],
    manipulation_modes=['push', 'pull', 'upright', 'drag']
)

Step 2: Policy Architecture

Whole-body policy:

Unified locomotion + manipulation
End-to-end training
Handles dynamic coordination

Step 3: Training Objective

Reward structure:

Task completion bonus
Force application efficiency
Balance maintenance
Energy efficiency

Deployment Pipeline

Step 1: Task Specification

Define task requirements:

Target object properties
Desired manipulation mode
Success criteria

Step 2: Planner Configuration

Sample-based planner:

Generates action sequences
Evaluates outcomes with policy
Selects best trajectory

Step 3: Cost Function Tuning

Task-specific weights:

Tire uprighting: High force weight
Barrier dragging: High progress weight
Door opening: High precision weight

Step 4: Real Robot Execution

Safety considerations:

Balance monitoring
Force limits
Emergency stop conditions

Comparison with Alternatives

Method	Training	Task Flexibility	Real Transfer
Sumo	Single broad policy	High (test-time tuning)	Demonstrated
Task-specific RL	Per-task training	Low	Limited
Model-based control	No training	Medium	Simulation only
Hierarchical RL	Multiple policies	Medium	Limited

Technical Challenges Solved

Challenge 1: Heavy Objects

Problem: Objects exceed nominal capacity Solution: Dynamic whole-body coordination

Use body momentum
Exploit contact forces
Sustained application strategy

Challenge 2: Large Objects

Problem: Objects larger than robot Solution: Multi-contact strategies

Distributed force application
Sequential manipulation phases
Balance-aware planning

Challenge 3: Task Diversity

Problem: Different tasks need different behaviors Solution: Test-time steering

Planner guides task-specific approach
Policy provides execution capability
Cost tuning adapts priorities

Research Context

arXiv: 2604.08508v1
Authors: John Z. Zhang, Maks Sorokin, Jan Brüdigam, Brandon Hung, Stephen Phillips
Published: 2026-04-09
Project page: https://sumo.rai-inst.com/

Practical Applications

Industrial Manipulation

Warehouse object handling
Construction material movement
Heavy equipment positioning

Field Operations

Disaster response (moving debris)
Search and rescue (clearing obstacles)
Outdoor material transport

Service Robotics

Door opening for accessibility
Furniture rearrangement
Heavy item assistance

sumo-whole-body-locomanipulation

Sumo: Dynamic and Generalizable Whole-Body Loco-Manipulation

Core Innovation

Problem Solved

Technical Approach

Three-Stage Architecture

Stage 1: Pre-train Whole-Body Policy

Stage 2: Test-Time Steering

Stage 3: Cost Function Tuning

Real-World Demonstrations

Spot Quadruped Tasks

Humanoid Simulation Tasks

Generalization Mechanism

Why Test-Time Steering Works

Generalization Evidence

System Design Principles

Principle 1: Pre-training Diversity

Principle 2: Hierarchical Control

Principle 3: Test-Time Flexibility

Implementation Guidance

Training Pipeline

Step 1: Simulation Environment

Step 2: Policy Architecture

Step 3: Training Objective

Deployment Pipeline

Step 1: Task Specification

Step 2: Planner Configuration

Step 3: Cost Function Tuning

Step 4: Real Robot Execution

Comparison with Alternatives

Technical Challenges Solved

Challenge 1: Heavy Objects

Challenge 2: Large Objects

Challenge 3: Task Diversity

Research Context

Related Topics

Practical Applications

Industrial Manipulation

Field Operations

Service Robotics

Further Reading

More from this repository

Sumo: Dynamic and Generalizable Whole-Body Loco-Manipulation

Core Innovation

Problem Solved

Technical Approach

Three-Stage Architecture

Stage 1: Pre-train Whole-Body Policy

Stage 2: Test-Time Steering

Stage 3: Cost Function Tuning

Real-World Demonstrations

Spot Quadruped Tasks

Humanoid Simulation Tasks

Generalization Mechanism

Why Test-Time Steering Works

Generalization Evidence

System Design Principles

Principle 1: Pre-training Diversity

Principle 2: Hierarchical Control

Principle 3: Test-Time Flexibility

Implementation Guidance

Training Pipeline

Step 1: Simulation Environment

Step 2: Policy Architecture

Step 3: Training Objective

Deployment Pipeline

Step 1: Task Specification

Step 2: Planner Configuration

Step 3: Cost Function Tuning

Step 4: Real Robot Execution

Comparison with Alternatives

Technical Challenges Solved

Challenge 1: Heavy Objects

Challenge 2: Large Objects

Challenge 3: Task Diversity

Research Context

Related Topics

Practical Applications

Industrial Manipulation

Field Operations