ワンクリックでManusで任意のスキルを実行

$pwd:

ff-new-algorithm

Name: Ff New Algorithm
Author: X-GenGroup

// Complete workflow for adding a new RL training algorithm. Covers paradigm selection, TrainingArguments subclass, trainer implementation, registry, example config, and verification. Trigger: 'add algorithm', 'new trainer', 'new training method', 'implement algorithm'.

Manusで実行

$ git log --oneline --stat

stars:539

forks:40

updated:2026年5月24日 01:47

SKILL.md

readonly

related-skills.json

同じリポジトリ

ff-review.md

from "X-GenGroup/Flow-Factory"

Mandatory pre-commit code review gate. Checks constraint violations, cross-module consistency, and implementation quality. Trigger proactively when changes span multiple files or touch shared infrastructure. Trigger: 'review', 'check before commit'.

2026-05-17539

ff-new-model.md

from "X-GenGroup/Flow-Factory"

Complete workflow for adding a new model adapter. Covers analysis, sample dataclass, adapter implementation (4 abstract methods + per-modality encoder overrides), registry, example YAML, and verification. Trigger: 'add model', 'support new model', 'integrate model', 'new adapter'.

2026-04-25539

ff-develop.md

from "X-GenGroup/Flow-Factory"

Feature development with cross-module impact analysis. Covers trainer hierarchy, model adapters, reward pipeline, config system, sample dataclasses, and distributed training paths. Trigger: 'add feature', 'implement', 'refactor', 'reorganize', 'new capability'.

2026-04-25539

ff-debug.md

from "X-GenGroup/Flow-Factory"

Bug fixing and debugging for ANY error, crash, loss divergence, gradient explosion, distributed hang, NaN, or unexpected behavior. Covers quick fixes and full protocol with 5-phase investigation. Trigger: 'fix bug', 'fix error', 'broken', 'crash', 'doesn't work', 'fails with', 'loss NaN', 'training hangs', 'OOM'.

2026-04-08539

ff-new-reward.md

from "X-GenGroup/Flow-Factory"

Complete workflow for adding a new reward model. Covers pointwise vs groupwise design, __call__ contract, registration, YAML config, multi-reward setup, and verification. Trigger: 'add reward', 'new reward model', 'custom reward', 'scoring function'.

2026-04-06539

package.json

"author": "X-GenGroup"

"repository": "X-GenGroup/Flow-Factory"

GitHub リポジトリを開く Creator のリポジトリを見る

$ install --global

$ download --local

Manusで実行

$ useful --forSOC

ソフトウェア開発者コンピュータ・数学職15-1252L4

name	ff-new-algorithm
description	Complete workflow for adding a new RL training algorithm. Covers paradigm selection, TrainingArguments subclass, trainer implementation, registry, example config, and verification. Trigger: 'add algorithm', 'new trainer', 'new training method', 'implement algorithm'.

New RL Algorithm Integration

Authoritative reference: guidance/algorithms.md

Prerequisites

Determine your algorithm's characteristics:

Paradigm: Coupled or Decoupled? (constraints.md #7)
Dynamics: Which SDE/ODE formulation? (Flow-SDE, Dance-SDE, CPS, ODE)
Advantage: How are advantages computed from rewards? (Most algorithms can delegate to AdvantageProcessor)
Loss: What is the policy optimization objective?

Phase 1: Design

Study existing implementations:
- Coupled example: trainers/grpo.py (GRPO)
- Decoupled example: trainers/nft.py (DiffusionNFT) or trainers/awm.py (AWM)
Identify what's shared vs unique (constraints.md #11):
- Shared: Data loading, reward computation, AdvantageProcessor, adapter interface, checkpoint logic
- Unique: start() method, loss function, algorithm-specific hyperparameters
- Per-epoch hook order: sample() → prepare_feedback() → optimize() (see guidance/workflow.md)

Phase 2: Configuration

Step 1 — Define Algorithm-Specific Arguments

Create a new file src/flow_factory/hparams/training_args/my_algo.py:

from __future__ import annotations
from dataclasses import dataclass, field

from ._base import TrainingArguments


@dataclass
class MyAlgoTrainingArguments(TrainingArguments):
    """Training arguments specific to MyAlgo."""
    my_specific_param: float = field(
        default=0.1,
        metadata={"help": "Description of param."},
    )
    another_param: int = field(
        default=10,
        metadata={"help": "Description of param."},
    )

If the algorithm uses a different CFG guidance_scale at optimize time than at sampling/rollout time (e.g., kl_cfg for a reference-model branch), override get_preprocess_guidance_scale() so the data preprocessing stage encodes negative prompts:

def get_preprocess_guidance_scale(self) -> float:
    """Ensure negative prompts are encoded when optimize-time CFG needs them."""
    return max(self.guidance_scale, self.my_optimize_cfg)

See topics/adapter_conventions.md "Classifier-Free Guidance (CFG) Convention" for the full two-stage CFG contract.

Step 2 — Register in Argument Resolver

Update three files in src/flow_factory/hparams/training_args/:

a) Add import + registry entry in _registry.py:

from .my_algo import MyAlgoTrainingArguments

_TRAINING_ARGS_REGISTRY: Dict[str, Type[TrainingArguments]] = {
    ...
    'my_algo': MyAlgoTrainingArguments,  # Add this
}

b) Add re-export in __init__.py:

from .my_algo import MyAlgoTrainingArguments
# Also add to __all__

c) Add re-export in src/flow_factory/hparams/__init__.py:

from .training_args import MyAlgoTrainingArguments
# Also add to __all__

Phase 3: Trainer Implementation

Step 3 — Create Trainer Class

# src/flow_factory/trainers/my_algo.py
from .abc import BaseTrainer
from .registry import register_trainer

@register_trainer('my_algo')
class MyAlgoTrainer(BaseTrainer):
    """My custom RL algorithm trainer."""

    def start(self):
        """Main training loop — implements the 6-stage pipeline."""
        # Stage 1: Data & rewards initialized in BaseTrainer.__init__
        while self.should_continue_training():
            # Checkpoint & evaluation (standard pattern)
            if self.log_args.save_freq > 0 and self.epoch % self.log_args.save_freq == 0:
                self.save_checkpoint(save_dir, epoch=self.epoch)
            if self.eval_args.eval_freq > 0 and self.epoch % self.eval_args.eval_freq == 0:
                self.evaluate()

            # Stage 2+3: Sampling & trajectory generation
            samples = self.sample()

            # Stage 4+5: Finalize rewards and advantages
            self.prepare_feedback(samples)

            # Stage 6: Policy optimization
            self.optimize(samples)

            self.adapter.ema_step(step=self.epoch)
            self.epoch += 1

    def evaluate(self):
        """Evaluation loop — reuse pattern from GRPO/NFT."""
        pass

    def sample(self):
        """Stages 2-3: K-repeat sampling + trajectory generation."""
        # Use self.adapter.inference() for trajectory generation
        pass

    def prepare_feedback(self, samples):
        """Stages 4-5: Reward buffer finalize and advantages (no policy gradients)."""
        rewards = self.reward_buffer.finalize(store_to_samples=True, split='all')
        self.compute_advantages(samples, rewards, store_to_samples=True)
        adv_metrics = self.advantage_processor.pop_advantage_metrics()
        if adv_metrics:
            self.log_data(adv_metrics, step=self.step)

    def optimize(self, samples):
        """Stage 6: Policy update."""
        # Use self.adapter.forward() for single-step denoising
        # Compute loss, backprop, step
        pass

Note: AdvantageProcessor is auto-instantiated in BaseTrainer._init_reward_model(). All trainers delegate via self.advantage_processor.compute_advantages() — see architecture.md "Advantage Computation".

Step 4 — Register in Trainer Registry

Add to _TRAINER_REGISTRY in src/flow_factory/trainers/registry.py:

'my_algo': 'flow_factory.trainers.my_algo.MyAlgoTrainer',

Phase 4: Configuration & Examples

Create example config examples/my_algo/lora/flux1/default.yaml:

model:
  model_type: "flux1"
  model_path: "black-forest-labs/FLUX.1-dev"
  finetune_type: "lora"
  target_components: ["transformer"]

train:
  trainer_type: "my_algo"
  my_specific_param: 0.1
  learning_rate: 1e-6
  group_size: 4

  num_inference_steps: 28

scheduler:
  dynamics_type: "ODE"          # Or appropriate dynamics

data:
  dataset: "path/to/dataset"

rewards:
  reward_model: "PickScore"
  batch_size: 16

Phase 5: Verification

Common Pitfalls

Not subclassing TrainingArguments — algorithm-specific params won't be parsed from YAML
Forgetting _registry.py + __init__.py updates — falls back to base TrainingArguments, losing custom params
Using ODE with coupled paradigm — no log-probabilities available, silent incorrect gradients
Not calling self.should_continue_training() — infinite loop if max_epochs is set
Duplicating _initialization() logic — already called in BaseTrainer.__init__; don't re-prepare modules
Reimplementing advantage gather/scatter — use self.advantage_processor.compute_advantages() instead; it handles both sampler topologies automatically
Extending GRPOTrainer unnecessarily — unless your algorithm extends GRPO's PPO-clipped loss, extend BaseTrainer directly (as NFT and AWM do)
Optimizer-time CFG without get_preprocess_guidance_scale() — if your algorithm calls adapter.forward(guidance_scale=X) where X > 1.0 but training_args.guidance_scale ≤ 1.0, negative prompts won't be encoded at preprocessing time and CFG silently falls back to no-CFG. Override get_preprocess_guidance_scale() in your TrainingArguments subclass to return max(guidance_scale, your_optimize_cfg). See DGPO's kl_cfg for a real example.

ff-new-algorithm

このリポジトリの他の Skills

このリポジトリの他の Skills

New RL Algorithm Integration

Prerequisites

Phase 1: Design

Phase 2: Configuration

Step 1 — Define Algorithm-Specific Arguments

Step 2 — Register in Argument Resolver

Phase 3: Trainer Implementation

Step 3 — Create Trainer Class

Step 4 — Register in Trainer Registry

Phase 4: Configuration & Examples

Phase 5: Verification

Common Pitfalls

New RL Algorithm Integration

Prerequisites

Phase 1: Design

Phase 2: Configuration

Step 1 — Define Algorithm-Specific Arguments

Step 2 — Register in Argument Resolver

Phase 3: Trainer Implementation

Step 3 — Create Trainer Class

Step 4 — Register in Trainer Registry

Phase 4: Configuration & Examples

Phase 5: Verification

Common Pitfalls