Run any Skill in Manus with one click

unified-neural-scaling-laws

Unified Neural Scaling Laws (UNSL) methodology for modeling and extrapolating deep neural network scaling behaviors across multiple dimensions (parameters, data size, compute, hyperparameters). Use when analyzing or predicting model performance scaling, optimizing resource allocation across dimensions, or extrapolating training/inference costs for large models. Applicable to vision, language, math, and RL tasks.

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/hiyenwong/ai_collection --skill unified-neural-scaling-laws

Copy and paste this command into Claude Code to install the skill

Source

hiyenwong/ai_collection

Stars1

Forks0

UpdatedJune 4, 2026 at 02:00

File Explorer

4 files

SKILL.md

readonly

More from this repository

same repository

attachment-representations-interbrain-synchrony

hiyenwong/ai_collection

Attachment representations in early childhood as independent endogenous driver of interbrain synchrony during remote cooperation. Novel Remote Partner-Belief Manipulation paradigm isolates attachment representations by manipulating partner-belief. EEG synchrony concentrated at P4 channel (right TPJ). Activation: attachment, interbrain synchrony, EEG hyperscanning, child-adult interaction, attachment representations, social neuroscience, partner-belief manipulation, early childhood, mother-child interaction, brain synchronization, attachment security, social-emotional development.

2026-06-041

sleep-replay-acceleration-sharp

hiyenwong/ai_collection

SHARP (Sleep-based Hierarchical Accelerated Replay) 方法论 — 睡眠启发的分层加速回放框架用于长程非平稳时序模式识别。受啮齿动物慢波睡眠中加速回放启发，通过分离记忆模块和模式识别模块实现无反向传播的长程信用分配。适用于流式时序学习、长程依赖建模、神经科学启发的 AI 架构。触发词：睡眠回放、加速回放、SHARP、时序学习、长程依赖、流式学习、慢波睡眠、hierarchical replay

2026-06-041

piston-control-two-ion-quantum

hiyenwong/ai_collection

Inverse-engineering methodology for piston operations in trapped-ion quantum devices. One ion serves as classical piston driven by Coulomb interaction with quantum-controlled ion. Stationary state determined self-consistently. Inverse-engineering protocols enable precise control of classical ion motion. Provides route toward controlled piston dynamics in microscopic quantum devices.

2026-06-041

quantum-fault-trees-minimal-cut

hiyenwong/ai_collection

Quantum fault tree analysis methodology using quantum computing. Extends classical reliability engineering fault trees to quantum domain. Identifies minimal cut sets in system reliability analysis using quantum algorithms. Applicable to safety-critical systems, cyber-physical systems, and quantum system reliability engineering.

2026-06-041

adaptive-hybrid-feature-fusion-medical

hiyenwong/ai_collection

Adaptive Hybrid Quantum-Classical Feature Fusion methodology for medical image classification. Addresses optimization asymmetries between quantum and classical paradigms using Temperature-Scaled Hybrid Fusion (TSHF), Dynamic Hybrid Fusion (DHF), and Static Hybrid Fusion (SHF) strategies. Use when designing hybrid quantum-classical ML pipelines for healthcare/medical imaging, especially when combining ResNet backbones with variational quantum circuits for diagnostic tasks.

2026-06-041

adaptive-spiking-neuron-asn

hiyenwong/ai_collection

Adaptive Spiking Neuron (ASN) methodology for vision and language modeling. Implements trainable membrane potential dynamics with adaptive firing mechanisms for efficient Spiking Neural Networks (SNNs). Activation: adaptive spiking neuron, ASN, spiking neural network vision language, SNN adaptive neuron, neuromorphic vision language model.

2026-06-041

Source

hiyenwong

hiyenwong/ai_collection

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

Useful forSOC

Physical Scientists, All OtherLife, Physical, and Social Science Occupations19-2099L4

name	unified-neural-scaling-laws
description	Unified Neural Scaling Laws (UNSL) methodology for modeling and extrapolating deep neural network scaling behaviors across multiple dimensions (parameters, data size, compute, hyperparameters). Use when analyzing or predicting model performance scaling, optimizing resource allocation across dimensions, or extrapolating training/inference costs for large models. Applicable to vision, language, math, and RL tasks.
license	Complete terms in LICENSE.txt
metadata	{"arxiv_id":"2605.26248","published":"2026-05-25","authors":"Ethan Caballero, Priyank Jaini, David Krueger, Irina Rish","tags":["scaling-laws","deep-learning","neural-networks","model-optimization","compute","extrapolation"]}

Unified Neural Scaling Laws

Core Innovation

Unified functional form that accurately models and extrapolates neural network scaling behavior when multiple dimensions vary simultaneously—addressing the limitation of single-dimension scaling laws.

Scaling Dimensions Covered

UNSL simultaneously models how evaluation metrics vary across:

Model parameters (N) - Network size/architecture
Training dataset size (D) - Number of training examples
Training steps (T) - Optimization iterations
Inference steps (I) - Compute at evaluation
Total compute (C) - FLOPs budget
Hyperparameters (H) - Learning rate, batch size, architecture choices

Key Advantages

Multi-dimensional extrapolation: Unlike Chinchilla scaling (D + N only), UNSL handles 6+ dimensions simultaneously
Task-agnostic: Works across vision, language, math, and reinforcement learning
Architecture-agnostic: Valid across different model architectures within same task domain
Higher accuracy: Significantly better extrapolation than prior scaling law functional forms

Methodology Framework

1. Functional Form Design

UNSL uses a parametric functional form with:

Power-law terms: For each scaling dimension
Interaction terms: Capturing cross-dimensional dependencies
Saturation terms: Modeling performance limits

General structure:

Metric(N, D, T, I, C, H) = f_base + Σ α_i * dim_i^β_i + Σ γ_jk * dim_j^δ_j * dim_k^δ_k + ...

Where:

f_base: Baseline performance
α_i, β_i: Individual dimension scaling coefficients
γ_jk: Interaction coefficients between dimensions j and k

2. Parameter Estimation

Fit UNSL parameters using:

Multi-grid sampling: Train models at varied combinations of all dimensions
Regression fitting: Non-linear least squares or Bayesian optimization
Cross-validation: Validate extrapolation accuracy on held-out scaling regimes

3. Extrapolation & Prediction

Use fitted UNSL to:

Predict performance at unseen scales (larger N, more compute, etc.)
Optimize resource allocation (trade-off between dimensions)
Estimate training costs before running experiments
Identify optimal hyperparameters for target scale

Practical Applications

Model Development

Scenario: Planning a 100B parameter language model training

Use UNSL to predict: optimal data size, compute budget, expected performance
Trade-off analysis: More parameters vs. more data vs. more compute
Cost estimation: FLOPs required, training duration, hardware needs

Resource Allocation

Scenario: Fixed compute budget C, optimize (N, D, T) allocation

Solve: max Metric(N, D, T) subject to N * D * T ≈ C
UNSL provides closed-form or gradient-based optimization
Compare against Chinchilla-style allocation (which ignores T and hyperparameters)

Architecture Search

Scenario: Choosing between architectures at different scales

Fit UNSL separately per architecture family
Extrapolate to compare at larger scales not yet tested
Identify which architecture scales better along target dimensions

Downstream Transfer

Scenario: Pretrained model → downstream task performance

Model upstream scaling → downstream transfer as additional dimension
Predict: downstream performance from upstream training choices
Optimize: upstream training for downstream efficiency

Implementation Guide

Data Collection

Grid sampling: Train models at systematic combinations of (N, D, T, C, H)
- Minimum: 3-5 values per dimension
- Coverage: Ensure combinations span target extrapolation regime
Metric tracking: Record evaluation metric at each grid point
- Primary metric: Task-specific (accuracy, perplexity, reward)
- Secondary: Training stability, convergence speed
Normalization: Scale dimensions to comparable ranges
- Log-scale: N, D, T, C typically span orders of magnitude
- Normalize: Hyperparameters to [0, 1] or standard units

Fitting Procedure

# Pseudocode for UNSL fitting
from scipy.optimize import curve_fit

def unsl_function(dimensions, params):
    """
    dimensions: array [N, D, T, I, C, H_1, H_2, ...]
    params: fitted coefficients [α_1, β_1, α_2, β_2, ..., γ_jk, ...]
    """
    N, D, T, I, C, *hyperparams = dimensions
    # Compute individual terms
    term_N = params[0] * N**params[1]
    term_D = params[2] * D**params[3]
    term_T = params[4] * T**params[5]
    # Compute interaction terms
    term_ND = params[6] * (N * D)**params[7]
    # Sum all terms + baseline
    return params[-1] + term_N + term_D + term_T + term_ND + ...

# Fit to data
popt, pcov = curve_fit(unsl_function, training_data, metrics)

Extrapolation Validation

Hold-out test: Reserve largest-scale data points for validation
Metrics: Measure extrapolation error (RMSE, MAPE) on held-out regime
Baseline comparison: Compare against Chinchilla, Kaplan, or other scaling laws
Confidence bounds: Use covariance matrix pcov for uncertainty estimates

Comparison to Prior Scaling Laws

Approach	Dimensions	Interaction Terms	Extrapolation Accuracy	Task Coverage
Chinchilla (2022)	N, D	None (independent)	Moderate	Language only
Kaplan (2020)	N	None	Low	Language only
UNSL (2026)	N, D, T, I, C, H	Cross-dimensional	High	Vision, Language, Math, RL

Key Findings

Interaction terms critical: Cross-dimensional dependencies (N×D, N×T) significantly improve extrapolation
Inference scaling: First scaling law to model inference compute (I) as separate dimension
Hyperparameter sensitivity: Learning rate and batch size scale non-linearly with model size
Task-specific parameters: UNSL coefficients differ across vision/language/math, but functional form remains valid

Limitations & Caveats

Training cost: Requires multi-grid experiments (expensive for large models)
Regime validity: Extrapolation accuracy degrades beyond 10× training data scale
Architecture dependency: Needs separate fitting for fundamentally different architectures (e.g., CNN vs. Transformer)
Task boundary: Cannot extrapolate across fundamentally different tasks (e.g., vision → language)

When to Use

Planning large-scale training: Before committing compute budget
Resource optimization: Fixed budget, want optimal (N, D, T) split
Architecture comparison: Extrapolate multiple architectures to larger scale
Downstream prediction: Estimate transfer performance from upstream choices

When NOT to Use

Small-scale models: Single-dimension scaling sufficient for <1B parameters
Novel architectures: UNSL needs fitting data; cannot extrapolate to unseen architectures
Single-task optimization: If only varying one dimension, simpler scaling laws suffice
Real-time decisions: UNSL fitting requires offline computation

References

Paper: Caballero et al. "Unified Neural Scaling Laws" (arXiv:2605.26248, May 2026)
Prior work: Hoffmann et al. "Training Compute-Optimal Large Language Models" (Chinchilla, 2022)
Prior work: Kaplan et al. "Scaling Laws for Neural Language Models" (2020)

Related Skills

quantum-scaling-laws - Scaling behavior in quantum neural networks
model-architecture-search - Optimizing architecture choices at scale
compute-budget-optimization - Allocating FLOPs across training stages

Activation Keywords

unified neural scaling
UNSL
multi-dimensional scaling
scaling laws extrapolation
compute optimization
training cost prediction
resource allocation scaling