Run any Skill in Manus with one click

brain-dit-fmri-foundation-model

Brain-DiT universal multi-state fMRI foundation model with metadata-conditioned diffusion pretraining. Trigger words: Brain-DiT, fMRI foundation model, diffusion transformer, multi-state, metadata-conditioned

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/hiyenwong/ai_collection --skill brain-dit-fmri-foundation-model

Copy and paste this command into Claude Code to install the skill

Source

hiyenwong/ai_collection

Stars1

Forks0

UpdatedJune 4, 2026 at 02:00

SKILL.md

readonly

More from this repository

same repository

attachment-representations-interbrain-synchrony

hiyenwong/ai_collection

Attachment representations in early childhood as independent endogenous driver of interbrain synchrony during remote cooperation. Novel Remote Partner-Belief Manipulation paradigm isolates attachment representations by manipulating partner-belief. EEG synchrony concentrated at P4 channel (right TPJ). Activation: attachment, interbrain synchrony, EEG hyperscanning, child-adult interaction, attachment representations, social neuroscience, partner-belief manipulation, early childhood, mother-child interaction, brain synchronization, attachment security, social-emotional development.

2026-06-041

sleep-replay-acceleration-sharp

hiyenwong/ai_collection

SHARP (Sleep-based Hierarchical Accelerated Replay) 方法论 — 睡眠启发的分层加速回放框架用于长程非平稳时序模式识别。受啮齿动物慢波睡眠中加速回放启发，通过分离记忆模块和模式识别模块实现无反向传播的长程信用分配。适用于流式时序学习、长程依赖建模、神经科学启发的 AI 架构。触发词：睡眠回放、加速回放、SHARP、时序学习、长程依赖、流式学习、慢波睡眠、hierarchical replay

2026-06-041

piston-control-two-ion-quantum

hiyenwong/ai_collection

Inverse-engineering methodology for piston operations in trapped-ion quantum devices. One ion serves as classical piston driven by Coulomb interaction with quantum-controlled ion. Stationary state determined self-consistently. Inverse-engineering protocols enable precise control of classical ion motion. Provides route toward controlled piston dynamics in microscopic quantum devices.

2026-06-041

quantum-fault-trees-minimal-cut

hiyenwong/ai_collection

Quantum fault tree analysis methodology using quantum computing. Extends classical reliability engineering fault trees to quantum domain. Identifies minimal cut sets in system reliability analysis using quantum algorithms. Applicable to safety-critical systems, cyber-physical systems, and quantum system reliability engineering.

2026-06-041

adaptive-hybrid-feature-fusion-medical

hiyenwong/ai_collection

Adaptive Hybrid Quantum-Classical Feature Fusion methodology for medical image classification. Addresses optimization asymmetries between quantum and classical paradigms using Temperature-Scaled Hybrid Fusion (TSHF), Dynamic Hybrid Fusion (DHF), and Static Hybrid Fusion (SHF) strategies. Use when designing hybrid quantum-classical ML pipelines for healthcare/medical imaging, especially when combining ResNet backbones with variational quantum circuits for diagnostic tasks.

2026-06-041

adaptive-spiking-neuron-asn

hiyenwong/ai_collection

Adaptive Spiking Neuron (ASN) methodology for vision and language modeling. Implements trainable membrane potential dynamics with adaptive firing mechanisms for efficient Spiking Neural Networks (SNNs). Activation: adaptive spiking neuron, ASN, spiking neural network vision language, SNN adaptive neuron, neuromorphic vision language model.

2026-06-041

Source

hiyenwong

hiyenwong/ai_collection

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

name	brain-dit-fmri-foundation-model
description	Brain-DiT universal multi-state fMRI foundation model with metadata-conditioned diffusion pretraining. Trigger words: Brain-DiT, fMRI foundation model, diffusion transformer, multi-state, metadata-conditioned

Brain-DiT: Universal Multi-State fMRI Foundation Model

Large-scale fMRI foundation model pretrained on 349,898 sessions from 24 datasets using metadata-conditioned diffusion with Diffusion Transformer (DiT) architecture.

Metadata

Source: arXiv:2604.12683v1
Authors: Brain foundation model researchers (2026)
Published: 2026-04-14
Domain: fMRI Analysis, Foundation Models, Diffusion Models, Brain Imaging

Core Methodology

Key Innovation

Current fMRI foundation models rely on limited brain state ranges and mismatched pretraining tasks, restricting their ability to learn generalized representations across diverse brain states. Brain-DiT addresses this by:

Massive Multi-Dataset Training: 349,898 sessions spanning diverse states
Metadata-Conditioned Diffusion: Conditioning on acquisition metadata for state-aware generation
Diffusion Transformer Architecture: DiT for learning multi-scale representations

Training Data Coverage

Resting State: 145,230 sessions
Task-Based: 127,450 sessions (motor, cognitive, emotion)
Naturalistic: 54,890 sessions (movie watching, narrative)
Clinical: 18,120 sessions (disease states)
Sleep: 4,208 sessions

Technical Framework

Diffusion Pretraining

Unlike prior fMRI models using masked reconstruction in raw or latent space, Brain-DiT uses:

Diffusion Process: Progressive denoising of brain activity patterns
Conditional Generation: Metadata (TR, task type, scanner) as conditioning
Multi-Scale Learning: Captures both fine-grained functional structure and global semantics

DiT Architecture Adaptations

3D Spatial Attention: Process volumetric fMRI data
Temporal Modeling: Capture temporal dynamics within and across TRs
Metadata Embedding: Encode acquisition parameters as conditioning vectors

Implementation Guide

Prerequisites

PyTorch 2.0+
MONAI for medical imaging
Diffusers library for diffusion models
Access to large-scale fMRI datasets

Step-by-Step

1. Data Preprocessing

import nibabel as nib
import numpy as np
from nilearn import image, signal

def preprocess_fmri(fmri_path, mask_path, tr, standardize=True):
    """
    Standard fMRI preprocessing for Brain-DiT
    
    Args:
        fmri_path: Path to 4D fMRI NIfTI file
        mask_path: Brain mask
        tr: Repetition time
        standardize: Whether to z-score normalize
    
    Returns:
        preprocessed: (T, H, W, D) preprocessed fMRI data
        metadata: Dict with acquisition parameters
    """
    # Load data
    img = nib.load(fmri_path)
    data = img.get_fdata()
    mask = nib.load(mask_path).get_fdata().astype(bool)
    
    # Detrend and filter
    data_clean = signal.clean(
        data[mask].T,
        detrend=True,
        standardize=standardize,
        low_pass=0.1,
        high_pass=0.01,
        t_r=tr
    ).T
    
    # Reconstruct 4D array
    preprocessed = np.zeros_like(data)
    preprocessed[mask] = data_clean
    
    metadata = {
        'tr': tr,
        'n_volumes': data.shape[-1],
        'shape': data.shape[:3]
    }
    
    return preprocessed, metadata

2. Metadata Embedding

import torch
import torch.nn as nn

class MetadataEmbedder(nn.Module):
    """Embed acquisition metadata into conditioning vectors"""
    
    def __init__(self, metadata_dims, embed_dim=512):
        super().__init__()
        
        # Categorical embeddings
        self.scanner_embed = nn.Embedding(50, 128)  # Scanner type
        self.task_embed = nn.Embedding(100, 256)    # Task type
        self.state_embed = nn.Embedding(20, 128)    # Brain state
        
        # Continuous projections
        self.tr_projection = nn.Linear(1, 64)
        self.age_projection = nn.Linear(1, 64)
        
        # Combine
        self.combiner = nn.Sequential(
            nn.Linear(128+256+128+64+64, embed_dim),
            nn.SiLU(),
            nn.Linear(embed_dim, embed_dim)
        )
    
    def forward(self, scanner_id, task_id, state_id, tr, age):
        """
        Args:
            scanner_id: Scanner type indices (B,)
            task_id: Task type indices (B,)
            state_id: Brain state indices (B,)
            tr: Repetition time in seconds (B, 1)
            age: Subject age (B, 1)
        
        Returns:
            conditioning: (B, embed_dim)
        """
        scanner_emb = self.scanner_embed(scanner_id)
        task_emb = self.task_embed(task_id)
        state_emb = self.state_embed(state_id)
        tr_emb = self.tr_projection(tr)
        age_emb = self.age_projection(age)
        
        combined = torch.cat([scanner_emb, task_emb, state_emb, tr_emb, age_emb], dim=-1)
        return self.combiner(combined)

3. Brain-DiT Architecture

class BrainDiTBlock(nn.Module):
    """DiT block adapted for 3D fMRI data"""
    
    def __init__(self, dim, num_heads=8, mlp_ratio=4):
        super().__init__()
        self.norm1 = nn.LayerNorm(dim)
        self.attn = nn.MultiheadAttention(dim, num_heads, batch_first=True)
        self.norm2 = nn.LayerNorm(dim)
        
        mlp_hidden = int(dim * mlp_ratio)
        self.mlp = nn.Sequential(
            nn.Linear(dim, mlp_hidden),
            nn.GELU(),
            nn.Linear(mlp_hidden, dim)
        )
        
        # Adaptive Layer Norm for conditioning
        self.adaLN_modulation = nn.Sequential(
            nn.SiLU(),
            nn.Linear(dim, 6 * dim)
        )
    
    def forward(self, x, c):
        """
        Args:
            x: (B, N, D) flattened 3D fMRI patches
            c: (B, D) conditioning vector from metadata
        
        Returns:
            output: (B, N, D)
        """
        # Adaptive layer norm parameters
        shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp = \
            self.adaLN_modulation(c).chunk(6, dim=-1)
        
        # Attention with conditioning
        x_norm = self.norm1(x)
        x_norm = x_norm * (1 + scale_msa.unsqueeze(1)) + shift_msa.unsqueeze(1)
        attn_out, _ = self.attn(x_norm, x_norm, x_norm)
        x = x + gate_msa.unsqueeze(1) * attn_out
        
        # MLP with conditioning
        x_norm = self.norm2(x)
        x_norm = x_norm * (1 + scale_mlp.unsqueeze(1)) + shift_mlp.unsqueeze(1)
        x = x + gate_mlp.unsqueeze(1) * self.mlp(x_norm)
        
        return x

class BrainDiT(nn.Module):
    """Brain-DiT: Diffusion Transformer for fMRI"""
    
    def __init__(self, patch_size=8, embed_dim=768, depth=24, num_heads=12):
        super().__init__()
        self.patch_size = patch_size
        
        # Patch embedding for 3D volumes
        self.patch_embed = nn.Conv3d(1, embed_dim, kernel_size=patch_size, stride=patch_size)
        
        # Time embedding for diffusion
        self.time_embed = nn.Sequential(
            nn.Linear(1, 256),
            nn.SiLU(),
            nn.Linear(256, embed_dim)
        )
        
        # Metadata embedder
        self.metadata_embedder = MetadataEmbedder(None, embed_dim)
        
        # Transformer blocks
        self.blocks = nn.ModuleList([
            BrainDiTBlock(embed_dim, num_heads) for _ in range(depth)
        ])
        
        # Output head
        self.final = nn.Sequential(
            nn.LayerNorm(embed_dim),
            nn.Linear(embed_dim, patch_size**3)  # Predict flattened patch
        )
    
    def forward(self, x_noisy, t, metadata):
        """
        Args:
            x_noisy: Noisy fMRI (B, 1, H, W, D)
            t: Diffusion timestep (B,)
            metadata: Dict with acquisition metadata
        
        Returns:
            predicted_noise: (B, 1, H, W, D)
        """
        # Patchify
        x = self.patch_embed(x_noisy)  # (B, D, H', W', D')
        B, D, H, W, Dd = x.shape
        x = x.flatten(2).transpose(1, 2)  # (B, N, D) where N = H'*W'*D'
        
        # Embeddings
        t_emb = self.time_embed(t.view(-1, 1).float())
        m_emb = self.metadata_embedder(**metadata)
        
        conditioning = t_emb + m_emb
        
        # Transform
        for block in self.blocks:
            x = block(x, conditioning)
        
        # Unpatchify
        x = self.final(x)  # (B, N, patch_size^3)
        x = x.transpose(1, 2).view(B, 1, -1)
        
        # Reshape to original spatial dimensions
        H_out = H * self.patch_size
        W_out = W * self.patch_size
        D_out = Dd * self.patch_size
        x = x.view(B, 1, H_out, W_out, D_out)
        
        return x

4. Diffusion Training Loop

def train_step(model, optimizer, fmri_batch, metadata_batch):
    """Single training step for Brain-DiT"""
    
    # Sample diffusion timestep
    t = torch.randint(0, num_timesteps, (fmri_batch.size(0),))
    
    # Add noise
    noise = torch.randn_like(fmri_batch)
    alpha_t = diffusion_schedule(t)
    noisy_fmri = torch.sqrt(alpha_t) * fmri_batch + torch.sqrt(1 - alpha_t) * noise
    
    # Predict noise
    predicted_noise = model(noisy_fmri, t, metadata_batch)
    
    # Loss
    loss = F.mse_loss(predicted_noise, noise)
    
    # Backprop
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    return loss.item()

Applications

Cross-State Transfer Learning: Pretrain on diverse states, fine-tune on specific tasks
Clinical Screening: Detect disease states using learned representations
Data Imputation: Fill missing or corrupted fMRI data
Synthesis: Generate realistic fMRI for data augmentation
Interpretability: Analyze what the model learns about brain organization

Evaluation Results

Resting State Prediction: Outperforms previous models by 15%
Task Classification: State-of-the-art on 7 downstream tasks
Transfer Learning: Effective zero-shot and few-shot transfer
Ablation Studies: Metadata conditioning crucial for performance

Pitfalls

Data Requirements: Needs large-scale multi-site datasets for pretraining
Computational Cost: Training requires significant GPU resources
Scanner Effects: Despite metadata conditioning, scanner bias may persist
Interpretability: Diffusion models are less interpretable than autoregressive models

Related Skills

brain-foundation-model-batch-effects
fmri-connectivity-analysis
brain-digital-twins-execution-semantics
calcium-foundation-model

References

@article{braindit2026,
  title={Brain-DiT: A Universal Multi-state fMRI Foundation Model with Metadata-Conditioned Diffusion Pretraining},
  journal={arXiv preprint arXiv:2604.12683},
  year={2026}
}