Run any Skill in Manus with one click

$pwd:

chaos-engineering-resilience

Name: Chaos Engineering Resilience
Author: proffesor-for-testing

// Chaos engineering principles, controlled failure injection, resilience testing, and system recovery validation. Use when testing distributed systems, building confidence in fault tolerance, or validating disaster recovery.

Run Skill in Manus

$ git log --oneline --stat

stars:43

forks:12

updated:December 8, 2025 at 14:35

SKILL.md

readonly

name	chaos-engineering-resilience
description	Chaos engineering principles, controlled failure injection, resilience testing, and system recovery validation. Use when testing distributed systems, building confidence in fault tolerance, or validating disaster recovery.
category	specialized-testing
priority	high
tokenEstimate	900
agents	["qe-chaos-engineer","qe-performance-tester","qe-production-intelligence"]
implementation_status	optimized
optimization_version	1
last_optimized	"2025-12-02T00:00:00.000Z"
dependencies	[]
quick_reference_card	true
tags	["chaos","resilience","fault-injection","distributed-systems","recovery","netflix"]

Chaos Engineering & Resilience Testing

<default_to_action> When testing system resilience or injecting failures:

DEFINE steady state (normal metrics: error rate, latency, throughput)
HYPOTHESIZE system continues in steady state during failure
INJECT real-world failures (network, instance, disk, CPU)
OBSERVE and measure deviation from steady state
FIX weaknesses discovered, document runbooks, repeat

Quick Chaos Steps:

Start small: Dev → Staging → 1% prod → gradual rollout
Define clear rollback triggers (error_rate > 5%)
Measure blast radius, never exceed planned scope
Document findings → runbooks → improved resilience

Critical Success Factors:

Controlled experiments with automatic rollback
Steady state must be measurable
Start in non-production, graduate to production </default_to_action>

Quick Reference Card

When to Use

Distributed systems validation
Disaster recovery testing
Building confidence in fault tolerance
Pre-production resilience verification

Failure Types to Inject

Category	Failures	Tools
Network	Latency, packet loss, partition	tc, toxiproxy
Infrastructure	Instance kill, disk failure, CPU	Chaos Monkey
Application	Exceptions, slow responses, leaks	Gremlin, LitmusChaos
Dependencies	Service outage, timeout	WireMock

Blast Radius Progression

Dev (safe) → Staging → 1% prod → 10% → 50% → 100%
     ↓           ↓         ↓        ↓
  Learn      Validate   Careful   Full confidence

Steady State Metrics

Metric	Normal	Alert Threshold
Error rate	< 0.1%	> 1%
p99 latency	< 200ms	> 500ms
Throughput	baseline	-20%

Chaos Experiment Structure

// Chaos experiment definition
const experiment = {
  name: 'Database latency injection',
  hypothesis: 'System handles 500ms DB latency gracefully',
  steadyState: {
    errorRate: '< 0.1%',
    p99Latency: '< 300ms'
  },
  method: {
    type: 'network-latency',
    target: 'database',
    delay: '500ms',
    duration: '5m'
  },
  rollback: {
    automatic: true,
    trigger: 'errorRate > 5%'
  }
};

Agent-Driven Chaos

// qe-chaos-engineer runs controlled experiments
await Task("Chaos Experiment", {
  target: 'payment-service',
  failure: 'terminate-random-instance',
  blastRadius: '10%',
  duration: '5m',
  steadyStateHypothesis: {
    metric: 'success-rate',
    threshold: 0.99
  },
  autoRollback: true
}, "qe-chaos-engineer");

// Validates:
// - System recovers automatically
// - Error rate stays within threshold
// - No data loss
// - Alerts triggered appropriately

Agent Coordination Hints

Memory Namespace

aqe/chaos-engineering/
├── experiments/*       - Experiment definitions & results
├── steady-states/*     - Baseline measurements
├── runbooks/*          - Generated recovery procedures
└── blast-radius/*      - Impact analysis

Fleet Coordination

const chaosFleet = await FleetManager.coordinate({
  strategy: 'chaos-engineering',
  agents: [
    'qe-chaos-engineer',          // Experiment execution
    'qe-performance-tester',      // Baseline metrics
    'qe-production-intelligence'  // Production monitoring
  ],
  topology: 'sequential'
});

Related Skills

shift-right-testing - Production testing
performance-testing - Load testing
test-environment-management - Environment stability

Remember

Break things on purpose to prevent unplanned outages. Find weaknesses before users do. Define steady state, inject failures, measure impact, fix weaknesses, create runbooks. Start small, increase blast radius gradually.

With Agents: qe-chaos-engineer automates chaos experiments with blast radius control, automatic rollback, and comprehensive resilience validation. Generates runbooks from experiment results.

related-skills.json

same repository

accessibility-testing.md

from "proffesor-for-testing/sentinel-api-testing"

WCAG 2.2 compliance testing, screen reader validation, and inclusive design verification. Use when ensuring legal compliance (ADA, Section 508), testing for disabilities, or building accessible applications for 1 billion disabled users globally.

2025-12-0843

agentic-quality-engineering.md

from "proffesor-for-testing/sentinel-api-testing"

AI agents as force multipliers for quality work. Core skill for all 19 QE agents using PACT principles.

2025-12-0843

api-testing-patterns.md

from "proffesor-for-testing/sentinel-api-testing"

Comprehensive API testing patterns including contract testing, REST/GraphQL testing, and integration testing. Use when testing APIs or designing API test strategies.

2025-12-0843

brutal-honesty-review.md

from "proffesor-for-testing/sentinel-api-testing"

Unvarnished technical criticism combining Linus Torvalds' precision, Gordon Ramsay's standards, and James Bach's BS-detection. Use when code/tests need harsh reality checks, certification schemes smell fishy, or technical decisions lack rigor. No sugar-coating, just surgical truth about what's broken and why.

2025-12-0843

bug-reporting-excellence.md

from "proffesor-for-testing/sentinel-api-testing"

Write high-quality bug reports that get fixed quickly. Use when reporting bugs, training teams on bug reporting, or establishing bug report standards.

2025-12-0843

cicd-pipeline-qe-orchestrator.md

from "proffesor-for-testing/sentinel-api-testing"

Orchestrate quality engineering across CI/CD pipeline phases. Use when designing test strategies, planning quality gates, or implementing shift-left/shift-right testing.

2025-12-0843

package.json

"author": "proffesor-for-testing"

"repository": "proffesor-for-testing/sentinel-api-testing"

View GitHub Repository View Creator Repositories

$ install --global

$ download --local

Run Skill in Manus

$ useful --forSOC

Software Quality Assurance Analysts and TestersComputer and Mathematical Occupations15-1253L4

name	chaos-engineering-resilience
description	Chaos engineering principles, controlled failure injection, resilience testing, and system recovery validation. Use when testing distributed systems, building confidence in fault tolerance, or validating disaster recovery.
category	specialized-testing
priority	high
tokenEstimate	900
agents	["qe-chaos-engineer","qe-performance-tester","qe-production-intelligence"]
implementation_status	optimized
optimization_version	1
last_optimized	"2025-12-02T00:00:00.000Z"
dependencies	[]
quick_reference_card	true
tags	["chaos","resilience","fault-injection","distributed-systems","recovery","netflix"]

Chaos Engineering & Resilience Testing

<default_to_action> When testing system resilience or injecting failures:

DEFINE steady state (normal metrics: error rate, latency, throughput)
HYPOTHESIZE system continues in steady state during failure
INJECT real-world failures (network, instance, disk, CPU)
OBSERVE and measure deviation from steady state
FIX weaknesses discovered, document runbooks, repeat

Quick Chaos Steps:

Start small: Dev → Staging → 1% prod → gradual rollout
Define clear rollback triggers (error_rate > 5%)
Measure blast radius, never exceed planned scope
Document findings → runbooks → improved resilience

Critical Success Factors:

Controlled experiments with automatic rollback
Steady state must be measurable
Start in non-production, graduate to production </default_to_action>

Quick Reference Card

When to Use

Distributed systems validation
Disaster recovery testing
Building confidence in fault tolerance
Pre-production resilience verification

Failure Types to Inject

Category	Failures	Tools
Network	Latency, packet loss, partition	tc, toxiproxy
Infrastructure	Instance kill, disk failure, CPU	Chaos Monkey
Application	Exceptions, slow responses, leaks	Gremlin, LitmusChaos
Dependencies	Service outage, timeout	WireMock

Blast Radius Progression

Dev (safe) → Staging → 1% prod → 10% → 50% → 100%
     ↓           ↓         ↓        ↓
  Learn      Validate   Careful   Full confidence

Steady State Metrics

Metric	Normal	Alert Threshold
Error rate	< 0.1%	> 1%
p99 latency	< 200ms	> 500ms
Throughput	baseline	-20%

Chaos Experiment Structure

// Chaos experiment definition
const experiment = {
  name: 'Database latency injection',
  hypothesis: 'System handles 500ms DB latency gracefully',
  steadyState: {
    errorRate: '< 0.1%',
    p99Latency: '< 300ms'
  },
  method: {
    type: 'network-latency',
    target: 'database',
    delay: '500ms',
    duration: '5m'
  },
  rollback: {
    automatic: true,
    trigger: 'errorRate > 5%'
  }
};

Agent-Driven Chaos

// qe-chaos-engineer runs controlled experiments
await Task("Chaos Experiment", {
  target: 'payment-service',
  failure: 'terminate-random-instance',
  blastRadius: '10%',
  duration: '5m',
  steadyStateHypothesis: {
    metric: 'success-rate',
    threshold: 0.99
  },
  autoRollback: true
}, "qe-chaos-engineer");

// Validates:
// - System recovers automatically
// - Error rate stays within threshold
// - No data loss
// - Alerts triggered appropriately

Agent Coordination Hints

Memory Namespace

aqe/chaos-engineering/
├── experiments/*       - Experiment definitions & results
├── steady-states/*     - Baseline measurements
├── runbooks/*          - Generated recovery procedures
└── blast-radius/*      - Impact analysis

Fleet Coordination

const chaosFleet = await FleetManager.coordinate({
  strategy: 'chaos-engineering',
  agents: [
    'qe-chaos-engineer',          // Experiment execution
    'qe-performance-tester',      // Baseline metrics
    'qe-production-intelligence'  // Production monitoring
  ],
  topology: 'sequential'
});

Related Skills

shift-right-testing - Production testing
performance-testing - Load testing
test-environment-management - Environment stability

Remember

With Agents: qe-chaos-engineer automates chaos experiments with blast radius control, automatic rollback, and comprehensive resilience validation. Generates runbooks from experiment results.

chaos-engineering-resilience

Chaos Engineering & Resilience Testing

Quick Reference Card

When to Use

Failure Types to Inject

Blast Radius Progression

Steady State Metrics

Chaos Experiment Structure

Agent-Driven Chaos

Agent Coordination Hints

Memory Namespace

Fleet Coordination

Related Skills

Remember

More from this repository

Chaos Engineering & Resilience Testing

Quick Reference Card

When to Use

Failure Types to Inject

Blast Radius Progression

Steady State Metrics

Chaos Experiment Structure

Agent-Driven Chaos

Agent Coordination Hints

Memory Namespace

Fleet Coordination

Related Skills

Remember

More from this repository