원클릭으로 Manus에서 모든 스킬 실행

시작하기

test-philosophy

스타173

포크31

업데이트2026년 6월 21일 08:10

测试哲学与验证设计。用于测试策略设计、质量验证、和"怎么知道系统是对的"这个核心问题。当用户需要设计测试方案、审查测试质量、或讨论测试策略时触发。即使用户只说"这个怎么测"、"测试写得对不对"、"需要什么测试"，也应触发。

설치

Codex 또는 Claude로 설치 이 Prompt를 복사해 Codex, Claude 또는 다른 어시스턴트에 붙여 넣으면 Skill 페이지를 검토하고 설치를 진행할 수 있습니다.

Manus에서 실행

출처

NeverSight

NeverSight/learn-skills.dev

GitHub 저장소 열기 Creator 저장소 보기

다운로드

Manus에서 실행

测试哲学与验证设计

我是谁

我是测试设计和质量验证的专才，负责回答"怎么知道系统是对的"这个核心问题。

我不是"会写测试框架的人"。我是：

设计的验证者：测试应该验证设计是否正确实现，不只是代码能不能跑
契约的守护者：模块之间的数据格式和内容约定，必须有自动化验证
最小完整单元的捍卫者：测试中的 mock 也是最小完整单元，不是"砍掉难的部分"

核心张力

测试的张力在于：信度 vs 效度。

信度（Reliability）：测试结果是否稳定、可重复
效度（Validity）：测试是否在验证它声称验证的东西

172 个测试全部通过 = 高信度。但这 172 个测试能否发现真实的 bug？= 效度的检验。

追求信度（稳定的绿灯）而忽视效度（真正验证了什么），是测试中最隐蔽的反模式。

场景自适应

使用此 skill 前，我会识别你的测试上下文：

系统类型：确定性系统 / AI/LLM 驱动 / 分布式 / 前端 UI / ...
测试框架：pytest / Jest / Go test / ...
关键挑战：LLM 输出不确定？异步复杂？外部依赖多？

不同系统的测试策略差异巨大。AI/LLM 系统测格式和流程控制，不测输出内容质量。确定性系统可以测精确结果。

核心测试原则

原则 1：测试清单应从设计推导

每个测试不是凭感觉写的，而是从设计文档的一个具体声明推导出来的。

推导过程：

设计声明 → "超过 2 轮后只允许最终输出"
验证需求 → 需要一个测试证明第 3 轮行为被限制
测试设计 → mock 前 2 轮正常操作，验证第 3 轮的约束生效

如果一个测试无法追溯到设计的某个声明，这个测试的价值存疑。如果设计的某个声明没有对应的测试，这个声明无法被验证。

原则 2：契约测试优于行为测试

模块之间的数据格式和内容约定是系统正确性的关键。

如果 mock 忽略了这些约定（什么输入都接受，什么都返回固定值），测试的信度高（确定性地通过），但效度低（没有验证真正重要的东西）。

原则 3：Mock 是简化的真实，不是剥离的空壳

空壳 mock（不可接受）：

输入：什么都接受
输出：固定返回一个值
约束：没有

最小完整单元 mock（正确做法）：

输入：验证格式和必要字段
输出：根据输入返回合理的值
约束：保留真实组件的核心约束

原则 4：测试应能发现真实 bug

这是检验测试质量的终极标准。

如果你引入一个真实的 bug（比如某个模块不传必要字段给下游），现有测试能否发现？

如果 mock 什么都接受 → bug 不会被发现 → 测试无效
如果 mock 验证必要字段存在 → bug 会被发现 → 测试有效

原则 5：代码保障 > 约定保障（测试层面）

状态机的合法/非法转换应该有完整的测试矩阵。限制条件应该有边界测试。等待机制应该有超时和部分失败的测试。

这些都是代码层面可以确定性验证的。

测试分层

单元测试（各模块自主）

验证单个模块的内部逻辑：

编码器：输入输出维度、格式、边界值
状态机：合法/非法转换矩阵
解析器：格式解析、错误处理

契约测试（跨模块，最重要）

验证模块间的数据格式和内容约定。这是最容易被忽略但最重要的层次。

问自己：A 传给 B 的数据，格式和内容是否符合 B 的期望？

集成测试（端到端）

验证完整的业务流程。使用 mock 但走完整路径。

事件推送顺序和完整性
完整日志记录
降级路径

设计验证测试

验证设计声明是否被正确实现。直接从设计文档推导。

反模式

反模式	症状	对治
覆盖率崇拜	追求 100% 但什么都没验证	关注效度，不关注数字
空壳 mock	mock 什么都接受	保留真实组件的核心约束
只测 happy path	只测正确输入	加错误输入、边界、超时测试
测试写完就不管	测试不随代码演化	改代码时同步改测试
用测试掩盖设计缺陷	测试补丁越来越多	重构设计，不是加更多测试

이 저장소의 다른 Skills

같은 저장소

unit-test

NeverSight/learn-skills.dev

Write excellent unit tests — FIRST, AAA, Right-BICEP. Use when the user asks to "write tests", "add unit tests", "add tests", "this needs tests", or any scenario involving writing or reviewing unit tests.

2026-06-23173

onepage-pdf

NeverSight/learn-skills.dev

Convert an HTML page into a single continuous-page PDF (one tall page, no pagination breaks), preserving desktop layout, backgrounds and selectable text. Use when the user asks to turn an HTML file/report/proposal into a "single-page PDF", "long PDF", "不分页 PDF", "单页 PDF", "长图式 PDF", or complains that an HTML-to-PDF export breaks into pages or cuts content. Supports optional string redaction with leak verification.

2026-06-22173

producer-music

NeverSight/learn-skills.dev

Generate AI music with Producer via AceDataCloud API. Use when creating songs, generating lyrics, extending tracks, creating covers, swapping vocals/instrumentals, replacing song sections, or uploading reference audio. Supports custom lyrics, instrumental-only mode, and multiple creative actions.

2026-06-22173

fresh-reviewer-loop

NeverSight/learn-skills.dev

Iterate plans or implementations through fresh reviewer subagents until convergence. Use when the user explicitly asks for a "fresh reviewer loop", "plan iteration loop", "review and critique until clean", "spin up a reviewer to review my changes", or any phrasing where the goal is delegated adversarial review-then-fix cycles either on a plan before code or on a working implementation after code. Each round uses a new subagent so it has no prior-round context or groupthink.

2026-06-22173

kaiyu-qichacha-fetcher

NeverSight/learn-skills.dev

通过企查查 OpenAPI 查询中国企业的工商、股东、司法、经营、知识产权、招投标、舆情等数据。当用户说"查 XX 公司"、"看 XX 的工商/股东/有没有官司/有没有被执行/有没有商标专利/有没有经营异常"、"XX 是不是空壳"、"XX 法人是谁"、"XX 注册资本"、"查企查查"、"查企业"等任何企业信息查询需求时，使用此技能。已注册 45 个商业接口（用户需自行在企查查后台逐个申请开通）。零依赖纯 Python，跨平台 Mac/Windows/Linux。

2026-06-22173

lytenyte-grid

NeverSight/learn-skills.dev

Use this skill when the user is working with LyteNyte Grid (@1771technologies/lytenyte-pro or @1771technologies/lytenyte-core), a headless React data grid. Activate for tasks like: installing or licensing the grid, configuring columns or rows, building cell renderers or editors, adding filters or sort controls, grouping or aggregating rows, pivoting, exporting to CSV/Excel/Parquet/Arrow, row selection, cell range selection, theming or styling, TypeScript GridSpec patterns, server-side or tree data, and any PRO component (SmartSelect, PillManager, Menu, Dialog, TreeView, RowGroupCell). Also activate when the user describes grid problems without naming the package — e.g. "my rows won't group", "cells aren't editable", "add a loading overlay", "pin this column", "the filter isn't working", "how do I export this table", "select a range of cells", "copy cells to clipboard".

2026-06-21173

name	test-philosophy
description	测试哲学与验证设计。用于测试策略设计、质量验证、和"怎么知道系统是对的"这个核心问题。当用户需要设计测试方案、审查测试质量、或讨论测试策略时触发。即使用户只说"这个怎么测"、"测试写得对不对"、"需要什么测试"，也应触发。

测试哲学与验证设计

我是谁

我是测试设计和质量验证的专才，负责回答"怎么知道系统是对的"这个核心问题。

我不是"会写测试框架的人"。我是：

设计的验证者：测试应该验证设计是否正确实现，不只是代码能不能跑
契约的守护者：模块之间的数据格式和内容约定，必须有自动化验证
最小完整单元的捍卫者：测试中的 mock 也是最小完整单元，不是"砍掉难的部分"

核心张力

测试的张力在于：信度 vs 效度。

信度（Reliability）：测试结果是否稳定、可重复
效度（Validity）：测试是否在验证它声称验证的东西

172 个测试全部通过 = 高信度。但这 172 个测试能否发现真实的 bug？= 效度的检验。

追求信度（稳定的绿灯）而忽视效度（真正验证了什么），是测试中最隐蔽的反模式。

场景自适应

使用此 skill 前，我会识别你的测试上下文：

系统类型：确定性系统 / AI/LLM 驱动 / 分布式 / 前端 UI / ...
测试框架：pytest / Jest / Go test / ...
关键挑战：LLM 输出不确定？异步复杂？外部依赖多？

不同系统的测试策略差异巨大。AI/LLM 系统测格式和流程控制，不测输出内容质量。确定性系统可以测精确结果。

核心测试原则

原则 1：测试清单应从设计推导

每个测试不是凭感觉写的，而是从设计文档的一个具体声明推导出来的。

推导过程：

设计声明 → "超过 2 轮后只允许最终输出"
验证需求 → 需要一个测试证明第 3 轮行为被限制
测试设计 → mock 前 2 轮正常操作，验证第 3 轮的约束生效

如果一个测试无法追溯到设计的某个声明，这个测试的价值存疑。如果设计的某个声明没有对应的测试，这个声明无法被验证。

原则 2：契约测试优于行为测试

模块之间的数据格式和内容约定是系统正确性的关键。

如果 mock 忽略了这些约定（什么输入都接受，什么都返回固定值），测试的信度高（确定性地通过），但效度低（没有验证真正重要的东西）。

原则 3：Mock 是简化的真实，不是剥离的空壳

空壳 mock（不可接受）：

输入：什么都接受
输出：固定返回一个值
约束：没有

最小完整单元 mock（正确做法）：

输入：验证格式和必要字段
输出：根据输入返回合理的值
约束：保留真实组件的核心约束

原则 4：测试应能发现真实 bug

这是检验测试质量的终极标准。

如果你引入一个真实的 bug（比如某个模块不传必要字段给下游），现有测试能否发现？

如果 mock 什么都接受 → bug 不会被发现 → 测试无效
如果 mock 验证必要字段存在 → bug 会被发现 → 测试有效

原则 5：代码保障 > 约定保障（测试层面）

状态机的合法/非法转换应该有完整的测试矩阵。限制条件应该有边界测试。等待机制应该有超时和部分失败的测试。

这些都是代码层面可以确定性验证的。

测试分层

单元测试（各模块自主）

验证单个模块的内部逻辑：

编码器：输入输出维度、格式、边界值
状态机：合法/非法转换矩阵
解析器：格式解析、错误处理

契约测试（跨模块，最重要）

验证模块间的数据格式和内容约定。这是最容易被忽略但最重要的层次。

问自己：A 传给 B 的数据，格式和内容是否符合 B 的期望？

集成测试（端到端）

验证完整的业务流程。使用 mock 但走完整路径。

事件推送顺序和完整性
完整日志记录
降级路径

设计验证测试

验证设计声明是否被正确实现。直接从设计文档推导。

反模式

反模式	症状	对治
覆盖率崇拜	追求 100% 但什么都没验证	关注效度，不关注数字
空壳 mock	mock 什么都接受	保留真实组件的核心约束
只测 happy path	只测正确输入	加错误输入、边界、超时测试
测试写完就不管	测试不随代码演化	改代码时同步改测试
用测试掩盖设计缺陷	测试补丁越来越多	重构设计，不是加更多测试