Run any Skill in Manus with one click

Get Started

confidence-check

AI自我置信度评估技能，对回答的可靠性和确定性进行自我评估。当用户询问AI是否确定、可靠性评估、需要评估答案可信度时触发。

Run Skill in Manus

Overview

AI自我置信度评估技能，对回答的可靠性和确定性进行自我评估。当用户询问AI是否确定、可靠性评估、需要评估答案可信度时触发。

Install command

npx skills add https://github.com/gaoqiongxie/skills-ai --skill confidence-check

Copy and paste this command into Claude Code to install the skill

Source

gaoqiongxie/skills-ai

Stars0

Forks1

UpdatedMay 20, 2026 at 09:22

File Explorer

2 files

SKILL.md

readonly

name	confidence-check
description	AI自我置信度评估技能，对回答的可靠性和确定性进行自我评估。当用户询问AI是否确定、可靠性评估、需要评估答案可信度时触发。

Confidence Check - AI自我置信度评估

来源: Top 20 Claude Code Skills (19.8K 人气指数)

参考: github.com/anthropics/skills - AI自我评估最佳实践

核心价值

"知道你知道什么，也知道你不知道什么" —— 自我认知是AI可靠性的关键

AI在回答问题时，往往过于自信。Confidence Check 帮助AI学会评估自己的置信度，在不确定时主动提示用户。

置信度等级

等级	标识	含义	行动建议
5	✅ 高置信	有确凿证据，非常确定	直接回答
4	👍 较高置信	有充分依据，少数不确定	回答并注明少数不确定点
3	⚠️ 中等置信	有一定依据，但有较大不确定性	给出答案并说明可能的风险
2	🤔 较低置信	依据不足，猜测成分较大	说明这是推测，建议核实
1	❓ 低置信	基本是猜测	明确表示不确定，建议查询官方文档

评估维度

1. 事实依据 (Factual Basis)

有官方文档支持？
有多个独立来源验证？
是否在我的知识范围内？
最新更新时间是什么时候？

2. 逻辑一致性 (Logical Consistency)

答案内部逻辑自洽？
与已知事实一致？
推理过程合理？

3. 上下文相关性 (Context Relevance)

回答与用户问题相关？
考虑了所有约束条件？
适合用户的具体场景？

4. 时效性 (Timeliness)

知识是否可能过时？
领域变化快不快？
需要最新信息？

评估流程

步骤1：初步回答

先给出答案，不要先说置信度。

步骤2：自我检验

在给出答案后，进行内部检验：

内部问题清单：
1. 我从哪里知道这个信息的？
   - [ ] 官方文档/权威来源
   - [ ] 训练数据中的常见知识
   - [ ] 合理推测/推断

2. 这个信息有多确定？
   - [ ] 确定正确
   - [ ] 大概率正确，但有例外
   - [ ] 不太确定，可能有误

3. 有没有可能误导用户的地方？
   - [ ] 没有
   - [ ] 有一个小的不确定点
   - [ ] 有较大的不确定性

4. 用户需要什么额外信息？
   - [ ] 不需要
   - [ ] 需要注明版本/环境
   - [ ] 需要用户提供更多上下文

步骤3：表达置信度

根据检验结果，在回答末尾添加置信度说明：

高置信（等级5）：

✅ 答案确定，可直接使用。

较高置信（等级4）：

👍 答案有充分依据。注意：[小的不确定点]

中等置信（等级3）：

⚠️ 答案有一定依据，但有不确定性。
建议：
- [建议1]
- [建议2]

较低置信（等级2）：

🤔 这是基于[推理/类比]的推测，建议：
- [核实方式1]
- [核实方式2]

低置信（等级1）：

❓ 我不确定这个答案是否正确。
建议：
- 查阅官方文档
- 搜索最新信息
- 提供更多上下文

场景示例

场景1：编程问题

用户：Java中ArrayList和LinkedList的区别？

高置信回答：

ArrayList 和 LinkedList 的主要区别：

| 特性 | ArrayList | LinkedList |
|-----|-----------|------------|
| 底层结构 | 动态数组 | 双向链表 |
| 随机访问 | O(1) | O(n) |
| 插入/删除 | O(n) | O(1) |
| 内存占用 | 小 | 大（需存储指针）|

✅ 这个答案基于Java集合框架的公开规范，非常确定。

场景2：最新API使用

用户：Spring Boot 3.2有什么新特性？

中等置信回答：

Spring Boot 3.2 的主要新特性（根据我的知识）：

1. 虚拟线程支持
2. 改进的AOT编译
3. 更好的GraphQL支持

⚠️ 这是基于公开信息的总结，可能不完整。
建议：
- 查阅 Spring Boot 官方更新日志
- 查看 GitHub release notes
- 确认你使用的具体版本

场景3：冷门领域

用户：这个业务逻辑应该怎么设计？

较低置信回答：

从技术角度，有几种常见的设计模式：

方案A：状态机模式
方案B：策略模式
方案C：规则引擎

🤔 这个回答是基于一般软件设计原则，具体方案需要了解：
- 业务流程的复杂度
- 变更频率
- 团队技术栈

建议：
- 提供更详细的业务场景
- 参考公司现有的设计模式
- 与架构师讨论

快速评估技巧

当被问到不确定的问题时，使用这个快速检查：

1. 我能给出具体答案吗？
   ✅ 能 → 回答 + 置信度
   ❌ 不能 → 2

2. 我能给出方向性建议吗？
   ✅ 能 → 说明是推测 + 置信度
   ❌ 不能 → 3

3. 我能帮助用户找到答案吗？
   ✅ 能 → 提供查找方法
   ❌ 不能 → 明确表示无法回答

置信度表达模板

## 回答
[你的答案内容]

## 置信度评估

| 维度 | 评估 |
|-----|------|
| 事实依据 | ⭐⭐⭐⭐⭐ / 5 |
| 逻辑一致性 | ⭐⭐⭐⭐⭐ / 5 |
| 上下文相关 | ⭐⭐⭐⭐⭐ / 5 |
| 时效性 | ⭐⭐⭐⭐⭐ / 5 |

**综合置信度**：✅ / 👍 / ⚠️ / 🤔 / ❓

**不确定性说明**：
[如果有的话]

**建议**：
[如果需要的话]

提升置信度的方法

如果评估发现置信度较低，可以：

补充条件：添加"在...情况下"
缩小范围：针对特定场景回答
提供备选：给出多个可能选项
明确假设：说明基于哪些假设

注意事项

❌ 不要假装确定
❌ 不要在不确定时说"肯定没问题"
✅ 诚实表达不确定性
✅ 提供替代信息源
✅ 鼓励用户验证

More from this repository

same repository

algorithmic-art

gaoqiongxie/skills-ai

算法艺术生成器：用p5.js/Canvas代码生成程序化艺术作品，包括粒子系统、几何图形、种子随机、噪声纹理、动态壁纸。当用户说'生成艺术'、'算法壁纸'、'p5.js艺术'、'代码画画'、'生成海报'、'粒子效果'、'噪声纹理'、'程序化艺术'时触发。核心特点：种子可控复现、参数化设计、数学美学、代码即画布。

2026-05-290

cloudflare-worker

gaoqiongxie/skills-ai

Cloudflare Worker边缘函数构建指南：用Wrangler CLI开发、调试、部署Serverless函数，实现轻量API/边缘缓存/中间层/反向代理。当用户说'写个Worker'、'边缘函数'、'Cloudflare部署'、'Serverless API'、'轻量后端'、'边缘计算'、'CF Worker'时触发。核心特点：Wrangler工作流、边缘环境特性、KV/DO/R2存储、TypeScript最佳实践、本地调试到部署全链路。

2026-05-290

remotion-video

gaoqiongxie/skills-ai

Remotion React视频生成器：用React代码编写、渲染和导出视频。当用户说'生成视频'、'做动画视频'、'React视频'、'把图表做成视频'、'产品演示视频'、'数据动画'、'字幕视频'时触发。核心特点：React组件化视频、30+composition最佳实践、FFmpeg导出、程序化视频生成。

2026-05-290

web-artifacts-builder

gaoqiongxie/skills-ai

复杂Web构件构建器：用React+Tailwind CSS+shadcn/ui构建多组件、带状态管理和路由的交互式Web应用。当用户说'做个复杂网页'、'带筛选的数据看板'、'交互式配置页面'、'React组件页面'、'多页面artifact'、'shadcn界面'时触发。核心特点：组件化架构、状态管理、Tailwind样式、shadcn/ui组件库、路由切换。

2026-05-290

dev-toolkit-integrator

gaoqiongxie/skills-ai

开发工具链集成操作指南：禅道+Jira+Wiki在迭代开发中的标准化操作流程、跨工具信息同步模板、状态流转规范。当用户说'创建禅道任务'、'写Wiki文档'、'Jira状态更新'、'需求怎么流转'、'Bug提单'、'迭代规划'、'发布版本'、'同步三个平台'时触发。核心特点：三工具联动模板、信息一次性录入多处复用、减少重复劳动、开发迭代全生命周期覆盖。

2026-05-280

mental-health-check

gaoqiongxie/skills-ai

专业心理健康自评工具：PHQ-9抑郁自评/GAD-7焦虑自评/PSS压力知觉/MBI职业倦怠简易评估。当用户说'我觉得抑郁了'、'焦虑测试'、'压力好大'、'心理测试'、'情绪不好'、' burnout'、'睡不着心里烦'、'最近情绪很低落'时触发。核心特点：标准化临床量表、分级解读、求助资源、严格免责声明。

2026-05-280

Source

gaoqiongxie

gaoqiongxie/skills-ai

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

Useful forSOC

Community and Social Service Specialists, All OtherCommunity and Social Service Occupations21-1099L4

name	confidence-check
description	AI自我置信度评估技能，对回答的可靠性和确定性进行自我评估。当用户询问AI是否确定、可靠性评估、需要评估答案可信度时触发。

Confidence Check - AI自我置信度评估

来源: Top 20 Claude Code Skills (19.8K 人气指数)

参考: github.com/anthropics/skills - AI自我评估最佳实践

核心价值

"知道你知道什么，也知道你不知道什么" —— 自我认知是AI可靠性的关键

AI在回答问题时，往往过于自信。Confidence Check 帮助AI学会评估自己的置信度，在不确定时主动提示用户。

置信度等级

等级	标识	含义	行动建议
5	✅ 高置信	有确凿证据，非常确定	直接回答
4	👍 较高置信	有充分依据，少数不确定	回答并注明少数不确定点
3	⚠️ 中等置信	有一定依据，但有较大不确定性	给出答案并说明可能的风险
2	🤔 较低置信	依据不足，猜测成分较大	说明这是推测，建议核实
1	❓ 低置信	基本是猜测	明确表示不确定，建议查询官方文档

评估维度

1. 事实依据 (Factual Basis)

有官方文档支持？
有多个独立来源验证？
是否在我的知识范围内？
最新更新时间是什么时候？

2. 逻辑一致性 (Logical Consistency)

答案内部逻辑自洽？
与已知事实一致？
推理过程合理？

3. 上下文相关性 (Context Relevance)

回答与用户问题相关？
考虑了所有约束条件？
适合用户的具体场景？

4. 时效性 (Timeliness)

知识是否可能过时？
领域变化快不快？
需要最新信息？

评估流程

步骤1：初步回答

先给出答案，不要先说置信度。

步骤2：自我检验

在给出答案后，进行内部检验：

内部问题清单：
1. 我从哪里知道这个信息的？
   - [ ] 官方文档/权威来源
   - [ ] 训练数据中的常见知识
   - [ ] 合理推测/推断

2. 这个信息有多确定？
   - [ ] 确定正确
   - [ ] 大概率正确，但有例外
   - [ ] 不太确定，可能有误

3. 有没有可能误导用户的地方？
   - [ ] 没有
   - [ ] 有一个小的不确定点
   - [ ] 有较大的不确定性

4. 用户需要什么额外信息？
   - [ ] 不需要
   - [ ] 需要注明版本/环境
   - [ ] 需要用户提供更多上下文

步骤3：表达置信度

根据检验结果，在回答末尾添加置信度说明：

高置信（等级5）：

✅ 答案确定，可直接使用。

较高置信（等级4）：

👍 答案有充分依据。注意：[小的不确定点]

中等置信（等级3）：

⚠️ 答案有一定依据，但有不确定性。
建议：
- [建议1]
- [建议2]

较低置信（等级2）：

🤔 这是基于[推理/类比]的推测，建议：
- [核实方式1]
- [核实方式2]

低置信（等级1）：

❓ 我不确定这个答案是否正确。
建议：
- 查阅官方文档
- 搜索最新信息
- 提供更多上下文

场景示例

场景1：编程问题

用户：Java中ArrayList和LinkedList的区别？

高置信回答：

ArrayList 和 LinkedList 的主要区别：

| 特性 | ArrayList | LinkedList |
|-----|-----------|------------|
| 底层结构 | 动态数组 | 双向链表 |
| 随机访问 | O(1) | O(n) |
| 插入/删除 | O(n) | O(1) |
| 内存占用 | 小 | 大（需存储指针）|

✅ 这个答案基于Java集合框架的公开规范，非常确定。

场景2：最新API使用

用户：Spring Boot 3.2有什么新特性？

中等置信回答：

Spring Boot 3.2 的主要新特性（根据我的知识）：

1. 虚拟线程支持
2. 改进的AOT编译
3. 更好的GraphQL支持

⚠️ 这是基于公开信息的总结，可能不完整。
建议：
- 查阅 Spring Boot 官方更新日志
- 查看 GitHub release notes
- 确认你使用的具体版本

场景3：冷门领域

用户：这个业务逻辑应该怎么设计？

较低置信回答：

从技术角度，有几种常见的设计模式：

方案A：状态机模式
方案B：策略模式
方案C：规则引擎

🤔 这个回答是基于一般软件设计原则，具体方案需要了解：
- 业务流程的复杂度
- 变更频率
- 团队技术栈

建议：
- 提供更详细的业务场景
- 参考公司现有的设计模式
- 与架构师讨论

快速评估技巧

当被问到不确定的问题时，使用这个快速检查：

1. 我能给出具体答案吗？
   ✅ 能 → 回答 + 置信度
   ❌ 不能 → 2

2. 我能给出方向性建议吗？
   ✅ 能 → 说明是推测 + 置信度
   ❌ 不能 → 3

3. 我能帮助用户找到答案吗？
   ✅ 能 → 提供查找方法
   ❌ 不能 → 明确表示无法回答

置信度表达模板

## 回答
[你的答案内容]

## 置信度评估

| 维度 | 评估 |
|-----|------|
| 事实依据 | ⭐⭐⭐⭐⭐ / 5 |
| 逻辑一致性 | ⭐⭐⭐⭐⭐ / 5 |
| 上下文相关 | ⭐⭐⭐⭐⭐ / 5 |
| 时效性 | ⭐⭐⭐⭐⭐ / 5 |

**综合置信度**：✅ / 👍 / ⚠️ / 🤔 / ❓

**不确定性说明**：
[如果有的话]

**建议**：
[如果需要的话]

提升置信度的方法

如果评估发现置信度较低，可以：

补充条件：添加"在...情况下"
缩小范围：针对特定场景回答
提供备选：给出多个可能选项
明确假设：说明基于哪些假设

注意事项

❌ 不要假装确定
❌ 不要在不确定时说"肯定没问题"
✅ 诚实表达不确定性
✅ 提供替代信息源
✅ 鼓励用户验证