with one click
taobao-mcp-benchmark
淘宝桌面版MCP工具评测框架。用于系统化测试MCP工具的各项功能,生成专业的技术评测报告。Use when 需要对淘宝MCP工具进行评测、测试、验收、迭代验证。
淘宝桌面版MCP工具评测框架。用于系统化测试MCP工具的各项功能,生成专业的技术评测报告。Use when 需要对淘宝MCP工具进行评测、测试、验收、迭代验证。
| name | taobao-mcp-benchmark |
| description | 淘宝桌面版MCP工具评测框架。用于系统化测试MCP工具的各项功能,生成专业的技术评测报告。Use when 需要对淘宝MCP工具进行评测、测试、验收、迭代验证。 |
| version | 1.4.1 |
| metadata | {"openclaw":{"emoji":"📊","author":"CoPaw AI","created":"2026-03-17","updated":"2026-03-17"}} |
本skill提供一套系统化的评测框架,用于测试淘宝桌面版MCP工具的各项功能,并生成专业的技术评测报告。
评测任务一旦开始,必须完整执行完成,不可中断。
| 原则 | 说明 |
|---|---|
| 不可中断 | 开始评测后,必须完成所有5个任务 + 生成报告 |
| 完整流程 | 初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理 |
| 状态跟踪 | 每个任务完成后记录 checkpoint,便于恢复 |
| 用户提醒 | 如用户试图中断,提醒"评测任务未完成,是否继续?" |
评测开始时创建状态文件 ~/.copaw/tasks/benchmark_YYYYMMDD_HHMMSS/status.json:
{
"benchmark_id": "20260317_145034",
"version": "1.2.0",
"start_time": "2026-03-17 14:50:00",
"status": "running",
"current_task": 1,
"tasks": [
{"id": 1, "name": "淘金币签到", "status": "pending", "score": null},
{"id": 2, "name": "商品搜索+对比+加购", "status": "pending", "score": null},
{"id": 3, "name": "订单管理", "status": "pending", "score": null},
{"id": 4, "name": "获取购物车以及降价信息", "status": "pending", "score": null},
{"id": 5, "name": "客服咨询对话", "status": "pending", "score": null}
],
"screenshots": [],
"report_generated": false
}
每个任务完成后立即更新状态:
# 任务完成后更新
echo '{"id": 1, "status": "completed", "score": 9, "end_time": "..."}' >> status.json
如果会话中断,下次用户询问评测时:
current_task 继续执行开始评测
│
▼
创建任务目录 + status.json
│
▼
┌─────────────────────────────┐
│ 任务1:淘金币签到 │◄─── 记录截图、耗时、结果
│ 任务2:商品搜索+对比+加购 │◄─── 记录截图、耗时、结果
│ 任务3:订单管理 │◄─── 记录截图、耗时、结果
│ 任务4:获取购物车以及降价信息 │◄─── 记录截图、耗时、结果
│ 任务5:客服咨询对话 │◄─── 记录截图、耗时、结果
└─────────────────────────────┘
│
▼
收集所有截图
│
▼
生成 Word 报告(含截图)
│
▼
更新 status.json → completed
│
▼
输出评测结果摘要
| 禁止行为 | 原因 |
|---|---|
| ❌ 任务中途停止 | 导致评测数据不完整 |
| ❌ 跳过任务 | 影响总分计算 |
| ❌ 跳过截图 | 报告缺失关键证据 |
| ❌ 不生成报告 | 用户无法查看结果 |
如果用户在评测过程中说"停"、"不做了"等:
AI:⚠️ 评测任务尚未完成(已完成 X/5 个任务)。
中断将导致评测数据不完整,无法生成完整报告。
是否继续完成评测?(建议选择"继续")
- 继续:继续执行剩余任务
- 中断:停止评测,生成不完整报告(不推荐)
测试目标:验证导航、元素识别、点击操作的稳定性
测试步骤:
navigate → 首页scan_page_elements → 识别淘金币入口click_element → 进入淘金币页面read_page_content → 读取金币数量评分标准:
| 指标 | 分值 |
|---|---|
| 导航成功 | 2分 |
| 元素识别准确 | 2分 |
| 点击操作成功 | 2分 |
| 金币增加验证 | 2分 |
| 流程顺畅度 | 2分 |
测试目标:验证搜索、详情查看、SKU选择、加购流程
测试步骤:
search_products → 搜索关键词(如"保温杯")read_page_content → 读取搜索结果click_element → 进入商品详情页read_page_content → 读取商品信息add_to_cart → 加入购物车(带SKU参数)评分标准:
| 指标 | 分值 |
|---|---|
| 搜索返回结果 | 2分 |
| 商品详情页导航 | 2分 |
| 信息提取完整 | 2分 |
| SKU选择准确 | 2分 |
| 加购成功 | 2分 |
测试目标:验证订单页面导航、状态筛选功能
测试步骤:
navigate → 订单页面scan_page_elements → 识别筛选标签read_page_content → 读取订单列表评分标准:
| 指标 | 分值 |
|---|---|
| 订单页面导航 | 2分 |
| 筛选标签识别 | 2分 |
| 筛选功能正常 | 2分 |
| 订单信息读取 | 2分 |
| 页面切换流畅 | 2分 |
测试目标:验证购物车导航、商品列表读取、降价信息提取
测试步骤:
navigate → 购物车页面read_page_content → 读取商品列表read_page_content → 读取降价商品详情评分标准:
| 指标 | 分值 |
|---|---|
| 购物车导航成功 | 2分 |
| 商品列表读取完整 | 2分 |
| 降价标签点击成功 | 2分 |
| 降价信息提取准确 | 2分 |
| 数据记录完整 | 2分 |
输出数据:
测试目标:验证搜索商品、发起客服咨询、多轮对话功能
测试步骤:
search_products → 搜索商品open_chat_from_search → 进入商家客服对话send_chat_message → 发起第二轮追问:"好的,那发什么快递呢?可以发顺丰吗?"评分标准:
| 指标 | 分值 |
|---|---|
| 商品搜索成功 | 1分 |
| 进入客服对话 | 1分 |
| 第一轮对话发送成功 | 1.5分 |
| 客服第一次回复接收 | 1.5分 |
| 第二轮追问发送成功 | 2分 |
| 客服第二次回复接收 | 2分 |
| 对话记录完整 | 1分 |
工具调用:
# 搜索商品
search_products keyword="鼠标"
# 通过搜索进入客服对话
open_chat_from_search query="鼠标" message="你好,请问这个商品今天下单,3天后能到杭州吗?"
# 发送第二轮追问(等待客服回复后)
send_chat_message message="好的,那发什么快递呢?可以发顺丰吗?"
注意事项:
# 创建评测任务目录
mkdir -p ~/.copaw/tasks/benchmark_$(date +%Y%m%d_%H%M%S)/screenshots
# 记录评测开始时间
echo "评测开始时间: $(date '+%Y-%m-%d %H:%M:%S')" > ~/.copaw/tasks/benchmark_*/timing.log
必须严格遵守以下规范:
| 截图时机 | 文件命名 | 说明 |
|---|---|---|
| 任务开始 | XX_task_start.png | 任务开始时的页面状态 |
| 关键操作前 | XX_step_N_操作名_before.png | 操作前的页面状态 |
| 关键操作后 | XX_step_N_操作名_after.png | 操作后的页面状态 |
| 任务完成 | XX_task_end.png | 任务完成时的页面状态 |
| 异常/问题 | XX_issue_N.png | 发现问题时的截图 |
截图命令:
screencapture -x ~/.copaw/tasks/benchmark_*/screenshots/01_task_start.png
# 操作开始
START_TIME=$(date +%s)
# 执行操作(如 navigate、click 等)
# 操作结束,计算耗时
END_TIME=$(date +%s)
echo "navigate_home: $((END_TIME - START_TIME))秒" >> timing.log
每次工具调用必须记录:
echo "$(date '+%H:%M:%S') | navigate | page=home | success | 2.3s" >> calls.log
报告命名规范(必须遵守):
| 项目 | 格式 | 示例 |
|---|---|---|
| 报告标题 | 淘宝桌面版MCP评测报告 {YYYY-MM-DD} | 淘宝桌面版MCP评测报告 2026-03-17 |
| Word文件名 | 淘宝桌面版MCP评测报告 {YYYY-MM-DD}.docx | 淘宝桌面版MCP评测报告 2026-03-17.docx |
| Markdown文件名 | report_{YYYY-MM-DD}.md | report_2026-03-17.md |
Word 报告必须包含以下内容:
每个任务需包含:
任务概要
执行流程表
过程截图
数据结果
问题分析
评价与建议
将评测结果追加到 benchmark_history.md
# 优先使用专用导航
mcporter call taobao-native.navigate --args '{"target":"home"}' --output json
mcporter call taobao-native.navigate --args '{"target":"cart"}' --output json
mcporter call taobao-native.navigate --args '{"target":"order"}' --output json
# 使用filter参数缩小范围
mcporter call taobao-native.scan_page_elements --args '{"filter":"淘金币"}' --output json
mcporter call taobao-native.scan_page_elements --args '{"filter":"保温杯"}' --output json
# 使用scope参数限定范围
mcporter call taobao-native.read_page_content --args '{"maxLength":3000}' --output json
# 使用screencapture命令
screencapture -x ~/.copaw/tasks/benchmark_*/screenshots/01_step_name.png
总分 = 任务1得分 × 0.20 + 任务2得分 × 0.30 + 任务3得分 × 0.15 + 任务4得分 × 0.20 + 任务5得分 × 0.15
任务权重:
| 任务 | 权重 |
|---|---|
| 1. 淘金币签到 | 20% |
| 2. 商品搜索+对比+加购 | 30% |
| 3. 订单管理 | 15% |
| 4. 获取购物车以及降价信息 | 20% |
| 5. 客服咨询对话 | 15% |
评分等级:
现象:search_products 返回结果,但页面仍在首页
解决方案:
scan_page_elements 确认搜索结果现象:click_element 返回失败
解决方案:
现象:add_to_cart 提示SKU参数错误
解决方案:
scan_page_elements 获取可用SKU选项Word 报告采用总分结构,面向技术团队,聚焦评测过程和问题分析。
淘宝桌面版MCP评测报告 {YYYY-MM-DD}
│
├── 一、整体小结 ⭐ 必须首先呈现
│ ├── 1.1 评测概览
│ │ └── 表格:评测日期、版本、环境、总耗时
│ ├── 1.2 总体评分
│ │ └── 大字号评分 + 等级 + 雷达图(可选)
│ ├── 1.3 任务完成度
│ │ └── 表格:任务名、权重、评分、状态、完成率
│ ├── 1.4 工具调用总览
│ │ └── 表格:工具名、调用次数、成功率、平均耗时
│ ├── 1.5 耗时分布
│ │ └── 表格:任务名、耗时、占比
│ ├── 1.6 问题汇总
│ │ └── 表格:问题编号、描述、影响范围、优先级
│ └── 1.7 关键结论
│ └── 3-5条核心结论
│
├── 二、分任务详情
│ ├── 2.1 任务一:淘金币签到
│ │ ├── 2.1.1 任务概要
│ │ │ └── 表格:目标、时间、耗时、评分
│ │ ├── 2.1.2 执行流程
│ │ │ └── 详细表格:每步操作、工具、参数、结果、耗时
│ │ ├── 2.1.3 过程截图 ⭐ 必须嵌入
│ │ │ ├── 图1:首页淘金币入口
│ │ │ ├── 图2:淘金币页面
│ │ │ └── ... 每个关键步骤
│ │ ├── 2.1.4 数据结果
│ │ │ └── 金币数、签到天数等具体数据
│ │ ├── 2.1.5 问题分析
│ │ │ ├── 问题描述 + 截图标注
│ │ │ └── 影响评估 + 建议方案
│ │ └── 2.1.6 评价与建议
│ │
│ ├── 2.2 任务二:商品搜索+对比+加购
│ │ ├── 2.2.1 任务概要
│ │ ├── 2.2.2 执行流程
│ │ ├── 2.2.3 过程截图 ⭐
│ │ │ ├── 搜索结果页
│ │ │ ├── 商品详情页
│ │ │ ├── SKU选择
│ │ │ └── 加购成功
│ │ ├── 2.2.4 数据结果
│ │ ├── 2.2.5 问题分析
│ │ └── 2.2.6 评价与建议
│ │
│ ├── 2.3 任务三:订单管理
│ │ └── (同上结构)
│ │
│ ├── 2.4 任务四:获取购物车以及降价信息
│ │ └── (同上结构)
│ │
│ └── 2.5 任务五:客服咨询对话
│ └── (同上结构)
│
├── 三、技术分析
│ ├── 3.1 工具调用统计
│ │ └── 详细表格:工具、调用次数、成功、失败、成功率、总耗时、平均耗时
│ ├── 3.2 性能指标
│ │ └── 表格:总任务数、成功率、总耗时、平均耗时、截图数、调用总数
│ ├── 3.3 问题清单
│ │ └── 表格:编号、问题描述、复现步骤、影响范围、优先级、建议方案
│ └── 3.4 改进建议
│ ├── 短期(1周内)
│ ├── 中期(1个月内)
│ └── 长期(3个月内)
│
└── 四、附录
├── 4.1 完整截图清单
│ └── 表格:序号、文件名、说明、对应任务
├── 4.2 工具调用日志
│ └── 完整的调用记录
└── 4.3 相关文件
└── Markdown报告、Word报告、截图目录路径
| 要点 | 要求 | 说明 |
|---|---|---|
| 总分结构 | 必须 | 先整体小结,再分任务详情 |
| 截图嵌入 | 必须 | 每个关键步骤必须有截图,嵌入Word文档 |
| 耗时统计 | 必须 | 每个操作、每个任务、总体都要有耗时 |
| 问题标注 | 必须 | 发现问题必须在截图上标注,并说明影响 |
| 工具调用日志 | 必须 | 完整记录每次工具调用的参数和结果 |
| 数据具体化 | 必须 | 用具体数字代替模糊描述(如"返回48个商品"而非"返回多个商品") |
| 面向技术团队 | 必须 | 使用专业术语,聚焦技术细节和问题分析 |
| 版本 | 日期 | 变更内容 |
|---|---|---|
| v1.4.1 | 2026-03-17 | 报告标题和文件名增加日期,便于识别 |
| v1.4.0 | 2026-03-17 | 任务4改名"获取购物车以及降价信息",任务5要求至少两轮对话 |
| v1.3.0 | 2026-03-17 | 新增原子性执行原则:任务不可中断、状态管理、中断恢复机制 |
| v1.2.0 | 2026-03-17 | 优化报告结构:总分结构、详细截图规范、耗时统计、问题标注 |
| v1.1.0 | 2026-03-17 | 新增任务5:客服咨询对话,调整任务权重 |
| v1.0.0 | 2026-03-17 | 初始版本,完成首次评测(4个任务) |
报告命名优化:
淘宝桌面版MCP评测报告 {YYYY-MM-DD}淘宝桌面版MCP评测报告 {YYYY-MM-DD}.docxreport_{YYYY-MM-DD}.md任务4调整:
任务5调整:
原子性执行原则:
状态管理机制:
status.json 跟踪任务进度用户中断处理:
禁止操作清单:
报告结构优化:
新增规范:
报告内容强化:
新增任务:客服咨询对话(权重15%)
权重调整:
| 任务 | v1.0.0 | v1.1.0 | v1.4.0 |
|---|---|---|---|
| 1. 淘金币签到 | 25% | 20% | 20% |
| 2. 商品搜索+对比+加购 | 30% | 30% | 30% |
| 3. 订单管理 | 20% | 15% | 15% |
| 4. 获取购物车以及降价信息 | 25% | 20% | 20% |
| 5. 客服咨询对话 | - | 15% | 15%(新增) |
~/.copaw/active_skills/taobao-mcp-benchmark/
├── SKILL.md # 本文档
├── templates/
│ ├── task_template.json # 任务配置模板
│ └── report_template.md # 报告模板
├── scripts/
│ └── generate_report.js # Word报告生成脚本
└── history/
└── benchmark_history.md # 评测历史记录
用户:帮我评测一下淘宝MCP工具
AI:好的,开始执行淘宝桌面版MCP评测...
[执行4个评测任务]
[生成评测报告]
评测完成!总分:8.3/10
最后更新:2026-03-17 v1.4.1
A curated collection of 1609+ best OpenClaw skills — AI tools, productivity, marketing, frontend, mobile, backend, DevOps and more. Weekly updated by MyClaw.ai — Powered by MyClaw.ai
Integrated on-chain operations hub: integrates BlockBeats market intelligence, Hyperliquid DEX trading via `hl1m`, wallet creation and management at https://www.1m-trade.com, and supports local initialization using `hl1m init-wallet` (wallet address + proxy private key, never use the main wallet private key). Supports fully autonomous AI trading.
Hyperliquid DEX/Perps entrypoint via `hl1m`: market queries, order placement. Wallet creation/management at https://www.1m-trade.com; local `hl1m init-wallet` with address + proxy (API) private key — never the main wallet key. No in-skill private-key messaging.
Querying crypto news, newsflashes, articles, search, and on-chain market data (ETF flows, stablecoin supply, derivatives OI, M2, DXY, Bitfinex long positions, and more). Requires BLOCKBEATS_API_KEY.
Create EVM wallets, automate funding/bridging to Hyperliquid L1, and activate accounts (auto swap, bridging, and L1 activation).
Real-time monitoring of Greek AADE tax authority systems — tracks deadlines, rate changes, and compliance updates. File-based, OpenClaw-native.