Run any Skill in Manus with one click

Get Started

tingwu-asr

使用阿里云通义听悟进行云端音频/视频转录。本技能应在用户需要云端语音转文字、长音频转录、本地 FunASR 不可用或需要更高精度时使用。不适用于无网络环境或需要完全离线的场景。

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/cat-xierluo/legal-skills --skill tingwu-asr

Copy and paste this command into Claude Code to install the skill

Source

cat-xierluo/legal-skills

Stars302

Forks46

UpdatedApril 30, 2026 at 16:41

File Explorer

17 files

SKILL.md

readonly

name	tingwu-asr
homepage	https://github.com/cat-xierluo/legal-skills
author	杨卫薪律师（微信ywxlaw）
version	0.1.0
license	MIT
description	使用阿里云通义听悟进行云端音频/视频转录。本技能应在用户需要云端语音转文字、长音频转录、本地 FunASR 不可用或需要更高精度时使用。不适用于无网络环境或需要完全离线的场景。

通义听悟云端转录 (tingwu-asr)

通过逆向封装通义听悟网页端内部 REST API，实现云端音频/视频文件转录，输出与 funasr-transcribe 兼容的 Markdown 格式。

功能

上传本地音频/视频文件到阿里云 OSS
云端转录，支持说话人分离（单人/2人/多人）
支持中文、英文、日文、粤语、中英文混合
输出 funasr-transcribe 兼容的 Markdown，可直接用 summary.py 注入 AI 总结

依赖

Python 3.8+
requests (必须) — HTTP 请求
oss2 (必须) — 阿里云 OSS SDK（STS 直传）

安装:

pip3 install -r skills/tingwu-asr/config/requirements.txt

首次使用：登录（通过 MCP Playwright）

登录需要 Agent 使用 MCP Playwright 浏览器工具完成：

用 MCP Playwright 打开 https://tingwu.aliyun.com/home
如果跳转到登录页，用账号密码或扫码登录
登录成功后，用 browser_evaluate 提取 cookie：
```
() => document.cookie
```

将提取的 cookie 保存到文件：

python3 skills/tingwu-asr/scripts/login.py --save-cookies '{"cna":"xxx","login_aliyunid_ticket":"xxx",...}'

账号密码可预配置在 config/.env 文件中（从 config/.env.example 复制）。

每日签到（领取免费额度）

每天登录听悟网页可领取 2 小时免费转录额度。Agent 签到流程：

用 MCP Playwright 打开 https://tingwu.aliyun.com/home（触发每日额度）
提取并保存 Cookie（同登录步骤 3-4）

运行检查脚本确认状态：

python3 skills/tingwu-asr/scripts/daily_checkin.py

可在 OpenClaw 中配置定时任务，让 Agent 每天自动执行此流程。

Agent 工作流

当用户要求转录音频/视频文件时，执行以下步骤：

1. 检查登录状态

python3 skills/tingwu-asr/scripts/check_auth.py

如果返回"无效"，先运行 login.py。

2. 执行转录

# 单文件转录
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/audio.mp3 --lang cn --speakers 4

# 多文件并行转录（自动保存到文件所在目录 + archive 目录）
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/audio1.mp3 /path/to/audio2.mp3 /path/to/video.mp4

# 批量转录目录下所有文件（并行）
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/media_folder/ --batch

# 指定并行数（默认3）
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/audio1.mp3 /path/to/audio2.mp3 --parallel 5

参数说明:

paths 音频/视频文件路径（支持多个文件并行转录）
--lang cn 语言: cn(中文,默认) / en(英文) / ja(日文) / cant(粤语) / cn_en(中英混合)
--speakers 2 说话人: 0(不区分) / 1(单人) / 2(两人,默认) / 4(多人)
--batch 批量转录目录下所有文件
--parallel N 并行转录的最大文件数 (默认: 3)
--force 强制重新上传，即使该文件已有转录结果（默认会跳过已转录的文件）
-o output.md 指定输出路径（单文件模式）
--no-archive 不保存归档
--no-lab 不获取智能分析（关键词/议程/重点等）
--ppt 下载 PPT 幻灯片图片并嵌入 Markdown（仅视频有效）

3. 输出说明

转录结果会同时保存到两个位置：

源文件所在目录：例如 /path/to/audio.mp3 → /path/to/audio.md
archive 归档目录：archive/YYYYMMDD_HHMMSS_audio/audio.md

这样做的好处是：

PPT 幻灯片: 视频文件会自动提取 PPT 幻灯片，图片保存在 {文件名}_slides/ 子目录中（每个文件独立目录，避免同目录下多视频冲突）。

3. 生成 AI 总结（复用 funasr-transcribe）

转录完成后，复用 funasr-transcribe 的 summary 模块:

python3 skills/funasr-transcribe/scripts/summary.py inject transcript.md summary.json
python3 skills/funasr-transcribe/scripts/summary.py verify transcript.md

文件结构

skills/tingwu-asr/
  SKILL.md              ← 本文件
  scripts/
    tingwu.py           ← 核心 API 客户端
    transcribe.py       ← CLI 入口
    format_output.py    ← 听悟 JSON → Markdown 转换
    login.py            ← Cookie 保存工具
    daily_checkin.py    ← 额度检查 + 记录
    check_auth.py       ← 认证检查
  config/
    .env                ← 账号密码凭证（gitignore，不提交）
    .env.example        ← 账号密码模板
    cookies.json        ← 登录 Cookie（gitignore，不提交）
    cookie.example.json ← Cookie 文件模板
    quota_history.jsonl ← 额度变更记录（gitignore，不提交）
    requirements.txt    ← Python 依赖
  references/           ← API 文档和决策记录
  archive/              ← 转录结果归档

异步转录模式（推荐用于长视频）

对于 1 小时以上的长视频，转录可能需要 20-30 分钟。使用异步模式上传后立即返回，后台自动轮询。

1. 异步提交

python3 skills/tingwu-asr/scripts/transcribe.py /path/to/video.mp4 --async --speakers 2

上传完成后立即返回任务 ID，任务信息保存到 config/pending_tasks.json。

2. 后台监控（Claude Code 增强模式）

提交后，用 Bash 工具的 run_in_background 启动后台监控：

command: "python3 skills/tingwu-asr/scripts/poll_tasks.py --monitor --timeout 3600 --interval 120"
run_in_background: true
timeout: 600000

注意：timeout 必须设为 600000（10 分钟），否则默认 2 分钟会超时。

监控完成后会自动收到通知，此时展示转录结果路径给用户。

3. 手动查询

# 检查所有待处理任务的状态
python3 skills/tingwu-asr/scripts/poll_tasks.py

# 阻塞式监控
python3 skills/tingwu-asr/scripts/poll_tasks.py --monitor

注意事项

Cookie 会过期，过期后需重新运行 login.py
网页端免费额度有限，大文件或高频使用可能触发风控
支持格式: mp3/wav/m4a/wma/aac/ogg/amr/flac/aiff/mp4/wmv/mov/mkv/webm/avi 等
音频最大 500M，视频最大 6G，单文件最长 6 小时

More from this repository

same repository

legal-ocr

cat-xierluo/legal-skills

本技能应在用户需要 OCR、扫描识别、图片文字识别、文档识别，或将 PDF、图片、Office 文档、URL 转换为 Markdown 时使用。检测到法律材料时可进行保守的法律术语与文书结构优化。不要用于法律事实判断、补写缺失内容、语义改写、印章深度识别或图表实体分析。

2026-06-03302

multi-agent-orchestration

cat-xierluo/legal-skills

当用户要求你并行推进多个任务、一次性开多个 worker/agent 同时工作、用 tmux 启动多个并行 session、或者你作为 PM 需要拆解并派发任务给多个独立 worker 时使用。触发词包括"并行推进""开多个""同时推进""派 worker""多 agent 并行""开 worker""tmux 启动""分派任务""一起做"。不要用于单个短任务、跨平台任务状态管理、或 Git 分支/提交/PR/merge 安全规则。

2026-06-03302

git-workflow

cat-xierluo/legal-skills

Git 全流程工作流助手。覆盖分支创建、Monorepo 安全合并、PR 管理、合并冲突解决、常规 Git 操作。当用户进行分支管理、合并代码、创建/审查 PR、解决冲突等 Git 操作时自动触发。PR 创建后、PR 合并后由 Agent 主动调起 doc-curator subagent 跑文档体检（post-action，非 hooks 门禁）。

2026-06-03302

project-init

cat-xierluo/legal-skills

项目初始化工具。读取全局协议 ~/.claude/CLAUDE.md，分析项目实际情况，生成项目特定的 CLAUDE.md 和 docs/ 上下文。本技能应在用户说"初始化项目"、"项目设置"、"配置 Claude Code"、"新建项目配置"时使用，或在进入一个新项目需要快速配置时使用。不要用于：Skill 内容开发（用 skill-architect）、单次 Skill 安装（用 skill-manager）、代码生成。

2026-06-03302

skill-manager

cat-xierluo/legal-skills

管理 Claude Code、Codex 和 OpenClaw Skills 的安装、版本追踪和更新检查。支持从本地路径或 GitHub 仓库安装，自动识别 .codex/.claude/.openclaw 目标目录，记录每个 Skill 的安装时间、来源 URL 和版本号，并检查 GitHub 更新。

2026-06-03302

video-screenshot

cat-xierluo/legal-skills

视频截图提取工具。从录屏视频（微信聊天录屏、会议录屏等）中自动抽取关键帧、去重并保存为图片文件，可用作法律证据。支持场景变化检测、关键帧提取、固定间隔、智能去重四种策略，配合内容区 dHash、像素差异、SSIM、滚动帧合并、OCR 文本去重和可选复合复核模式；当前模型支持图像输入时可复核被丢弃候选帧，文字模型跳过复核。触发词：视频截图、录屏截图、聊天记录截图、抽帧去重、视频截帧、视频关键帧提取。不要用于：视频压缩、视频剪辑、音频提取。

2026-06-03302

Source

cat-xierluo

cat-xierluo/legal-skills

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

Useful forSOC

Legal Secretaries and Administrative AssistantsOffice and Administrative Support Occupations43-6012L4

name	tingwu-asr
homepage	https://github.com/cat-xierluo/legal-skills
author	杨卫薪律师（微信ywxlaw）
version	0.1.0
license	MIT
description	使用阿里云通义听悟进行云端音频/视频转录。本技能应在用户需要云端语音转文字、长音频转录、本地 FunASR 不可用或需要更高精度时使用。不适用于无网络环境或需要完全离线的场景。

通义听悟云端转录 (tingwu-asr)

通过逆向封装通义听悟网页端内部 REST API，实现云端音频/视频文件转录，输出与 funasr-transcribe 兼容的 Markdown 格式。

功能

上传本地音频/视频文件到阿里云 OSS
云端转录，支持说话人分离（单人/2人/多人）
支持中文、英文、日文、粤语、中英文混合
输出 funasr-transcribe 兼容的 Markdown，可直接用 summary.py 注入 AI 总结

依赖

Python 3.8+
requests (必须) — HTTP 请求
oss2 (必须) — 阿里云 OSS SDK（STS 直传）

安装:

pip3 install -r skills/tingwu-asr/config/requirements.txt

首次使用：登录（通过 MCP Playwright）

登录需要 Agent 使用 MCP Playwright 浏览器工具完成：

用 MCP Playwright 打开 https://tingwu.aliyun.com/home
如果跳转到登录页，用账号密码或扫码登录
登录成功后，用 browser_evaluate 提取 cookie：
```
() => document.cookie
```

将提取的 cookie 保存到文件：

python3 skills/tingwu-asr/scripts/login.py --save-cookies '{"cna":"xxx","login_aliyunid_ticket":"xxx",...}'

账号密码可预配置在 config/.env 文件中（从 config/.env.example 复制）。

每日签到（领取免费额度）

每天登录听悟网页可领取 2 小时免费转录额度。Agent 签到流程：

用 MCP Playwright 打开 https://tingwu.aliyun.com/home（触发每日额度）
提取并保存 Cookie（同登录步骤 3-4）

运行检查脚本确认状态：

python3 skills/tingwu-asr/scripts/daily_checkin.py

可在 OpenClaw 中配置定时任务，让 Agent 每天自动执行此流程。

Agent 工作流

当用户要求转录音频/视频文件时，执行以下步骤：

1. 检查登录状态

python3 skills/tingwu-asr/scripts/check_auth.py

如果返回"无效"，先运行 login.py。

2. 执行转录

# 单文件转录
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/audio.mp3 --lang cn --speakers 4

# 多文件并行转录（自动保存到文件所在目录 + archive 目录）
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/audio1.mp3 /path/to/audio2.mp3 /path/to/video.mp4

# 批量转录目录下所有文件（并行）
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/media_folder/ --batch

# 指定并行数（默认3）
python3 skills/tingwu-asr/scripts/transcribe.py /path/to/audio1.mp3 /path/to/audio2.mp3 --parallel 5

参数说明:

paths 音频/视频文件路径（支持多个文件并行转录）
--lang cn 语言: cn(中文,默认) / en(英文) / ja(日文) / cant(粤语) / cn_en(中英混合)
--speakers 2 说话人: 0(不区分) / 1(单人) / 2(两人,默认) / 4(多人)
--batch 批量转录目录下所有文件
--parallel N 并行转录的最大文件数 (默认: 3)
--force 强制重新上传，即使该文件已有转录结果（默认会跳过已转录的文件）
-o output.md 指定输出路径（单文件模式）
--no-archive 不保存归档
--no-lab 不获取智能分析（关键词/议程/重点等）
--ppt 下载 PPT 幻灯片图片并嵌入 Markdown（仅视频有效）

3. 输出说明

转录结果会同时保存到两个位置：

源文件所在目录：例如 /path/to/audio.mp3 → /path/to/audio.md
archive 归档目录：archive/YYYYMMDD_HHMMSS_audio/audio.md

这样做的好处是：

PPT 幻灯片: 视频文件会自动提取 PPT 幻灯片，图片保存在 {文件名}_slides/ 子目录中（每个文件独立目录，避免同目录下多视频冲突）。

3. 生成 AI 总结（复用 funasr-transcribe）

转录完成后，复用 funasr-transcribe 的 summary 模块:

python3 skills/funasr-transcribe/scripts/summary.py inject transcript.md summary.json
python3 skills/funasr-transcribe/scripts/summary.py verify transcript.md

文件结构

skills/tingwu-asr/
  SKILL.md              ← 本文件
  scripts/
    tingwu.py           ← 核心 API 客户端
    transcribe.py       ← CLI 入口
    format_output.py    ← 听悟 JSON → Markdown 转换
    login.py            ← Cookie 保存工具
    daily_checkin.py    ← 额度检查 + 记录
    check_auth.py       ← 认证检查
  config/
    .env                ← 账号密码凭证（gitignore，不提交）
    .env.example        ← 账号密码模板
    cookies.json        ← 登录 Cookie（gitignore，不提交）
    cookie.example.json ← Cookie 文件模板
    quota_history.jsonl ← 额度变更记录（gitignore，不提交）
    requirements.txt    ← Python 依赖
  references/           ← API 文档和决策记录
  archive/              ← 转录结果归档

异步转录模式（推荐用于长视频）

对于 1 小时以上的长视频，转录可能需要 20-30 分钟。使用异步模式上传后立即返回，后台自动轮询。

1. 异步提交

python3 skills/tingwu-asr/scripts/transcribe.py /path/to/video.mp4 --async --speakers 2

上传完成后立即返回任务 ID，任务信息保存到 config/pending_tasks.json。

2. 后台监控（Claude Code 增强模式）

提交后，用 Bash 工具的 run_in_background 启动后台监控：

command: "python3 skills/tingwu-asr/scripts/poll_tasks.py --monitor --timeout 3600 --interval 120"
run_in_background: true
timeout: 600000

注意：timeout 必须设为 600000（10 分钟），否则默认 2 分钟会超时。

监控完成后会自动收到通知，此时展示转录结果路径给用户。

3. 手动查询

# 检查所有待处理任务的状态
python3 skills/tingwu-asr/scripts/poll_tasks.py

# 阻塞式监控
python3 skills/tingwu-asr/scripts/poll_tasks.py --monitor

注意事项

Cookie 会过期，过期后需重新运行 login.py
网页端免费额度有限，大文件或高频使用可能触发风控
支持格式: mp3/wav/m4a/wma/aac/ogg/amr/flac/aiff/mp4/wmv/mov/mkv/webm/avi 等
音频最大 500M，视频最大 6G，单文件最长 6 小时