con un clic
火山引擎语音识别 - 将音频/视频转文字,支持长音频分段识别。
npx skills add https://github.com/Leoyishou/personal-ai-company --skill api-asrCopia y pega este comando en Claude Code para instalar la habilidad
火山引擎语音识别 - 将音频/视频转文字,支持长音频分段识别。
npx skills add https://github.com/Leoyishou/personal-ai-company --skill api-asrCopia y pega este comando en Claude Code para instalar la habilidad
| name | api-asr |
| description | 火山引擎语音识别 - 将音频/视频转文字,支持长音频分段识别。 |
| allowed-tools | Bash(python:*), Read |
| model | sonnet |
| tags | ["asr","audio","volcengine","transcription"] |
通过火山引擎(豆包大模型)将音频/视频文件转换为文字,支持多种识别模式。
| 模式 | 接口类型 | 最长时长 | 适用场景 |
|---|---|---|---|
| streaming | WebSocket 实时流式 | ~2分钟 | 短音频、实时转录 |
| segment | 分段流式 | 无限制 | 长音频(推荐) |
| upload | HTTP 异步任务 | 4小时 | 需要音频 URL |
| auto | 自动选择 | - | 默认模式 |
推荐:对于长音频,使用 segment 模式,自动分割音频后逐段识别。
APP ID 和 Access TokenAPI Keycd ~/.claude/skills/speech-recognition/scripts
# 自动选择模式(根据音频时长自动选择 streaming 或 segment)
python speech_recognition.py -i audio.mp3 -o result.txt
# 短音频:流式模式
python speech_recognition.py -i short.mp3 -m streaming -o result.txt
# 长音频:分段模式(推荐)
python speech_recognition.py -i long.mp4 -m segment -o result.srt -f srt
# 自定义分段时长(默认90秒)
python speech_recognition.py -i long.mp4 -m segment --segment-duration 60 -o result.json -f json
# 上传模式(需要音频公网 URL)
python speech_recognition.py -i audio.mp3 -m upload --audio-url "https://example.com/audio.mp3"
注意:使用时需要绕过代理:
ALL_PROXY="" HTTP_PROXY="" HTTPS_PROXY="" NO_PROXY="*" python speech_recognition.py ...
| 参数 | 说明 | 默认值 |
|---|---|---|
--input, -i | 输入音频/视频文件(必填) | - |
--output, -o | 输出文件路径 | 标准输出 |
--format, -f | 输出格式:txt/srt/vtt/json | txt |
--mode, -m | 识别模式:auto/streaming/segment/upload | auto |
--segment-duration | 分段模式下每段时长(秒) | 90 |
--language, -l | 识别语言 | zh-CN |
--no-punc | 不添加标点符号 | False |
--no-itn | 不做数字规范化 | False |
--audio-url | 音频的公网 URL(上传模式) | - |
--app-id | APP ID(流式/分段模式) | 从环境变量读取 |
--token | Access Token(流式/分段模式) | 从环境变量读取 |
--api-key | API Key(上传模式) | 从环境变量读取 |
--hotword-id | 热词表 ID | 从环境变量读取 |
--hotword-name | 热词表名称 | 从环境变量读取 |
在 ~/.claude/secrets.env 中配置:
# 流式模式凭证
VOLC_ASR_APPID=your_app_id
VOLC_ASR_TOKEN=your_access_token
# 上传模式凭证
VOLC_ASR_API_KEY=your_api_key
# 热词管理 API 凭证(可选)
VOLC_ACCESS_KEY_ID=your_ak
VOLC_SECRET_ACCESS_KEY=your_sk
# 热词表(可选,在火山引擎控制台创建)
VOLC_ASR_HOTWORD_ID=your_hotword_table_id
VOLC_ASR_HOTWORD_NAME=your_hotword_table_name
热词可提升特定词汇的识别准确率,特别适合专业术语、品牌名称等。
方式一:控制台创建
--hotword-id 或 --hotword-name方式二:API 创建(推荐)
cd ~/.claude/skills/speech-recognition/scripts
# 1. 创建热词表(从预置 TXT 文件)
python hotword_manager.py create --app-id YOUR_APP_ID --name "AI术语" --file hotwords.txt
# 2. 或从 JSON 转换创建
python hotword_manager.py create --app-id YOUR_APP_ID --name "AI术语" --json hotwords.json
# 3. 列出已有热词表
python hotword_manager.py list --app-id YOUR_APP_ID
# 4. 删除热词表
python hotword_manager.py delete --app-id YOUR_APP_ID --table-id xxx
TXT 格式(每行一个词,支持权重):
Claude|10
GPT|10
大模型|9
思维链|8
热词|权重(权重可选,1-10,默认 4)scripts/hotwords.txt 包含 80+ 个 AI 领域常见术语,可直接使用:
大家好,欢迎来到今天的分享。
我们今天要讨论的主题是人工智能。
1
00:00:00,000 --> 00:00:02,500
大家好,欢迎来到今天的分享。
2
00:00:02,500 --> 00:00:05,000
我们今天要讨论的主题是人工智能。
--audio-url,会自动上传到 transfer.sh 临时存储pip install websockets requests
brew install ffmpeg # macOS
Use when publishing an Obsidian plugin to the community plugin store, creating GitHub Releases for Obsidian plugins, or submitting PRs to obsidianmd/obsidian-releases
一键部署静态网站到 Vercel 和 Cloudflare Pages。支持 HTML/React/Vue 等任意静态项目。
将 Expo/React Native 项目通过 EAS Build 构建 iOS 包并提交到 TestFlight。支持从零配置 EAS、构建、提交全流程。
综合画图工具 - AI 生图 (Nanobanana/Gemini) + 图片后处理(拼接/抠图/圆形裁剪/合成)。支持中英文自然语言画图。
统一搜索与抓取能力层 - 整合所有外部信息获取接口(搜索、抓取、下载)
统一通知服务 - 支持 Mac 通知、Telegram、未来可扩展更多渠道