name: firecrawl-scrape-cn
description: "从任意 URL 提取干净的 Markdown,支持 JS 渲染的 SPA 页面,针对中文网站优化。触发:抓取、抓网页、获取页面、从 URL 提取、读取网页(需提供 URL)。需要 Firecrawl API key。不适用于:本地文件操作、git 命令、代码编辑;简单无 JS 渲染的页面可用 web_fetch。"
从任意 URL 提取干净的 Markdown 内容,包括 JS 渲染的 SPA。当用户提供 URL 并想要其内容、说"抓取"、"抓网页"、"获取页面"、"从 URL 提取"或"读取网页"时使用此 Skill。支持 JS 渲染页面、多个并发 URL,返回 LLM 优化的 Markdown。
allowed-tools:
- Bash(firecrawl *)
- Bash(npx firecrawl *)
Firecrawl 网页抓取
抓取一个或多个 URL,返回干净的、LLM 优化的 Markdown。多个 URL 并发抓取。
使用场景
- 你有特定的 URL 并想要其内容
- 页面是静态或 JS 渲染的(SPA)
- 工作流升级模式的第 2 步:搜索 → 抓取 → 映射 → 爬取 → 交互
快速开始
firecrawl scrape "<url>" -o .firecrawl/page.md
firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md
firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md
firecrawl scrape https://example.com https://example.com/blog https://example.com/docs
firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json
firecrawl scrape "https://example.com/pricing" --query "企业版价格是多少?"
选项
| 选项 | 描述 |
|---|
-f, --format <formats> | 输出格式:markdown, html, rawHtml, links, screenshot, json |
-Q, --query <prompt> | 询问页面内容的问题(5 积分) |
-H | 在输出中包含 HTTP 头 |
--only-main-content | 去除导航、页脚、侧边栏 — 仅主内容 |
--wait-for <ms> | 抓取前等待 JS 渲染 |
--include-tags <tags> | 仅包含这些 HTML 标签 |
--exclude-tags <tags> | 排除这些 HTML 标签 |
-o, --output <path> | 输出文件路径 |
提示
- 优先使用普通抓取而非
--query。 抓取到文件,然后用 grep、head 或直接读取 Markdown — 你可以自己搜索和推理完整内容。仅当你想要单个目标答案而不保存页面时使用 --query(额外消耗 5 积分)。
- 先尝试抓取再交互。 抓取可以处理静态页面和 JS 渲染的 SPA。仅在需要交互(点击、表单填充、分页)时升级到
interact。
- 多个 URL 并发抓取 — 用
firecrawl --status 查看你的并发限制。
- 单格式输出原始内容。多格式(如
--format markdown,links)输出 JSON。
- 始终引用 URL — shell 会将
? 和 & 解释为特殊字符。
- 命名约定:
.firecrawl/{site}-{path}.md
另见
中文翻译版 | 原版:firecrawl-scrape
version: "1.0.0"