Ejecuta cualquier Skill en Manus
con un clic

Ejecuta cualquier Skill en Manus con un clic

$pwd:

scrapling-web-fetch

Name: Scrapling Web Fetch
Author: Linearl

// 使用 Scrapling 抓取、清洗、分析网页并生成结构化数据或中文报告。适用于 scrape / crawl / fetch / extract / summarize 网站内容、profile/activity feed、回答/文章/帖子列表、近 1 年动态、批量网页调研，以及用户明确提到 401/403、反爬、Cloudflare、登录受限、signin/login、need_force_login、需要 cookies/token、动态渲染、滚动加载、批量抓取、站点主题分析、网页证据收集等场景。特别适合知乎、专栏、公众号、博客、列表页+详情页链路。核心使用场景：批量采集多页/多站内容、突破访问受限（403/Cloudflare/反爬屏蔽）、抓取需要鉴权（login/cookie/token）的页面。

Ejecutar en Manus

$ git log --oneline --stat

stars:3

forks:0

updated:18 de mayo de 2026, 09:05

Explorador de archivos

8 archivos

SKILL.md

readonly

related-skills.json

mismo repositorio

harness-audit.md

from "Linearl/linearleaf_skill_repo"

审计项目的 AI agent harness 配置，评估完备性和合理性，检测反模式，给出优先级排序的改进建议。当用户想要审查 harness 配置、询问 harness 质量，或说"harness audit"、"检查harness"、"harness评分"、"harness检查"时使用。

2026-05-263

html-deck-pipeline-skill.md

from "Linearl/linearleaf_skill_repo"

端到端 HTML 讲稿流水线技能，适用于”上下文过长””分镜拆分””并行生成””风格控制”等超过 10 页的 HTML 演示任务。采用网站骨架输出模式（CSS 三层架构 + hash 路由 + 自适应缩放），支持一键导出 HTML 和 PPTX。强调分镜先行、风格契约、舞台比例可配置（16:9/4:3/16:10/adaptive）、版本递增与样式多样性。

2026-05-263

html-deck-to-pptx.md

from "Linearl/linearleaf_skill_repo"

将HTML幻灯片演示文稿截图并生成PPTX文件。当用户需要把HTML slides导出为PPT、将HTML演示文稿转成PPTX、对HTML幻灯片逐页截图打包时激活。Convert HTML slide decks to PPTX by screenshotting each slide and assembling into a PowerPoint file. Activates when user needs to export HTML slides to PPT, convert HTML deck to .pptx, screenshot HTML presentation pages.

2026-05-213

measure-utilization.md

from "Linearl/linearleaf_skill_repo"

测量 HTML 演示文稿每页的空间利用率，找到过于空旷的页面。使用 Playwright 渲染 + 网格采样方法。当用户想检查页面密度、找空白页面、优化页面布局或询问"空间利用率"时使用。

2026-05-183

version-compare.md

from "Linearl/linearleaf_skill_repo"

系统化版本对比和变更分析。当用户需要版本对比、变更分析、更新日志生成、版本差异比较、升级影响评估时激活。Systematic version comparison and change analysis. Activates when user needs version comparison, change analysis, update log generation, version diff, or upgrade impact assessment.

2026-03-123

analysis-code.md

from "Linearl/linearleaf_skill_repo"

系统化代码分析技能，用于代码质量评估、技术债务识别、性能优化分析和架构重构评估。采用"总-分-总"结构化分析方法，支持多轮迭代分析，生成量化指标和改进建议。适用于需要进行代码审查、系统分析、重构规划等场景。

2026-03-123

package.json

"author": "Linearl"

"repository": "Linearl/linearleaf_skill_repo"

Abrir repositorio de GitHub Ver repositorios del creador

$ install --global

$ download --local

Ejecutar en Manus

$ useful --forSOC

Asistentes estadísticosOficina y apoyo administrativo43-9111L4

信号

可能原因

立即动作

HTTP 401/403

风控 / 匿名访问受限 / 认证失败

保留 HTML 证据，立即转凭据求助

跳到 signin / login

需要登录

终止重试，转凭据求助

页面只有导航/框架

SPA 骨架 / 选择器不对 / 认证门槛

先判定是否命中认证阻断；命中则求助，否则改 dynamic 或加 --css

API 返回 need_force_login

API 需要完整认证

停止 API 重试，转凭据求助

滚动后仍只有首屏少量内容

无限滚动请求被认证拦截

请求完整 cookie（含 z_c0）并停止盲重试

等级

定义

典型例子

直接抓取到原始页面或官方公开页面，可复核 URL 与正文

公开回答页、公开文章页、抓到的活动流卡片

来自列表页摘要、站内搜索结果、页面片段或半结构化索引，信息较可靠但不完整

用户主页卡片、列表页标题+时间、公开摘要

间接线索或推断，需谨慎使用

页面骨架、搜索摘要、少量样本外推

<主题名>/ ├── 过程资产/ │ ├── html/ # 原始 HTML │ ├── md/ # 提炼后的 Markdown / 文本 │ └── data/ # JSON / CSV / 中间数据 ├── <主题名>总结.md └── <主题名>一页纸.md

# 如果是 document.cookie 格式的字符串 python "<workspace>/.github/skills/scrapling-web-fetch/scripts/zhihu_login.py" --import # 粘贴 cookie 字符串，按回车 # 或直接在代码中解析并保存到 JSON

# 默认：隐身抓取（适用于 Cloudflare / 反爬 / 鉴权站点） python "<workspace>/.github/skills/scrapling-web-fetch/scripts/fetch_page.py" \ --url "<目标URL>" --method stealthy \ --save-html "过程资产/html/page.html" \ --output "过程资产/md/page.md" # JS 重度渲染（stealthy 拿到的内容仍是骨架时改用） python "<workspace>/.github/skills/scrapling-web-fetch/scripts/fetch_page.py" \ --url "<目标URL>" --method dynamic \ --save-html "过程资产/html/page.html" \ --output "过程资产/md/page.md"

# 批量抓取（JSON 列表提供 URL） python "<workspace>/.github/skills/scrapling-web-fetch/scripts/fetch_page.py" \ --batch "<URL列表JSON>" --method stealthy \ --save-html "过程资产/html/" \ --output-dir "过程资产/md/" # 单页无限滚动（加 --scroll N） python "<workspace>/.github/skills/scrapling-web-fetch/scripts/fetch_page.py" \ --url "<目标URL>" --method stealthy --scroll 10 \ --css "<选择器>" \ --save-html "过程资产/html/page.html" \ --output "过程资产/md/page.md" # 批量 + 每页滚动（组合使用） python "<workspace>/.github/skills/scrapling-web-fetch/scripts/fetch_page.py" \ --batch "<URL列表JSON>" --method stealthy --scroll 5 \ --save-html "过程资产/html/" \ --output-dir "过程资产/md/"

场景

方法

额外参数

未知站点（默认起步）

stealthy

—

Cloudflare 保护站点

stealthy

--solve-cloudflare

JS 渲染页面

dynamic

—

需要登录的页面

stealthy

--cookies（自动查找）

无限滚动分页

stealthy

--scroll N

需要调试

任意

--save-html 路径

信号

可能原因

立即动作

HTTP 401/403

风控 / 匿名访问受限 / 认证失败

保留 HTML 证据，立即转凭据求助

跳到 signin / login

需要登录

终止重试，转凭据求助

页面只有导航/框架

SPA 骨架 / 选择器不对 / 认证门槛

先判定是否命中认证阻断；命中则求助，否则改 dynamic 或加 --css

API 返回 need_force_login

API 需要完整认证

停止 API 重试，转凭据求助

滚动后仍只有首屏少量内容

无限滚动请求被认证拦截

请求完整 cookie（含 z_c0）并停止盲重试

等级

定义

典型例子

直接抓取到原始页面或官方公开页面，可复核 URL 与正文

公开回答页、公开文章页、抓到的活动流卡片

来自列表页摘要、站内搜索结果、页面片段或半结构化索引，信息较可靠但不完整

用户主页卡片、列表页标题+时间、公开摘要

间接线索或推断，需谨慎使用

页面骨架、搜索摘要、少量样本外推

场景

方法

额外参数

未知站点（默认起步）

stealthy

—

Cloudflare 保护站点

stealthy

--solve-cloudflare

JS 渲染页面

dynamic

—

需要登录的页面

stealthy

--cookies（自动查找）

无限滚动分页

stealthy

--scroll N

需要调试

任意

--save-html 路径

scrapling-web-fetch

Más de este repositorio

Más de este repositorio

Scrapling 网页抓取与分析技能

何时使用本技能

触发词覆盖（中英关键词）

可判定触发条件

When NOT to use

快速判定口诀

🚨 立即求助优先（认证阻断硬闸门）

使用场景

交付目标

失败回退策略（403 / 风控 / 登录受限）

常见阻断信号与动作

示例提示词（至少 10 条）

执行产出模板

输出结构

证据等级定义

不确定性模板

前置条件

📂 执行前确认：输出与资产管理

核心原则

确认时机

确认流程

根据用户选择执行

跳过确认的情况

⚠️ 凭据求助机制

核心原则

需要凭据的信号

求助流程

特别提示

完整工作流（端到端）

步骤 1：明确任务目标

步骤 2：确认输出方式与目录策略

步骤 3：确认访问条件与凭据

步骤 4：制定抓取计划

步骤 5：选择抓取执行方式

方式 A：单页绕过抓取（stealthy / dynamic）

方式 B：批量 + 滚动抓取

步骤 6：结构化提取与清洗

步骤 7：分析与归纳

步骤 8：撰写报告

步骤 9：交付与复核

步骤 10：执行后检查清单

详细参考（参数 / 选择器 / 排障）

抓取方式选择指南

执行后最低回复要求

Scrapling 网页抓取与分析技能

何时使用本技能

触发词覆盖（中英关键词）

可判定触发条件

When NOT to use

快速判定口诀

🚨 立即求助优先（认证阻断硬闸门）

使用场景

交付目标

失败回退策略（403 / 风控 / 登录受限）

常见阻断信号与动作

示例提示词（至少 10 条）

执行产出模板

输出结构

证据等级定义

不确定性模板

前置条件

📂 执行前确认：输出与资产管理

核心原则

确认时机

确认流程

根据用户选择执行

跳过确认的情况

⚠️ 凭据求助机制

核心原则

需要凭据的信号

求助流程

特别提示

完整工作流（端到端）

步骤 1：明确任务目标

步骤 2：确认输出方式与目录策略

步骤 3：确认访问条件与凭据

步骤 4：制定抓取计划