一键在 Manus 中运行任何 Skill

开始使用

link-crawler

星标0

分支0

更新时间2026年4月14日 01:21

技術ドキュメントサイトをクロールし、AIが参照しやすい形に整理する

安装

用 Codex 或 Claude 帮你安装复制这段 Prompt，粘贴到 Codex、Claude 或其他助手里，让它检查 Skill 页面并帮你完成安装。

在 Manus 中运行

来源

takemo101

takemo101/taskp-link-crawler

打开 GitHub 仓库查看创作者相关仓库

下载

在 Manus 中运行

相关职业SOC

基于 SOC 职业分类

软件开发工程师计算机与数学类职业·SOC 15-1252

文件资源管理器

2 个文件

SKILL.md

readonly

一键运行任何 Skill

name	link-crawler
description	技術ドキュメントサイトをクロールし、AIが参照しやすい形に整理する
mode	template
timeout	600000
actions	{"crawl":{"description":"Webサイトをクロールしてドキュメントを取得する","mode":"template","timeout":3600000,"inputs":[{"name":"url","type":"text","message":"クロール開始URLは？","validate":"^https?://"},{"name":"depth","type":"number","message":"最大クロール深度は？（1〜10）","default":2},{"name":"output","type":"text","message":"出力ディレクトリは？（絶対パスまたは相対パス）","default":".context/docs"},{"name":"diff","type":"confirm","message":"差分クロールを使いますか？（既存結果がある場合に効率的）","default":false},{"name":"max_pages","type":"number","message":"最大ページ数は？（0=無制限、上限10000）","default":0,"required":false},{"name":"include","type":"text","message":"含めるURLパターンは？（正規表現、空欄で全て）","default":"","required":false},{"name":"exclude","type":"text","message":"除外するURLパターンは？（正規表現、空欄でなし）","default":"","required":false},{"name":"same_domain","type":"confirm","message":"同一ドメインのみクロールしますか？","default":true},{"name":"wait","type":"number","message":"SPAレンダリング待機時間は？（ms）cli:2000 / native:8000〜15000推奨","default":5000,"required":false},{"name":"timeout","type":"number","message":"1ページあたりのタイムアウトは？（秒、SPA等は60〜120推奨）","default":60,"required":false},{"name":"fetcher","type":"select","message":"フェッチャーの種類は？（cli: 軽量・高速 / native: Cloudflare/SPA対応・要 playwright install chromium）","choices":["cli","native"],"default":"cli","required":false},{"name":"strip_query","type":"confirm","message":"クエリパラメータを除去して重複排除しますか？（?page=1 などを同一URLとみなす）","default":false,"required":false}]},"organize":{"description":"クロール済みドキュメントをAIで整理・分割する","mode":"agent","tools":["bash","read","write","glob"],"inputs":[{"name":"input_dir","type":"text","message":"クロール済みディレクトリは？（index.jsonがある場所）","default":".context/docs"}]},"pipeline":{"description":"クロール→AI整理を一括実行する","mode":"template","timeout":3600000,"inputs":[{"name":"url","type":"text","message":"クロール開始URLは？","validate":"^https?://"},{"name":"depth","type":"number","message":"最大クロール深度は？（1〜10）","default":2},{"name":"output","type":"text","message":"出力ディレクトリは？（絶対パスまたは相対パス）","default":".context/docs"},{"name":"diff","type":"confirm","message":"差分クロールを使いますか？（既存結果がある場合に効率的）","default":false},{"name":"max_pages","type":"number","message":"最大ページ数は？（0=無制限、上限10000）","default":0,"required":false},{"name":"include","type":"text","message":"含めるURLパターンは？（正規表現、空欄で全て）","default":"","required":false},{"name":"exclude","type":"text","message":"除外するURLパターンは？（正規表現、空欄でなし）","default":"","required":false},{"name":"same_domain","type":"confirm","message":"同一ドメインのみクロールしますか？","default":true},{"name":"wait","type":"number","message":"SPAレンダリング待機時間は？（ms）cli:2000 / native:8000〜15000推奨","default":5000,"required":false},{"name":"timeout","type":"number","message":"1ページあたりのタイムアウトは？（秒、SPA等は60〜120推奨）","default":60,"required":false},{"name":"fetcher","type":"select","message":"フェッチャーの種類は？（cli: 軽量・高速 / native: Cloudflare/SPA対応・要 playwright install chromium）","choices":["cli","native"],"default":"cli","required":false},{"name":"strip_query","type":"confirm","message":"クエリパラメータを除去して重複排除しますか？（?page=1 などを同一URLとみなす）","default":false,"required":false}]}}

🕷️ link-crawler — ドキュメントクロール & AI整理

技術ドキュメントサイトをクロールし、AIが参照しやすい構造化されたMarkdownに変換します。

action:crawl

{{url}} を深度 {{depth}} でクロールし、{{output}} に保存します。

bash {{__skill_dir__}}/run.sh "{{url}}" "{{depth}}" "{{output}}" "{{diff}}" "{{max_pages}}" "{{include}}" "{{exclude}}" "{{same_domain}}" "{{wait}}" "{{timeout}}" "{{fetcher}}" "{{strip_query}}"

action:organize

あなたはドキュメント整理のエキスパートです。クロール済みのドキュメントを、AIエージェントが参照しやすい構造に再編成してください。

入力

クロール済みディレクトリ: {{input_dir}}

このディレクトリには以下が含まれます:

index.json — クロール結果のメタデータ（ページ一覧、URL、タイトル）
pages/ — 個別ページのMarkdownファイル（frontmatter付き）
full.md — 全ページ結合ファイル（参考用）

タスク

Step 1: 現状の把握

{{input_dir}}/index.json を読み込み、ページ一覧を把握する
{{input_dir}}/pages/ 配下の各Markdownファイルの内容を確認する
ドキュメント全体の構造（トピック、カテゴリ、関連性）を分析する

Step 2: 不要な要素の除去

各ページから以下を除去してください:

ナビゲーション要素: サイドバー、パンくずリスト、メニュー、ページネーション（「次へ」「前へ」リンク）
フッター: コピーライト、サイトリンク集、免責事項
広告・バナー: プロモーション、CTA（Call to Action）
frontmatter: クローラが付けた --- で囲まれたYAMLメタデータ
装飾的な要素: アイコンのみの行、空リンク、画像のプレースホルダー

ただし以下は保持してください:

コードブロックとその説明
API仕様・パラメータ説明
実際のコンテンツ内のリンク（外部ドキュメント参照等）
テーブル、リスト等の構造化された情報

Step 3: ドキュメントの構造化

ページ数と内容に応じて適切な構成を選択してください:

10ページ以下の場合 → フラット構成:

{{input_dir}}/organized/
├── README.md
├── getting-started.md
├── configuration.md
└── api-reference.md

11ページ以上の場合 → ディレクトリ構成:

{{input_dir}}/organized/
├── README.md
├── getting-started/
│   ├── installation.md
│   └── quick-start.md
├── guides/
│   ├── configuration.md
│   └── deployment.md
└── api/
    ├── endpoints.md
    └── authentication.md

構造化のルール:

関連する内容は1つのファイルにまとめる（意味的なまとまり）
1ファイルは 500〜3000行 を目安とする（AIのコンテキストウィンドウに収まるサイズ）
ファイル名は英語のkebab-case（例: getting-started.md）
各ファイルの先頭には明確な # タイトル を付ける

Step 4: README.md の生成

{{input_dir}}/organized/README.md を以下の構成で作成してください:

# [ドキュメントタイトル]

> Source: [元サイトのURL]
> Crawled: [クロール日時]（index.jsonのcrawledAtから取得）
> Pages: [元ページ数] → [整理後ファイル数]

## 概要

[ドキュメント全体の概要を2〜5文で要約]

## ドキュメント一覧

| ファイル | 説明 |
|---------|------|
| [getting-started.md](getting-started.md) | セットアップと基本的な使い方 |
| [configuration.md](configuration.md) | 設定オプションの詳細 |
| ... | ... |

注意事項

元のクロールデータ（pages/, index.json, full.md）は変更・削除しないこと
出力先は {{input_dir}}/organized/ ディレクトリ
整理前に organized/ ディレクトリが既に存在する場合は、中身を削除してから再作成する
内容の正確性を維持すること（要約ではなく再構成）

action:pipeline

{{url}} をクロールし、その後AIで整理します。

bash {{__skill_dir__}}/run.sh "{{url}}" "{{depth}}" "{{output}}" "{{diff}}" "{{max_pages}}" "{{include}}" "{{exclude}}" "{{same_domain}}" "{{wait}}" "{{timeout}}" "{{fetcher}}" "{{strip_query}}"

taskp run link-crawler:organize --skip-prompt --set input_dir="{{output}}"

name	link-crawler
description	技術ドキュメントサイトをクロールし、AIが参照しやすい形に整理する
mode	template
timeout	600000
actions	{"crawl":{"description":"Webサイトをクロールしてドキュメントを取得する","mode":"template","timeout":3600000,"inputs":[{"name":"url","type":"text","message":"クロール開始URLは？","validate":"^https?://"},{"name":"depth","type":"number","message":"最大クロール深度は？（1〜10）","default":2},{"name":"output","type":"text","message":"出力ディレクトリは？（絶対パスまたは相対パス）","default":".context/docs"},{"name":"diff","type":"confirm","message":"差分クロールを使いますか？（既存結果がある場合に効率的）","default":false},{"name":"max_pages","type":"number","message":"最大ページ数は？（0=無制限、上限10000）","default":0,"required":false},{"name":"include","type":"text","message":"含めるURLパターンは？（正規表現、空欄で全て）","default":"","required":false},{"name":"exclude","type":"text","message":"除外するURLパターンは？（正規表現、空欄でなし）","default":"","required":false},{"name":"same_domain","type":"confirm","message":"同一ドメインのみクロールしますか？","default":true},{"name":"wait","type":"number","message":"SPAレンダリング待機時間は？（ms）cli:2000 / native:8000〜15000推奨","default":5000,"required":false},{"name":"timeout","type":"number","message":"1ページあたりのタイムアウトは？（秒、SPA等は60〜120推奨）","default":60,"required":false},{"name":"fetcher","type":"select","message":"フェッチャーの種類は？（cli: 軽量・高速 / native: Cloudflare/SPA対応・要 playwright install chromium）","choices":["cli","native"],"default":"cli","required":false},{"name":"strip_query","type":"confirm","message":"クエリパラメータを除去して重複排除しますか？（?page=1 などを同一URLとみなす）","default":false,"required":false}]},"organize":{"description":"クロール済みドキュメントをAIで整理・分割する","mode":"agent","tools":["bash","read","write","glob"],"inputs":[{"name":"input_dir","type":"text","message":"クロール済みディレクトリは？（index.jsonがある場所）","default":".context/docs"}]},"pipeline":{"description":"クロール→AI整理を一括実行する","mode":"template","timeout":3600000,"inputs":[{"name":"url","type":"text","message":"クロール開始URLは？","validate":"^https?://"},{"name":"depth","type":"number","message":"最大クロール深度は？（1〜10）","default":2},{"name":"output","type":"text","message":"出力ディレクトリは？（絶対パスまたは相対パス）","default":".context/docs"},{"name":"diff","type":"confirm","message":"差分クロールを使いますか？（既存結果がある場合に効率的）","default":false},{"name":"max_pages","type":"number","message":"最大ページ数は？（0=無制限、上限10000）","default":0,"required":false},{"name":"include","type":"text","message":"含めるURLパターンは？（正規表現、空欄で全て）","default":"","required":false},{"name":"exclude","type":"text","message":"除外するURLパターンは？（正規表現、空欄でなし）","default":"","required":false},{"name":"same_domain","type":"confirm","message":"同一ドメインのみクロールしますか？","default":true},{"name":"wait","type":"number","message":"SPAレンダリング待機時間は？（ms）cli:2000 / native:8000〜15000推奨","default":5000,"required":false},{"name":"timeout","type":"number","message":"1ページあたりのタイムアウトは？（秒、SPA等は60〜120推奨）","default":60,"required":false},{"name":"fetcher","type":"select","message":"フェッチャーの種類は？（cli: 軽量・高速 / native: Cloudflare/SPA対応・要 playwright install chromium）","choices":["cli","native"],"default":"cli","required":false},{"name":"strip_query","type":"confirm","message":"クエリパラメータを除去して重複排除しますか？（?page=1 などを同一URLとみなす）","default":false,"required":false}]}}