بنقرة واحدة
knowledge-acquisition
多源学术论文检索:Semantic Scholar / PubMed / Crossref / OpenAlex / arXiv / bioRxiv。
التثبيت باستخدام Codex أو Claude انسخ هذا Prompt والصقه في Codex أو Claude أو مساعد آخر ليراجع صفحة Skill ويثبّتها لك.
القائمة
多源学术论文检索:Semantic Scholar / PubMed / Crossref / OpenAlex / arXiv / bioRxiv。
التثبيت باستخدام Codex أو Claude انسخ هذا Prompt والصقه في Codex أو Claude أو مساعد آخر ليراجع صفحة Skill ويثبّتها لك.
引用三验 — 参考文献是否存在(L1) + 引用是否得当(L2) + 引用是否全面(L3)。三位一体验证管线,从DOI验真到语义审查到遗漏检测。
**触发条件**: 对一批论文(10-34 篇)批量处理 `step_quality_check.md` 中的 quality_score 并写入 `state.json`。
子skill | NotebookLM CLI全功能指南 — Q&A知识提取、内容生成(报告/视频/音频/信息图/幻灯片)、文献检索。响应paper-pipeline的P1阶段调用。
生产力工具 — Airtable、Google Workspace、Linear、Notion、Jupyter等。
Complete paper pipeline: retrieval, extraction, quality review, analysis, and publication.
双循环进化:内部反思(P0) + 外部吸收(P1)。Cross-project absorption methodology — multi-round cross-project comparison, active project tracking, self-expanding keyword discovery. 动灵驱动吸收(Entelechy-Driven Absorption v4.3).
| name | knowledge-acquisition |
| description | 多源学术论文检索:Semantic Scholar / PubMed / Crossref / OpenAlex / arXiv / bioRxiv。 |
「致知在格物。物格而后知至。」多源求索,博观约取。 「博学之,审问之,慎思之,明辨之,笃行之。」不取伪术,不引虚言。 宁缺毋滥,求真为要。
知者,认知之始也。先求于外,而后内化。 无求则无知,无源则无流。 搜于六方而不偏,核于四维而不妄。 凡文必求真,凡数必溯源,凡引必可验。 宁无所得,不取伪术。诚则明矣,伪则暗矣。
Agent-native认知原子。使用技能库+终端curl检索学术文献,零Python依赖。
| 字段 | 类型 | 必需 | 说明 | |:-----|:--- io_contract: input: ['query: str, sources: list[str], date_range: str -> candidates: list[PaperCandidate]', 'output: ['candidates: list[PaperCandidate] (title, doi, source, relevance, abstract_summary, pdf_url)'] --|:----:|:-----| | topic | string | ✅ | 研究主题 / 关键问题 | | keywords | list[str] | ❌ | 具体关键词(不提供则自动从 topic 推导) | | source_priority | list[str] | ❌ | 数据源优先级(默认: S2→PubMed→arXiv→OpenAlex→Crossref→bioRxiv) | | max_papers | int | ❌ | 最大返回数(默认 15) | | year_range | list[int] | ❌ | 年份范围,如 [2020, 2025] |
{
"papers": [{
"title": "论文标题",
"authors": ["作者1", "作者2"],
"year": 2024,
"source": "semantic_scholar | pubmed | arxiv | ...",
"external_ids": {"DOI": "10.xxx", "arXiv": "xxxx.xxxxx"},
"abstract": "摘要...",
"url": "https://...",
"pdf_url": "https://...",
"citation_count": 42,
"relevance_score": 0.85,
"provenance": "source=source_name, query=关键词, api_status=ok"
}],
"total_found": 15,
"search_meta": {"sources_queried": ["S2","PubMed"], "sources_failed": []}
}
scientific-database-lookup(多源搜索) + research-paper-search(论文检索辅助)
从 topic 自动推导 2-5 个搜索关键词。每个关键词搜索所有已配源。
| 优先级 | 源 | 回退策略 |
|---|---|---|
| 1 | Semantic Scholar (API Key) → 429→OpenAlex | |
| 2 | PubMed | 无响应→Crossref |
| 3 | arXiv (Tor SOCKS5) → HTTPS + curl -L --socks5-hostname 127.0.0.1:9050 | |
| 4 | OpenAlex → {word: [positions]} 反转重建摘要 | |
| 5 | bioRxiv/medRxiv | 无结果→直接API |
| 6 | Web scrape | 深度抓取 |
| 7 | 本地缓存 | 离线兜底 |
API具体命令 → 参考 scientific-database-lookup 和 research-paper-search 技能
按 title 归一化匹配,同论文保留信息最全的版本。
5类幻觉检测:TF(完全虚构) / PAC(部分虚构) / IH(不完整引用) / PH(幻影引用) / SH(来源混淆)
命名规范: {bibkey}.pdf → outputs/papers/pdfs/。自动生成 references.bib。
子 skill:
pdf-to-md-notebooklm— 含完整命令和陷阱
下载后的 PDF 转为 Markdown 再上传到 NotebookLM(替代 PDF 直传,避免文本层问题):
# 6a. 检查文本层
pdftotext pdfs/{bibkey}.pdf - | wc -c
# 6b. MarkItDown 转 MD(推荐)
uvx markitdown pdfs/{bibkey}.pdf > pdfs/{bibkey}.md 2>/dev/null
# 6c. 上传到 NotebookLM(必须 --type text + $(cat) 传内容)
notebooklm source add "$(cat pdfs/{bibkey}.md)" --type text --title "{bibkey}" -n <notebook_id> --timeout 120
为什么必须 --type text 且用 $(cat ...) 传内容:
source add file.md → ❌ error(后端不识 .md 格式)source add file.md --type text → ❌ 只传了路径字符串source add "$(cat file.md)" --type text → ✅ Markdown 类型,内容完整(实战验证)source=源名, query=关键词, api_status=ok/429/timeout--socks5-hostname 127.0.0.1:9050)+ curl -Lselect 参数 — 逗号分隔字段名{word: [positions]},需反转重建摘要.strip()<link rel="related">,非 rel="alternate"topic: str, sources: list -> papers: list[Paper], total_found: intquery: str, sources: list[str], max_results: int, date_range: strcandidates: list[PaperCandidate] — 包含 title, doi, source, relevance, abstract_summary, pdf_url对应原则:P2(机械原子暴露输入输出规范)
../../extended/research-tools/research/paper-retrieval/scripts/multi_source_search.py — 四源统一检索引擎(Semantic Scholar + PubMed + OpenAlex + arXiv via torsocks)
../../extended/research-tools/research/paper-retrieval/scripts/pdf_download_engine.py — 多源竞速PDF下载引擎
python3 multi_source_search.py "query" --max 5 --verbose --output result.jsonSEMANTIC_SCHOLAR_API_KEY(必需)