一键导入
data-cleaning-and-visualization
自动清洗赛题或爬取的数据(处理缺失/异常/格式),并生成可视化图表。Invoke when 用户需要处理原始数据、清洗数据或生成数据分析图表。
菜单
自动清洗赛题或爬取的数据(处理缺失/异常/格式),并生成可视化图表。Invoke when 用户需要处理原始数据、清洗数据或生成数据分析图表。
自动定位并获取权威公开数据(优先API/官方批量下载),输出可复现抓取与清洗方案。Invoke when用户需要权威数据、官方统计、API下载或数据源爬取。
Manages persistent memory. Invoke to read active context or archive old tasks. Structure: Long-term Principles (Rules) + Short-term Workbench (Tasks).
自动清洗赛题或爬取的数据(处理缺失/异常/格式),并生成可视化图表。Invoke when 用户需要处理原始数据、清洗数据或生成数据分析图表。
根据 model_route.json、数据计划和清洗数据,为数学建模论文生成结果证据契约和 q1/q2/q3 建模代码脚手架。Invoke when 需要把模型输出、评价指标、结构化结论、论文表格和当前赛题专用建模代码沉淀到 paper_output/results/、paper_output/tables/ 和 paper_output/code/modeling/,供 QA 与正文生成读取。
按常见评分点生成建模论文结构与写作清单,并根据题目类型与数据条件给出模型选择与对照实验路线。Invoke when需要“论文格式/评分对齐/模型选型/路线不确定”。
国赛数学建模正式论文范式、outline、Word 排版和格式门禁 skill。Invoke when 证据门禁通过后需要生成 CUMCM 风格正式论文、规范标题编号、扩写正文、插入图表表格、导出 Word 或检查论文格式。
| name | data-cleaning-and-visualization |
| description | 自动清洗赛题或爬取的数据(处理缺失/异常/格式),并生成可视化图表。Invoke when 用户需要处理原始数据、清洗数据或生成数据分析图表。 |
paper-workflow-orchestrator 判断当前 S0-S8 阶段。python skills/paper-workflow-orchestrator/scripts/workflow_guard.py --skill data-cleaning-and-visualization
[WORKFLOW FAIL] 或报告 status != "PASS",停止本 skill,按 paper_output/qa/workflow_guard_report.json 的失败项回补前置阶段,不得凭记忆继续。paper_output/ 产物;完成后必须回到 paper-workflow-orchestrator 判断下一步,并用 context-memory-keeper 记录已完成产物、阻塞项和下一步。python skills/paper-workflow-orchestrator/scripts/workflow_guard.py --status
再读取 paper_output/qa/workflow_guard_report.json、paper_output/preflight_report.json、paper_output/input_manifest.json、paper_output/results/run_manifest.json 和本 skill 的上游 JSON 契约,按报告里的 recommended_skill 与 next_action 继续。paper_output/context/workflow_memory.json 视为长期断点记录;若其中的 current_step、next_step、recommended_skill 与 workflow_guard.py --status 不一致,以 guard 报告为准。paper-workflow-orchestrator 或运行 workflow_guard.py --status,再更新 workflow memory:
python skills/context-memory-keeper/scripts/update_workflow_memory.py
更新后读取 paper_output/context/workflow_memory.json / .md,确认下一步和推荐 skill 已记录。paper_output/input_manifest.json、paper_output/step1/problem_analysis.json 与 paper_output/plan/model_route.json;正式流程只处理 manifest 中标为 raw_data 且 usable_for_modeling=true 的附件。paper_output/data_cleaned/load_report.json、paper_output/plan/data_plan.json、paper_output/plan/visualization_plan.json、paper_output/figure_index.json;有可处理数据时同步输出 paper_output/data_cleaned/ 与 paper_output/figures/。quality-assurance-auditor 读取数据/图表契约补全 tasks.json;paper-micro-unit-generator 通过任务清单引用图表证据。quality-assurance-auditor 生成任务清单;完整论文目标应回到 paper-workflow-orchestrator 判断后续阶段。本技能用于自动处理数学建模中的原始数据,执行标准化的清洗流程,并生成基础的数据探索性分析(EDA)图表。旨在减少手动处理数据的繁琐步骤,快速获取数据的统计特征和分布情况。
数学建模赛题的数据表结构、字段名称、单位口径和图表需求通常都不同,因此本技能的 scripts/ 不应被理解为所有赛题通用的固定程序。它们的核心价值是提供高质量的数据处理与图表生成样板:包括输入输出目录、清洗步骤、图表尺寸、配色、标注、保存路径和论文引用口径。
真实赛题中,应先分析当前附件的数据格式和建模需求,再引用 scripts/ 中的写法二次修改,或让 Agent 读取这些脚本后重新生成适配当前赛题的新代码。
problem_files/(赛题附件)或 crawled_data/(爬虫数据)目录。robust_loader.py,生成 paper_output/data_cleaned/load_report.json,记录 xlsx/csv/json 结构与 PDF 诊断结论;脚本会优先读取 paper_output/input_manifest.json,跳过 result_template、题面文档和不可用于建模的附件。PDF 表格抽取只作诊断,不直接视为可信原始数据。data_plan.json、visualization_plan.json 与 figure_index.json,作为后续 QA 和正文生成的图表证据交接单。paper_output/ 目录下,方便后续论文写作调用。本技能包含以下核心脚本,位于 skills/data-cleaning-and-visualization/scripts/ 目录下:
scripts/robust_loader.py
paper_output/input_manifest.json,只对标为 raw_data 的 xlsx/xls/csv/tsv/json 生成结构报告;对 PDF 只生成文本/表格诊断,不把 PDF 自动抽取结果当作可信数据;输出 paper_output/data_cleaned/load_report.json。scripts/run_pipeline.py
paper_output/ 下生成完整结果。scripts/build_data_visualization_plan.py
problem_analysis.json 或 model_route.json,需要先明确“哪些数据支撑哪些问题、哪些图表放在哪里”时。paper_output/plan/data_plan.json、paper_output/plan/visualization_plan.json 与 paper_output/figure_index.json。scripts/clean_data.py
paper_output/data_cleaned/。scripts/visualize_data.py
paper_output/data_cleaned/ 下的数据,生成基础 EDA 图表到 paper_output/figures/。scripts/paper_figure_templates.py
scripts/generate_paper_figures_from_plan.py
visualization_plan.json 和清洗后的 CSV,希望先生成一版论文级图表草稿时。paper_figure_templates.py,把计划图生成到 paper_output/figures/fig_*.png,并更新 paper_output/figure_index.json。运行后,将在 paper_output 目录下生成以下内容:
paper_output/
├── plan/
│ ├── data_plan.json # 数据字段、清洗任务与子问题链接
│ └── visualization_plan.json # 建议图表、图题、用途与输出路径
├── figure_index.json # 图表计划索引,供 QA 和正文生成核对
├── data_cleaned/ # 清洗后的数据文件
│ ├── load_report.json # 附件读取诊断报告
│ ├── dataset1_cleaned.csv
│ └── ...
├── figures/ # 生成的可视化图表
│ ├── fig_q1_1.png # 按 visualization_plan 生成的论文级图表草稿
│ ├── fig_q1_2.png
│ ├── dataset1/
│ │ ├── dist_column_A.png
│ │ ├── heatmap.png
│ │ └── ...
│ └── ...
problem_files/(赛题附件)与 crawled_data/(补充/爬虫数据)。paper_output/,不会改动原始数据文件。data_plan.json 与 visualization_plan.json 是交接单,不是固定代码。Agent 应根据它们和当前附件结构二次生成或修改真实建模代码。paper_figure_templates.py 生成的是论文图表代码样板。若当前赛题已经有真实模型输出,应优先把真实结果表接入这些模板,而不是直接把模板图当最终结果。quality-assurance-auditor(生成任务清单)→ paper-micro-unit-generator(生成与合并)。paper-workflow-orchestrator。context-memory-keeper,记录“数据质量概况(样本量/缺失情况)”与“关键图表路径”到 Short-term Workbench。problem_files/ 与 crawled_data/;只允许写入:paper_output/。paper_output/input_manifest.json 与 paper_output/data_cleaned/load_report.json;Agent 不得跳过 manifest 直接复述 PDF 表格内容或把 result*.xlsx 当作原始数据。paper_output/figures/ 引用,避免散落在根目录或附件目录。quality-assurance-auditor 或直接回到 paper-workflow-orchestrator,否则会出现“有图但无正文/有正文但无任务清单”的断链。