Name: Extract Content With Image
Author: landingbj

name	extract_content_with_image
description	将本地 PDF、TXT、Word、PPT 文件分割为文本和图片chunk。
version	1.0.0
author	lagi
tags	["extract","pdf","chunks","images"]

extract_content_with_image

执行脚本前请先激活环境

必需：PyMuPDF（fitz）和 Pillow
可选：soffice，用于 .doc/.docx/.ppt/.pptx/.txt 转 PDF；可用环境变量 SOFFICE_PATH 指定
无 soffice 时：
- .txt 会直接用 fitz 生成 PDF，并基于原始文本做分块
- .doc/.docx/.ppt/.pptx 会返回失败 JSON
可选：transformers + TOKENIZER_DIR 或 MODEL_DIR
- 配置后按 tokenizer 的 token 数分块，和 VicunaIndex 更接近
- 未配置时按字符数分块，默认 CHUNK_SIZE=512

name	extract_content_with_image
description	将本地 PDF、TXT、Word、PPT 文件分割为文本和图片chunk。
version	1.0.0
author	lagi
tags	["extract","pdf","chunks","images"]

执行脚本前请先激活环境

必需：PyMuPDF（fitz）和 Pillow
可选：soffice，用于 .doc/.docx/.ppt/.pptx/.txt 转 PDF；可用环境变量 SOFFICE_PATH 指定
无 soffice 时：
- .txt 会直接用 fitz 生成 PDF，并基于原始文本做分块
- .doc/.docx/.ppt/.pptx 会返回失败 JSON
可选：transformers + TOKENIZER_DIR 或 MODEL_DIR
- 配置后按 tokenizer 的 token 数分块，和 VicunaIndex 更接近
- 未配置时按字符数分块，默认 CHUNK_SIZE=512

extract-content-with-image