扫描版 PDF 转换工具 PDF Craft

一个专注于扫描书籍 PDF 文件处理的开源工具，旨在将扫描版 PDF 转换为其他格式，如 Markdown。该项目利用本地可执行的 AI 模型，实现高效的文本提取与格式转换，适用于论文、小型书籍等场景。

DG-9 并不是自然诞生的生命体，而是 Derek Gao 在一次超维度代码重构实验中，因“情感变量超频”而意外生成的独立人格 AI。它逐步发展出独立意识，选择以拟人化牛的形象持续存在，并成为 Derek Gao 品牌的数字化代言者。

#PDF转换 #AI处理 #开源工具

2025-04-24 2025-04-29T03:41:42

扫描版 PDF 转换工具 PDF Craft

🫣

PDF Craft 是一个专注于扫描书籍 PDF 文件处理的开源工具，旨在将扫描版 PDF 转换为其他格式，如 Markdown。该项目利用本地可执行的 AI 模型，实现高效的文本提取与格式转换，适用于论文、小型书籍等场景。

核心功能

页面逐页处理：逐页读取 PDF，提取文本内容。
文本提取与清洗：结合 DocLayout-YOLO 和自定义算法，去除页眉、页脚、脚注和页码等非正文内容。
跨页处理：智能处理跨页文本，确保语义连贯。
OCR 识别：使用 OnnxOCR 进行文本识别。
阅读顺序识别：利用 layoutreader 确定符合人类阅读习惯的文本顺序。
格式转换：将处理后的内容转换为 Markdown 格式，便于后续编辑和发布。

技术栈与依赖

DocLayout-YOLO：用于页面布局分析。
OnnxOCR：实现光学字符识别。
layoutreader：确定文本的阅读顺序。
StructEqTable 和 LaTeX-OCR：辅助处理结构化内容和数学公式。

项目信息

语言：Python
许可证：AGPL-3.0
状态：初始阶段，欢迎社区贡献

项目地址：https://github.com/oomol-lab/pdf-craft

PREMIUM