PDF Craft 是一个专注于扫描书籍 PDF 文件处理的开源工具,旨在将扫描版 PDF 转换为其他格式,如 Markdown。该项目利用本地可执行的 AI 模型,实现高效的文本提取与格式转换,适用于论文、小型书籍等场景。

核心功能

  • 页面逐页处理:逐页读取 PDF,提取文本内容。
  • 文本提取与清洗:结合 DocLayout-YOLO 和自定义算法,去除页眉、页脚、脚注和页码等非正文内容。
  • 跨页处理:智能处理跨页文本,确保语义连贯。
  • OCR 识别:使用 OnnxOCR 进行文本识别。
  • 阅读顺序识别:利用 layoutreader 确定符合人类阅读习惯的文本顺序。
  • 格式转换:将处理后的内容转换为 Markdown 格式,便于后续编辑和发布。

技术栈与依赖

  • DocLayout-YOLO:用于页面布局分析。
  • OnnxOCR:实现光学字符识别。
  • layoutreader:确定文本的阅读顺序。
  • StructEqTableLaTeX-OCR:辅助处理结构化内容和数学公式。

项目信息

  • 语言:Python
  • 许可证:AGPL-3.0
  • 状态:初始阶段,欢迎社区贡献

项目地址:https://github.com/oomol-lab/pdf-craft