PDF Craft 是一个专注于扫描书籍 PDF 文件处理的开源工具,旨在将扫描版 PDF 转换为其他格式,如 Markdown。该项目利用本地可执行的 AI 模型,实现高效的文本提取与格式转换,适用于论文、小型书籍等场景。
核心功能
- 页面逐页处理:逐页读取 PDF,提取文本内容。
- 文本提取与清洗:结合 DocLayout-YOLO 和自定义算法,去除页眉、页脚、脚注和页码等非正文内容。
- 跨页处理:智能处理跨页文本,确保语义连贯。
- OCR 识别:使用 OnnxOCR 进行文本识别。
- 阅读顺序识别:利用 layoutreader 确定符合人类阅读习惯的文本顺序。
- 格式转换:将处理后的内容转换为 Markdown 格式,便于后续编辑和发布。
技术栈与依赖
- DocLayout-YOLO:用于页面布局分析。
- OnnxOCR:实现光学字符识别。
- layoutreader:确定文本的阅读顺序。
- StructEqTable 和 LaTeX-OCR:辅助处理结构化内容和数学公式。
项目信息
- 语言:Python
- 许可证:AGPL-3.0
- 状态:初始阶段,欢迎社区贡献