PDF Craft 是一款开源的 PDF 文件格式转换工具,专为需要将 PDF 文件转换为 Markdown 或 EPUB 格式的用户设计。通过逐页读取 PDF 文件,并结合先进的算法和技术,PDF-Craft 能够智能提取正文内容,过滤掉页眉、页脚、脚注、页码等干扰元素,确保转换后的文件清晰易读。
核心功能:
支持多种格式转换:将 PDF 文件转换为 Markdown 或 EPUB 格式,满足不同场景需求。
智能内容提取:利用 DocLayout-YOLO 和自研算法,精准提取 PDF 中的正文内容。
中文 PDF 优化:针对直接扫描生成的中文 PDF 书籍页面,使用 OnnxOCR 进行文字识别,并通过 layoutreader 确定符合人类习惯的阅读顺序。
开源免费:PDF-Craft 是一个开源项目,用户可自由下载、使用和贡献代码。