pdf-extract-api

11个月前发布 9 0 0

pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Mar...

收录时间:
2025-05-30
pdf-extract-apipdf-extract-api

pdfextract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Markdown的高精度转换,包括表格数据、数字或数学公式,并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外,该API还支持LLM改进OCR结果,去除PDF中的个人身份信息(PII),以及分布式队列处理和缓存。

数据统计

相关导航

PopAi – Your Personal AI Assistant

PopAi – Your Personal AI Assistant

PopAi是一款创新的Chrome插件,将人工智能的强大功能融入到你的浏览体验中。它为专业人士、教育者和学生提供了一套无与伦比的功能,以优化你的数字互动体验。通过与PopAi进行实时交流,你可以提问并获得即时准确的回答。你可以上传PDF文件进行快速综述和详细大纲,帮助你快速回顾和深入研究复杂材料。你还可以在PDF文档中捕捉和交互图片,开启全新的理解和洞察。PopAi的界面简洁直观,易于操作。它支持多语言,并定期更新和改进,以提供更好的用户体验。欢迎下载PopAi,让你的网络互动更智能。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...