Ollama OCR for web

11个月前发布 8 0 0

ollama-ocr是一个基于ollama的光学字符识别(OCR)模型,能够从图像中提取文本。它利用先进的视觉语言模型,如LLaVA、Llama 3.2 Vision和MiniCPM-V 2.6,提供高精度的文本识别。该模型对于需要从图片中获取文本信息的场景非常有用,如文档扫描、图像内容分析等。它开源免费,易于集成到各种项目中。

收录时间:
2025-05-30
Ollama OCR for webOllama OCR for web

ollama-ocr是一个基于ollama的光学字符识别(OCR)模型,能够从图像中提取文本。它利用先进的视觉语言模型,如LLaVA、Llama 3.2 Vision和MiniCPM-V 2.6,提供高精度的文本识别。该模型对于需要从图片中获取文本信息的场景非常有用,如文档扫描、图像内容分析等。它开源免费,易于集成到各种项目中。

数据统计

相关导航

InternVL2_5-1B

InternVL2_5-1B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),它在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs),如InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。InternVL 2.5支持多图像和视频数据,通过动态高分辨率训练方法,增强了模型处理多模态数据的能力。
Sana_600M_1024px

Sana_600M_1024px

Sana是一个由NVIDIA开发的文本到图像生成框架,能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力,使得在笔记本电脑GPU上也能部署。它是一个基于线性扩散变换器(text-to-image generative model)的模型,拥有1648M参数,专门用于生成1024px基础的多尺度高宽图像。Sana模型的主要优点包括高分辨率图像生成、快速的合成速度以及强大的文本图像对齐能力。Sana模型的背景信息显示,它是基于开源代码开发的,可以在GitHub上找到源代码,同时它也遵循特定的许可证(CC BY-NC-SA 4.0 License)。
HuatuoGPT-o1-8B

HuatuoGPT-o1-8B

HuatuoGPT-o1-8B 是一个专为高级医疗推理设计的医疗领域大型语言模型(LLM)。它在提供最终响应之前会生成一个复杂的思考过程,反映并完善其推理过程。该模型基于LLaMA-3.1-8B构建,支持英文,并且采用'thinks-before-it-answers'的方法,输出格式包括推理过程和最终响应。此模型在医疗领域具有重要意义,因为它能够处理复杂的医疗问题并提供深思熟虑的答案,这对于提高医疗决策的质量和效率至关重要。
Llama-3-Patronus-Lynx-70B-Instruct

Llama-3-Patronus-Lynx-70B-Instruct

PatronusAI/Llama-3-Patronus-Lynx-70B-Instruct是一个基于Llama-3架构的大型语言模型,旨在检测在RAG设置中的幻觉问题。该模型通过分析给定的文档、问题和答案,评估答案是否忠实于文档内容。其主要优点在于高精度的幻觉检测能力和强大的语言理解能力。该模型由Patronus AI开发,适用于需要高精度信息验证的场景,如金融分析、医学研究等。该模型目前为免费使用,但具体的商业应用可能需要与开发者联系。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...