InternVL2_5-78B

1年前发布 19 0 0

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化,支持包括图像、文本到文本的转换在内的多种功能,适用于需要处理视觉和语言信息的复杂任务。

收录时间:
2025-05-30
InternVL2_5-78BInternVL2_5-78B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化,支持包括图像、文本到文本的转换在内的多种功能,适用于需要处理视觉和语言信息的复杂任务。

数据统计

相关导航

Qwen2-VL-7B

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频,为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外,Qwen2-VL还支持多语言,除了英语和中文,还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE),增强了其多模态处理能力。
Aya Expanse 32B

Aya Expanse 32B

Aya Expanse 32B是由Cohere For AI开发的多语言大型语言模型,拥有32亿参数,专注于提供高性能的多语言支持。它结合了先进的数据仲裁、多语言偏好训练、安全调整和模型合并技术,以支持23种语言,包括阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。该模型的发布旨在使社区基础的研究工作更加易于获取,通过发布高性能的多语言模型权重,供全球研究人员使用。
InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ 是由 OpenGVLab 开发的多模态大型语言模型,旨在通过混合偏好优化提升模型的推理能力。该模型在多模态任务中表现出色,能够处理图像和文本之间的复杂关系。它采用了先进的模型架构和优化技术,使其在多模态数据处理方面具有显著优势。该模型适用于需要高效处理和理解多模态数据的场景,如图像描述生成、多模态问答等。其主要优点包括强大的推理能力和高效的模型架构。
Janus-Pro-7B

Janus-Pro-7B

Janus-Pro-7B 是一个强大的多模态模型,能够同时处理文本和图像数据。它通过分离视觉编码路径,解决了传统模型在理解和生成任务中的冲突,提高了模型的灵活性和性能。该模型基于 DeepSeek-LLM 架构,使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入,并在多模态任务中表现出色。其主要优点包括高效性、灵活性和强大的多模态处理能力。该模型适用于需要多模态交互的场景,例如图像生成和文本理解。
InternVL2_5-4B-MPO-AWQ

InternVL2_5-4B-MPO-AWQ

InternVL2_5-4B-MPO-AWQ是一个多模态大型语言模型(MLLM),专注于提升模型在图像和文本交互任务中的表现。该模型基于InternVL2.5系列,并通过混合偏好优化(MPO)进一步提升性能。它能够处理包括单图像和多图像、视频数据在内的多种输入,适用于需要图像和文本交互理解的复杂任务。InternVL2_5-4B-MPO-AWQ以其卓越的多模态能力,为图像-文本到文本的任务提供了一个强大的解决方案。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...