OLMo-2-1124-7B-SFT

1年前发布 18 0 0

OLMo-2-1124-7B-SFT是由艾伦人工智能研究所(AI2)发布的一个英文文本生成模型,它是OLMo 2 7B模型的监督微调版本,专门针对Tülu 3数据集进行了优化。Tülu 3数据集旨在提供多样化任务的顶尖性能,包括聊天、数学问题解答、GSM8K、IFEval等。该模型的主要优点包括强大的文本生成能力、多样性任务处理能力以及开...

收录时间:
2025-05-29
OLMo-2-1124-7B-SFTOLMo-2-1124-7B-SFT

OLMo-2-1124-7B-SFT是由艾伦人工智能研究所(AI2)发布的一个英文文本生成模型,它是OLMo 2 7B模型的监督微调版本,专门针对Tülu 3数据集进行了优化。Tülu 3数据集旨在提供多样化任务的顶尖性能,包括聊天、数学问题解答、GSM8K、IFEval等。该模型的主要优点包括强大的文本生成能力、多样性任务处理能力以及开源的代码和训练细节,使其成为研究和教育领域的有力工具。

数据统计

相关导航

MiniMax-Text-01

MiniMax-Text-01

MiniMax-Text-01是一个由MiniMaxAI开发的大型语言模型,拥有4560亿总参数,其中每个token激活459亿参数。它采用了混合架构,结合了闪电注意力、softmax注意力和专家混合(MoE)技术,通过先进的并行策略和创新的计算-通信重叠方法,如线性注意力序列并行主义加(LASP+)、变长环形注意力、专家张量并行(ETP)等,将训练上下文长度扩展到100万token,并能在推理时处理长达400万token的上下文。在多个学术基准测试中,MiniMax-Text-01展现出了顶级模型的性能。
olmOCR-7B-0225-preview

olmOCR-7B-0225-preview

olmOCR-7B-0225-preview 是由 Allen Institute for AI 开发的先进文档识别模型,旨在通过高效的图像处理和文本生成技术,将文档图像快速转换为可编辑的纯文本。该模型基于 Qwen2-VL-7B-Instruct 微调,结合了强大的视觉和语言处理能力,适用于大规模文档处理任务。其主要优点包括高效处理能力、高精度文本识别以及灵活的提示生成方式。该模型适用于研究和教育用途,遵循 Apache 2.0 许可证,强调负责任的使用。
Gemini Embedding 文本嵌入模型

Gemini Embedding 文本嵌入模型

Gemini Embedding 是 Google 推出的一种实验性文本嵌入模型,通过 Gemini API 提供服务。该模型在多语言文本嵌入基准测试(MTEB)中表现卓越,超越了之前的顶尖模型。它能够将文本转换为高维数值向量,捕捉语义和上下文信息,广泛应用于检索、分类、相似性检测等场景。Gemini Embedding 支持超过 100 种语言,具备 8K 输入标记长度和 3K 输出维度,同时引入了嵌套表示学习(MRL)技术,可灵活调整维度以满足存储需求。该模型目前处于实验阶段,未来将推出稳定版本。
Magma-8B

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型,专为研究多模态 AI 代理而设计。它结合了文本和图像输入,能够生成文本输出,并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干,并结合 CLIP-ConvNeXt-XXLarge 视觉编码器,支持从无标签视频数据中学习时空关系,具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色,特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具,推动了虚拟和现实环境中复杂交互的研究。
Flex.1-alpha

Flex.1-alpha

Flex.1-alpha 是一个强大的文本到图像生成模型,基于80亿参数的修正流变换器架构。它继承了FLUX.1-schnell的特性,并通过训练指导嵌入器,使其无需CFG即可生成图像。该模型支持微调,并且具有开放源代码许可(Apache 2.0),适合在多种推理引擎中使用,如Diffusers和ComfyUI。其主要优点包括高效生成高质量图像、灵活的微调能力和开源社区支持。开发背景是为了解决图像生成模型的压缩和优化问题,并通过持续训练提升模型性能。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...