Qwen2.5-Coder-32B

1年前发布 23 0 0

Qwen2.5-Coder-32B是基于Qwen2.5的代码生成模型，拥有32亿参数，是目前开源代码语言模型中参数最多的模型之一。它在代码生成、代码推理和代码修复方面有显著提升，能够处理长达128K tokens的长文本，适用于代码代理等实际应用场景。该模型在数学和通用能力上也保持了优势，支持长文本处理，是开发者在进行代码开发时的强大助手...

收录时间：

2025-06-02

打开网站手机查看

文案写作 # Transformers # 代码修复 # 代码推理 # 代码生成 # 编程辅助 # 长文本处理

Qwen2.5-Coder-32B

Qwen2.5-Coder-32B

Qwen2.5-Coder-32B是基于Qwen2.5的代码生成模型，拥有32亿参数，是目前开源代码语言模型中参数最多的模型之一。它在代码生成、代码推理和代码修复方面有显著提升，能够处理长达128K tokens的长文本，适用于代码代理等实际应用场景。该模型在数学和通用能力上也保持了优势，支持长文本处理，是开发者在进行代码开发时的强大助手。

数据统计

相关导航

Hermes 3 – Llama-3.1 70B

Hermes 3是Nous Research公司推出的Hermes系列最新版大型语言模型（LLM），相较于Hermes 2，它在代理能力、角色扮演、推理、多轮对话、长文本连贯性等方面都有显著提升。Hermes系列模型的核心理念是将LLM与用户对齐，赋予终端用户强大的引导能力和控制权。Hermes 3在Hermes 2的基础上，进一步增强了功能调用和结构化输出能力，提升了通用助手能力和代码生成技能。

EXAONE 3.5

EXAONE 3.5是LG AI Research发布的一系列人工智能模型，这些模型以其卓越的性能和成本效益而著称。它们在模型训练效率、去污染处理、长文本理解和指令遵循能力方面表现出色。EXAONE 3.5模型的开发遵循了LG的AI伦理原则，进行了AI伦理影响评估，以确保模型的负责任使用。这些模型的发布旨在推动AI研究和生态系统的发展，并为AI创新奠定基础。

Jamba 1.6

Jamba 1.6 是 AI21 推出的最新语言模型，专为企业私有部署而设计。它在长文本处理方面表现出色，能够处理长达 256K 的上下文窗口，采用混合 SSM-Transformer 架构，可高效准确地处理长文本问答任务。该模型在质量上超越了 Mistral、Meta 和 Cohere 等同类模型，同时支持灵活的部署方式，包括在本地或 VPC 中私有部署，确保数据安全。它为企业提供了一种无需在数据安全和模型质量之间妥协的解决方案，适用于需要处理大量数据和长文本的场景，如研发、法律和金融分析等。目前，Jamba 1.6 已在多个企业中得到应用，如 Fnac 使用其进行数据分类，Educa Edtech 利用其构建个性化聊天机器人等。

Qwen2.5-Turbo

Qwen2.5-Turbo是阿里巴巴开发团队推出的一款能够处理超长文本的语言模型，它在Qwen2.5的基础上进行了优化，支持长达1M个token的上下文，相当于约100万英文单词或150万中文字符。该模型在1M-token Passkey Retrieval任务中实现了100%的准确率，并在RULER长文本评估基准测试中得分93.1，超越了GPT-4和GLM4-9B-1M。Qwen2.5-Turbo不仅在长文本处理上表现出色，还保持了短文本处理的高性能，且成本效益高，每1M个token的处理成本仅为0.3元。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4是基于Qwen2.5的代码生成大型语言模型，具有32.5亿参数量，支持长文本处理，最大支持128K tokens。该模型在代码生成、代码推理和代码修复方面有显著提升，是当前开源代码语言模型中的佼佼者。它不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一，专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成，经过33B个token（21B多模态，12B语言，69%为长文本）的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调，即使在资源有限的情况下，也可以通过短指令调优数据集进行后训练，并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像，并在语言和多模态场景中保持强大的基础性能。

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型（MLLM），它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型采用'ViT-MLP-LLM'架构，集成了新增量预训练的InternViT与多种预训练语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能，包括图像和视频理解、多语言理解等。

InternVL2_5-4B

InternVL2_5-4B是一个先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上进行了核心模型架构的维护，并在训练和测试策略以及数据质量上进行了显著增强。该模型在处理图像、文本到文本的任务中表现出色，特别是在多模态推理、数学问题解决、OCR、图表和文档理解等方面。作为开源模型，它为研究人员和开发者提供了强大的工具，以探索和构建基于视觉和语言的智能应用。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...