Huginn-0125

1年前发布 16 0 0

Huginn-0125是一个由马里兰大学帕克分校Tom Goldstein实验室开发的潜变量循环深度模型。该模型拥有35亿参数,经过8000亿个token的训练,在推理和代码生成方面表现出色。其核心特点是通过循环深度结构在测试时动态调整计算量,能够根据任务需求灵活增加或减少计算步骤,从而在保持性能的同时优化资源利用。该模型基于开源的Hug...

收录时间:
2025-05-29
Huginn-0125Huginn-0125

Huginn-0125是一个由马里兰大学帕克分校Tom Goldstein实验室开发的潜变量循环深度模型。该模型拥有35亿参数,经过8000亿个token的训练,在推理代码生成方面表现出色。其核心特点是通过循环深度结构在测试时动态调整计算量,能够根据任务需求灵活增加或减少计算步骤,从而在保持性能的同时优化资源利用。该模型基于开源的Hugging Face平台发布,支持社区共享和协作,用户可以自由下载、使用和进一步开发。其开源性和灵活的架构使其成为研究和开发中的重要工具,尤其是在资源受限或需要高性能推理的场景中。

数据统计

相关导航

Qwen2.5-Coder-3B-Instruct-GPTQ-Int8

Qwen2.5-Coder-3B-Instruct-GPTQ-Int8

Qwen2.5-Coder-3B-Instruct-GPTQ-Int8是Qwen2.5-Coder系列中的一种大型语言模型,专门针对代码生成、代码推理和代码修复进行了优化。该模型基于Qwen2.5,训练数据包括源代码、文本代码关联、合成数据等,达到5.5万亿个训练令牌。Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型,其编码能力与GPT-4o相匹配。该模型还为现实世界中的应用提供了更全面的基础,如代码代理,不仅增强了编码能力,还保持了在数学和通用能力方面的优势。
DeepSeek-R1-Zero

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型,专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下,展现出强大的推理行为,如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用,以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发,支持大规模推理任务,适用于研究和商业应用。
Jolt AI

Jolt AI

Jolt AI是一款专为大型代码库设计的AI辅助开发工具。它能够理解并导航大型代码库,准确识别需要创建、编辑、移动或删除的文件,并匹配现有代码风格、模式和规范。通过生成可编辑的文件级计划,Jolt AI确保代码的可预测性,并帮助开发者快速熟悉新代码库。它可以在单个任务中修改超过10个文件并编写超过1000行代码,且代码修订简单易行。Jolt AI的出现,旨在帮助开发团队提高生产力,减少开发时间,提升代码质量。其主要面向需要处理复杂代码库的企业开发团队,具体价格需根据企业需求定制。
Qwen2.5-Coder-1.5B-Instruct-GPTQ-Int4

Qwen2.5-Coder-1.5B-Instruct-GPTQ-Int4

Qwen2.5-Coder是Qwen大型语言模型的最新系列,专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5,该模型在训练中包含了5.5万亿的源代码、文本代码关联、合成数据等,是目前开源代码语言模型中的佼佼者,其编码能力可与GPT-4相媲美。此外,Qwen2.5-Coder还具备更全面的现实世界应用基础,如代码代理等,不仅增强了编码能力,还保持了在数学和通用能力方面的优势。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...