Skywork-o1-Open-PRM-Qwen-2.5-1.5B

1年前发布 17 0 0

Skywork-o1-Open-PRM-Qwen-2.5-1.5B是Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该模型专门设计用于通过增量过程奖励增强推理能力，适合解决小规模的复杂问题。与简单的OpenAI o1模型复现不同，Skywork o1 Open系列模型不仅在输出中展现出固有的思考、规划和反思能...

收录时间：

2025-05-29

打开网站手机查看

代码辅助 # AI推理 # Hugging Face # 代码评估 # 开源 # 模型

Skywork-o1-Open-PRM-Qwen-2.5-1.5B

Skywork-o1-Open-PRM-Qwen-2.5-1.5B

Skywork-o1-Open-PRM-Qwen-2.5-1.5B是Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该模型专门设计用于通过增量过程奖励增强推理能力，适合解决小规模的复杂问题。与简单的OpenAI o1模型复现不同，Skywork o1 Open系列模型不仅在输出中展现出固有的思考、规划和反思能力，而且在标准基准测试中的推理技能有显著提升。这一系列代表了AI能力的一次战略性进步，将原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

数据统计

相关导航

DeepCoder

DeepCoder-14B-Preview 是一个基于强化学习的代码推理大型语言模型，能够处理长上下文，具有 60.6% 的通过率，适用于编程任务和自动化代码生成。该模型的优势在于其训练方法的创新，提供了比其他模型更优的性能，且完全开源，支持广泛的社区应用和研究。

Qwen2.5-Coder-1.5B-Instruct-GGUF

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专为代码生成、代码推理和代码修复而设计。基于强大的Qwen2.5，通过增加训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型，其编码能力与GPT-4o相匹配。此模型是1.5B参数的指令调优版本，采用GGUF格式，具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

PocketFlow

PocketFlow是一个极简的LLM框架，仅用100行代码实现，旨在让LLM能够自主编程。它强调高级编程范式，去除低级实现细节，使LLM能专注于重要部分。该框架可作为LLM的学习资源，因其简洁性，易于理解和上手。它采用嵌套有向图的核心抽象，将任务分解为多个LLM步骤，支持分支和递归决策。PocketFlow是开源项目，采用MIT许可证，具有高度的灵活性和可扩展性。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

bRAG-langchain

bRAG-langchain是一个开源项目，专注于Retrieval-Augmented Generation (RAG)技术的研究与应用。RAG是一种结合了检索和生成的AI技术，通过检索相关文档并生成回答，为用户提供更准确、更丰富的信息。该项目提供了从基础到高级的RAG实现指南，帮助开发者快速上手并构建自己的RAG应用。其主要优点是开源、灵活且易于扩展，适合各种需要自然语言处理和信息检索的应用场景。

Windsurf Wave 9

SWE-1 是windsurf_ai首个为整个软件工程流程优化的模型家族，旨在加速软件开发 99%。与传统的仅能编写代码的模型相比，SWE-1 不仅能编写代码，还能处理终端操作、访问其他知识和互联网、测试产品和理解用户反馈。SWE-1 系列包括 SWE-1、SWE-1-lite 和 SWE-1-mini 三种模型，旨在满足不同用户的需求。

Huginn-0125

Huginn-0125是一个由马里兰大学帕克分校Tom Goldstein实验室开发的潜变量循环深度模型。该模型拥有35亿参数，经过8000亿个token的训练，在推理和代码生成方面表现出色。其核心特点是通过循环深度结构在测试时动态调整计算量，能够根据任务需求灵活增加或减少计算步骤，从而在保持性能的同时优化资源利用。该模型基于开源的Hugging Face平台发布，支持社区共享和协作，用户可以自由下载、使用和进一步开发。其开源性和灵活的架构使其成为研究和开发中的重要工具，尤其是在资源受限或需要高性能推理的场景中。

Qwen2.5-Coder-3B

Qwen2.5-Coder-3B是Qwen2.5-Coder系列中的一个大型语言模型，专注于代码生成、推理和修复。基于强大的Qwen2.5，该模型通过增加训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，实现了在代码生成、推理和修复方面的显著改进。Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型，其编码能力与GPT-4o相匹配。此外，Qwen2.5-Coder-3B还为现实世界的应用提供了更全面的基础，如代码代理，不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...