The Pile

11个月前发布 11 0 0

Pile是一个825 GiB的多样化、开源的语言建模数据集,由22个较小的高质量数据集组合而成,可用于训练大规模的语言模型,提升模型的泛化能力和跨领域知识。

收录时间:
2025-06-03
The PileThe Pile

Pile是一个825 GiB的多样化、开源的语言建模数据集,由22个较小的高质量数据集组合而成,可用于训练大规模的语言模型,提升模型的泛化能力和跨领域知识。

数据统计

相关导航

MAmmoTH-VL

MAmmoTH-VL

MAmmoTH-VL是一个大规模多模态推理平台,它通过指令调优技术,显著提升了多模态大型语言模型(MLLMs)在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集,覆盖了多样化的、推理密集型的任务,并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能,展现了其在教育和研究领域的重要性。
FineWeb2

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。该数据集经过精心设计,用于支持自然语言处理(NLP)模型的预训练和微调,特别是在多种语言上。它以其高质量、大规模和多样性而闻名,能够帮助模型学习跨语言的通用特征,提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色,甚至在某些情况下,比一些专门为单一语言设计的数据库表现更好。
RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...