VastGaussian VastGaussian是一个3D场景重建的开源项目,它通过使用3D高斯来模拟大型场景的几何和外观信息。这个项目是作者从零开始实现的,可能存在一些错误,但为3D场景重建领域提供了一种新的尝试。项目的主要优点包括对大型数据集的处理能力,以及对原始3DGS项目的改进,使其更易于理解和使用。
RL4VLM RL4VLM是一个开源项目,旨在通过强化学习微调大型视觉-语言模型,使其成为能够做出决策的智能代理。该项目由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人员共同开发。它基于LLaVA模型,并采用了PPO算法进行强化学习微调。RL4VLM项目提供了详细的代码库结构、入门指南、许可证信息以及如何引用该研究的说明。
avp_teleoperate 这是一个开源项目,用于实现人形机器人Unitree H1_2的遥控操作。它利用了Apple Vision Pro技术,允许用户通过虚拟现实环境来控制机器人。该项目在Ubuntu 20.04和Ubuntu 22.04上进行了测试,并且提供了详细的安装和配置指南。该技术的主要优点包括能够提供沉浸式的遥控体验,并且支持在模拟环境中进行测试,为机器人遥控领域提供了新的解决方案。
Open-MAGVIT2 Open-MAGVIT2是由腾讯ARC实验室开源的一个自回归图像生成模型系列,包含从300M到1.5B不同规模的模型。该项目复现了Google的MAGVIT-v2分词器,实现了在ImageNet 256×256数据集上达到1.17 rFID的先进重建性能。通过引入不对称分词技术,将大词汇表分解为不同大小的子词汇表,并引入'下一个子标记预测'来增强子标记间的交互,以提高生成质量。所有模型和代码均已开源,旨在推动自回归视觉生成领域的创新和创造力。
Awesome-ChatTTS Awesome-ChatTTS是一个开源项目,旨在为ChatTTS项目提供常见问题解答和相关资源汇总,帮助用户快速入门并解决在使用过程中可能遇到的问题。该项目不仅整理了详细的安装指南和参数说明,还提供了多种音色种子的示例,以及视频教程等辅助材料。
Open-Sora-Plan Open-Sora-Plan是一个开源项目,旨在复现OpenAI的Sora(T2V模型),并构建关于Video-VQVAE(VideoGPT)+ DiT的知识。项目由北京大学-兔展AIGC联合实验室发起,目前资源有限,希望开源社区能够贡献力量。项目提供了训练代码,并欢迎Pull Request。
AITimeline AI Timeline 是一个记录人工智能领域重要技术发展时间点的开源项目。它详细记录了包括文生图、文生视频、大语言模型等在内的AI技术发展过程中的关键里程碑。该项目使用Vue和TypeScript开发,为AI技术爱好者和研究人员提供了一个了解AI历史和发展趋势的平台。