Open-MAGVIT2

1年前发布 15 0 0

Open-MAGVIT2是由腾讯ARC实验室开源的一个自回归图像生成模型系列，包含从300M到1.5B不同规模的模型。该项目复现了Google的MAGVIT-v2分词器，实现了在ImageNet 256×256数据集上达到1.17 rFID的先进重建性能。通过引入不对称分词技术，将大词汇表分解为不同大小的子词汇表，并引入'下一个子标记预测...

收录时间：

2025-06-01

打开网站手机查看

销售管理 # 图像处理 # 图像生成 # 开源项目 # 深度学习 # 自回归模型

Open-MAGVIT2

Open-MAGVIT2

Open-MAGVIT2是由腾讯ARC实验室开源的一个自回归图像生成模型系列，包含从300M到1.5B不同规模的模型。该项目复现了Google的MAGVIT-v2分词器，实现了在ImageNet 256×256数据集上达到1.17 rFID的先进重建性能。通过引入不对称分词技术，将大词汇表分解为不同大小的子词汇表，并引入’下一个子标记预测’来增强子标记间的交互，以提高生成质量。所有模型和代码均已开源，旨在推动自回归视觉生成领域的创新和创造力。

数据统计

相关导航

avp_teleoperate

这是一个开源项目，用于实现人形机器人Unitree H1_2的遥控操作。它利用了Apple Vision Pro技术，允许用户通过虚拟现实环境来控制机器人。该项目在Ubuntu 20.04和Ubuntu 22.04上进行了测试，并且提供了详细的安装和配置指南。该技术的主要优点包括能够提供沉浸式的遥控体验，并且支持在模拟环境中进行测试，为机器人遥控领域提供了新的解决方案。

Open-Sora-Plan

Open-Sora-Plan是一个开源项目，旨在复现OpenAI的Sora（T2V模型），并构建关于Video-VQVAE（VideoGPT）+ DiT的知识。项目由北京大学-兔展AIGC联合实验室发起，目前资源有限，希望开源社区能够贡献力量。项目提供了训练代码，并欢迎Pull Request。

Awesome-ChatTTS

Awesome-ChatTTS是一个开源项目，旨在为ChatTTS项目提供常见问题解答和相关资源汇总，帮助用户快速入门并解决在使用过程中可能遇到的问题。该项目不仅整理了详细的安装指南和参数说明，还提供了多种音色种子的示例，以及视频教程等辅助材料。

How Much VRAM

How Much VRAM 是一个开源项目，旨在帮助用户估算其模型在训练或推理过程中所需的显存量。通过这个项目，用户能够决定所需的硬件配置，而无需尝试多种配置。该项目对于需要进行深度学习模型训练的开发者和研究人员来说非常重要，因为它可以减少硬件选择的试错成本，提高效率。项目采用 MPL-2.0 许可协议，免费提供。

ComfyUI-N-Sidebar

ComfyUI-N-Sidebar是一个开源项目，它结合了ComfyUI和N-Sidebar两个库，旨在为用户提供一个舒适且易于使用的用户界面和导航栏。该项目通过简化界面元素和优化交互设计，提高了用户体验。

ComfyUI-PyramidFlowWrapper

ComfyUI-PyramidFlowWrapper是基于Pyramid-Flow模型的一套包装节点，旨在通过ComfyUI提供更高效的用户界面和更便捷的操作流程。该模型利用深度学习技术，专注于视觉内容的生成与处理，具有高效处理大量数据的能力。产品背景信息显示，它是由开发者kijai发起并维护的开源项目，目前尚未完全实现功能，但已具备一定的使用价值。由于是开源项目，其价格为免费，主要面向开发者和技术爱好者。

Multispecies Whale Detection

multispecies-whale-detection 是谷歌开发的一个开源项目，旨在通过神经网络检测和分类不同物种和地理区域的鲸鱼声音。这个工具可以帮助研究人员和环保组织更好地理解和保护海洋生物多样性。

ADeus

ADeus是一个开源的人工智能可穿戴设备项目，实时记录语音和环境数据，通过手机或电脑应用进行个性化助理服务，支持多种智能功能，用户拥有对数据的完全控制权。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...