genmoai

1年前发布 17 0 0

genmoai/models 是一个开源的视频生成模型,代表了视频生成技术的最新进展。该模型名为 Mochi 1,是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型,从零开始训练,是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性,显著缩小了封闭...

收录时间:
2025-05-29

genmoai/models 是一个开源视频生成模型,代表了视频生成技术的最新进展。该模型名为 Mochi 1,是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型,从零开始训练,是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性,显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布,用户可以在 Genmo 的 playground 上免费试用此模型。

数据统计

相关导航

ReCapture

ReCapture

ReCapture是一种从单一用户提供的视频生成新视频和新颖摄像机轨迹的方法。该技术允许我们从完全不同的角度重新生成源视频,并带有电影级别的摄像机运动。ReCapture通过使用多视图扩散模型或基于深度的点云渲染生成带有新摄像机轨迹的嘈杂锚视频,然后通过我们提出的掩蔽视频微调技术将锚视频重新生成为干净且时间上一致的重新角度视频。这种技术的重要性在于它能够利用视频模型的强大先验,将近似的视频重新生成为时间上一致且美观的视频。
LTXV

LTXV

LTXV是Lightricks推出的一个实时AI视频生成开源模型,它代表了视频生成技术的最新发展。LTXV能够提供可扩展的长视频制作能力,优化了GPU和TPU系统,大幅减少了视频生成时间,同时保持了高视觉质量。LTXV的独特之处在于其帧到帧学习技术,确保了帧之间的连贯性,消除了闪烁和场景内的不一致问题。这一技术对于视频制作行业来说是一个巨大的进步,因为它不仅提高了效率,还提升了视频内容的质量。
ASMR.so

ASMR.so

ASMR.so是基于先进的 VEO3 AI 技术的平台,用户可以快速生成专业的 ASMR 视频。该产品支持多种 ASMR 类型,包括耳语、敲击、自然声音等,旨在为用户提供放松和享受的体验。其主要优势在于视频生成速度快(通常在 2 分钟内完成),高清质量以及用户友好的操作流程。适合视频创作者、ASMR 爱好者以及需要放松内容的用户。该平台还提供灵活的信用系统,用户可根据需求选择套餐。产品价格方面,有免费试用和付费套餐可供选择。
MM_StoryAgent

MM_StoryAgent

MM_StoryAgent 是一个基于多智能体范式的故事视频生成框架,它结合了文本、图像和音频等多种模态,通过多阶段流程生成高质量的故事视频。该框架的核心优势在于其可定制性,用户可以自定义专家工具以提升每个组件的生成质量。此外,它还提供了故事主题列表和评估标准,便于进一步的故事创作和评估。MM_StoryAgent 主要面向需要高效生成故事视频的创作者和企业,其开源特性使得用户可以根据自身需求进行扩展和优化。
Apollo-LMMs

Apollo-LMMs

Apollo是一个专注于视频理解的先进大型多模态模型家族。它通过系统性地探索视频-LMMs的设计空间,揭示了驱动性能的关键因素,提供了优化模型性能的实用见解。Apollo通过发现'Scaling Consistency',使得在较小模型和数据集上的设计决策能够可靠地转移到更大的模型上,大幅降低计算成本。Apollo的主要优点包括高效的设计决策、优化的训练计划和数据混合,以及一个新型的基准测试ApolloBench,用于高效评估。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...