TANGO Model

10个月前发布 9 0 0

TANGO是一个基于层次化音频-运动嵌入和扩散插值的共语手势视频重现技术。它利用先进的人工智能算法，将语音信号转换成相应的手势动作，实现视频中人物手势的自然重现。这项技术在视频制作、虚拟现实、增强现实等领域具有广泛的应用前景，能够提升视频内容的互动性和真实感。TANGO由东京大学和CyberAgent AI Lab联合开发，代表了当前人工...

收录时间：

2025-06-02

打开网站手机查看

视频创作 # 人工智能 # 动作生成 # 增强现实 # 手势识别 # 虚拟现实 # 视频制作

TANGO Model

TANGO Model

TANGO是一个基于层次化音频-运动嵌入和扩散插值的共语手势视频重现技术。它利用先进的人工智能算法，将语音信号转换成相应的手势动作，实现视频中人物手势的自然重现。这项技术在视频制作、虚拟现实、增强现实等领域具有广泛的应用前景，能够提升视频内容的互动性和真实感。TANGO由东京大学和CyberAgent AI Lab联合开发，代表了当前人工智能在手势识别和动作生成领域的前沿水平。

数据统计

相关导航

CAT4D

CAT4D是一个利用多视图视频扩散模型从单目视频中生成4D场景的技术。它能够将输入的单目视频转换成多视角视频，并重建动态的3D场景。这项技术的重要性在于它能够从单一视角的视频资料中提取并重建出三维空间和时间的完整信息，为虚拟现实、增强现实以及三维建模等领域提供了强大的技术支持。产品背景信息显示，CAT4D由Google DeepMind、Columbia University和UC San Diego的研究人员共同开发，是一个前沿的科研成果转化为实际应用的案例。

Apollo-LMMs

Apollo是一个专注于视频理解的先进大型多模态模型家族。它通过系统性地探索视频-LMMs的设计空间，揭示了驱动性能的关键因素，提供了优化模型性能的实用见解。Apollo通过发现'Scaling Consistency'，使得在较小模型和数据集上的设计决策能够可靠地转移到更大的模型上，大幅降低计算成本。Apollo的主要优点包括高效的设计决策、优化的训练计划和数据混合，以及一个新型的基准测试ApolloBench，用于高效评估。

makefilm.jp

Makefilm是全新的AI视频制作平台，能够通过文本输入快速生成各类动画视频，提高视频制作效率。

Runway Aleph AI

Aleph AI是建立在Runway Aleph上的AI视频编辑平台，通过直观的自然语言命令，实现对象编辑、场景角度变化和风格及灯光调整，为用户提供前所未有的创意控制力。价格方面，允许商业使用并提供即时处理，消除了创意愿景与最终输出之间的障碍。

1703.co

1703 Media是一家AI视频生成平台，通过AI技术转化旧视频并填充库存，为用户提供未来AI内容创作的无缝体验。该产品定位于帮助内容创作者以更高效、更专业的方式生成视频内容，降低制作成本。

Adobe Firefly生成视频

Adobe Firefly 是一款基于人工智能技术的视频生成工具。它能够根据用户提供的简单提示或图像快速生成高质量的视频片段。该技术利用先进的 AI 算法，通过对大量视频数据的学习和分析，实现自动化的视频创作。其主要优点包括操作简单、生成速度快、视频质量高。Adobe Firefly 面向创意工作者、视频制作者以及需要快速生成视频内容的用户，提供高效、便捷的视频创作解决方案。目前该产品处于 Beta 测试阶段，用户可以免费使用，未来可能会根据市场需求和产品发展进行定价和定位。

OmniHuman-1

OmniHuman-1 是一个端到端的多模态条件人类视频生成框架，能够基于单张人像和运动信号（如音频、视频或其组合）生成人类视频。该技术通过混合训练策略克服了高质量数据稀缺的问题，支持任意宽高比的图像输入，生成逼真的人类视频。它在弱信号输入（尤其是音频）方面表现出色，适用于多种场景，如虚拟主播、视频制作等。

genmoai

genmoai/models 是一个开源的视频生成模型，代表了视频生成技术的最新进展。该模型名为 Mochi 1，是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型，从零开始训练，是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性，显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布，用户可以在 Genmo 的 playground 上免费试用此模型。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...