FIFO-Diffusion

1年前发布 17 0 0

FIFO-Diffusion是一种基于预训练扩散模型的新颖推理技术，用于文本条件视频生成。它能够无需训练生成无限长的视频，通过迭代执行对角去噪，同时处理队列中一系列连续帧的逐渐增加的噪声水平；该方法在头部出队一个完全去噪的帧，同时在尾部入队一个新的随机噪声帧。此外，引入了潜在分割来减少训练推理差距，并通过前瞻去噪来利用前向引用的好处。

收录时间：

2025-05-29

打开网站手机查看

视频生成 # AI技术 # 无需训练 # 视频生成 # 高分辨率

FIFO-Diffusion

FIFO-Diffusion

FIFO-Diffusion是一种基于预训练扩散模型的新颖推理技术，用于文本条件视频生成。它能够无需训练生成无限长的视频，通过迭代执行对角去噪，同时处理队列中一系列连续帧的逐渐增加的噪声水平；该方法在头部出队一个完全去噪的帧，同时在尾部入队一个新的随机噪声帧。此外，引入了潜在分割来减少训练推理差距，并通过前瞻去噪来利用前向引用的好处。

数据统计

相关导航

Follow-Your-Pose

Follow-Your-Pose是一个文本到视频生成的模型，它利用姿势信息和文本描述来生成可编辑、可控制姿势的角色视频。这项技术在数字人物创作领域具有重要应用价值，解决了缺乏综合数据集和视频生成先验模型的限制。通过两阶段训练方案，结合预训练的文本到图像模型，实现了姿势可控的视频生成。

Dream Machine API

Dream Machine API是一个创意智能平台，它提供了一系列先进的视频生成模型，通过直观的API和开源SDKs，用户可以构建和扩展创意AI产品。该平台拥有文本到视频、图像到视频、关键帧控制、扩展、循环和相机控制等功能，旨在通过创意智能与人类合作，帮助他们创造更好的内容。Dream Machine API的推出，旨在推动视觉探索和创造的丰富性，让更多的想法得以尝试，构建更好的叙事，并让那些以前无法做到的人讲述多样化的故事。

CogVideoX-2B

CogVideoX-2B是一个开源的视频生成模型，由清华大学团队开发。它支持使用英语提示语言生成视频，具有36GB的推理GPU内存需求，并且可以生成6秒长、每秒8帧、分辨率为720*480的视频。该模型使用正弦位置嵌入，目前不支持量化推理和多卡推理。它基于Hugging Face的diffusers库进行部署，能够根据文本提示生成视频，具有高度的创造性和应用潜力。

CelebU Video Generator

CelebU AI是一款基于人工智能技术的个性化名人视频平台，让用户能够轻松制作出个性化的名人视频，用于各种场合的礼物。

Runway API

Runway API是一个强大的视频模型平台，提供先进的生成视频模型，允许用户在安全、可靠的环境中嵌入Gen-3 Alpha Turbo到他们的产品中。它支持广泛的应用场景，包括创意广告、音乐视频、电影制作等，是全球顶尖创意人士的首选。

YOYA优雅

YOYA优雅是由中科闻歌发布的一个多模态AI创作平台，专注于AI音视频内容创作。YOYA优雅AI平台依托雅意大模型、优雅多模态大模型，提供文生视频、智能剪辑、AI音乐创作、视频翻译等多种AI生成能力，可以帮助用户能够生成高质量的视频内容。YOYA优雅适用于媒体、企业、出版、文旅、影视等泛媒体客户，可以有效提升视频创作效率和质量。

千面数字人

千面数字人是一款AI数字人视频生成工具，千面数字人Avatar系列的两款产品均依托先进 AI 技术，为用户带来创意内容生成新体验。音频转换产品能将静态图片与音频融合，让图片中的人物随声音动起来唱歌、说话，实现从静到动的趣味转化；模仿动作产品则可将 5 秒内的真人动作视频与动漫人物图片结合，使动漫角色精准复刻真人动作，赋予虚拟形象真实动态。两者操作简便，能满足二次元创作、游戏互动、社交娱乐等多元场景需求，助力用户轻松释放创意。

TarotQA

塔罗问答是一个专业直觉塔罗牌占卜网站，使用AI技术解读占卜结果。其主要优点包括提供准确的预测、方便的在线服务和个性化的占卜历史记录。塔罗问答定位于提供精准的塔罗牌占卜服务，价格完全免费。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...