Pusa

11个月前发布 12 0 0

Pusa 通过帧级噪声控制引入视频扩散建模的创新方法,能够实现高质量的视频生成,适用于多种视频生成任务(文本到视频、图像到视频等)。该模型以其卓越的运动保真度和高效的训练过程,提供了一个开源的解决方案,方便用户进行视频生成任务。

收录时间:
2025-05-29

Pusa 通过帧级噪声控制引入视频扩散建模的创新方法,能够实现高质量的视频生成,适用于多种视频生成任务(文本到视频、图像到视频等)。该模型以其卓越的运动保真度和高效的训练过程,提供了一个开源的解决方案,方便用户进行视频生成任务。

数据统计

相关导航

VisionAgent

VisionAgent

VisionAgent是一个强大的工具,它利用人工智能和大语言模型(LLM)来生成代码,帮助用户快速解决视觉任务。该工具的主要优点是能够自动将复杂的视觉任务转化为可执行的代码,极大地提高了开发效率。VisionAgent支持多种LLM提供商,用户可以根据自己的需求选择不同的模型。它适用于需要快速开发视觉应用的开发者和企业,能够帮助他们在短时间内实现功能强大的视觉解决方案。VisionAgent目前是免费的,旨在为用户提供高效、便捷的视觉任务处理能力。
F Lite

F Lite

F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型,具有 100 亿个参数,专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集,包含约 8000 万张合法合规的图像,标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息,并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。
TryOffDiff

TryOffDiff

TryOffDiff是一种基于扩散模型的高保真服装重建技术,用于从穿着个体的单张照片中生成标准化的服装图像。这项技术与传统的虚拟试穿不同,它旨在提取规范的服装图像,这在捕捉服装形状、纹理和复杂图案方面提出了独特的挑战。TryOffDiff通过使用Stable Diffusion和基于SigLIP的视觉条件来确保高保真度和细节保留。该技术在VITON-HD数据集上的实验表明,其方法优于基于姿态转移和虚拟试穿的基线方法,并且需要较少的预处理和后处理步骤。TryOffDiff不仅能够提升电子商务产品图像的质量,还能推进生成模型的评估,并激发未来在高保真重建方面的工作。
EdgeOne Pages Functions AI OCR

EdgeOne Pages Functions AI OCR

EdgeOne Pages Functions:AI OCR是一款基于人工智能技术的图像文字识别服务,它能够将图片中的文字内容转换为可编辑的文本格式。这项技术的重要性在于它极大地提高了文字录入的效率,减少了人工输入的错误率,并且能够处理多种语言的文字识别。产品背景信息显示,EdgeOne提供了一个免费的部署平台,拥有即时全球CDN覆盖,这使得AI OCR服务可以快速、稳定地服务于全球用户。价格方面,用户可以免费部署体验,具体定价策略未在页面中明确说明。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...