稳定扩散

11个月前发布 8 0 0

稳定扩散是一个深度学习,文本到图像的模型,于2022年发布。主要用于生成基于文本描述的详细图像,但也可以应用于其他任务,如修复、超出原始边界以及生成由文本提示引导的图像到图像翻译。

收录时间:
2025-05-30
稳定扩散稳定扩散

稳定扩散是一个深度学习,文本到图像的模型,于2022年发布。主要用于生成基于文本描述的详细图像,但也可以应用于其他任务,如修复、超出原始边界以及生成由文本提示引导的图像到图像翻译。

数据统计

相关导航

PSHuman

PSHuman

PSHuman是一个创新的框架,它利用多视图扩散模型和显式重构技术,从单张图片中重建出逼真的3D人体模型。这项技术的重要性在于它能够处理复杂的自遮挡问题,并且在生成的面部细节上避免了几何失真。PSHuman通过跨尺度扩散模型联合建模全局全身形状和局部面部特征,实现了细节丰富且保持身份特征的新视角生成。此外,PSHuman还通过SMPL-X等参数化模型提供的身体先验,增强了不同人体姿态下的跨视图身体形状一致性。PSHuman的主要优点包括几何细节丰富、纹理保真度高以及泛化能力强。
FLUX Pro Finetuning API

FLUX Pro Finetuning API

FLUX Pro Finetuning API 是由 Black Forest Labs 推出的生成式文本到图像模型的定制化工具。它允许用户通过少量示例图像(1-5张)对 FLUX Pro 模型进行微调,从而生成符合特定品牌、风格或视觉需求的高质量图像内容。该技术的主要优点在于其高度的定制化能力、对品牌一致性的保持以及与 FLUX 工具套件的无缝集成。它适用于专业创意人员、设计师和品牌方,帮助他们在营销、品牌建设和故事叙述中实现个性化内容创作。目前尚无明确价格信息,但其定位为高端创意工具,适合对生成内容质量有较高要求的用户。
F Lite

F Lite

F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型,具有 100 亿个参数,专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集,包含约 8000 万张合法合规的图像,标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息,并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。
1.58-bit FLUX

1.58-bit FLUX

1.58-bit FLUX是一种先进的文本到图像生成模型,通过使用1.58位权重(即{-1, 0, +1}中的值)来量化FLUX.1-dev模型,同时保持生成1024x1024图像的可比性能。该方法无需访问图像数据,完全依赖于FLUX.1-dev模型的自监督。此外,开发了一种定制的内核,优化了1.58位操作,实现了模型存储减少7.7倍,推理内存减少5.1倍,并改善了推理延迟。在GenEval和T2I Compbench基准测试中的广泛评估表明,1.58-bit FLUX在保持生成质量的同时显著提高了计算效率。
Diffusion Self-Distillatio

Diffusion Self-Distillatio

Diffusion Self-Distillation是一种基于扩散模型的自蒸馏技术,用于零样本定制图像生成。该技术允许艺术家和用户在没有大量配对数据的情况下,通过预训练的文本到图像的模型生成自己的数据集,进而微调模型以实现文本和图像条件的图像到图像任务。这种方法在保持身份生成任务的性能上超越了现有的零样本方法,并能与每个实例的调优技术相媲美,无需测试时优化。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...