PSHuman PSHuman是一个创新的框架,它利用多视图扩散模型和显式重构技术,从单张图片中重建出逼真的3D人体模型。这项技术的重要性在于它能够处理复杂的自遮挡问题,并且在生成的面部细节上避免了几何失真。PSHuman通过跨尺度扩散模型联合建模全局全身形状和局部面部特征,实现了细节丰富且保持身份特征的新视角生成。此外,PSHuman还通过SMPL-X等参数化模型提供的身体先验,增强了不同人体姿态下的跨视图身体形状一致性。PSHuman的主要优点包括几何细节丰富、纹理保真度高以及泛化能力强。
FLUX Pro Finetuning API FLUX Pro Finetuning API 是由 Black Forest Labs 推出的生成式文本到图像模型的定制化工具。它允许用户通过少量示例图像(1-5张)对 FLUX Pro 模型进行微调,从而生成符合特定品牌、风格或视觉需求的高质量图像内容。该技术的主要优点在于其高度的定制化能力、对品牌一致性的保持以及与 FLUX 工具套件的无缝集成。它适用于专业创意人员、设计师和品牌方,帮助他们在营销、品牌建设和故事叙述中实现个性化内容创作。目前尚无明确价格信息,但其定位为高端创意工具,适合对生成内容质量有较高要求的用户。
Frames Frames是Runway Research推出的最新图像生成基础模型,它在风格控制和视觉保真度方面迈出了一大步。该模型擅长保持风格一致性,同时允许广泛的创意探索,能够为项目建立特定的外观,并可靠地生成忠实于您美学的变化。Frames的推出标志着在创意工作流程中,用户可以构建更多属于自己的世界,实现更大、更无缝的创意流程。
F Lite F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型,具有 100 亿个参数,专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集,包含约 8000 万张合法合规的图像,标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息,并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。
1.58-bit FLUX 1.58-bit FLUX是一种先进的文本到图像生成模型,通过使用1.58位权重(即{-1, 0, +1}中的值)来量化FLUX.1-dev模型,同时保持生成1024x1024图像的可比性能。该方法无需访问图像数据,完全依赖于FLUX.1-dev模型的自监督。此外,开发了一种定制的内核,优化了1.58位操作,实现了模型存储减少7.7倍,推理内存减少5.1倍,并改善了推理延迟。在GenEval和T2I Compbench基准测试中的广泛评估表明,1.58-bit FLUX在保持生成质量的同时显著提高了计算效率。
Diffusion Self-Distillatio Diffusion Self-Distillation是一种基于扩散模型的自蒸馏技术,用于零样本定制图像生成。该技术允许艺术家和用户在没有大量配对数据的情况下,通过预训练的文本到图像的模型生成自己的数据集,进而微调模型以实现文本和图像条件的图像到图像任务。这种方法在保持身份生成任务的性能上超越了现有的零样本方法,并能与每个实例的调优技术相媲美,无需测试时优化。