1.58-bit FLUX

1年前发布 18 0 0

1.58-bit FLUX是一种先进的文本到图像生成模型，通过使用1.58位权重（即{-1, 0, +1}中的值）来量化FLUX.1-dev模型，同时保持生成1024x1024图像的可比性能。该方法无需访问图像数据，完全依赖于FLUX.1-dev模型的自监督。此外，开发了一种定制的内核，优化了1.58位操作，实现了模型存储减少7.7倍，推...

收录时间：

2025-05-30

打开网站手机查看

图像生成 # 图像生成 # 模型优化 # 自监督学习 # 计算效率 # 量化

1.58-bit FLUX

1.58-bit FLUX

1.58-bit FLUX是一种先进的文本到图像生成模型，通过使用1.58位权重（即{-1, 0, +1}中的值）来量化FLUX.1-dev模型，同时保持生成1024×1024图像的可比性能。该方法无需访问图像数据，完全依赖于FLUX.1-dev模型的自监督。此外，开发了一种定制的内核，优化了1.58位操作，实现了模型存储减少7.7倍，推理内存减少5.1倍，并改善了推理延迟。在GenEval和T2I Compbench基准测试中的广泛评估表明，1.58-bit FLUX在保持生成质量的同时显著提高了计算效率。

数据统计

相关导航

EasyControl

EasyControl 是一个为 Diffusion Transformer（扩散变换器）提供高效灵活控制的框架，旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。其主要优点包括：支持多种条件组合、提高生成灵活性和推理效率。该产品是基于最新研究成果开发的，适合在图像生成、风格转换等领域使用。

CAP4D

CAP4D是一种利用可变形多视图扩散模型（Morphable Multi-View Diffusion Models）来创建4D人像化身的技术。它能够从任意数量的参考图像生成不同视角和表情的图像，并将其适配到一个4D化身上，该化身可以通过3DMM控制并实时渲染。这项技术的主要优点包括高度逼真的图像生成、多视角的适应性以及实时渲染的能力。CAP4D的技术背景是基于深度学习和图像生成领域的最新进展，尤其是在扩散模型和3D面部建模方面。由于其高质量的图像生成和实时渲染能力，CAP4D在娱乐、游戏开发、虚拟现实等领域具有广泛的应用前景。目前，该技术是免费提供代码的，但具体的商业化应用可能需要进一步的授权和定价。

TokenVerse

TokenVerse 是一种创新的多概念个性化方法，它利用预训练的文本到图像扩散模型，能够从单张图像中解耦复杂的视觉元素和属性，并实现无缝的概念组合生成。这种方法突破了现有技术在概念类型或广度上的限制，支持多种概念，包括物体、配饰、材质、姿势和光照等。TokenVerse 的重要性在于其能够为图像生成领域带来更灵活、更个性化的解决方案，满足用户在不同场景下的多样化需求。目前，TokenVerse 的代码尚未公开，但其在个性化图像生成方面的潜力已经引起了广泛关注。

Diffusion Land

Diffusion Land允许您使用各种AI模型生成图像。他们还提供了几个预先构建的概念，可用于生成某些类型的图像。

NanoBananaAPI.ai

Nano Banana API 提供 AI 图像生成与编辑接口，支持自然语言编辑、角色一致性保障、多图合成等功能。其主要优点在于高效稳定的性能、逼真写实效果和多图合成创意构图。

Grok for iOS

Grok是由xAI开发的AI助手，旨在提供真实、有用且富有好奇心的交互体验。它能够回答各种问题、生成引人注目的图像，并通过上传图片帮助用户更深入地了解世界。Grok强调隐私保护，所有数据交互都以用户隐私为重，确保安全体验。它集成了X平台的数据，专注于实时信息，是寻求AI助手用户的理想选择。该应用免费提供给用户，适合需要高效获取信息和创意灵感的人群。

Grok App

Grok是一个由X.AI Corp开发的AI助手应用，旨在提供最真实、有用和好奇的答案。用户可以通过Grok获取任何问题的答案、生成引人注目的图像，并上传图片以更深入地了解世界。Grok以其高质量的图像生成、实时更新的数据、对话式的幽默语气和注重隐私的特性，为用户提供了一个安全、高效的AI体验平台。

PSHuman

PSHuman是一个创新的框架，它利用多视图扩散模型和显式重构技术，从单张图片中重建出逼真的3D人体模型。这项技术的重要性在于它能够处理复杂的自遮挡问题，并且在生成的面部细节上避免了几何失真。PSHuman通过跨尺度扩散模型联合建模全局全身形状和局部面部特征，实现了细节丰富且保持身份特征的新视角生成。此外，PSHuman还通过SMPL-X等参数化模型提供的身体先验，增强了不同人体姿态下的跨视图身体形状一致性。PSHuman的主要优点包括几何细节丰富、纹理保真度高以及泛化能力强。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...