Stable Diffusion 3.5 Medium

1年前发布 20 0 0

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型，由Stability AI开发，具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器，通过QK-规范化提高训练稳定性，并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现...

收录时间：

2025-05-30

打开网站手机查看

文案写作 # AI艺术 # 图像生成 # 多模态 # 文本到图像 # 生成模型

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型，由Stability AI开发，具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器，通过QK-规范化提高训练稳定性，并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。

数据统计

相关导航

Sana_1600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度、强大的文本图像对齐能力以及可在笔记本电脑GPU上部署的特性而著称。该模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，代表了文本到图像生成技术的最新进展。Sana的主要优点包括高分辨率图像生成、快速合成、笔记本电脑GPU上的可部署性，以及开源的代码，使其在研究和实际应用中具有重要价值。

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入，并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景，如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可，由Fixie.ai开发。

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

LuminaBrush

LuminaBrush是一个交互式工具，旨在绘制图像上的照明效果。该工具采用两阶段方法：一阶段将图像转换为“均匀照明”的外观，另一阶段根据用户涂鸦生成照明效果。这种分解方法简化了学习过程，避免了单一阶段可能需要考虑的外部约束（如光传输一致性等）。LuminaBrush利用从高质量野外图像中提取的“均匀照明”外观来构建训练最终交互式照明绘图模型的配对数据。此外，该工具还可以独立使用“均匀照明阶段”来“去照明”图像。

Sana_1600M_1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的高清晰度、高文本-图像一致性的图像，并且速度极快，可以在笔记本电脑GPU上部署。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器。该技术的重要性在于其能够快速生成高质量的图像，对于艺术创作、设计和其他创意领域具有革命性的影响。Sana模型遵循CC BY-NC-SA 4.0许可协议，源代码可在GitHub上找到。

SeeDream 4

Seedream4是一款拥有革命性多模态AI技术的图像生成器，结合文本到图像生成、精确图像编辑和批量创作于一体。其主要优点包括1.8秒快速生成速度、自然语言控制、完整的创意控制和企业集成可用性。价格信息请访问官方网站。

Sana_600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，可以在笔记本电脑GPU上部署，代表了图像生成技术的一个重要进步。该模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，能够根据文本提示生成和修改图像。Sana的开源代码可在GitHub上找到，其研究和应用前景广阔，尤其在艺术创作、教育工具和模型研究等方面。

Fashion-Hut-Modeling-LoRA

Fashion-Hut-Modeling-LoRA是一个基于Diffusion技术的文本到图像生成模型，主要用于生成时尚模特的高质量图像。该模型通过特定的训练参数和数据集，能够根据文本提示生成具有特定风格和细节的时尚摄影图像。它在时尚设计、广告制作等领域具有重要应用价值，能够帮助设计师和广告商快速生成创意概念图。模型目前仍在训练阶段，可能存在一些生成效果不佳的情况，但已经展示了强大的潜力。该模型的训练数据集包含14张高分辨率图像，使用了AdamW优化器和constant学习率调度器等参数，训练过程注重图像的细节和质量。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...