Stable Diffusion 3.5 Medium Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型,由Stability AI开发,具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器,通过QK-规范化提高训练稳定性,并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。
flux-condensation fofr/flux-condensation是一个基于文本生成图像的AI模型,使用Diffusers库和LoRAs技术,能够根据用户提供的文本提示生成相应的图像。该模型在Replicate上训练,具有非商业性质的flux-1-dev许可证。它代表了文本到图像生成技术的最新进展,能够为设计师、艺术家和内容创作者提供强大的视觉表现工具。
shou_xin shou_xin是一个基于文本到图像的生成模型,它能够根据用户提供的文本提示生成具有手訫风格的铅笔素描图像。这个模型使用了diffusers库和lora技术,以实现高质量的图像生成。shou_xin模型以其独特的艺术风格和高效的图像生成能力在图像生成领域占有一席之地,特别适合需要快速生成具有特定艺术风格的图像的用户。
Sana_1600M_1024px Sana是一个由NVIDIA开发的文本到图像生成框架,能够高效生成高达4096×4096分辨率的高清晰度、高文本-图像一致性的图像,并且速度极快,可以在笔记本电脑GPU上部署。Sana模型基于线性扩散变换器,使用预训练的文本编码器和空间压缩的潜在特征编码器。该技术的重要性在于其能够快速生成高质量的图像,对于艺术创作、设计和其他创意领域具有革命性的影响。Sana模型遵循CC BY-NC-SA 4.0许可协议,源代码可在GitHub上找到。
Sana_600M_1024px Sana是一个由NVIDIA开发的文本到图像生成框架,能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力,使得在笔记本电脑GPU上也能部署。它是一个基于线性扩散变换器(text-to-image generative model)的模型,拥有1648M参数,专门用于生成1024px基础的多尺度高宽图像。Sana模型的主要优点包括高分辨率图像生成、快速的合成速度以及强大的文本图像对齐能力。Sana模型的背景信息显示,它是基于开源代码开发的,可以在GitHub上找到源代码,同时它也遵循特定的许可证(CC BY-NC-SA 4.0 License)。
Sana_1600M_512px Sana是一个由NVIDIA开发的文本到图像的生成框架,能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度、强大的文本图像对齐能力以及可在笔记本电脑GPU上部署的特性而著称。该模型基于线性扩散变换器,使用预训练的文本编码器和空间压缩的潜在特征编码器,代表了文本到图像生成技术的最新进展。Sana的主要优点包括高分辨率图像生成、快速合成、笔记本电脑GPU上的可部署性,以及开源的代码,使其在研究和实际应用中具有重要价值。
Regional-Prompting-FLUX Regional-Prompting-FLUX是一种训练无关的区域提示扩散变换器模型,它能够在无需训练的情况下,为扩散变换器(如FLUX)提供细粒度的组合文本到图像生成能力。该模型不仅效果显著,而且与LoRA和ControlNet高度兼容,能够在保持高速度的同时减少GPU内存的使用。
NeuralSVG NeuralSVG是一种用于从文本提示生成矢量图形的隐式神经表示方法。它受到神经辐射场(NeRFs)的启发,将整个场景编码到一个小的多层感知器(MLP)网络的权重中,并使用分数蒸馏采样(SDS)进行优化。该方法通过引入基于dropout的正则化技术,鼓励生成的SVG具有分层结构,使每个形状在整体场景中具有独立的意义。此外,其神经表示还提供了推理时控制的优势,允许用户根据提供的输入动态调整生成的SVG,如颜色、宽高比等,且只需一个学习到的表示。通过广泛的定性和定量评估,NeuralSVG在生成结构化和灵活的SVG方面优于现有方法。该模型由特拉维夫大学和MIT CSAIL的研究人员共同开发,目前代码尚未公开。