OminiControl OminiControl是一个为Diffusion Transformer模型如FLUX设计的最小但功能强大的通用控制框架。它支持主题驱动控制和空间控制(如边缘引导和图像修复生成)。OminiControl的设计非常精简,仅引入了基础模型0.1%的额外参数,同时保持了原始模型结构。这个项目由新加坡国立大学的学习与视觉实验室开发,代表了人工智能领域中图像生成和控制技术的最新进展。
腾讯混元图像 2.0 腾讯混元图像 2.0 是腾讯最新发布的 AI 图像生成模型,显著提升了生成速度和画质。通过超高压缩倍率的编解码器和全新扩散架构,使得图像生成速度可达到毫秒级,避免了传统生成的等待时间。同时,模型通过强化学习算法与人类美学知识的结合,提升了图像的真实感和细节表现,适合设计师、创作者等专业用户使用。
WHAM WHAM(World and Human Action Model)是由微软研究院开发的一种生成式模型,专门用于生成游戏场景和玩家行为。该模型基于Ninja Theory的《Bleeding Edge》游戏数据训练,能够生成连贯、多样化的游戏视觉和控制器动作。WHAM 的主要优点在于其能够捕捉游戏环境的3D结构和玩家行为的时间序列,为游戏设计和创意探索提供了强大的工具。该模型主要面向学术研究和游戏开发领域,帮助开发者快速迭代游戏设计。
Leffa Leffa是一个用于可控人物图像生成的统一框架,它能够精确控制人物的外观(例如虚拟试穿)和姿态(例如姿态转移)。该模型通过在训练期间引导目标查询关注参考图像中的相应区域,减少细节扭曲,同时保持高图像质量。Leffa的主要优点包括模型无关性,可以用于提升其他扩散模型的性能。
Openjourney Openjourney 是一个高保真的开源项目,旨在模拟 MidJourney 的界面,利用 Google 的 Gemini SDK 进行 AI 图像和视频生成。该项目支持使用 Imagen 4 生成高质量图像,以及使用 Veo 2 和 Veo 3 进行文本到视频和图像到视频的转换。它适合需要进行图像生成和视频制作的开发者和创作者,提供了用户友好的界面和实时生成体验,能够助力创意工作与项目开发。
WonderShare ToMoviee AI ToMoviee AI是一款利用人工智能技术快速生成视频、图像、音乐和声音的创意工作室。其主要优点包括高度可控制性、快速生成、真实感强,广泛适用于不同领域的创作者和团队。
HunyuanVideo-I2V HunyuanVideo-I2V 是腾讯开源的图像到视频生成模型,基于 HunyuanVideo 架构开发。该模型通过图像潜在拼接技术,将参考图像信息有效整合到视频生成过程中,支持高分辨率视频生成,并提供可定制的 LoRA 效果训练功能。该技术在视频创作领域具有重要意义,能够帮助创作者快速生成高质量的视频内容,提升创作效率。
NanoBananaAPI.ai Nano Banana API 提供 AI 图像生成与编辑接口,支持自然语言编辑、角色一致性保障、多图合成等功能。其主要优点在于高效稳定的性能、逼真写实效果和多图合成创意构图。