Janus-Pro-1B

1年前发布 15 0 0

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-bas...

收录时间：

2025-05-29

打开网站手机查看

图像生成 # Transformer # 图像生成 # 多模态 # 开源 # 深度学习 # 自然语言处理

Janus-Pro-1B

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384×384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

数据统计

相关导航

F Lite

F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型，具有 100 亿个参数，专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集，包含约 8000 万张合法合规的图像，标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息，并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。

Dreamer

将稳定扩散集成到Notion中，使用新的削减命令AI生成图像。

MangaNinja

MangaNinja 是一种参考引导的线稿上色方法，它通过独特的设计确保精确的人物细节转录，包括用于促进参考彩色图像和目标线稿之间对应学习的块洗牌模块，以及用于实现细粒度颜色匹配的点驱动控制方案。该模型在自收集的基准测试中表现出色，超越了当前解决方案的精确上色能力。此外，其交互式点控制在处理复杂情况（如极端姿势和阴影）、跨角色上色、多参考协调等方面展现出巨大潜力，这些是现有算法难以实现的。MangaNinja 由来自香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员共同开发，相关论文已发表在 arXiv 上，代码也已开源。

IMM

Inductive Moment Matching (IMM) 是一种先进的生成模型技术，主要用于高质量图像生成。该技术通过创新的归纳矩匹配方法，显著提高了生成图像的质量和多样性。其主要优点包括高效性、灵活性以及对复杂数据分布的强大建模能力。IMM 由 Luma AI 和斯坦福大学的研究团队开发，旨在推动生成模型领域的发展，为图像生成、数据增强和创意设计等应用提供强大的技术支持。该项目开源了代码和预训练模型，方便研究人员和开发者快速上手和应用。

Thera

Thera 是一种先进的超分辨率技术，能够在不同尺度下生成高质量图像。其主要优点在于内置物理观察模型，有效避免了混叠现象。该技术由 ETH Zurich 的研究团队开发，适用于图像增强和计算机视觉领域，尤其在遥感和摄影测量中具有广泛应用。

face_anon_simple

face_anon_simple是一个人脸匿名化技术，旨在通过先进的算法在保护个人隐私的同时保留原始照片中的面部表情、头部姿势、眼神方向和背景元素。这项技术对于需要发布包含人脸的图片但又希望保护个人隐私的场合非常有用，比如在新闻报道、社交媒体和安全监控等领域。产品基于开源代码，允许用户自行部署和使用，具有很高的灵活性和应用价值。

InternVL2_5-4B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化构建。该模型集成了新增量预训练的InternViT和各种预训练的大型语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。它支持多图像和视频数据，并且在多模态任务中表现出色，能够理解和生成与图像相关的文本内容。

UnificAlly

UnificAlly是一家AI API服务平台，提供创新的AI模型和API服务，价格优惠。用户可以访问平台并选择各种先进的AI模型，如GPT 4.1、Suno、Higgsfield等，用于视频生成、图像创作、音乐作曲等。UnificAlly致力于提供高性价比的AI服务，并以快速可靠的API响应、简单易集成的REST API和详尽的文档和示例著称。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...