CogVideoX1.5-5B-SAT

1年前发布 18 0 0

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型，是CogVideoX模型的升级版。该模型支持生成10秒视频，并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块，能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视...

收录时间：

2025-05-30

打开网站手机查看

文案写作 # 开源模型 # 文本到视频 # 清华大学 # 视频生成 # 高分辨率

CogVideoX1.5-5B-SAT

CogVideoX1.5-5B-SAT

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型，是CogVideoX模型的升级版。该模型支持生成10秒视频，并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块，能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视频生成能力和高分辨率支持，为视频内容创作者提供了一个强大的工具，尤其在教育、娱乐和商业领域有着广泛的应用前景。

数据统计

相关导航

OLMo-2-1124-13B-Instruct

OLMo-2-1124-13B-Instruct是由Allen AI研究所开发的一款大型语言模型，专注于文本生成和对话任务。该模型在多个任务上表现出色，包括数学问题解答、科学问题解答等。它是基于13B参数的版本，经过在特定数据集上的监督微调和强化学习训练，以提高其性能和安全性。作为一个开源模型，它允许研究人员和开发者探索和改进语言模型的科学。

VideoVAEPlus

这是一个视频变分自编码器（VAE），旨在减少视频冗余并促进高效视频生成。该模型通过观察发现，将图像VAE直接扩展到3D VAE会引入运动模糊和细节失真，因此提出了时间感知的空间压缩以更好地编码和解码空间信息。此外，该模型还集成了一个轻量级的运动压缩模型以实现进一步的时间压缩。通过利用文本到视频数据集中固有的文本信息，并在模型中加入文本指导，显著提高了重建质量，特别是在细节保留和时间稳定性方面。该模型还通过在图像和视频上进行联合训练来提高其通用性，不仅提高了重建质量，还使模型能够执行图像和视频的自编码。广泛的评估表明，该方法的性能优于最近的强基线。

ClipVideo AI

ClipVideo AI是一个专业的AI视频生成平台，它利用人工智能技术将照片或简单的文本提示转换成引人入胜的视频。该平台以其快速的视频生成工具、企业级的安全性和支持、以及被众多团队信赖而著称。ClipVideo AI提供了从基础到专业的不同定价计划，满足不同用户的需求。

API.box

API.box是一个提供先进AI接口的平台，旨在帮助开发者快速集成AI功能到他们的项目中。它提供全面的API文档和详细的调用日志，确保高效开发和系统性能稳定。API.box具备企业级安全性和强大可扩展性，支持高并发需求，同时提供免费试用和商业用途的输出许可，是开发者和企业的理想选择。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8是Qwen系列中针对代码生成优化的大型语言模型，拥有32亿参数，支持长文本处理，是当前开源代码生成领域最先进的模型之一。该模型基于Qwen2.5进行了进一步的训练和优化，不仅在代码生成、推理和修复方面有显著提升，而且在数学和通用能力上也保持了优势。模型采用GPTQ 8-bit量化技术，以减少模型大小并提高运行效率。

Sana_1600M_1024px_MultiLing

Sana是一个由NVIDIA开发的文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。该模型以惊人的速度合成高分辨率、高质量的图像，并保持强大的文本-图像对齐能力，可部署在笔记本电脑GPU上。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，支持Emoji、中文和英文以及混合提示。

STAR

STAR是一种创新的视频超分辨率技术，通过将文本到视频扩散模型与视频超分辨率相结合，解决了传统GAN方法中存在的过度平滑问题。该技术不仅能够恢复视频的细节，还能保持视频的时空一致性，适用于各种真实世界的视频场景。STAR由南京大学、字节跳动等机构联合开发，具有较高的学术价值和应用前景。

Llama-3-Patronus-Lynx-8B-Instruct

Llama-3-Patronus-Lynx-8B-Instruct是由Patronus AI开发的一个基于meta-llama/Meta-Llama-3-8B-Instruct模型的微调版本，主要用于检测在RAG设置中的幻觉。该模型训练于包含CovidQA、PubmedQA、DROP、RAGTruth等多个数据集，包含人工标注和合成数据。它能够评估给定文档、问题和答案是否忠实于文档内容，不提供文档之外的新信息，也不与文档信息相矛盾。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...