ultravox-v0_4_1-llama-3_1-70b

1年前发布 18 0 0

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊伪标记将输入音频转换为嵌入,并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展...

收录时间:
2025-05-29
ultravox-v0_4_1-llama-3_1-70bultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊伪标记将输入音频转换为嵌入,并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别文本生成的应用场景,如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可,由Fixie.ai开发。

数据统计

相关导航

InternVL2-8B-MPO

InternVL2-8B-MPO

InternVL2-8B-MPO是一个多模态大语言模型(MLLM),通过引入混合偏好优化(MPO)过程,增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线,并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面,InternVL2-8B-MPO基于InternVL2-8B初始化,并使用MMPR数据集进行微调,展现出更强的多模态推理能力,且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率,超越InternVL2-8B 8.7个点,且表现接近于大10倍的InternVL2-76B。
SmolLM2-1.7B

SmolLM2-1.7B

SmolLM2是一系列轻量级的语言模型,包含135M、360M和1.7B参数的版本。这些模型能够在保持轻量级的同时解决广泛的任务,特别适合在设备上运行。1.7B版本的模型在指令遵循、知识、推理和数学方面相较于前代SmolLM1-1.7B有显著进步。它使用包括FineWeb-Edu、DCLM、The Stack等多个数据集进行了训练,并且通过使用UltraFeedback进行了直接偏好优化(DPO)。该模型还支持文本重写、总结和功能调用等任务。
Shortcut by Poised

Shortcut by Poised

Shortcut by Poised是一个基于语音的AI助手,旨在通过自然对话的方式提升用户的工作效率。它允许用户通过语音输入快速获得答案、整理思路、起草消息、电子邮件和文档,同时保持工作流程的连贯性。产品通过AI技术将自然语言转换为精炼的文本,并提供多种语言风格选项,满足不同场合的需求。Shortcut by Poised的背景信息显示,它在Product Hunt上发布,并即将推出Windows和移动应用版本,目前Mac版本已可下载。
Aria-Base-64K

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一,专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成,经过33B个token(21B多模态,12B语言,69%为长文本)的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调,即使在资源有限的情况下,也可以通过短指令调优数据集进行后训练,并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像,并在语言和多模态场景中保持强大的基础性能。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...