StreamSpeech

1年前发布 19 0 0

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能，并能提供低延迟的中间结果，如ASR或翻译结果。

收录时间：

2025-05-29

打开网站手机查看

智能翻译 # 多任务学习 # 实时翻译 # 语音合成 # 语音识别

StreamSpeech

StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能，并能提供低延迟的中间结果，如ASR或翻译结果。

数据统计

相关导航

Chiao AI

Chiao AI是一款AI文档翻译工具，为用户提供专业的文档翻译服务。Chiao AI提供PDF、Word、Excel、PPT等文档的高质量AI翻译服务，支持176种语言、50+文件格式。告别低质量机翻！Chiao AI让文档翻译像聊天一样简单，大文件翻译，边聊边改就搞定。免费10MB，专业版50MB，格式完美还原！

ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色，且没有偏好调整，适用于语音代理、语音到语音翻译、语音分析等场景。

Alorica

Alorica ReVoLT是Alorica Clear解决方案的一部分，属于其革命性的多语言客户体验产品套件。这项技术通过实时语音语言翻译，帮助客户提升品牌影响力，优化客户服务体验。Alorica ReVoLT在2024年AI突破奖中被评为最佳基于AI的客户服务解决方案，凸显了其在客户体验管理（CXM）领域的领先地位。

TalkAI练口语

TalkAI练口语是一款先进的口语学习工具，通过AI技术为用户提供一对一的口语陪聊服务，支持超过60种语言。其重要性在于帮助用户突破语言障碍，提升口语水平，无论是初学者还是希望提升口语能力的学习者都能从中受益。该产品由深圳市惊叹科技有限公司开发，于2021年12月03日成立，注册地位于深圳市宝安区。其服务对象广泛，包括学校、企业和个人用户，致力于通过技术创新推动语言学习的普及和发展。目前暂无明确公开的价格信息，但根据其功能和服务范围，推测其可能采用付费模式或提供部分免费试用服务。

Ray-Ban Meta Glasses

Ray-Ban Meta Glasses是Meta公司推出的一款智能眼镜，它通过集成最新的软件更新，提供了包括实时AI、实时翻译和Shazam音乐识别在内的多种功能。这款眼镜允许用户完全无需动手，就能体验世界、分享个人视角和捕捉重要时刻。产品背景信息显示，Ray-Ban Meta Glasses通过定期的软件更新不断增强功能，使其变得更加智能和有用。

Real-time-translation-typing

Real-time-translation-typing 是一款集成了实时打字翻译、语音实时打字和翻译、LOL 语音打字功能的软件。它通过AutoHotkey技术实现，支持多种翻译API，如搜狗、百度、有道等，为用户提供了高效、便捷的翻译体验。软件适用于需要快速翻译文本和语音的商务人士、学生和游戏玩家。

Pipio | Video Dubbing

该产品通过AI技术实现视频语音的自动配音和口型同步,可以轻松实现视频的多语种翻译,并保留原始音色。主要特点包括:1)33%以上的同步精度,媲美人工口型同步;2)无损视频分辨率;3)高保真语音翻译。面向的群体包括:企业培训部门、销售人员、营销团队和内容创作者。提供免费入门版和付费专业版,欢迎体验。

ViiTor实时翻译

ViiTor实时翻译是由云上曲率公司推出的一款多语言AI实时翻译工具，旨在打破语言障碍，让全球沟通变得无比简单。ViiTor实时翻译利用先进的语音识别技术，支持近18种语言的流畅转译，具备即时翻译、对话翻译、语音识别等功能。无论是在国际旅行、商务会议还是多语言学习中，ViiTor实时翻译都能提供无缝的音频翻译、AR翻译支持。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...