Azure 认知服务语音 Azure 认知服务语音是微软推出的一款语音识别与合成服务,支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型,提高听录的准确度。此外,该服务还支持实时语音转文本、语音翻译、文本转语音等功能,适用于多种商业场景,如字幕生成、通话后听录分析、视频翻译等。
Sesame CSM CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
CosyVoice语音生成大模型2.0-0.5B CosyVoice语音生成大模型2.0-0.5B是一个高性能的语音合成模型,支持零样本、跨语言的语音合成,能够根据文本内容直接生成相应的语音输出。该模型由通义实验室提供,具有强大的语音合成能力和广泛的应用场景,包括但不限于智能助手、有声读物、虚拟主播等。模型的重要性在于其能够提供自然、流畅的语音输出,极大地丰富了人机交互的体验。
WhisperNER WhisperNER是一个结合了自动语音识别(ASR)和命名实体识别(NER)的统一模型,具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型,并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务,提高了处理效率和准确性,尤其在多语言和跨领域的场景中具有显著优势。
VALL-E 2 VALL-E 2 是微软亚洲研究院推出的一款语音合成模型,它通过重复感知采样和分组编码建模技术,大幅提升了语音合成的稳健性与自然度。该模型能够将书面文字转化为自然语音,适用于教育、娱乐、多语言交流等多个领域,为提高无障碍性、增强跨语言交流等方面发挥重要作用。
Fish Speech V1.2 Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音(TTS)模型。该模型代表了语音合成技术的最新进展,能够提供高质量的语音输出,适用于多种语言环境。
Home Assistant Voice Home Assistant Voice Preview Edition是一款开源、注重隐私的语音助手硬件产品,旨在提供一种开放、本地化、私人化的语音控制解决方案。它允许用户通过语音控制家中的智能设备,同时确保用户的语音数据不会离开本地网络,保护用户隐私。该产品背景是响应对隐私保护日益增长的需求,特别是在智能家居领域。价格方面,产品定价为59美元,推荐零售价,具体价格可能会因零售商而异。
Whisper Turbo.online Whisper Turbo 是基于 Whisper Large-v3 模型优化的语音识别工具,专为快速语音转录而设计。它利用先进的 AI 技术,能够高效地将不同音频源的语音转换为文本,支持多种语言和口音。该工具免费提供给用户,旨在帮助人们节省时间和精力,提高工作效率。其主要面向需要快速准确转录语音内容的用户,如博主、内容创作者、企业等,为他们提供便捷的语音转文字解决方案。