Outspeed Outspeed是一个为构建快速、实时语音和视频AI应用提供网络和推理基础设施的平台。它由Google和MIT的工程师开发,旨在为实时AI应用提供直观且强大的工具,无论是构建下一个大型应用还是扩展现有解决方案,Outspeed都能帮助用户更快、更有信心地进行创新。
Relyable Relyable 是一个自动化 AI 代理测试与监控工具,通过模拟和智能分析,帮助用户评估、优化和监控 AI 语音代理的表现。它能够帮助用户快速部署生产就绪的 AI 代理,提高工作效率。
WeST WeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
EaseVoice Trainer EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
Sesame CSM CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。