Whisper-Input Whisper Input 是一个基于 Python 开发的桌面工具,能够实现快速语音转文字功能。它支持通过按键控制录制语音,并调用 Groq Whisper Large V3 Turbo 或 FunAudioLLM/SenseVoiceSmall 模型进行转译。该工具的主要优点是转译速度快、准确率高,并且支持多语言转译。它适合需要高效输入的用户,尤其是那些经常需要进行语音记录和文字转换的场景。目前该工具完全免费,用户无需付费即可使用。
kokoro-onnx kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。
CrisperWhisper CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。与原始Whisper模型相比,CrisperWhisper旨在逐字转录每一个说出的单词,包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集(如TED、AMI)中排名第一,并在INTERSPEECH 2024上被接受。
Home Assistant Voice Home Assistant Voice Preview Edition是一款开源、注重隐私的语音助手硬件产品,旨在提供一种开放、本地化、私人化的语音控制解决方案。它允许用户通过语音控制家中的智能设备,同时确保用户的语音数据不会离开本地网络,保护用户隐私。该产品背景是响应对隐私保护日益增长的需求,特别是在智能家居领域。价格方面,产品定价为59美元,推荐零售价,具体价格可能会因零售商而异。
Sesame CSM CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
SpeechGPT 2.0-preview SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练,实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达,同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互,未来计划扩展到更多语言。
Voiser AI AI Transcriber AI Transcriber: Speech to Text 是一款利用人工智能技术将语音备忘录、会议、访谈和视频转换成文字的应用。它不仅支持WhatsApp语音转录和通话录音转录,还具备多语言支持和自动总结功能。这款应用的主要优点在于其快速准确的AI转录能力,能够帮助用户节省时间并简化任务。产品背景信息显示,Voiser AI 是该应用的开发者,提供包括隐私政策和使用条款在内的详细信息。该应用免费下载,但提供应用内购买服务。
Riviera Riviera 是一款专为酒店行业设计的AI语音平台,旨在通过智能化的语音交互提升客户体验并优化酒店运营效率。它支持多语言对话,能够快速响应客户咨询,处理预订、房间服务等需求,同时通过数据分析提供个性化服务。该产品利用先进的AI技术,减少人工干预,降低运营成本,尤其适合酒店在高峰期减轻员工工作压力。其背景是随着酒店行业的数字化转型,客户对服务的即时性和个性化需求日益增长,Riviera 正是为满足这一需求而生。价格和具体定位需根据酒店规模和需求定制。