OmniSenseVoice

1年前发布 20 0 0

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

收录时间：

2025-05-30

打开网站手机查看

语音处理 # GPU加速 # 多语言支持 # 开源 # 时间戳 # 语音识别

OmniSenseVoice

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

数据统计

相关导航

AI-Powered Meeting Summarizer

AI-Powered Meeting Summarizer是一个基于Gradio的网站应用，能够将会议录音转换为文本，并使用whisper.cpp进行音频到文本的转换，以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

Encounter AI Advisor

Encounter AI - Advisor是一款利用SRI的隐马尔可夫模型（HMM）基础的语音识别技术，为多单位餐厅运营商提供实时的音频监控服务。它通过先进的技术，精准跟踪和分析餐厅层面的每一段对话，消除了常见的“他说/她说”的主观性问题，为零售领导者提供实时对话分析，帮助他们实现目标，增加收入。

Whisper Turbo.online

Whisper Turbo 是基于 Whisper Large-v3 模型优化的语音识别工具，专为快速语音转录而设计。它利用先进的 AI 技术，能够高效地将不同音频源的语音转换为文本，支持多种语言和口音。该工具免费提供给用户，旨在帮助人们节省时间和精力，提高工作效率。其主要面向需要快速准确转录语音内容的用户，如博主、内容创作者、企业等，为他们提供便捷的语音转文字解决方案。

kokoro-onnx

kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音（TTS）项目。它支持英语，并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能，并提供多种声音选择，包括耳语。模型轻量级，约为300MB（量化后约为80MB）。该项目在GitHub上开源，采用MIT许可证，方便开发者集成和使用。

OpenVoiceChat

OpenVoiceChat是一个开源项目，旨在提供一个与大型语言模型（LLM）进行自然语音对话的平台。它支持多种语音识别（STT）、文本到语音（TTS）和LLM模型，允许用户通过语音与AI进行交互。项目采用Apache-2.0许可，强调开放性和易用性，目标是成为封闭商业实现的开源替代品。

audiblez

Audiblez是一个利用Kokoro高质量语音合成技术，将普通电子书（.epub格式）转换为.m4b格式有声书的工具。它支持多种语言和声音，用户可以通过简单的命令行操作完成转换，极大地丰富了电子书的阅读体验，尤其适合在开车、运动等不方便阅读的场景下使用。该工具由Claudio Santini在2025年开发，遵循MIT许可证免费开源。

Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

PERSO.ai

PERSO.ai是一体化AI视频平台，集成了AI配音、AI工作室和AI实时聊天功能，帮助创作者、营销人员、教育者和企业快速、实惠地高质量跨语言和多格式扩展视频内容。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...