whisper-ner-v1

1年前发布 20 0 0

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

收录时间：

2025-05-29

打开网站手机查看

语音处理 # 命名实体识别 # 实体识别 # 开放类型NER # 自动语音识别 # 语音识别

whisper-ner-v1

whisper-ner-v1

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

数据统计

相关导航

ElevenLabs Scribe

Scribe 是由 ElevenLabs 开发的高精度语音转文字模型，旨在处理真实世界音频的不可预测性。它支持99种语言，提供单词级时间戳、说话人分离和音频事件标记等功能。Scribe 在 FLEURS 和 Common Voice 基准测试中表现卓越，超越了 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等领先模型。它显著降低了传统服务不足语言（如塞尔维亚语、粤语和马拉雅拉姆语）的错误率，这些语言在竞争模型中的错误率通常超过40%。Scribe 提供 API 接口供开发者集成，并将推出低延迟版本以支持实时应用。

Whisper Turbo.online

Whisper Turbo 是基于 Whisper Large-v3 模型优化的语音识别工具，专为快速语音转录而设计。它利用先进的 AI 技术，能够高效地将不同音频源的语音转换为文本，支持多种语言和口音。该工具免费提供给用户，旨在帮助人们节省时间和精力，提高工作效率。其主要面向需要快速准确转录语音内容的用户，如博主、内容创作者、企业等，为他们提供便捷的语音转文字解决方案。

Encounter AI Advisor

Encounter AI - Advisor是一款利用SRI的隐马尔可夫模型（HMM）基础的语音识别技术，为多单位餐厅运营商提供实时的音频监控服务。它通过先进的技术，精准跟踪和分析餐厅层面的每一段对话，消除了常见的“他说/她说”的主观性问题，为零售领导者提供实时对话分析，帮助他们实现目标，增加收入。

Mumble Note

Mumble Note是一款AI语音速记工具，可以将用户的口述内容转换为清晰的笔记、待办事项和输出。该产品具有隐私保护、智能问答等功能，为用户提供高效的语音记录与管理体验。

FireRedASR-AED-L

FireRedASR-AED-L 是一个开源的工业级自动语音识别模型，专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构，支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平，并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性，适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码，进一步推动语音识别技术的发展。

whisper-diarization

whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性，然后使用Whisper生成转录文本，并通过WhisperX校正时间戳和对齐，以减少由于时间偏移导致的分割错误。接着，使用MarbleNet进行VAD和分割以排除静音，TitaNet用于提取说话人嵌入以识别每个段落的说话人，最后将结果与WhisperX生成的时间戳关联，基于时间戳检测每个单词的说话人，并使用标点模型重新对齐以补偿小的时间偏移。

AI-Powered Meeting Summarizer

AI-Powered Meeting Summarizer是一个基于Gradio的网站应用，能够将会议录音转换为文本，并使用whisper.cpp进行音频到文本的转换，以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

CrisperWhisper

CrisperWhisper是基于OpenAI的Whisper模型的高级变体，专为快速、准确、逐字的语音识别设计，提供准确的词级时间戳。与原始Whisper模型相比，CrisperWhisper旨在逐字转录每一个说出的单词，包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集（如TED、AMI）中排名第一，并在INTERSPEECH 2024上被接受。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...