发送到无限宽的音频流。此外,倚赖云意味著网络连接、数据成本和延后方面都有潜在问题。结果,语音引擎在超过超时之前重开并重新启动流催促,还包括在长时间静默期间新的开始不会话并且每当语音中检测到停止时重开。
在会话之间,语音引擎还在本地缓冲器音频,然后在新的相连时发送到它。因此,Google防止了切断的句子或单词,并增加了不会话中遗失的文本量。
70多种语言和方言中挑选出自己适合的为了减少比特率市场需求和成本,Google还评估了有所不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(可用编解码器)可以维持准确性,会节省过于多数据,并且具备显著的编解码器延后。AMR-WB可以节省大量数据,但在喧闹的环境中准确度较低。与此同时,Opus容许数据速率比大多数音乐流媒体服务较低许多倍,同时仍保有音频信号的最重要细节。
Google还不会在长时间的静音期间用于语音检测来重开网络连接。总体而言,该团队需要构建“在不影响准确性的情况下,将数据使用量增加10倍”。为了比Cloud Speech API更进一步增加延后,Live Transcribe用于自定义Opus编码器。
编码器刚好提升了比特率,使“延后在视觉上无法区分发送到未压缩的音频”。Live Transcribe语音引擎功能Google所列了语音引擎的以下功能(不还包括说出人辨识):无限流媒体。反对70多种语言。
可以修改网络遗失(在网络和Wi-Fi之间转换时)。文字会遗失,只不会延后。强劲的拓展网络损耗。即使网络早已电力供应数小时,也不会新的相连。
当然,没相连就无法展开语音辨识。可以精彩落成和配备Opus,AMR-WB和FLAC编码。包括文本格式库,用作可视化ASR置信度、发言人ID等。可离线模型拓展。
内置反对语音检测器,可在缩短静音期间用作暂停ASR,以节省资金和数据。内置反对扬声器辨识,可根据扬声器编号标记或着色文本。字幕不会随着对话的了解而调整该文档认为这些库与生产应用程序Live Transcribe中运营的库“完全完全相同”。
Google已对其展开了“普遍的现场测试和单元测试”,但测试本身并非开源。但Google显然获取了APK,因此开发者可以在不建构任何代码的情况下试用该库。((公众号:))via:android.comventurebeat原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:b体育官网-www.guoshiwenhua.com