语音识别的发展

您的位置：首页 > 芯片视界 > 语音IC大百科 >

2021-09-03 15:34:21

自半个世纪前诞生以来，语音识别一直处于一种不温不火的状态，直到2009年深度学习技术的飞速发展，使得语音识别的精度大大提高，尽管还不能进行无极限、无极限人群的应用，但也在大多数场景中提供了一种便利高效的通信方式。本文将从技术与产业两个角度回顾语音识别的发展历程及现状，并对未来的发展趋势进行分析，以期帮助更多年轻科技人员了解语音行业，并产生兴趣投身语音识别行业。

语言识别，通常称为自动语音识别，英文是AutomaticSpeechRecognition，简称ASR，主要是将人类语音中的词汇内容转换成计算机可读的输入，一般是文本内容，或者二进制编码或字符序列。然而，我们通常所理解的语音识别实际上都是狭义的语音转文字的过程，简称语音转文本识别(SpeechToText,STT)更为合适，以便能够对应于语音合成(TextToSpeech,TTS)。

它是一门融合多学科知识的前沿技术，它涵盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科，是人机自然交互技术的关键环节。然而，语音识别从诞生到现在已有半个多世纪，在实际应用过程中并未得到普遍的认同，一方面与语音识别存在技术缺陷有关，识别精度和速度都不能满足实际应用的要求；另一方面，由于业界对语音识别的期望过高，事实上，语音识别应该与键盘、鼠标、触摸屏等属于融合关系，而非替代关系。
自2009年开始兴起以来，深度学习技术有了很大的发展。声音识别的准确度和速度依赖于实际的应用环境，但在安静环境、标准口音、普通词汇等条件下，语音识别率已超过95%，表明语音识别技术目前处于相当于人类水平的水平。
随著科技的发展，如今口音、方言、噪声等场景下的语音识别已达到可用水平，尤其远场语音识别已成为全球消费电子领域最成功应用的技术之一。因为语音交互能够提供更加自然、方便和高效的通信形式，语音必将成为未来人机交互的主要界面之一。
然而，目前的技术还存在许多不足，如对强噪声、超远场、强干扰、多语种、大词汇等场景的语音识别还有待进一步提高；另外，多人语音识别和离线语音识别也是目前需要重点解决的问题。尽管语音识别还不能做到无边界、无边界的人群应用，但至少从应用实践中我们看到了一些希望。
唯创电子专业语音识别芯片生产厂家，多品类，好音质，寿命长，可为您提供高标准按需定制产品

上一篇：电子智能门锁语音芯片哪种合适下一篇：语音模块主要有几种播放模式