26年专注语音芯片研发

语音识别的发展

2021-09-03 15:34:21

自半个世纪前诞生以来,语音识别一直处于一种不温不火的状态,直到2009年深度学习技术的飞速发展,使得语音识别的精度大大提高,尽管还不能进行无极限、无极限人群的应用,但也在大多数场景中提供了一种便利高效的通信方式。本文将从技术与产业两个角度回顾语音识别的发展历程及现状,并对未来的发展趋势进行分析,以期帮助更多年轻科技人员了解语音行业,并产生兴趣投身语音识别行业。

语言识别,通常称为自动语音识别,英文是AutomaticSpeechRecognition,简称ASR,主要是将人类语音中的词汇内容转换成计算机可读的输入,一般是文本内容,或者二进制编码或字符序列。然而,我们通常所理解的语音识别实际上都是狭义的语音转文字的过程,简称语音转文本识别(SpeechToText,STT)更为合适,以便能够对应于语音合成(TextToSpeech,TTS)。


它是一门融合多学科知识的前沿技术,它涵盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术的关键环节。然而,语音识别从诞生到现在已有半个多世纪,在实际应用过程中并未得到普遍的认同,一方面与语音识别存在技术缺陷有关,识别精度和速度都不能满足实际应用的要求;另一方面,由于业界对语音识别的期望过高,事实上,语音识别应该与键盘、鼠标、触摸屏等属于融合关系,而非替代关系。
自2009年开始兴起以来,深度学习技术有了很大的发展。声音识别的准确度和速度依赖于实际的应用环境,但在安静环境、标准口音、普通词汇等条件下,语音识别率已超过95%,表明语音识别技术目前处于相当于人类水平的水平。
随著科技的发展,如今口音、方言、噪声等场景下的语音识别已达到可用水平,尤其远场语音识别已成为全球消费电子领域最成功应用的技术之一。因为语音交互能够提供更加自然、方便和高效的通信形式,语音必将成为未来人机交互的主要界面之一。
然而,目前的技术还存在许多不足,如对强噪声、超远场、强干扰、多语种、大词汇等场景的语音识别还有待进一步提高;另外,多人语音识别和离线语音识别也是目前需要重点解决的问题。尽管语音识别还不能做到无边界、无边界的人群应用,但至少从应用实践中我们看到了一些希望。
唯创电子专业语音识别芯片生产厂家,多品类,好音质,寿命长,可为您提供高标准按需定制产品
  • 联系方式

    308040936@qq.com

    138-0273-1296

  • 公司地址

    广州市花都区新华街天贵大厦A座704-708室

  • 138-0273-1296

  • 扫一扫加微信
    版权所有©2016-2020 广州唯创电子有限公司
    网站地图     技术支持:九度网

    扫码添加微信

    返回顶部小火箭