【402com永利1站】干货 | Siri 语音识别的小心机:你在哪儿,就能更精确地辨认那附近的地址

402com永利1站,原标题:干货 | Siri
语音识别的小心机:你在哪里,就能更准确地识别那附近的地址

百度首席科学家吴恩达今天宣布,该公司已经在语音识别领域取得重大突破,语音识别效果超过了谷歌和苹果。

微软小冰最近越来越会说话了,不但经常解锁技能,而且能够深入了解人类语言的沟通方式。近日,微软在自己的官方博客上发表文章,表明微软的语音识别正确率获得长足进展,从原有的5.9%错误率,改进到现在的5.1%错误率。

AI 科技评论按:这篇文章来自苹果机器学习日记(Apple Machine
Learning
Journal)。与其他科技巨头人工智能实验室博客的论文解读、技术成果分享不同,苹果的机器学习日记虽然也是介绍他们对机器学习相关技术的心得体会,但侧重点在于技术产品的实现过程、技术资源用户体验之间的取舍,更像是「产品经理的
AI app 研发日记」。过往内容可以参见 如何设计能在Apple
Watch上实时运行的中文手写识别系统,苹果揭秘「Hey Siri」的开发细节,为了让iPhone实时运行人脸检测算法,苹果原来做了这么多努力。

当人工智能专家吴恩达今年5月出任百度首席科学家时,他对他和他的团队可能在加州桑尼韦尔新开设的实验室中开展什么项目,还显得有些谨慎。不过,他还是禁不住披露,更加先进的语音识别技术将成为智能手机时代的关键。

8月20日,微软语音和对话研究团队负责人黄学东在论文“The Microsoft 2017
Conversational Speech Recognition
System”中详细进行详细介绍了他们的最新进展,他们的语音识别系统也达到了同样的5.1%的错误率。这是业界的新的里程碑,也比他们去年的成绩又有显著的提高。

在最新一期中,苹果介绍了如何让 Siri
根据用户所在地的不同,准确识别出用户提到的所在地周围的地点。 AI
科技评论编译如下。

402com永利1站 1人工智能专家吴恩达

402com永利1站 2

402com永利1站 3

今天,百度披露了这位谷歌前研究员、斯坦福教授和Coursera联合创始人的初步研究成果。在康奈尔大学图书馆的arXiv.org网站上发表的一篇论文中,吴恩达和阿瓦尼·哈努恩(Awani
Hannun)领导的百度研究团队的10名成员宣布,他们开发出了一种更加精准的语音识别技术——这项功能对苹果Siri和谷歌语音搜索的重要性正在与日俱增。吴恩达表示,按照语音识别系统的标准测试来看,百度的Deep
Speech语音识别技术已经超过了谷歌和苹果。

总体而言,此次研究中的识别错误率,相比去年微软基于神经网络的会话语音识别系统的
12%
的错误率下降了不少,从而达成了一项里程碑。另外,微软还将其识别系统运用在完整的对话环境中,使其能够调整上下文,并预测下一步可能会出现的单词或句子。

近年来,由于深度学习技术的广泛应用,自动语音识别(ASR)系统的准确率有了显著的提高。然而,人们目前主要是在通用语音的识别方面取得了性能的提升,但准确地识别有具体名字的实体(例如,小型本地商户)仍然是一个性能瓶颈。

具体而言,Deep
Speech在嘈杂环境中的表现好于同类技术,例如汽车内或人群中。由于可以大大提升实际的使用效果,因此这项技术显然十分关键。吴恩达表示,在嘈杂的背景中进行测试的结果显示,Deep
Speech的错误率比谷歌语音API、wit.ai、微软必应语音和苹果Dictation低了10%。

语音识别技术在最近两年得到了快速发展,虽然目前语音识别的应用场景还限于小冰、小娜、Siri等语音助手,而该项技术将成为物联网社会中必不可少的环节,应用在无人驾驶、智慧家庭等各种应用场景。

本文描述了我们是如何应对这一挑战的,通过将用户地理位置信息融入语音识别系统提升
Siri 识别本地 POI 信息点(point of
interest,兴趣点)名称的能力。能够将用户的位置信息考虑在内的自定义语言模型被称为基于地理位置的语言模型(Geo-LMs)。这些模型不仅可以利用声学模型和通用语言模型(例如标准的语音识别系统)提供的信息,还可以使用用户周围的环境中的POI信息点的信息,更好地估计用户想要的单词序列。

百度还提供了两位大学教授发表的正面评论。“百度研究院的这项最新成果有望颠覆今后的语音识别效果。”卡内基梅隆大学工程学助理研究教授伊恩·雷恩(Ian
Lane)在新闻稿中说。苹果和谷歌尚未对此置评。

【编辑推荐】

引言

与其他语音识别系统一样,百度这项技术的基础也是一个名为“深度学习”的人工智能分支。这款软件试图以非常原始的方式模拟大脑新皮层的神经元活动——约有80%的大脑活动发生在那里,所以深度学习系统可以识别出数字形态的声音、图像和其他数据。“第一代深度学习语音识别技术已经达到极限。”吴恩达说。

一般来说,虚拟助理都能够正确地识别和理解像星巴克这样的知名企业和连锁商店的名字,但是很难辨认出用户查询的数以百万计的小型本地
POI
(兴趣点)的名字。在自动语音识别系统中,人们公认的一个性能瓶颈是:准确有具体名字的的实体(例如,小型本地商户),而这正是频率分布的长尾(少量、多种类的需求)。

百度团队搜集了9600人的7000小时语音内容,多数都是在安静环境下搜集的——但测试者有时也会佩戴播放嘈杂背景音的耳机,使得他们就像在嘈杂环境中一样改变语调。他们后来使用名为“叠加”的物理学定律增加了15种噪音,包括酒店、汽车和地铁中的环境噪音。这相当于把样本数据扩大到10万小时。随后,他们让系统学会在各种噪音中识别语音。

我们决定通过将用户地理位置信息融合到语音识别系统中来提高
Siri 识别本地 POI 的名称的能力。

吴恩达表示,这远比目前的语音识别系统简单得多。他们使用了一系列模块来分析音素和其他语音内容。这通常需要通过名为“隐马可夫模型”的统计概率系统来手工设计模块,这就需要大量人手来进行校准。而百度的系统用深度学习算法取代了这些模型。这种算法可以在递归神经网络上进行训练,从而大大降低了系统的复杂性。

自动语音识别系统同城由两个主要部分组成:

但真正令这种模式奏效的是强大的新型计算机系统,其中配备了很多Nvidia的GPU。GPU在个人电脑中用来加速图形。由于采用并行设计,因此它们在训练识别模型时的速度和成本远好于标准的电脑处理器——大约比吴恩达在斯坦福和谷歌时使用的系统快40倍。“算法很重要,但成功有很大一部分归因于可扩展性。”他说,这既包括电脑系统的可扩展性,也包括其数据处理量的可扩展性。

  • 一个声学模型,用于捕捉语音的声学特征和语言学单位序列之间的关系,如语音和单词之间的关系
  • 一个语言模型(LM),它决定了某个特定的单词序列出现在一种特定的语言中的先验概率

倘若达不到这种速度,就无法迅速分析各种数据。吴恩达表示,该系统的复杂程度超过当今的其他GPU系统。“我们已经进入语音识别2.0时代,”他说,“现在才刚刚开始。”

我们可以找出造成这种困难(准确识别具名实体)的两个因素:

吴恩达认为,随着用户越来越偏向语音指令,而抛弃文字模式,因此语音识别的重要性还将与日俱增。“让他们对我们说话是关键。”他列举了中国最近的一条搜索命令:“你好,百度。我昨天中午街边吃了面条。明天还卖不卖?”吴恩达承认,现阶段回答这一问题的难度非常大,但他认为语音技术的进步是关键。

  • 系统通常不知道如何表示用户可能怎么样发出模糊的实体名称

物联网的发展也是关键所在,它将把所有的“哑巴”设备引入线上。他认为,当他的孙子得知我们如今使用的电视机和微波炉都不支持语音指令时,可能会感到十分惊讶。“语音是物联网的关键技术。”他说。

实体名称可能只在语言模型的训练数据中出现一次,或者根本没有出现。想象你生活中各种各样的公司的名称,你就能理解为什么说这是一个巨大的挑战了。

吴恩达拒绝透露百度需要多久才能将这项新技术整合到搜索和其他服务中。但在被问及这是否需要花费很多年时,他却很快回应道:“肯定不需要!”所以,这项技术有望在明年投入使用。这项技术可能应用到百度Cool
Box中,为用户提供语音音乐搜索服务。

第二个因素导致了构成本地企业名称的单词序列会被通用语言模型分配到一个非常低的先验概率,从而使得一个公司的名称不太可能被语音识别器正确地选到。(比如雷锋网楼下的「时令果町」,日常的中文使用中是不会出现这样的组合的)

吴恩达的团队成员约有30人,明年还将翻番,他们的目标是帮助百度跻身全球顶尖互联网公司之列。虽然目前主要服务于中国市场,但该公司却计划向全球扩张,包括开发世界级的语音识别、翻译和其他功能。

我们在本文中提出的方法架设用户更偏向于用移动设备搜索附近的本地
POI,而不是使用 Mac,因此我们在这里使用移动设备的地理位置信息来提高 POI
的识别性能。这有助于我们更好地估计用户想要的单词序列。通过将用户的地理位置信息融合到Siri的自动语音识别系统中,我们已经能够显著地提高本地
POI 识别和理解的准确率。

402com永利1站 4

Siri
如何使用基于地理位置的语言模型(Geo-LMs)?

我们定义了一组覆盖美国大部分地区的地理区域(Geo
regions),并且为每个区域构建了一个基于地理位置的语言模型(Geo-LMs)。当用户提出查询请求时,他们会得到一个根据用户目前的位置信息定制的系统,这个系统带有一个基于地理位置的语言模型。如果用户在任何定义的地理区域之外,或者如果
Siri 无法访问定位服务,系统就会使用一个默认的全局 Geo-LM。接着,被选取的
Geo-LM 会与声学模型结合起来对自动语音识别系统进行解码。图1
显示了系统整体的工作流程。

402com永利1站 5

图1.系统概览

地理区域

我们根据美国人口普查局的综合统计区域(CSAs)[1]来定义地理区域。从通勤模式来看,CSA
包含了经济上和社会上相连的邻近大都市区域。169 个 CSA 覆盖了美国 80%
的人口。我们为每个 CSA 建立一个专用的 Geo-LM,其中包含一个全局
Geo-LM,覆盖所有 CSA 未定义的区域。

为了高效地搜索用户所处的
CSA,我们存储了一个来自美国人口普查局[2]提供的栅格化地图边界(或形状文件)的纬度和经度查找表。在运行时,查找地理位置的计算复杂度为O(1)。

算法

Siri
的自动语音识别系统使用了一种基于加权有限状态机(WFST)的解码器,该解码器由
Paulik
首次提出[3]。该解码器采用差分语言模型原理,这与[4,5]中描述的框架相类似。

我们实现了一种类语言模型,在这个模型中,我们用类内语法动态地替换类非终结符。图2
对这个概念进行了说明。我们使用了一个主语言模型,将其用于通用识别,并且为预定义的类别引入了终结符标签,例如地理区域。对于每一个类,Slot
语言模型都是由与类相关的实体名称构建的,并且用于表示类内语法。接着,使用主语言模型和
slot 语言模型构建基于地理位置的语言模型,其实现过程如下节所述。

402com永利1站 6

图2 类语言模型的通用框架

相关文章

Comment ()
评论是一种美德,说点什么吧,否则我会恨你的。。。