星图金融研究院-成员详情-沈春泽

语音识别揭秘：你的手机究竟有多理解你？

2019-12-12 09:13

在我们的生活中，语言是传递信息最重要的方式，它能够让人们之间互相了解。人和机器之间的交互也是相同的道理，让机器人知道人类要做什么、怎么做。交互的方式有动作、文本或语音等等，其中语音交互越来越被重视，因为随着互联网上智能硬件的普及，产生了各种互联网的入口方式，而语音是最简单、最直接的交互方式，是最通用的输入模式。在1952年，贝尔研究所研制了世界上第一个能识别10个英文数字发音的系统。1960年英国的Denes等人研制了世界上第一个语音识别（ASR）系统。大规模的语音识别研究始于70年代，并在单个词的识别方面取得了实质性的进展。上世纪80年代以后，语音识别研究的重点逐渐转向更通用的大词汇量、非特定人的连续语音识别。90年代以来，语音识别的研究一直没有太大进步。但是，在语音识别技术的应用及产品化方面取得了较大的进展。自2009年以来，得益于深度学习研究的突破以及大量语音数据的积累，语音识别技术得到了突飞猛进的发展。深度学习研究使用预训练的多层神经网络，提高了声学模型的准确率。微软的研究人员率先取得了突破性进展，他们使用深层神经网络模型后，语音识别错误率降低了三分之一，成为近20年来语音识别技术方面最快的进步。另外，随着手机等移动终端的普及，多个渠道积累了大量的文本语料或语音语料，这为模型训练提供了基础，使得构建通用的大规模语言模型和声学模型成为可能。在语音识别中，丰富的样本数据是推动系统性能快速提升的重要前提，但是语料的标注需要长期的积累和沉淀，大规模语料资源的积累需要被提高到战略高度。今天，语音识别在移动端和音箱的应用上最为火热，语音聊天机器人、语音助手等软件层出不穷。许多人初次接触语音识别可能归功于苹果手机的语音助手Siri。Siri技术来源于美国国防部高级研究规划局（DARPA）的CALO计划：初衷是一个让军方简化处理繁重复杂的事务，并具备认知能力进行学习、组织的数字助理，其民用版即为Siri虚拟个人助理。Siri公司成立于2007年，最初是以文字聊天服务为主，之后与大名鼎鼎的语音识别厂商Nuance合作实现了语音识别功能。2010年，Siri被苹果收购。2011年苹果将该技术随同iPhone 4S发布，之后对Siri的功能仍在不断提升完善。现在，Siri成为苹果iPhone上的一项语音控制功能，可以让手机变身为一台智能化机器人。通过自然语言的语音输入，可以调用各种APP，如天气预报、地图导航、资料检索等，还能够通过不断学习改善性能，提供对话式的应答服务。语音识别（ASR）原理语音识别技术是让机器通过识别把语音信号转变为文本，进而通过理解转变为指令的技术。目的就是给机器赋予人的听觉特性，听懂人说什么，并作出相应的行为。语音识别系统通常由声学识别模型和语言理解模型两部分组成，分别对应语音到音节和音节到字的计算。一个连续语音识别系统（如下图）大致包含了四个主要部分：特征提取、声学模型、语言模型和解码器等。（1）语音输入的预处理模块对输入的原始语音信号进行处理，滤除掉其中的不重要信息以及背景噪声，并进行语音信号的端点检测（也就是找出语音信号的始末）、语音分帧（可以近似理解为，一段语音就像是一段视频，由许多帧的有序画面构成，可以将语音信号切割为单个的“画面”进行分析）等处理。（2）特征提取在去除语音信号中对于语音识别无用的冗余信息后，保留能够反映语音本质特征的信息进行处理，并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理。（3）声学模型训练声学模型可以理解为是对声音的建模，能够把语音输入转换成声学表示的输出，准确的说，是给出语音属于某个声学符号的概率。根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数与声学模型进行匹配，得到识别结果。目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。（4）语言模型训练语言模型是用来计算一个句子出现概率的模型，简单地说，就是计算一个句子在语法上是否正确的概率。因为句子的构造往往是规律的，前面出现的词经常预示了后方可能出现的词语。它主要用于决定哪个词序列的可能性更大，或者在出现了几个词的时候预测下一个即将出现的词语。它定义了哪些词能跟在上一个已经识别的词的后面（匹配是一个顺序的处理过程），这样就可以为匹配过程排除一些不可能的单词。语言建模能够有效的结合汉语语法和语义的知识，描述词之间的内在关系，从而提高识别率，减少搜索范围。对训练文本数据库进行语法、语义分析，经过基于统计模型训练得到语言模型。（5）语音解码和搜索算法解码器是指语音技术中的识别过程。针对输入的语音信号，根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络，根据搜索算法在该网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该语音信号的词串，这样就确定这个语音样本所包含的文字了。所以，解码操作即指搜索算法，即在解码端通过搜索技术寻找最优词串的方法。连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。当今语音识别技术的主流算法，主要有基于动态时间规整（DTW）算法、基于非参数模型的矢量量化（VQ）方法、基于参数模型的隐马尔可夫模型（HMM）的方法、以及近年来基于深度学习和支持向量机等语音识别方法。站在巨人的肩膀上：开源框架目前开源世界里提供了多种不同的语音识别工具包，为开发者构建应用提供了很大帮助。但这些工具各有优劣，需要根据具体情况选择使用。下表为目前相对流行的工具包间的对比，大多基于传统的 HMM 和N-Gram 语言模型的开源工具包。对于普通用户而言，大多数人都会知道 Siri 或 Cortana 这样的产品。而对于研发工程师来说，更灵活、更具专注性的解决方案更符合需求，很多公司都会研发自己的语音识别工具。（1）CMU Sphinix是卡内基梅隆大学的研究成果。已有 20 年历史了，在 Github和 SourceForge上都已经开源了，而且两个平台上都有较高的活跃度。（2）Kaldi 从 2009 年的研讨会起就有它的学术根基了，现在已经在 GitHub上开源，开发活跃度较高。（3）HTK 始于剑桥大学，已经商用较长时间，但是现在版权已经不再开源软件了。它的最新版本更新于 2015 年 12 月。（4）Julius起源于 1997 年，最后一个主版本发布于2016 年 9 月，主要支持的是日语。（5）ISIP 是第一个最新型的开源语音识别系统，源于密西西比州立大学。它主要发展于 1996 到 1999 年间，最后版本发布于 2011 年，遗憾的是，这个项目已经不复存在。语音识别技术研究难点目前，语音识别研究工作进展缓慢，困难具体表现在：（1）输入无法标准统一比如，各地方言的差异，每个人独有的发音习惯等，如下图所示，口腔中元音随着舌头部位的不同可以发出多种音调，如果组合变化多端的辅音，可以产生大量的、相似的发音，这对语音识别提出了挑战。除去口音参差不齐，输入设备不统一也导致了语音输入的不标准。（2）噪声的困扰噪声环境的各类声源处理是目前公认的技术难题，机器无法从各层次的背景噪音中分辨出人声，而且，背景噪声千差万别，训练的情况也不能完全匹配真实环境。因而，语音识别在噪声中比在安静的环境下要难得多。目前主流的技术思路是，通过算法提升降低误差。首先，在收集的原始语音中，提取抗噪性较高的语音特征。然后，在模型训练的时候，结合噪声处理算法训练语音模型，使模型在噪声环境里的鲁棒性较高。最后，在语音解码的过程中进行多重选择，从而提高语音识别在噪声环境中的准确率。完全消除噪声的干扰，目前而言，还停留在理论层面。（3）模型的有效性识别系统中的语言模型、词法模型在大词汇量、连续语音识别中还不能完全正确的发挥作用，需要有效地结合语言学、心理学及生理学等其他学科的知识。并且，语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。智能语音识别系统研发方向今天，许多用户已经能享受到语音识别技术带来的方便，比如智能手机的语音操作等。但是，这与实现真正的人机交流还有相当遥远的距离。目前，计算机对用户语音的识别程度不高，人机交互上还存在一定的问题，智能语音识别系统技术还有很长的一段路要走，必须取得突破性的进展，才能做到更好的商业应用，这也是未来语音识别技术的发展方向。在语音识别的商业化落地中，需要内容、算法等各个方面的协同支撑，但是良好的用户体验是商业应用的第一要素，而识别算法是提升用户体验的核心因素。目前语音识别在智能家居、智能车载、智能客服机器人方面有广泛的应用，未来将会深入到学习、生活、工作的各个环节。许多科幻片中的场景正在逐步走入我们的平常生活。本文由“苏宁财富资讯”原创，作者为苏宁金融研究院金融科技研究中心副主任沈春泽，首图来自壹图网

三场景说透人工智能如何赋能新零售

2019-08-21 09:11

从上世纪五十年代起，人工智能历经多年的起伏发展，不断在业务场景中尝试应用，终于在2016年出现转折——世界围棋冠军李世石在与Alpha Go的比赛中投子认输，之后的几年里，各种形式的人机大战不断上演（从围棋、德州扑克到即时战略游戏等），机器相对人类取得一连串压倒性的胜利。人们惊讶地发觉，人工智能的力量已经不容忽视。过去的二十年，算法的优化、数据的积累和计算力的提升，这三个要素极大地助推了人工智能的崛起。从设备感知，到大数据分析，再到辅助决策，人工智能能力的提升逐步带来了各领域商业形式的改变。今天，人工智能被视为数字网络的升级版，相关的产品或服务，加速在不同领域商业化实践。其中，在零售业的表现尤其明显，正在经历以消费者为核心的“零售革命”，助推传统零售行业升级。新零售是以数据为驱动的，对人、货、场等角色及相互关系的重构。互联网时代，碎片化的消费行为令传统的零售方式难以为继。而基于数据分析，综合使用各个维度来源的数据：历史交易数据、社交网络关系、购物习惯、在线浏览记录、周期性消费习惯等，人工智能在零售场景中可以实现营销预测并辅助决策。如今，智能货仓、无人快递车、精准营销等，都是人工智能与新零售结合的产物。其中，人工智能（AI）技术是连通线上、线下场景的桥梁，可以跨越在线电商与实体门店的鸿沟，实现线上、线下数据互补，打造全新的购物体验。下面，我们从人、货、场三个维度举例说明。一人的维度：智能推荐想象一下，施瓦辛格和赫本走进一家超市，理想情况下，我们希望门店会自动引导他们关注符合各自需求的单品，以不同的动线逛完这家店。可实际上，目前大多数零售店提供的是完全一样的服务，因为在传统的零售市场里，他们即使被区分为不同客群，得到的也是几乎相同的服务。众所周知，施瓦辛格和赫本无论是性别还是消费习惯等都差异极大，应当有完全不同的购物体验。这正是人工智能技术在新零售体验中发展的方向，针对不同人群的差异化需求，推出个性化的解决方案，这需要人工智能的深度融合。个性化、定制化的推荐服务在零售行业能很好的提升顾客体验，随着消费的不断升级，品质消费、个性化消费也开始日渐崛起，越来越多的零售企业开始推出私人定制的服务：服装店可以根据尺寸定制服装，食品店可根据口味定制蛋糕，等等。对于线上场景，如网上商城，通过埋点获取每个用户的页面浏览数据，根据这些数据，可以统计用户从哪里进入页面，中间如何跳转并查看了哪些页面，每个页面停留的时间及行为：如浏览、点击或收藏，最后在哪个页面结束。基于此类数据可进行浏览轨迹分析，计算网站关键路径的转化率，以了解整个网站设计的合理性、优化空间等，为优化页面设计提供基础，提升线上精准营销的效果。线上购物的一个缺点是无法直接触摸感受商品，图片往往是消费者对商品认知的主要来源，尤其是服装的网销，如尺码、色差、质地等经常会有偏差导致纠纷。这几年，网络虚拟试衣技术的发展相当迅速，虚拟试衣的难点在于既要对消费者的体型建模，又要对服装建模，对两者进行匹配，展示穿着效果。首先，消费者体型数据的采集大多依赖用户输入的测量数据，缺点是测量和填写的步骤比较繁琐，而且不完全精准。相对的，此类数据收集问题在实体门店更加容易解决，比如苏宁推出的虚拟试衣镜系统。在实体门店中，试衣镜安装的角度是固定的，用户和镜子之间的距离可以通过引导探测，做到较为精确的建模。在未来，试衣镜可能是线上、线下的链接点，在实体门店线下采集用户的体型数据建模后，便可以真实可靠地实现线上和线下的虚拟试衣。虚拟试衣镜能智能匹配许多套不同的搭配，这些款式既可以是店铺陈列的，也可以是从厂家订制的。试衣下单后，商家可以直接安排调货，寄送到指定的地点。此外，线下实体店还可以创造店内互动体验，让线下购物更高效、更有趣、更个性化。相对于传统购物体验，有人工智能助力的购物更像是一种线下的生活方式，这对零售业生态提出了新的要求，也带来了巨大的变化。二货的维度：智能货架管理在零售终端的智能化管理领域，虽然消费者支付方式发生了快速的迭代，从钞票支付，到卡支付，再到移动支付，店铺的货架管理手段却还停留在比较原始的阶段。其实，实体店的货品摆放可以通过人工智能实现更有效的终端管理。设想一下，周末晚上有场精彩的足球赛转播，作为球迷的你准备邀请几个朋友一起喝啤酒观赏比赛。但当你到超市的时候，发现自己最喜欢的啤酒已经空架了，是不是有点抓狂？对于厂商而言，产品在各个超市的货架摆放情况、是否及时补货、销售情况及关联因素、相应调整措施等信息都要通过人工巡查获得。缺陷很明显，信息收集和反馈的时间过长，并且监测数据不一定全面。新一代零售的发展方向必将是货架管理的智能化，有效提升用户体验。比如：通过摄像头的人脸识别功能，可以在顾客进店时进行新老客户的身份识别，对老客户可以根据购物历史及周期习惯推荐购物路线，对新客户可以制作客户画像，精准营销；客户进店后，摄像头可以记录客户的行进轨迹，优化货架摆放设置。此外，还可以使用压力传感器监测商品被拿起、放下的情况，以及存货数量，对货架进行自动化的实时监测管理。这对于零售管理的意义重大，将会真正实现从决策到销售的全流程贯通管理。例如，当缺货或者货品信息展示不合规时，可以实时发出警示；同时，对用户的挑选、购物行为可以有大量的数据积累，从而可以结合人工智能技术进行本地化展陈优化。三场的维度：智能物流管理如今，零售行业不断发展，数字化的商品信息、高效的仓储和物流，从产品的生产到配送，正形成一个完整的智慧化零售业态。国内外的电商巨头都已经开始部署智慧供应链，自动预测、采购、补货、分仓，根据实时情况调整库存精准发货，从而对海量商品库存进行自动化、精准化管理。具体来说，目前可以看到的智能供应链应用场景主要有：（1）自动预测备货：通过历史记录、节假日及促销、周期性因素、商品特性等数据预测备货，有效减少库存；（2）智能选品：智能化诊断当前品类结构，优化品类资源配置，实现了商品全生命周期智能化管理；（3）智能分仓调拨：预先将商品匹配到距离消费者最近的仓库，尽量减少区域间的调拨和区域内部仓库之间的调拨，提高时效性，同时优化调拨时的仓配方案，最大化降低调拨成本。以苏宁为例，苏宁超级云仓是自主研发的定制化、系统化解决方案。它使货物从入库、补货、拣选、分拨到出库全流程自动化、智能化作业，极大的提升了仓储水平以及工作效率。在这个过程中，采用了大量的物流机器人进行协同与配合，通过人工智能技术，让机器人适应不同的应用场景，完成各种复杂的任务，在商品分拣、运输、出库等环节实现自动化。与传统仓储或者仅在单个环节实现自动化的仓储模式相比，智能仓储最大的特点在于机器人融入生产，改变生产模式，以及人工智能算法指导生产。因此，机器人技术、人工智能算法、海量商品的精准识别成为实现无人仓的主要技术瓶颈。近年来，无人驾驶技术的研发得到了众多企业的重视，在商业化应用中不断成熟，包括无人重卡、快递机器人、快递无人机等，在物流运输、无人配送方面，构成一个完整的智慧物流配送体系。其中，无人重卡是连接区域物流中心的桥梁，快递机器人为最后一公里配送构建基础，快递无人机则全方位、无死角的保证这一公里的配送。越来越多的无人智能化设备被应用到具体场景，每个智能化的场景应用连成一体，构成智慧零售的关键一环。四困难及前景当前，人工智能已经成为传统行业转型升级的助推力，持续地改变我们的商业模式和生活方式。而人工智能技术在新零售体验中的应用，必将进一步推动深度定制购物体验的发展，深度定制购物体验则会带来用户使用的粘性。当然，在发展过程中，也面临着一些困难与挑战。首先，在目前阶段，数据是AI应用的必要基础，在长期的业务开展中，积累的数据维度多样、体量巨大、形式复杂，并且数据间很多时候无法融合互联，形成数据壁垒。其次，零售行业注重利润率，而科技落地的成本不是每个零售企业都能够接受的。例如，对于大型的连锁便利店，如要实现众多门店的智能化，一次性投入成本较高，因而升级门槛较高，往往倾向于依旧采用传统方式。尽管存在重重困难，众多的科技企业仍然进行了有益的尝试，在一些典型场景中探索人工智能技术的应用。尤其在零售行业，新技术的应用落地呈现爆发趋势。例如，零售企业在加速与人工智能技术融合，在“物”端深耕供应链管理的同时，在“人、货”端的用户体验上也增强了线上、线下的融合。从无人值守的便利架到无人配送车，从单个的机器人到智能化的无人超市，各种技术、产品和解决方案，向人们展示了人工智能助跑“新零售”的诱人前景。本文由公众号“苏宁财富资讯”原创，作者为苏宁金融研究院金融科技研究中心副主任沈春泽，首图来自壹图网

全媒体平台	研究领域	数据中心	研究机构
头条号	互联网金融	消费指数	金融科技实验室
搜狐号	金融科技	互金指数	区块链实验室
财富号	消费金融	理财指数
凤凰号	供应链金融
雪球	宏观经济
知乎	产业经济
	区域经济

全媒体平台

研究领域

数据中心

研究机构

微信公众号

头条号

互联网金融

消费指数

金融科技实验室