300字范文 > 未来语音技术和语音智能助手将有哪些发展的方向？

未来语音技术和语音智能助手将有哪些发展的方向？

时间：2020-09-27 01:51:22

在“人工智能”被过度宣传的这几年，不少产品过度哄抬了自己的能力，导致用户期望值过高，最终连及格也达不到。想想那些年我们调戏过的Siri，似乎可以做很多事情的样子，可是除了被调戏，有多少人能准确说出它还能干些啥？

一定要有功能性，满足刚需

对于语音产品，我们非常看好以下场景：

智能外呼：今年的谷歌大会，谷歌已经向大家展示了智能语音机器人自动打电话的功能，相信在未来不久人们只需提出需求即可由语音机器人来完成。

智能安防：简单的说，可以给所有的摄像头加上麦克风阵列，增加语音模块。

智能医疗：语音在这个领域有诸多应用，一个例子是电子病历，简单的说就是医生在诊断过程中语音输入便可以直接形成病历。另外一个例子是医学检测有些是通过声音检测来完成，那么直接加上语音模块既能完成交互又可以检测，可以淘汰掉屏幕等交互方式。

教育：可以将麦克风阵列应用于多媒体教室，另外一个应用领域则是远程家教。

汽车市场：在手和眼镜都被占据(no hands no eyes)条件下，语音是个最好的交互方式，汽车上的语音产品是兵家必争之地。语音将成为下一代智能设备重要的交互方式是一个确定的事情，随着行业的进步，更优质的语音产品将会更低成本进入生活方方面面，为我们的生活和工作带来更多便利。

语音将成为下一代智能设备重要的交互方式是一个确定的事情，随着行业的进步，更优质的语音产品将会更低成本进入生活方方面面，为我们的生活和工作带来更多便利。

智能语音服务需要解决的技术难点

那么要满足这些需求，一个智能语音服务需要克服三大技术难点：

第一是自然语音交互。想让机器理解人的语义，需要将人类的自然语言变成程序讲义，让机器理解程序变为一个执行过程。机器必须先听明白用户在表达什么，才能进行对话。

第二是知识的表示和推理。人类发送指令的时候，意义未必明确，目前机器的浅层次理解仍停留在搜索引擎。往往当用户对机器发出“我要听周杰伦”的指令时，它只是列举周杰伦的歌单罢了。但知识的表示和推理是一套连续的验证和推理过程。

在知识的表示和推理背后需要知识图谱，我们可以将每个垂直领域的覆盖看作是垂直知识的构建，但是并不是场景越多，规则就要越多，而是尽可能使用更抽象更通用的规则。

每个人的思维路径是有差异的，同样是选餐厅，有的人会优先考虑团购信息，有的人会优先考虑菜系。所以在面对人类的思维时，弱化规则，只在必要的节点处设置规则，这样既能保证对话应用的任务导向性，又能给予对话足够的灵活度。

第三是自动服务对接。订餐、订票、接音乐、接电视……此类服务需求量级巨大。仅音乐一项就有多少个软件？网易、酷狗、QQ、虾米……每一个软件都是不同的接口，传统的对接方式需要耗费大量人力。

自动方式能够节省资源和时间，而做智能语音服务如果能够开发程序实现让机器自动读取、选择接口接入可以事半功倍。

目前灵呼宝所采取的方式是当面对用户的时候，首先会对语音信号进行分析和处理，除去冗余信息。然后提取影响语音识别的关键信息和表达语言含义的特征信息，再在后台按照不同语法，依照先后次序识别字词。

随后系统会紧扣特征信息用最小单元识别字词，给关键信息划分段落取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。最后智能结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

这样可以使语音识别准确率高达90%，高出行业平均水平10%左右。

多轮对话的重要性

语音助手为目的就是在对话中完成服务，如果你想获取信息，它能给你有效的信息，如果你想让它帮你完成任务，它能高效准确地完成。

从这个角度，有很多场景需求需要多轮对话，并能准确地理解连续上下文才能最终达到用户预期的服务。

但多轮对话并不是轮次越多越好，能不能通过对话的方式，帮助人获取信息、完成任务，对话精准和服务精准才是终极目标。灵呼宝的功能现在仅停留在通过简单的多轮对话对客户进行第一轮筛选，找出意向客户进行分级。这功能已经可以替代传统电销人员和客服，帮助企业拓展业绩提升效率。

强调生成模型

目前在自然语言理解领域里要求大量训练样本的深度学习适用场景比较有限，他们更多的是使用小样本的生成模型。

自然语言理解领域的语义表示是有组合性，而推理的建模强调因果性，很多时候自然语言理解需要有目的、有计划的有步骤的优化过程，而且强调步骤之间的逻辑关系，而现阶段的深度学习更像是一个黑盒子，他只可解决自然语言的中的部分问题，特别当涉及到对话领域，上下文的理解时，深度学习的黑盒子就显得局限很多。

目前比较适合的机器学习算法是生成模型，但是生成模型需要针对问题去建模，其强调的是建模的重要性。灵呼宝就是一台具备RNN模型的智能语音机器人，利用此类方法建模，一般需先针对问题中的子问题进行“元模型”建模，然后通过有限的推理方法来组合成更大的模型，其推理过程体现的因果关系清晰可见，可以从结果反馈来追本溯源，逐步优化推理中的每个环节，即使在小样本集上往往也能训练出好的效果；而且生成模型推理过程中涉及的参数比较少，一般都对应具体的物理含义，具有很好的可解释性。

迁移学习和增强学习

交互的目的是为了决策，而决策需要记忆和学习。

长期的记忆是用户的个性化习惯或者用户画像的学习，短期的记忆则是对话中最小的可复用的单元，需要去捕捉，这也是建立在前面提到的多轮对话之上。而在学习方面，迁移学习和增强学习很重要。

对于人来讲，在特定场景学习到的知识，人类并不会选择将其固着在唯一的场景中，知识的场景迁移能力使人在学习新知识时理解起来更加容易，掌握起来更加迅速，即使是从未接触过的领域和场景，人类也能完成知识迁移。

比如找餐厅的任务，它可能需要地理位置知识、菜系、交通信息等。如果只是单项知识的简单叠加，而不能认识到各领域知识之间的关系，缺乏知识的推理能力，那么当面临更为复杂的任务时就失效了。

从被动到主动

现在绝大部分的系统都是被动交互型，以现在非常流行的闲聊为例，其只能依赖于用户说的话，根据之前大量对话实例的训练，来生成一句似是而非的回答，以此消磨时间，抑或点燃情绪。

对话式决策系统一个非常重要的功能是需要对环境变换能做出感知，进而转化为语言的表示，来和用户进行主动交互。

如果用户刚在家中通过语音助手找到了附近吃日料的A餐厅，走上车启动车载系统，车载系统中的语音助手如果根据上下文位置变化及开车这一动作进行主动发问：“主人，请确认是否为您导航到A餐厅？”，这种情况下，系统的主动发问是一个非常智能的表现。

灵呼宝的语音系统已经能完成主动的询问对话，了解客户需求并根据需求匹配答案。这一技术给金融、保险、装修、房地产等行业带来颠覆性举措。

从软件到服务

在未来屏幕交互的方式不再是主流，屏幕进一步变小，甚至消失，取而代之是更接近人与人之间的交互方式，语音，动作，以及各种传感器的自动检测，也因为如此，在不同场景下不同的智能设备得以出现，承载了一种或多种应用能力，软件之间的边界消失了。

曾经的软件供应商退化成服务提供商，专注于提升其核心数据和算法的质量，软件的开发成本降到最低，但是其使用效率却得到了极大提升，智能化得以极大体现，这是一个机器逐步模仿，并最终超越人类的时代。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。