300字范文 > 语音唤醒方法装置及系统终端和计算机可读存储介质与流程

语音唤醒方法装置及系统终端和计算机可读存储介质与流程

时间：2020-12-27 12:27:53

本发明涉及神经网络技术领域，尤其涉及一种语音唤醒方法、装置及系统、终端和计算机可读存储介质。

背景技术：

现有的语音唤醒方法为提高语音控制的准确性，往往会增加唤醒词验证模型的复杂度，以使得该模型对不同数据的鲁棒性更强。

然而，对于耳机等低电量的设备，模型复杂度越高，其消耗的电量越高，且模型高复杂度还会带来高计算量，造成语音唤醒的高延迟，这些均会降低设备的用户体验。

因此，如何在减少设备功耗的同时保证语音控制的准确性，成为目前亟待解决的技术问题。

技术实现要素：

本发明提供一种语音唤醒方法、装置及系统、终端和计算机可读存储介质，针对相关技术中复杂模型耗电量多、唤醒延迟高等影响用户体验的技术问题，可通过其他设备来帮助低电量的设备来完成语音唤醒的部分验证功能。

本发明第一方面提供一种语音唤醒方法，用于第一终端，包括：实时采集声音信号；提取所述声音信号的音频特征；将所述音频特征输入第一唤醒词验证模型；通过所述第一唤醒词验证模型输出第一置信度；基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；接收所述第二终端对所述已缓存信号集合的验证结果；在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。

在本发明上述实施例中，可选地，所述提取所述声音信号的音频特征的步骤，具体包括：提取单帧声音信号的fbank音频特征；所述将所述音频特征输入第一唤醒词验证模型的步骤，具体包括：将所述单帧声音信号的所述fbank音频特征输入所述第一唤醒词验证模型；则所述语音唤醒方法还包括：基于所述第一置信度未处于所述第一指定阈值范围内的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的fbank音频特征。

在本发明上述实施例中，可选地，还包括：根据所述第二终端的个体信息和/或预定唤醒词的长度，设置所述已缓存信号集合所处的缓冲区的大小；则所述语音唤醒方法还包括：基于所述缓冲区的全部存储空间被占用的情况，将所述缓冲区的所述已缓存信号集合发送至所述第二终端。

本发明第二方面提供一种语音唤醒方法，用于第二终端，包括：获取来自第一终端的已缓存信号集合；提取所述已缓存信号集合的音频特征；将所述音频特征输入第二唤醒词验证模型；通过所述第二唤醒词验证模型输出第二置信度；验证所述第二置信度是否处于第二指定阈值范围内；将验证结果发送至所述第一终端，以供所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

本发明第三方面提供一种语音唤醒方法，用于语音唤醒系统，所述语音唤醒系统包括第一终端和第二终端，则所述语音唤醒方法包括：所述第一终端实时采集声音信号；所述第一终端提取所述声音信号的音频特征；所述第一终端将所述音频特征输入第一唤醒词验证模型；所述第一终端通过所述第一唤醒词验证模型输出第一置信度；基于所述第一置信度处于第一指定阈值范围内的情况，所述第一终端将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；所述第二终端提取所述已缓存信号集合的音频特征；所述第二终端将所述已缓存信号集合的音频特征输入第二唤醒词验证模型；所述第二终端通过所述第二唤醒词验证模型输出第二置信度；所述第二终端验证所述第二置信度是否处于第二指定阈值范围内；所述第二终端将验证结果发送至所述第一终端；所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

本发明第四方面提供一种语音唤醒装置，用于第一终端，包括：声音信号采集单元，用于实时采集声音信号；音频特征提取单元，用于提取所述声音信号的音频特征；音频特征输入单元，用于将所述音频特征输入第一唤醒词验证模型；模型验证单元，用于通过所述第一唤醒词验证模型输出第一置信度；信号发送单元，用于基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；验证结果接收单元，用于接收所述第二终端对所述已缓存信号集合的验证结果；唤醒指令生成单元，用于在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。

在本发明上述实施例中，可选地，所述音频特征提取单元具体用于：提取单帧声音信号的fbank音频特征；所述音频特征输入单元具体用于：将所述单帧声音信号的所述fbank音频特征输入所述第一唤醒词验证模型；所述语音唤醒装置还用于：基于所述第一置信度未处于所述第一指定阈值范围内的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的fbank音频特征。

在本发明上述实施例中，可选地，还包括：缓冲区设置单元，用于根据所述第二终端的个体信息和/或预定唤醒词的长度，设置所述已缓存信号集合所处的缓冲区的大小；所述信号发送单元还用于：基于所述缓冲区的全部存储空间被占用的情况，将所述缓冲区的所述已缓存信号集合发送至所述第二终端。

本发明第五方面提供一种语音唤醒装置，用于第二终端，包括：信号获取单元，用于获取来自第一终端的已缓存信号集合；音频特征提取单元，用于提取所述已缓存信号集合的音频特征；音频特征输入单元，用于将所述音频特征输入第二唤醒词验证模型；模型验证单元，用于通过所述第二唤醒词验证模型输出第二置信度；置信度大小验证单元，用于验证所述第二置信度是否处于第二指定阈值范围内；验证结果发送单元，用于将验证结果发送至所述第一终端，以供所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

本发明第六方面提供一种终端，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述第一方面中任一项所述的方法。

本发明第七方面提供一种终端，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述第二方面中任一项所述的方法。

本发明第八方面提供一种语音唤醒系统，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述第一方面、第二方面和第三方面中任一项所述的方法。

本发明第九方面提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述第一方面和第二方面中任一项所述的方法流程。

本发明的技术方案，针对相关技术中复杂模型耗电量多、唤醒延迟高等影响用户体验的技术问题，对于低电量的第一终端，可借助第二终端来完成第一终端的部分验证功能。

具体来说，第一终端可实时采集声音信号，接着，对于采集到的声音信号，可逐帧提取音频特征，以通过该音频特征进行唤醒词验证。

唤醒词验证的过程通过神经网络模型来实现，此处，可将音频特征输入预设的第一唤醒词验证模型。其中，第一唤醒词验证模型为轻量模型，其用于通过声音信号的音频特征计算出对应的第一置信度，若声音信号中的词为唤醒词时，第一置信度较高，处于第一指定阈值范围内，若声音信号中的词是唤醒词以外的普通词，第一置信度较低，未处于第一指定阈值范围内，其中，第一指定阈值范围可选为大于或等于第一指定阈值。

因此，在第一置信度未处于第一指定阈值范围内时，确定对应的声音信号不包括唤醒词，未满足激活第二终端的条件，可返回提取下一帧音频信号的音频特征。而在第一置信度处于第一指定阈值范围内时，确定对应的声音信号包括唤醒词，此时，即可将包括声音信号在内的已缓存信号集合发送至第二终端，从而在第二终端中，将已缓存信号集合的音频特征输入结构更复杂、验证准确性更高的第二唤醒词验证模型，并输出对应的第二置信度。其中，第一终端与第二终端的通信连接方式包括但不限于蓝牙连接方式、移动数据连接方式、nfc连接方式等，可以指定为前述若干种连接方式中的任一种，也可由第一终端根据实时工作场景在前述若干种连接方式中选择最合适的一种。

第二置信度代表已缓存信号集合中出现唤醒词的可能性，若已缓存信号集合中包括唤醒词，则第二置信度往往较高，处于第二指定阈值范围内，若已缓存信号集合中的词是唤醒词以外的普通词，则第二置信度较低，未处于第二指定阈值范围内，其中，第二指定阈值范围可选为大于或等于第二指定阈值。

因此，在第二终端得出的验证结果为第二置信度未处于第二指定阈值范围内时，说明已缓存信号集合中不包括有效的唤醒词，第一终端即可根据此验证结果，返回提取下一帧音频信号的音频特征。而在第二终端得出的验证结果为第二置信度处于第二指定阈值范围内时，说明已缓存信号集合中确实包括有效的唤醒词，此时，第一终端即可根据此验证结果，生成功能唤醒指令，以激活该唤醒词对应的功能。

通过以上技术方案，第一终端仅通过轻量模型计算单帧音频信号的置信度，而对音频信号的二次验证则借助外设的第二终端来完成，既节省了第一终端的能耗，同时也通过二次检验保证了对语音验证的准确性，另外，由于第二终端相对于第一终端运算能力更强、电量更充沛，则通过第二终端进行二次验证可有效降低二次验证带来的延迟，从而加快了语音唤醒的速度，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本发明的一个实施例的语音唤醒方法的流程图；

图2示出了根据本发明的另一个实施例的语音唤醒方法的流程图；

图3示出了根据本发明的再一个实施例的语音唤醒方法的流程图；

图4示出了根据本发明的一个实施例的语音唤醒装置的框图；

图5示出了根据本发明的另一个实施例的语音唤醒装置的框图；

图6示出了根据本发明的一个实施例的终端的框图；

图7示出了根据本发明的另一个实施例的终端的框图；

图8示出了根据本发明的一个实施例的语音唤醒系统的框图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了根据本发明的一个实施例的语音唤醒方法的流程图。

如图1所示，根据本发明的一个实施例的语音唤醒方法的流程包括：

步骤102，实时采集声音信号。

这里所述的声音信号为流式声音信号，也就是实时发生的声音信号，本技术方案用于使用实时语音对第一终端的功能进行唤醒的实际场景。

步骤104，提取所述声音信号的音频特征。

第一终端可实时采集声音信号，接着，对于采集到的声音信号，可逐帧提取音频特征，以通过该音频特征进行唤醒词验证。

具体来说，可提取单帧声音信号的fbank音频特征。fbank音频特征是将声音信号的特性以类似于人耳所识别内容的方式进行展现，为音频识别中惯用的属性，需被逐帧提取。因此，可将每10ms声音信号作为一帧，提取每帧声音信号的fbank音频特征，图1实施例中的下述声音信号均指的是单帧声音信号。

步骤106，将所述音频特征输入第一唤醒词验证模型。

也就是说，将所述单帧声音信号的所述fbank音频特征输入所述第一唤醒词验证模型。其中，第一唤醒词验证模型可为二分类模型，只验证一个唤醒词，也可为多分类模型，验证多个唤醒词。

步骤108，通过所述第一唤醒词验证模型输出第一置信度。

步骤110，基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端。

已缓存信号集合包括大量单帧声音信号，对已缓存信号集合进行一次性验证所消耗的电量和所产生的计算量均巨大，因此，为减少对第一终端的电量和系统资源的消耗，可将对已缓存信号集合进行一次性验证的步骤进行于第二终端中。

其中，在第一置信度处于第一指定阈值范围内时，确定对应的声音信号包括唤醒词，此时，即可将包括声音信号在内的已缓存信号集合发送至第二终端，从而在第二终端中，将已缓存信号集合的音频特征输入结构更复杂、验证准确性更高的第二唤醒词验证模型，并输出对应的第二置信度。

而基于所述第一置信度未处于所述第一指定阈值范围内的情况，确定对应的声音信号不包括唤醒词，未满足激活第二终端的条件，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的fbank音频特征。

另外，第一终端与第二终端的通信连接方式包括但不限于蓝牙连接方式、移动数据连接方式、nfc连接方式等，可以指定为前述若干种连接方式中的任一种，也可由第一终端根据实时工作场景在前述若干种连接方式中选择最合适的一种。

步骤112，接收所述第二终端对所述已缓存信号集合的验证结果。

步骤114，在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。

以上技术方案，针对相关技术中复杂模型耗电量多、唤醒延迟高等影响用户体验的技术问题，对于低电量的第一终端，可借助第二终端来完成第一终端的部分验证功能。其中，第一终端仅通过轻量模型计算单帧音频信号的置信度，而对音频信号的二次验证则借助外设的第二终端来完成，既节省了第一终端的能耗，同时也通过二次检验保证了对语音验证的准确性，另外，由于第二终端相对于第一终端运算能力更强、电量更充沛，则通过第二终端进行二次验证可有效降低二次验证带来的延迟，从而加快了语音唤醒的速度，提升了用户体验。

在图1实施例的基础上，还包括：根据所述第二终端的个体信息和/或预定唤醒词的长度，设置所述已缓存信号集合所处的缓冲区的大小；则所述语音唤醒方法还包括：基于所述缓冲区的全部存储空间被占用的情况，将所述缓冲区的所述已缓存信号集合发送至所述第二终端。

在本发明的一种实现方式中，已缓存信号集合统一存储在第一终端的缓冲区，缓冲区越大，缓冲区所能存储的已缓存信号集合越大，而缓冲区的已缓存信号集合则需要被第二终端一次性验证完毕，若缓冲区过大，其内部的已缓存信号集合过大，若其大小超出了第二终端的验证能力上限，则会造成较高延时。因此，可根据第二终端的验证能力来设置缓冲区大小，以使得缓冲区的大小与第二终端的验证能力相适应。而第二终端的验证能力则由第二终端的可用系统资源量、cpu运行速度等个体信息来决定。

在本发明的另一种实现方式中，缓冲区的大小还可由预定唤醒词的长度来决定。具体来说，预定唤醒词的长度越长，第二终端为了准确识别该唤醒词所需获取的已缓存信号集合就需要越大，由此来看，若缓冲区的大小不能容纳单个唤醒词，则第二终端很可能无法准确识别出该唤醒词，因此，缓冲区的大小关系到第二终端的验证准确性。

在本发明的再一种实现方式中，基于上述阐述内容，还可将第二终端的个体信息和预定唤醒词的长度作为设置缓冲区大小的联合条件。

另外，缓冲区的大小可选为能容纳指定数量的单帧声音信号，比如能容纳100帧的单帧声音信号，在单帧声音信号的长度为10ms时，缓冲区的大小即为100个10ms长度的单帧声音信号的大小。

图2示出了根据本发明的另一个实施例的语音唤醒方法的流程图。

如图2所示，根据本发明的另一个实施例的语音唤醒方法的流程包括：

步骤202，获取来自第一终端的已缓存信号集合。

已缓存信号集合统一存储在第一终端的缓冲区，而缓冲区的已缓存信号集合需要被第二终端一次性验证完毕。其中，第一终端与第二终端的通信连接方式包括但不限于蓝牙连接方式、移动数据连接方式、nfc连接方式等，可以指定为前述若干种连接方式中的任一种，也可由第一终端根据实时工作场景在前述若干种连接方式中选择最合适的一种。

步骤204，提取所述已缓存信号集合的音频特征。

具体来说，可提取已缓存信号集合中每个单帧声音信号的fbank音频特征。fbank音频特征是将声音信号的特性以类似于人耳所识别内容的方式进行展现，为音频识别中惯用的属性，需被逐帧提取。因此，可将每10ms声音信号作为一帧，提取每帧声音信号的fbank音频特征，而缓冲区的大小一般能容纳指定数量的单帧声音信号，比如能容纳100帧的单帧声音信号，在单帧声音信号的长度为10ms时，缓冲区的大小即为100个10ms长度的单帧声音信号的大小，也就是需要提取100个单帧声音信号的fbank音频特征。

步骤206，将所述音频特征输入第二唤醒词验证模型。

此前，若第一唤醒词验证模型为二分类模型，只验证一个唤醒词，在第一终端中该唤醒词的第一置信度处于第一指定阈值范围内的情况，需通过第二终端对该唤醒词的置信度进行进一步详细验证。而若第一唤醒词验证模型为多分类模型，验证多个唤醒词，在第一终端中多分类模型筛选出某一唤醒词的第一置信度处于第一指定阈值范围内的情况下，需通过第二终端对该唤醒词的置信度进行进一步详细验证。因此，无论如何第二唤醒词验证模型都是验证单个唤醒词的置信度，故第二唤醒词验证模型为二分类模型。

步骤208，通过所述第二唤醒词验证模型输出第二置信度。

唤醒词验证的过程通过神经网络模型来实现，其中，第二唤醒词验证模型相对于第一唤醒词验证模型来说，为较复杂的重量模型。第二置信度代表已缓存信号集合中出现唤醒词的可能性，若已缓存信号集合中包括唤醒词，则第二置信度往往较高，处于第二指定阈值范围内，若已缓存信号集合中的词是唤醒词以外的普通词，则第二置信度较低，未处于第二指定阈值范围内。其中，第二指定阈值范围可选为大于或等于第二指定阈值。

步骤210，验证所述第二置信度是否处于第二指定阈值范围内。

步骤212，将验证结果发送至所述第一终端，以供所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

图3示出了根据本发明的再一个实施例的语音唤醒方法的流程图。

如图3所示，根据本发明的再一个实施例的语音唤醒方法的流程包括：

步骤302，第一终端实时采集声音信号。

这里所述的声音信号为流式声音信号，也就是实时发生的声音信号，本技术方案用于使用实时语音对第一终端的功能进行唤醒的实际场景。

步骤304，第一终端提取所述声音信号的音频特征。

第一终端可实时采集声音信号，接着，对于采集到的声音信号，可逐帧提取音频特征，以通过该音频特征进行唤醒词验证。

步骤306，第一终端将所述音频特征输入第一唤醒词验证模型。

步骤308，第一终端通过所述第一唤醒词验证模型输出第一置信度。

步骤310，基于所述第一置信度处于第一指定阈值范围内的情况，第一终端将包括所述声音信号在内的已缓存信号集合发送至第二终端。

需要补充的是，在步骤310之前，还包括：将所述声音信号存储至第一终端的缓冲区的已缓存信号集合中。换句话说，无论第一置信度是否处于所述第一指定阈值范围内，均将其对应的声音信号在缓冲区进行留存，以保证发送至第二终端的已缓存信号集合为连续有效的声音信号，实现第二终端对已缓存信号集合的整体二次验证，不漏过任一单帧声音信号，从而提升了混唤醒词识别的准确性。

步骤312，第二终端提取所述已缓存信号集合的音频特征。

可提取已缓存信号集合中每个单帧声音信号的fbank音频特征。fbank音频特征是将声音信号的特性以类似于人耳所识别内容的方式进行展现，为音频识别中惯用的属性，需被逐帧提取。因此，可将每10ms声音信号作为一帧，提取每帧声音信号的fbank音频特征，而缓冲区的大小一般能容纳指定数量的单帧声音信号，比如能容纳100帧的单帧声音信号，在单帧声音信号的长度为10ms时，缓冲区的大小即为100个10ms长度的单帧声音信号的大小，也就是需要提取100个单帧声音信号的fbank音频特征。

步骤314，第二终端将所述已缓存信号集合的音频特征输入第二唤醒词验证模型。

步骤316，第二终端通过所述第二唤醒词验证模型输出第二置信度。

步骤318，第二终端验证所述第二置信度是否处于第二指定阈值范围内。

步骤320，第二终端将验证结果发送至第一终端。

步骤322，第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

在第二终端得出的验证结果为第二置信度未处于第二指定阈值范围内时，说明已缓存信号集合中不包括有效的唤醒词，第一终端即可根据此验证结果，返回提取下一帧音频信号的音频特征。而在第二终端得出的验证结果为第二置信度处于第二指定阈值范围内时，说明已缓存信号集合中确实包括有效的唤醒词，此时，第一终端即可根据此验证结果，生成功能唤醒指令，以激活该唤醒词对应的功能。

以上技术方案，既节省了第一终端的能耗，同时也通过二次检验保证了对语音验证的准确性，另外，由于第二终端相对于第一终端运算能力更强、电量更充沛，则通过第二终端进行二次验证可有效降低二次验证带来的延迟，从而加快了语音唤醒的速度，提升了用户体验。

图4示出了根据本发明的一个实施例的语音唤醒装置的框图。

如图4所示，根据本发明的一个实施例的语音唤醒装置400，用于第一终端，包括：声音信号采集单元402，用于实时采集声音信号；音频特征提取单元404，用于提取所述声音信号的音频特征；音频特征输入单元406，用于将所述音频特征输入第一唤醒词验证模型；模型验证单元408，用于通过所述第一唤醒词验证模型输出第一置信度；信号发送单元410，用于基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；验证结果接收单元412，用于接收所述第二终端对所述已缓存信号集合的验证结果；唤醒指令生成单元414，用于在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。

在本发明上述实施例中，可选地，所述音频特征提取单元404具体用于：提取单帧声音信号的fbank音频特征；所述音频特征输入单元406具体用于：将所述单帧声音信号的所述fbank音频特征输入所述第一唤醒词验证模型；所述语音唤醒装置400还用于：基于所述第一置信度未处于所述第一指定阈值范围内的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的fbank音频特征。

在本发明上述实施例中，可选地，还包括：缓冲区设置单元，用于根据所述第二终端的个体信息和/或预定唤醒词的长度，设置所述已缓存信号集合所处的缓冲区的大小；所述信号发送单元410还用于：基于所述缓冲区的全部存储空间被占用的情况，将所述缓冲区的所述已缓存信号集合发送至所述第二终端。

该语音唤醒装置400使用图1示出的实施例中任一项所述的方案，因此，具有上述所有技术效果，在此不再赘述。

图5示出了根据本发明的另一个实施例的语音唤醒装置的框图。

如图5所示，根据本发明的另一个实施例的语音唤醒装置500用于第二终端，包括：信号获取单元502，用于获取来自第一终端的已缓存信号集合；音频特征提取单元504，用于提取所述已缓存信号集合的音频特征；音频特征输入单元506，用于将所述音频特征输入第二唤醒词验证模型；模型验证单元508，用于通过所述第二唤醒词验证模型输出第二置信度；置信度大小验证单元510，用于验证所述第二置信度是否处于第二指定阈值范围内；验证结果发送单元512，用于将验证结果发送至所述第一终端，以供所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

该语音唤醒装置500使用图2示出的实施例中任一项所述的方案，因此，具有上述所有技术效果，在此不再赘述。

图6示出了根据本发明的一个实施例的终端的框图。

如图6所示，本发明的一个实施例的终端600，包括至少一个存储器602；以及，与所述至少一个存储器602通信连接的处理器604；其中，所述存储器存储有可被所述至少一个处理器604执行的指令，所述指令被设置为用于执行上述图1实施例中任一项所述的方案。因此，该终端600具有和图1实施例中任一项相同的技术效果，在此不再赘述。

图7示出了根据本发明的另一个实施例的终端的框图。

如图7所示，本发明的一个实施例的终端700，包括至少一个存储器702；以及，与所述至少一个存储器702通信连接的处理器704；其中，所述存储器存储有可被所述至少一个处理器704执行的指令，所述指令被设置为用于执行上述图2实施例中任一项所述的方案。因此，该终端700具有和图2实施例中任一项相同的技术效果，在此不再赘述。

图8示出了根据本发明的一个实施例的语音唤醒系统的框图。

如图8所示，本发明的一个实施例的语音唤醒系统800，包括至少一个存储器802；以及，与所述至少一个存储器802通信连接的处理器804；其中，所述存储器存储有可被所述至少一个处理器804执行的指令，所述指令被设置为用于执行上述图1至图3实施例中任一项所述的方案。因此，该语音唤醒系统800具有和图1至图3实施例中任一项相同的技术效果，在此不再赘述。

本发明图6至图8实施例的终端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

另外，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述图1至图3实施例中任一项所述的方法流程。

以上结合附图详细说明了本发明的技术方案，通过本发明的技术方案，既节省了第一终端的能耗，同时也通过二次检验保证了对语音验证的准确性，另外，由于第二终端相对于第一终端运算能力更强、电量更充沛，则通过第二终端进行二次验证可有效降低二次验证带来的延迟，从而加快了语音唤醒的速度，提升了用户体验。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

技术特征：

1.一种语音唤醒方法，用于第一终端，其特征在于，包括：

实时采集声音信号；

提取所述声音信号的音频特征；

将所述音频特征输入第一唤醒词验证模型；

通过所述第一唤醒词验证模型输出第一置信度；

基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；

接收所述第二终端对所述已缓存信号集合的验证结果；

在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。

2.根据权利要求1所述的语音唤醒方法，其特征在于，所述提取所述声音信号的音频特征的步骤，具体包括：

提取单帧声音信号的fbank音频特征；

所述将所述音频特征输入第一唤醒词验证模型的步骤，具体包括：

将所述单帧声音信号的所述fbank音频特征输入所述第一唤醒词验证模型；

则所述语音唤醒方法还包括：

基于所述第一置信度未处于所述第一指定阈值范围内的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的fbank音频特征。

3.根据权利要求2所述的语音唤醒方法，其特征在于，还包括：

根据所述第二终端的个体信息和/或预定唤醒词的长度，设置所述已缓存信号集合所处的缓冲区的大小；

则所述语音唤醒方法还包括：

基于所述缓冲区的全部存储空间被占用的情况，将所述缓冲区的所述已缓存信号集合发送至所述第二终端。

4.一种语音唤醒方法，用于第二终端，其特征在于，包括：

获取来自第一终端的已缓存信号集合；

提取所述已缓存信号集合的音频特征；

将所述音频特征输入第二唤醒词验证模型；

通过所述第二唤醒词验证模型输出第二置信度；

验证所述第二置信度是否处于第二指定阈值范围内；

将验证结果发送至所述第一终端，以供所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

5.一种语音唤醒方法，用于语音唤醒系统，其特征在于，所述语音唤醒系统包括第一终端和第二终端，则所述语音唤醒方法包括：

所述第一终端实时采集声音信号；

所述第一终端提取所述声音信号的音频特征；

所述第一终端将所述音频特征输入第一唤醒词验证模型；

所述第一终端通过所述第一唤醒词验证模型输出第一置信度；

基于所述第一置信度处于第一指定阈值范围内的情况，所述第一终端将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；

所述第二终端提取所述已缓存信号集合的音频特征；

所述第二终端将所述已缓存信号集合的音频特征输入第二唤醒词验证模型；

所述第二终端通过所述第二唤醒词验证模型输出第二置信度；

所述第二终端验证所述第二置信度是否处于第二指定阈值范围内；

所述第二终端将验证结果发送至所述第一终端；

所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

6.一种语音唤醒装置，用于第一终端，其特征在于，包括：

声音信号采集单元，用于实时采集声音信号；

音频特征提取单元，用于提取所述声音信号的音频特征；

音频特征输入单元，用于将所述音频特征输入第一唤醒词验证模型；

模型验证单元，用于通过所述第一唤醒词验证模型输出第一置信度；

信号发送单元，用于基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；

验证结果接收单元，用于接收所述第二终端对所述已缓存信号集合的验证结果；

唤醒指令生成单元，用于在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。

7.一种语音唤醒装置，用于第二终端，其特征在于，包括：

信号获取单元，用于获取来自第一终端的已缓存信号集合；

音频特征提取单元，用于提取所述已缓存信号集合的音频特征；

音频特征输入单元，用于将所述音频特征输入第二唤醒词验证模型；

模型验证单元，用于通过所述第二唤醒词验证模型输出第二置信度；

置信度大小验证单元，用于验证所述第二置信度是否处于第二指定阈值范围内；

验证结果发送单元，用于将验证结果发送至所述第一终端，以供所述第一终端基于所述验证结果为所述第二置信度处于所述第二指定阈值范围内的情况，生成对应的功能唤醒指令。

8.一种终端，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述权利要求1至3中任一项所述的方法。

9.一种终端，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述权利要求4所述的方法。

10.一种语音唤醒系统，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述权利要求1至5中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至5中任一项所述的方法流程。

技术总结

本发明公开了一种语音唤醒方法、装置及系统、终端和计算机可读存储介质，该方法包括：实时采集声音信号；提取所述声音信号的音频特征；将所述音频特征输入第一唤醒词验证模型；通过所述第一唤醒词验证模型输出第一置信度；基于所述第一置信度处于第一指定阈值范围内的情况，将包括所述声音信号在内的已缓存信号集合发送至所述第二终端；接收所述第二终端对所述已缓存信号集合的验证结果；在所述验证结果为所述已缓存信号集合对应的第二置信度处于第二指定阈值范围内时，生成对应的功能唤醒指令。通过本发明的技术方案，既节省了第一终端的能耗，同时也通过二次检验保证了对语音验证的准确性，加快了语音唤醒的速度，提升了用户体验。

技术研发人员：崔凡;李深;雷欣;李志飞

受保护的技术使用者：出门问问信息科技有限公司

技术研发日：.10.12

技术公布日：.01.21

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。