描述
“Hey NXP”、”哈啰恩智浦”……一声又一声的问候在宁静的办公室里格外惹人注目,原来是恩智浦公司又一呕心沥血的得意新作——智能语音技术(VIT)。
智能语音技术(Voice Intelligent Technology – VIT)基于最先进的深度学习和语音识别技术,是一款完整的唤醒词/语音命令解决方案。
VIT在MCUXpresso SDK中支持的恩智浦设备上免费提供,目前已经可以支持英语,而中文、土耳其语、西班牙语等其他语言也正如火如荼地开发测试当中。
VIT功能包括
唤醒词引擎(Wake Word Engine - WWE):它使用了训练所需要并且已记录的触发词文件。
在训练阶段使用数据增强技术来整合数据集中的可变性。
利用神经网络分类器来确定提取的音素序列是否与目标关键字对应。
不需要音频数据集的语音命令引擎(Voice Commands Engine - VCE)。
目标语音命令在脱机过程中被转换为单词符号序列,VCE在运行时确定提取的音素序列是否对应于特定的单词符号序列以及命令。
一个模型可以支持从大量词汇当中所挑选的30个语音命令。
简而言之VIT可以
通过Text2Model工具创建的自定义命令
自定义触发字选项
低延迟检测(<200ms)
VIT现已经支持的平台有
i.MX RT600系列:Cortex-M33内核,HiFi4 DSP协处理器,评估板为MIMXRT685-EVK
i.MX RT1060系列:Cortex-M7内核,评估板为MIMXRT1060-EVK
VIT可以利用语音服务来唤醒并控制物联网装置或家用设备。目前的VIT版本可以支持唤醒词以及利用Text2Model工具所产生的语音命令,如下图所示↓↓↓
唤醒词模型是从关键词档案数据库所创建,而语音命令模型则是由Text2Model工具所产生。目前SDK中所内建的VIT函式库可以侦测 “Hey NXP” 关键词以及12个在VIT_Voice_Commands.h当中所预设的语音命令。
这次VIT的发布包含了以下的部分:
Lib/libVIT_PLATFORM_VERSION.a :平台可以选HIFI4或Cortex-M7
Lib/VIT.h :描述VIT公用的API库
Lib/VIT_Model.h :VIT模型档案包含了唤醒词和语音命令的描述
VIT_Voice_Commands.h :列举VIT函式库所支持的语音命令
Lib/Inc :涵盖VIT公用接口定义的文件夹
ExApp/VIT_ExApp.c :VIT范例
VIT提供丰富API以供使用者操作:
VIT_SetModel:储存VIT模块的地址,并确认此模块是否能被VIT函式库所支持
VIT_GetMemoryTable:通知软件应用程序VIT函式所需要的内存。共定义四种不同的内存区块,Fast data / Slow data / fast coefficient /Temporary or scratch
VIT_GetInstanceHandle:设置并初始化VIT,所有的内存都被映像到子模块所需的缓冲区
VIT_SetControlParameters:设置或修改VIT的控制参数
VIT_Process:分析音频以辨识是唤醒词或语音命令
VIT_GetVoiceCommandFound:VIT读取命令编号与名称
VIT_GetModelInfo:辅助API,用来取得VIT模块的讯息
VIT_ResetInstance:辅助API,用来重置VIT模块
VIT_GetControlParameters:辅助API,用来取得VIT的控制参数
VIT_GetStatusParameters:辅助API,用来取得VIT的状态参数
以下为简单的API调用流程↓↓↓
原文标题:免费提供!VIT智能语音技术:恩智浦深度学习应用又一得意之作!
文章出处:【微信公众号:NXP客栈】欢迎添加关注!文章转载请注明出处。