您当前的位置：首页 > 教学资源 > 教学设计 > 内容

基于FPGA,的声纹识别系统设计

材料写作网时间: 2023-02-17 15:05:08 阅读:次

贾子龙潘士杰郭子昊唐进姚燕

(北京邮电大学自动化学院，北京 100876)

随着科技的发展，人工智能技术的广泛应用，智能语音系统已广泛融入到人们生活中，智能对话，通过语音控制设备完成指定的工作等应用随处可见。声音作为人与人之间最自然的交流媒介，其中包含着大量不同种类的信息。因此，语音学目前有三大主要的研究领域，包括声纹识别、语音识别和情感识别[1]。声纹识别是通过对一种或多种语音信号的特征进行分析进而实现对输入信号的识别，这种特性对于每个人来说都是独有的，就如同指纹一样，每个个体之间普遍具有差异性，主要取决于人体咽喉、鼻腔和口腔等器官的形状、尺寸和位置等因素以及人们对发声器官的操纵方式。目前针对声纹识别最常用的一些方法为模板匹配法、最近邻方法、神经元网络方法，VQ 聚类法等[2]。其基本原理大致均为通过提取说话人声音频谱，经处理后提取一些特征参数再与目标声纹的参数进行比对检测。声纹识别同样属于一类模式识别问题，伴随着人工智能的发展，也逐渐朝着深度学习的方向不断发展，基于深度学习的声纹识别，经过大量数据训练后得到的模型，其识别效果有着显著的提升。文献[3]提出了一种深度置信网络(Deep Belief Network，DBN)和深度神经网络(Deep Neural Network，DNN)的自适应通用模型，利用i-Vector 构建全局通用DBN 模型。徐志京等人[4]设计了一种加权全序列的卷积神经网络(Weighted Deep Fully Convolutional Neural Network，W-DFCNN)，可以更好地适应高频梅尔倒谱小波系数(High Mel Frequency Cepstrum Wavelet Coefficient，HMFCWC)特征。李晋等人[5]提出了一种利用全变量空间，将语音数据进行线性降维后，对声纹模型向量i-vector 进行信道补偿的方法。

CNN 作为机器学习领域常用技术，广泛地应用在目标识别等方面，对于经常用于检测的模型，为了提高检测效果，往往都有巨大的参数量，也就需要庞大的算力支持[6-7]。CPU 为计算单元少，缓存单元多的结构，处理CNN 时速度较慢。GPU 虽然拥有大量的计算单元，可以有效加速CNN 计算，但其同时也有功耗高，成本高，不便携的缺点。利用软件实现声纹识别，虽然具有较高的灵活性和可操作性，具有更多的资源，可构建更为复杂的网络，但缺乏合适的硬件通路，使其在高效性及低功耗性上无法做到统一。

利用FPGA 根据对应算法设计加速网络结构，可以非常有效地加速CNN 的运算，能效...

== 试读已结束，如需继续阅读敬请充值会员 ==

本站文章均为原创投稿，仅供下载参考，付费用户可查看完整且有格式内容！
(费用标准：38元/2月，98元/2年，微信支付秒开通！)