电子商务电子支付国家工程实验室发布声

作者|电子商务与电子支付国家工程实验室

在“无处不账户、无处不密码”的时代,人们常常因为遗忘或丢失密码而感到烦恼,生物特征识别技术的出现无疑带来了更便捷、高效的服务方式。常见的生物特征有:指纹、掌纹、人脸、虹膜、视网膜、声纹、签名等;其中语音作为人与人之间沟通交流的最直接与方便的手段,声纹识别技术自然而然受到大家的喜爱和追捧。声纹识别可以应用的范围很宽,可以说声纹识别几乎可以应用到人们日常生活的各个角落。

声纹识别技术在金融机构的应用最为广泛,而且使用热度在不断增加,在该技术正式用于线上金融系统前,都会组织评测对声纹识别系统的各项性能指标进行测试。

但是目前声纹识别在金融支付领域的应用缺乏统一的评测标准,在其应用过程中没有参考指南。各家标准不一,没有权威的业界统一认可的评测库和评测标准,给声纹技术在金融领域的普及推广带来很大的障碍。鉴于金融行业的特殊性和重要性,中国银联电子商务与电子支付国家工程实验室与清华大学信息技术研究院语音和语言技术中心、中国建设银行、北京得意音通技术有限责任公司等机构共同开展合作,对声纹评测展开了一系列的研究,初步建立了评测体系,评测指标,评测库和评测工具。基于相关研究,我们总结了关键评测指标、评测形式,搭建了评测系统,介绍了评测系统的总体架构、模块详细设计,并形成金融领域声纹识别评测指南。

1评测指标

本章主要对标准化测试中涉及的评测指标进行解释说明,主要描述内容为指标的定义、计算公式或统计方法及其对声纹识别系统的参考意义;这些指标定义符合安防生物特征识别术语。在不同的测试项目中会根据需要计算本章定义的有关指标。

1.1错误接受率

错误接受率(FalseAcceptanceRate,FAR)是指将来自假冒者的测试样本误认作目标人的比率,可通过如下公式计算得到:

对于不同的被评测系统,在其它指标固定的情况下,错误接受率越小,说明系统被假冒者闯入的风险越小,即系统的安全性越高。

1.2错误拒绝率

错误拒绝率(FalseRejectionRate,FRR)是指将来自目标人的测试样本误认作假冒者拒绝的比率,可通过如下公式计算得到:

对于不同的被评测系统,在其它指标固定的情况下,错误拒绝率越小,说明目标人在使用过程中越容易被系统认证通过,即系统的用户体验越好。

1.3等错误率和检测错误权衡曲线

错误接受率和错误拒绝率只能评价系统在安全性或用户体验某一方面的性能。对于同一系统,随着系统参数的调整,错误接受率和错误拒绝率呈此消彼长的关系,形成一条性能变化曲线,称为检测错误权衡(DetectionErrorTradeoff,DET)曲线。DET曲线整体越倾向于原点表示系统整体性能越好。

等错误率(EqualErrorRate,EER)就是这条变化曲线上错误接受率和错误拒绝率相等的点所对应的错误率,是一种同时评价声纹识别系统安全性和用户体验的综合性指标。等错误率的数值越低,系统的综合性能越好。

1.4平均注册时间

注册时间是指声纹识别引擎进行一次注册操作所消耗的时间,一次注册的用时以注册接口调用到接口返回的时间为准。

平均注册时间(AverageTrainingTime,ATT)代表系统进行一次声纹注册的平均耗时,用如下公式计算:

对于不同的系统,在其它指标固定的情况下,平均注册时间越小,说明系统的声纹注册效率越高,在相同的软硬件配置条件下,单位时间内声纹注册业务能达到更大的吞吐量。该指标越小越好。

1.5平均确认时间

确认时间是指声纹识别进行一次确认操作所消耗的时间,一次确认的用时以确认接口调用到接口返回的时间为准。

平均确认时间(AverageVerificationTime,AVT)代表系统进行一次声纹确认的平均耗时,用如下公式计算:

对于不同的系统,在其它指标固定的情况下,平均确认时间越小,说明系统的声纹确认效率越高,在相同的软硬件配置条件下,单位时间内声纹确认业务能达到更大的吞吐量。该指标越小越好。

1.6声纹注册完成率

声纹注册完成率(TrainingSuccessRate,TSR)为系统声纹注册业务按照预期正常执行的比率,可用如下公式计算,该指标越大越好。

1.7声纹确认完成率

声纹确认完成率(VerificationSuccessRate,VSR)为系统声纹确认业务按照预期正常执行的比率,可用如下公式计算,该指标越大越好。

2评测形式

在测试中建议使用的所有测试数据是PCM无压缩编码、单声道、精度为16位、去除了零点漂移的数字语音,语音数据的采样率通过声纹初始化接口中传入。

2.1基准达标测试

基准达标测试数据,用于声纹建模语音和测试语音的录音环境差异不大(例如,信道相同)、内容相仿、录制的时间间隔较短、说话人情绪状态和生理状态等无显著变化。

建模语音和测试语音中包括若干人,每人都有若干条语音;待测系统在该测试数据集上的测试结果,可以用来快速评判待测系统的基本性能是否达到初步可用的程度。

2.2鲁棒性测试

声纹除存在个体差异外,个体的生理特征和使用环境的变化也会对其特性造成一定影响;声纹识别系统在各种条件下的鲁棒性是在实际应用中必须考虑的。

本节主要对测试各项鲁棒性的进行说明。

2.2.1环境鲁棒性测试

为了测试声纹识别系统的环境噪音鲁棒性,环境噪音鲁棒性测试应包含不同噪音环境下的语音,包括室内和室外,常见的噪音环境有:车站、网吧、地铁站等,在每个环境下又分20分贝、20-50分贝等不同噪音等级,每种情况下都有若干人,每人都有若干条语音。

2.2.2信道鲁棒性测试

为了测试声纹识别系统的信道鲁棒性,评测的信道鲁棒性测试数据中包含来自不同录音设备的语音,常见的录音设备有:麦克风、手机、电脑等,在这些大类中,可以进一步细化为具体设备型号,如在手机类中就有多种类型的手机,如:iPhone、华为手机、小米手机等。每个设备都收集若干人数据,每个人都有若干条语音。

2.2.3内容鲁棒性测试

为了测试声纹识别系统的语音内容鲁棒性,语音内容鲁棒性测试数据中包含若干人的若干条测试语音,其语音内容可能为:数字串、姓名、口头禅、新闻等。

2.2.4时间鲁棒性测试

个体的生理特征随着年龄的缓慢增长会有微小的变化,这种变化通过长时的积累,会对个体的发音有特点有影响,进而影响声纹识别系统的识别性能。为了测试声纹识别系统的时变鲁棒性,时变鲁棒性测试包含若干人的若干条测试语音,这些测试语音分别间隔3个月、6个月、12个月等。

2.2.5表达方式鲁棒性测试

说话人的表达方式对声纹识别的性能也有影响,为了测试声纹识别系统的表达方式鲁棒性,表达方式鲁棒性测试包含若干人的若干条测试语音,这些语音中包含有情感的变化、语速的变化、音量的变化、朗读和聊天的区别等。

2.2.6假冒攻击防范能力测试

声纹识别系统在用声音进行身份认证的过程中,应正确鉴别声音的用户身份,能够拒绝假冒的验证信息,因此需要对声纹识别系统对各类假冒攻击的防范能力进行测试。

2.2.6.1波形拼接闯入测试

攻击者将目标说话人的语音录制下来,通过波形编辑工具,拼接出指定内容的语音数据,以放音的方式假冒目标说话人,试图以目标人身份通过声纹识别系统的认证。

建议包含通过拼接得到的测试语音,以测试声纹识别系统的拼接闯入防范能力;这些语音中的每个拼接合成的假冒说话人都包含了一定数量的拼接语音。

2.2.6.2录音重放闯入测试

攻击者录制目标说话人的语音进行播放,以目标人身份试图通过声纹识别系统的认证。

建议包含以高保真设备录制并再播放录音的测试语音,以测试声纹识别系统的录音闯入的防范能力;这些语音中包含了若干人的若干条播放语音。

2.2.6.3语音合成闯入测试

攻击者用语音合成技术生成目标说话人的语音,以放音的方式假冒目标说话人,试图以目标人的身份通过声纹识别系统的认证,

建议包含通过语音合成技术生成以高保真设备播放的测试语音,以测试声纹识别系统的语音合成闯入的防范能力;这些语音中包含了若干人的若干条合成语音。

2.2.6.4语音转换闯入测试

攻击者用语音转换技术得到目标说话人的语音,以放音的方式假冒目标说话人,试图以目标说话人的身份通过声纹识别系统进行的认证,

测评数据集建议包含通过语音转换技术生成以高保真设备播放的测试语音,以测试声纹识别系统的语音转换闯入的防范能力;这些语音中包含了若干人的若干条使用语音转换技术得到的语音。

2.2.6.5语音模仿闯入测试

攻击者通过模仿目标说话人,试图以目标说话人的身份通过声纹识别系统的认证。

测评数据建议包含模仿能力较强的模仿人模仿其他说话人的测试语音,以测试声纹识别系统的模仿闯入的防范能力;这些语音中包含了若干人的若干条模仿的语音。

2.3群体普适性测试

群体是具有某种(些)共同特征的不同个体组成的集合。不同群体之间存在某些特征的差异,声音上的差异就是其中之一,这种差异会影响声纹识别系统的普适性。为了测试声纹识别系统在不同群体上的普适性,建议准备了一批具有不同群体特征的语音数据,该数据包含了以性别、年龄、地域划分的不同群体。以不同标准划分出来的小群体测试集中都包含了符合该群体条件的若干人的若干条语音。

3评测系统架构

声纹识别评测系统的整体架构如图1所示,其中虚线框内的范围为声纹识别平台。整个平台主要包含四个主要模块和声纹数据库。模块包括用户交互模块、批量测试模块和统计分析模块。用户交互模块前台界面,返回结果;预处理模块主要负责测试项目统计、测试项目相应测试数据的准备及相应测试列表的生成;批量测试模块功能是根据预处理模块生成的测试列表进行批量注册、测试,将每个测试用例的注册、测试结果输出到相应日志;统计分析模块主要包含两个功能,首先统计批量测试生成的日志计算出相应指标值,其次将这些指标值生成相应评测项目的评测结果文件。

用户在系统交互界面选择评测系统,提交选择内容至评测系统。平台通过接口适配模块访问待评测声纹识别系统,获取识别能力。当评测系统完成评测工作后,返回评测结果。

图1:系统架构设计图

4各子模块具体设计

4.1用户交互模块

根据受评方提交的评测项目表,向系统输入测试项目。

评测项目及编号如下表所示:

表1评测项目及编号

测试工具将在程序开始时统计(要求输入)需要评测的项目。

4.2预处理模块

4.2.1统计评测项目

系统根据用户输入,整理形成测试项目集合。

4.2.2准备数据生成测试列表

由于数据库的相关工作还没完成,所以准备数据相关步骤暂不设计。

程序根据第一步输入的评测项目结合评测库中的语音文件信息生成相应的测试列表。

4.3批量测试模块

受评方提供包含以下接口的动态库(xxx.so)。

动态库中包含四个接口实现:声纹初始化接口、声纹注册接口、声纹确认接口、声纹逆初始化接口;以下对这四个接口进行定义及相关说明

4.3.1声纹初始化接口

接口原型:intVPRInitialize(intSampleRate);

功能说明:按传入的语音采样率和系统默认配置进行初始化;

参数定义:

SampleRate:语音数据采样率;

返回值:

1:初始化成功;

0:初始化失败。

4.3.2声纹注册接口

接口原型:intVPREnrollment(short*pWavBuf,intnWavLen,intSpeakerId);

功能说明:对pWavBuf输入的语音流进行声纹注册,生成SpeakerId对应说话人的声纹模型;

参数定义:

pWavBuf:声纹注册语音流指针;

nWavLen:声纹注册语音流长度;

SpeakerId:声纹注册语音对应的说话人编号;

返回值:

1:建模成功;

0:建模失败。

4.3.3声纹确认接口

接口原型:intVPRVerification(short*pWavBuf,intnWavLen,intSpeakerId,float*Score);

功能说明:将pWavBuf输入的语音流在SpeakerId对应说话人声纹模型上进行声纹确认,并计算出识别得分保存在Score参数中;

参数定义:

pWavBuf:声纹确认语音流指针;

nWavLen:声纹确认语音流长度;

SpeakerId:说话人编号;

Score:声纹确认得分;

返回值:

1:确认成功;

0:确认失败。

4.3.4声纹逆初始化接口

接口原型:intVPRUninitialize();

功能说明:逆初始化,释放系统资源。

参数定义:

无。

返回值:

1:逆初始化成功;

0:逆初始化失败。

5总结

声纹作为生物特征的重要组成部分之一,中国银联电子商务与电子支付国家工程实验室联合相关单位共同对声纹的评测开展了相关研究,未来在实践过程中,实验室和相关合作单位将持续开展合作,不断优化和完善声纹评测的相关工作,并扩展到更多的生物特征,为提升用户交易体验和安全提供保障。

联系我们

电子商务与电子支付国家工程实验室

生物特征研究团队

中国银联电子商务与电子支付国家工程实验室生物特征研究团队致力于金融行业生物特征技术的评测、研究与开发应用工作,欢迎产学研相关单位与我们联系,进行相关研究与应用的交流合作。

联系人

邱雪涛

-

万四爽

-

余玮琦

-

刘想

-

电子商务电子支付国家工程实验室

ID:gjgcsys

长按







































中科白癜风寒假感恩回馈
春季白癜风怎么预防



转载请注明地址:http://www.spdkr.com/smhytd/34864.html
  • 上一篇文章:
  • 下一篇文章: