日常生活中,我们越来越离不开手机支付。
目前两款知名移动支付应用推出了声纹识别身份验证功能,给用户带来方便,但令人意外的是,这两款应用都可以通过录音验证,这也存在被盗用的风险。
深圳市声扬科技有限公司的一款防录音攻击软件,能够甄别出真人发音和录音语音,拒绝录音验证通过,对诈骗say no。
声扬科技是深圳一家初创人工智能公司,带着浓厚的香港科研元素,依靠技术优势,意在成为声纹识别界的生力军。
科学研究发现,每一个人的声纹具有独特性,使得声纹可以像人脸、指纹那样作为生物信息识别技术,辅助甚至替代传统的数字符号密码,在金融等个人信息需要加密的领域发挥重要的作用。
那么,声纹识别具体是什么?它安全吗?它的市场价值在哪里?有多大?记者日前采访了该公司的联合创始人、CEO李亚桐,体验了该公司的“黑科技”,也了解这个行业的发展现状和未来。
创始公司由香港组团、在深圳扎根
深大站C出口旁边的科技园区,每天半夜都会灯光不熄,这里聚集着很多满怀理想的初创公司。
深圳市声扬科技有限公司就是其中一家。这家公司只有20来人,团队成员多出自哥伦比亚大学、香港科技大学、香港中文大学、中国科学技术大学、复旦大学等国内外一流院校;其中联合创始人、CTO陈东鹏获深圳市孔雀人才。
创业伊始,团队用积蓄垫开支紧张度日,员工工资成最大投入。经过一番摸索,公司锁定市场最有潜力的声纹识别技术。好在公司发展势头不错。去年底,声扬科技完成天使轮融资,即将完成Pre- A轮融资。
像很多人工智能公司一样,AI人才稀缺,语音行业AI人才更少。为此,声扬科技正在组建香港AI语音研究院,与港科大、港中大、港理大建立紧密联系,招引当地科研人才加盟。
声扬科技并不是声纹识别领域的第一家公司。目前网络可查的声纹识别初创公司,还有多家,更不用提苹果、微软、百度、科大讯飞等知名巨头。然而,在技术的研发和产品的商用上,声扬科技展现出其超过初创公司的成熟。
通过对AI语音领域核心算法的研发,声扬科技在声纹识别、语音识别、语音信号处理等方面拥有突破性的知识产权逾20项,创造性地将人工智能、生物识别等科技与复杂应用场景进行了深度融合,领先的声纹识别算法在超短语音、跨信道、嘈杂环境下依然具有稳定的高准确性——声纹识别准确率高达99.5%以上,验证安全性提高100倍以上。
联合创始人、CEO李亚桐也强调,创业成功离不开人才、产业结构、资金、政策等几个关键要素。
“深港两地产学研融合,具有良好前景。”李亚桐认为,香港有学术和资金优势,深圳优势在于有人才和产业基础,科技产业力量更好。“我们要抓住机遇充分利用两地资源优势,加速发展。”
本月初,声扬科技作为孵化企业入驻香港中文大学深圳研究院众创中心。
初创公司的5项“黑科技”领先功能
声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点;而声纹识别(Voiceprint Recognize),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术。
关于语音的现阶段普遍应用,除了声纹识别,还有语音识别和语音合成,这三者是有区别的。
语音识别的目的是识别语音的内容,并以电脑自动将其转换为相应的文字;声纹识别的目的是识别说话人的身份,处于生物识别和人工智能的交叉领域;语音合成则是用人工方式产生人类语音。
相比起步得较早、商用较广的语音识别,目前声纹识别的大规模应用正在加速跑,但是首先要解决最现实的难题:信道影响(比如手机麦克风影响)和噪音影响。
李亚桐介绍,声扬科技除了研发出上述的防录音攻击技术,还攻克了4大难点:1、短语音的识别;2、文本无关识别;3、跨信道识别;4、环境噪音影响。
首先是短语音的识别能力。
声纹识别包含注册和测试。比如给张三做声纹识别前,要先录入张三的数段声音(其中信息用来提取特征参数)来通过模型训练算法为张三建立语音模型。等测试时,就以待测试语音样本与其模型进行匹配。可是,传统的声纹识别注册、验证的时间大多在数十秒以上,或者牺牲准确率、安全性缩短用时。依托首创的语音深度处理神经网络技术(DPNN和DHNN),声扬科技的声纹识别技术只需要一句短语就可以验证。经测试,声扬科技拥有行业领先的识别准确率达99.5%。
其次是无关文本的识别技能。
“以前声纹识别只能做固定文本识别,比如上次注册时说‘1234’,下次验证也只能识别‘1234’。”李亚桐称,文本无关识别可以实现说话内容不同也可以识别,真正体现了声纹识别无感交互的实用优势。
而在跨信道识别能力方面,如果各种传播媒介介质不同,会严重影响声纹的识别、验证。各款手机的麦克风软硬件系统的处理原理不同、声音各异,但是声扬科技可以兼容识别。
生活噪音净化能力同样重要。过去声纹识别技术需要提供较为安静的外在环境,现在声扬科技可以在噪音较大的车载环境、商场环境等完成识别。
金融、物联网、政企服务领域率先商用
一组研究数据显示,在生物识别技术“大家族”,有掌纹、人脸、指纹、虹膜、视网膜、静脉等识别类型,从易用性、准确率、成本、用户接受度等角度比较,声纹识别是应用相对较慢但潜力更大的行业。
根据《2015-2020年全球和中国语音识别行业报告》,2015年,中国智能语音市场规模是46.8亿元, 2020年市场规模将翻5倍,达到251.4亿元。
业内人士介绍,声纹识别技术目前应用较慢的重要原因,除了语料库(声纹数据)的规模还在起步阶段以外,更重要在于技术门槛——如何用业界前沿的技术研发出可以应用于现实场景的深度算法,并让算法完成自训练,具有快速“复制”并“根植”其它类似场景的能力。
李亚桐认为,声扬科技研发出的短语音识别、无关文本识别、跨信道识别、环境噪音净化、防录音攻击等性能,正在打开声纹识别和智能语音的全新商用局面;以其随机文本识别技术与防录音攻击技术结合为例,它们为声纹识别的落地上了多重保险。
今年5月,声扬科技为印尼国家公务员保险储蓄基金公司(TASPEN)提供的声纹识别解决方案,覆盖当地250万离退休人员,成为国际上将声纹识别技术应用于国家级社保项目的首例。
得益于99.5%以上的声纹识别准确率,声扬科技的技术方案让印尼老人可以在线上选择声纹识别直接成功认证,不用长途舟车劳顿现场认领。
李亚桐介绍,居民只要提前线上注册,通过手机麦克风录制一段音频,在养老金远程申领时认读随机的数字,声扬科技就可以根据声纹比对判断是否是其本人。
另外,日前,声扬科技还与墨西哥国家抵押贷款银行达成合作,其声纹识别技术将为墨西哥国家抵押贷款银行在社保、抵押、按揭贷款等金融综合服务项目上提供身份认证服务。这是美洲国家金融机构首次在全国范围采用声纹识别技术,项目第一期将覆盖当地上百万用户。
据悉,未来,声扬科技主要发力方向为金融、物联网和政企服务。
近日,央行发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准,这意味着声纹识别技术得到金融监管部门的认可。这也为声纹识别技术进入移动金融领域解决了标准难题。
李亚桐认为,以后对人的身份认定已经将从手机、ID号码等人的附属信息逐渐转移到人自身,而在这种变革中,声纹扮演着人人、人机交互最自然、最便捷的角色。然而,以往人们或牺牲便捷保证信息安全,或让渡安全保障获得便利,声扬科技要做的,就是用声纹识别这样的人工智能“黑科技”“寻找安全和便捷的黄金比例,解决身份识别难题。
在他看来,“声纹+其它生物识别”的多重识别组合拳将成为应用主流。“在未来移动金融消费服务等场景中,人们不需要回答各类很难记住的安全提示问题,只要直接说一句话就可以完成身份验证。这样的未来正在到来。”李亚桐说。
【记者】李荣华