南都讯 见习记者李飞 "苏州当地能够用苏州话交流的6-15岁的青少年只占14%,且并不能熟练使用",在近日举行的“方保文化沙龙•暨AI苏州方言保护计划启动仪式”上,苏州职业大学吴文化研究院副院长、苏州方言教育与研究中心主任陈璇直言。
而南都记者了解到,科大讯飞此次发布的苏州话识别系统的准确率可达70%。
科大讯飞“讯飞输入法”业务线副总经理李强军。使用苏州话交流当地青少年不足两成 方言保护形势严峻
据科大讯飞多语种高级研究员祖漪清介绍,语言大致可以分为三种,第一类语言有人说、有文字、受众大。第二类语言是通过口语而非文字交流,第三类就是濒危语言。吴语目前被归类为第一类,或第一、第二类之间。在陈璇看来,作为吴语主要代表方言之一的苏州话, “和苏州园林一起,构成苏州这个拥有2530年历史的文化名城。”
然而,由于苏州话发音与普通话相差甚远,还有很多特征词、俚语及特殊的语言现象,且在苏州话内部,也有新派、老派之分,城区、郊区不同地域的苏州话也是有所差异,陈璇表示,苏州话正逐渐消失。
据陈璇介绍,苏州市职业大学苏州方言教育与研究中心在对苏州地区方言使用情况调研后发现,苏州当地能够用苏州话交流的6-16岁的青少年只占14%,且并不能熟练使用。不仅是苏州话。据联合国2017年的相关报告显示,全球现有约6000种语言,预计到本世纪末将有90%的语言可能消亡。其中近500种语言的传承者甚至少于10人,很可能会迅速灭亡。
自2008年起,教育部和国家语委先后在江苏、上海、北京、广西、辽宁、福建、山东、河北、湖北等省份开展了中国语言资源有声数据库建设试点工作,并于2015年起启动中国语言资源保护工程(简称“语保工程”)。
据语保工程数据显示,在中国的130多种语言中,有68种使用人口在万人以下,有48种使用人口在5000人以下,其中有25种使用人口不足千人,满语、赫哲语、苏龙语等使用人数不足百人。
据常熟理工学院人文学院教授王健介绍,目前濒危语言的调查手段都是“录自然的对话、录长篇的音视频”等传统手段。
方言保护需求大、难度大
南都记者了解到,方言保护有需求,也有难度。“方言保护有三个难点,一是如何吸引公众关注,二是如何采集语音数据,三是如何把方言真正的永久留存。” 科大讯飞“讯飞输入法”业务线副总经理李强军说。
他表示,方言强势地区用户对于方言使用有大量需求,“我们会根据用户的需求,从产品层面做判断,能不能做,或者怎么做。”据其介绍,国内使用频率较高的方言大概有80余种,经研发后,2012年科大讯飞首次推出粤语版本,此后又相继推出四川话、河南话、上海话等方言的识别。
关于方言的采集,李强军介绍到,通过始于去年的方言保护计划,10万人上传并被实时收集的20万条的语音成为方言语料,此后,利用人工智能技术实现方言的完整复刻,并通过持续优化增添方言识别及合成,借助讯飞输入法开放给用户使用。
但李强军也表示,目前发布的苏州话方言识别的准确率只有70%。
“完整的语言复制系统包括一个语音识别系统,一个文语转换系统和一个语言与主流语言之间的翻译。首先录制一些语音,包括单字、单词、断绝或语句,由专家对数据进行分析,提炼出方言的语音结构。人工智能工程师对其建立语言合成,文语转换系统。但在连续话语中有很多未知的东西,所以在建立语音合成系统的过程中,要随时补充、提炼并进行效果优化。”祖漪清解释称。
李强军进一步表示,“苏州话本身难度就很大,识别难度也很高,说标准苏州话的用户越来越少,所以在采集的时候有很大难度。”据其介绍,至少要保证50个小时的语料,200人以上参与方言数据的采集,“所以70%的准确率是一个比较客观公正的数据,但我们希望能够很快把识别率提升到85%,同时实现苏州话的语音合成系统。”
但他也指出,做方言的语音识别,希望能够拓展方言使用的场景,提供更多的机会说方言,另外也是为了在一定程度上解决不同方言区的人们沟通的问题。
李强军表示,在首次推出苏州话方言识别系统后,科大讯飞目前已经能够支持粤语、四川话、东北话、河南话、天津话、山东话、客家语、闽南语等23种方言语音的识别。
王健认为,采用人工智能的手段复刻对语言的理解会更为深刻。李强军说,“要考虑到人文关怀、学术研究和文化传承,通过一些方式有效的保护方言,留存弱势语言,完整的记录人类遗产。”
编辑:林云
版权声明
本作品著作权归南方都市报社所有,如需使用需经书面授权。授权联系方式:
banquan@nandu.cc,020-83002731。