“灵犬” 进化论:海量信息时代,技术如何突围反低俗净网难题?

南方传媒研究
2019-10-18 11:50
+ 订阅

梁信

每天面对形形色色的几百条手机新闻,你是否能甄别其中的真伪?作为家长,你是否担心过孩子独自浏览互联网的时候会看见一些“不应该看的”文字和图片? 2019年7月30日,一项针对低俗、色情、谩骂、标题党等信息垃圾的内容质量检测小工具灵犬反低俗助手(以下简称“灵犬”)3.0版本由今日头条推出。这项工具超越了自身过往仅支持文本类型识别的局限,同时也支持图片类型的反低俗识别。到底是怎样的互联网环境鼓励了“灵犬”的出生?新版“灵犬”区别于过往版本的特色有什么?而未来互联网内容治理制度究竟又将进化几何?带着这些疑问,《南方传媒研究》记者专访了字节跳动人工智能实验室总监王长虎。

今日头条推出灵犬反低俗助手3.0。

一、数据爆炸催生“滤网”需求

据王长虎介绍,综观内容消费的大环境,在移动互联网时代,UGC 和自媒体的涌现,使内容创作和消费实现了几何指数级的海量增长。记者查阅IDC 发布的《数据时代2025》报告发现,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。那么175ZB的数据到底有多大呢? 1ZB相当于1.1 万亿GB。以目前美国的平均网速为25Mb/ 秒为例,一个人要下载完这175ZB 的数据,需要18亿年。同时IDC还预测,2025年,全世界每个联网的人每天平均有4909次数据互动,是2015年的8倍多,相当于每18秒就产生1次数据互动。毋庸置疑,我们已经进入了一个数据爆炸的时代。

字节跳动人工智能实验室总监王长虎分享“灵犬”背后的技术原理。

2018年9月Facebook 发布并部署了名为“Rosetta”的人工智能过滤系统来解决内容审核问题。Rosetta不仅凭借文字辨识过滤网络谣言、假新闻等内容,还可以借由图像识别等方式交叉比对,过滤以图像、影片方式传播的恶意信息。通过每天实时从超过 10亿张图像和视频帧中提取文本,并识别和审核多种语言的文字内容,Facebook希望借此避免低俗信息透过Facebook 或Instagram 等服务平台在网络上蔓延。有数据显示,Facebook上每天都会产生4PB的数据,包含100亿条消息,以及3.5亿张照片和1亿小时的视频浏览。此外,在Instagram上,用户每天要分享9500万张照片和视频;Twitter用户每天要发送5亿条信息。因此,面对每天海量的信息生产,过滤垃圾信息成为非常重要的一环。但是想要单方面对用户发布的垃圾内容、广告进行人工审核,无疑又是一件不可能完成的任务。面对这一难题,王长虎表示:“用技术帮助反低俗,在当下环境就很有必要。”

他透露,在国内,以今日头条平台为例,每天发布的内容就超过60万条。对他们而言,自创立伊始,就把包括反低俗在内的内容安全一直放在内容处理的最高优先级队列。从2012 年以来,今日头条团队就注重对平台内容的治理,在研发人员还不到40 人的时候,他们就已经设有专门的审核团队。

二、“灵犬”之“灵”

“灵犬”最早脱胎于今日头条的反低俗模型,致力于打击低俗低质内容,净化网络空间。王长虎对记者表示,这款检测内容健康度的辅助小工具自开发至今已经历了三次更新迭代进化。“2018年3月28日,今日头条首次上线‘灵犬1.0’,支持检测文字和文章链接;2018年5月16日,‘灵犬’完成服务能力升级,增加反色情短文本模型和反谩骂模型,将准确率从73% 提升至82% ;2019年2月20日,‘灵犬2.0’正式上线,除了反色情低俗模型,加入了反暴力谩骂和反标题党模型,覆盖了主要的低俗低质内容类型,整体识别准确率接近85%。而截至2019 年6 月的最新数据,‘灵犬’反低俗助手的使用人次已经超过了300 万。”他还补充表示,目前用户可以在今日头条内搜索关键词“灵犬”进行试用。

到底3.0 版的“灵犬”解决了哪些难题?它又是怎么解决这些难题的呢?王长虎通过三个板块对记者介绍了新版“灵犬”的特色及其背后的技术原理。

(一)如何解决文本识别之难

他说,在文本识别领域,一般情况下,机器如果需要判断文本低俗,按照传统的方案,是分词、做词表。具体包括以下几个步骤:

  1. 对文本进行分词,把词变成最小颗粒度的序列;

  2. 由专业人员准备一个低俗词表;

  3. 去看给定文本分词的结果,是否包含在低俗词表中;

  4. 若是包含在低俗词表中,则机器判断为低俗。

  但他同时也提到,这个方案会带来一些问题:

  1. 机器在这里只看表象,不作理解;

  2. 词表的容量终究是有限的,容易被绕过,准确率低;

  3. 词表的更新频率必须很高,每隔一段时间就要更新一次。

文本识别反低俗的一般方案。

为此,“灵犬”采取的解决方案,是自然语言处理(NLP)技术。自然语言处理的应用,很重要的一部分是模型。一个模型是否好用,主要看用到的技术,是不是最合适的,另外是训练的数据集多不多。而“灵犬”背后的文本分类模型,已经经过了三次大的版本迭代,每个版本相对于旧版本,在技术和数据集层面,都有一个明显的跃升。

据王长虎介绍,第一代“灵犬”,应用的是“词向量”和“CNN(卷积神经网络)”技术。这一代训练数据集,包括350万数据样本,其中正样本200 万,负样本150万,对随机样本的预测准确率达到79%。而第二代“灵犬”,应用的是“LSTM(长短期记忆)”和“Attention”技术。“LSTM”对序列建模效果更好,且对长文的识别效果更好。“Attention”能结合词和词之间的信息,给出更全局的判断。这一代训练数据集,包括840 万数据样本,其中正样本量为240 万,负样本600 万,文本识别准确率提升至85%。

到了第三代“灵犬”,应用到的是“Bert”和半监督技术。他说:“‘Bert’是当前最先进的自然语言处理技术,是这个领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,大幅提高了性能,而半监督技术又能够带来比较高的准确性。因此到了第三代,训练数据集总量已经达到了惊人的1.2 个T,相当于20 倍百度百科或者100倍维基百科的数据总量。其中包含920万个样本,文本识别准确率提升至91%。”

(二)如何解决图像识别之难

“前人有云:世界上没有两片相似的树叶。在机器的眼中,图片也是如此。”王长虎强调,尽管基于同一个拍摄对象,生成的图片却可能大为不同。因此对于图片,如果也尝试做一个巨大的图片库,以是否命中图库为据判定是否低俗,实在有点不切实际。他解释道:“图片跟文本不太一样,无法以字、词作为段落的最小单位分割出来,并一一加以识别。图像识别的特征提取,无论是初级特征的形状、颜色、纹理,还是高级特征里的语义,其数量是无限的,不可穷举。面对如此庞大的数据,意图用穷举法来完成图片反低俗的目的并不可行。”

因此对于图像识别反低俗问题,“灵犬”运用的解决方案是深度学习。

此前,深度学习受到大众关注大多还是因为2016年3月GoogleDeepMind 研发的AlphaGo 以4:1 的成绩战胜了世界冠军李世石。事实上,不仅是在完全信息博弈竞技方面,在图像分类和人脸识别等特定任务下,深度学习已经证明了自己可以比人做得更好。其实自从2010 年的ImageNet 图片分类竞赛以来,深度学习早已是解决图片分类问题的基础工具。往年ImageNet 举办大规模视觉识别挑战赛,来自全球各地的队伍都会较量看谁能以最高的正确率分类和检测物体与场景。而在2016 年的挑战赛上,机器图像识别的错误率已经降低到2.9%,优于人类表现(5.1%)。

王长虎指出,深度学习主要依赖的要素有三:一是数据量,二是算力,三是模型。数据是度学习最核心的要素,深度学习对于数据的拟合能力非常强,数据量越多,往往效果会越好;其次是GPU 算力,是专门用于跑深度学习模型的高密度设备,算力越强则效率越高;最后是模型,模型的匹配度决定了准确率。“我们分别在数据、模型、计算力等方面做了很多优化。”

王长虎在新版“灵犬”的发布会上曾提到,在数据层面,“灵犬”已累积千万级别的训练数据;算力层面,“灵犬”利用分布式训练算法以及GPU训练集群,加速模型的训练和调试;模型层面,“灵犬”针对许多困难样本做了模型结构调优,尝试解决多尺寸、多尺度、小目标等复杂问题。此外,他补充道,“灵犬”还建设了比较完善的模型迭代系统。通过“数据收集- 数据标注- 数据清洗- 模型训练- 模型评估-badcase 分析”这一套完整的流程,“灵犬”将得到持续的优化。

(三)如何辨析低俗之难

“灵犬”小程序偶尔对于部分图片和文本,会给出一个“拿不准”的结论。低俗判断本身并非易事,这不仅对机器而言,即便是对人来说,低俗的定义也相对笼统。如果缺少精确的区分准则,就没办法给计算机写出执行步骤让它去判断。

王长虎指出,尽管现阶段的“灵犬”已经能单独准确地完成大部分的任务,但在以下两种情况下,仍然需要人工判断协助:一方面是技术暂时难以制定标准的案例;另一方面是会随着使用场景、人群、时间而导致低俗标准变动的案例。

他向记者分析道,就第一种情况而言,一句话表达的意思,往往涉及词的含义,词搭配的含义,以及能推理出可能蕴含的语义,最终需要做一个综合的判断。他以著名的“郑伯克段于鄢”故事为例,点明孔子在题目中单用了一个颇具讽刺意义的“克”字,就给这段历史定了性。从图片的角度,技术同样也容易存在“一刀切”的局限。例如,头条平台曾下架了一张关于吴哥窟塑像的图片,塑像虽然“露点”,但其实是名胜古迹。再以艺术名画《草地上的午餐》为例,这幅画所描绘的内容是一个裸体女子和两个着正装的男士共进午餐。同样地,如果把这幅作品完全交给机器来判断,机器通过识别画中人物的皮肤裸露面积,就会认定这幅画属于色情低俗。

而第二种情况,有些低俗的标准是会随着社会和文化的不断发展而流变的。在上世纪八十年代早期,邓丽君的歌曲曾被认为是“靡靡之音”。1982年,人民音乐出版社出版了《怎样鉴别黄色歌曲》,里面就批判了邓丽君歌曲,认为“歌词庸俗,曲调轻薄,演唱矫揉造作”。但时至今日,邓丽君演唱的歌曲已经成为了华语经典歌曲的一部分。再比如内衣和热舞内容,如果是在淘宝店里看到内衣样式和相关的卖家秀,买家并不会觉得被冒犯,而是约定俗成地把这个当成是消费服务的一部分。但如果是在新闻资讯平台上,频繁出现内衣和内衣模特相关的内容,大家可能就会认为该平台涉嫌低俗色情。而正常的热舞内容,提供给成年人看,是为大众所接受的;但如果开启了青少年模式,这些内容就应该被过滤。以上种种针对低俗判断问题的复杂性和不同判断方式的局限性,王长虎表示,“灵犬”现下的做法主要是靠不断进化技术模型与结合技术和人工判断两种方式来把控。

购物平台的内衣广告图会被“灵犬”系统认为是低俗内容,这是购物平台和资讯平台的尺度不同导致的问题。

三、反低俗不止于“灵犬”

“灵犬”是今日头条技术反低俗的一个展示窗口,尽管功能强大如斯,也只是今日头条反低俗系统的一个简化版本。王长虎直言不讳地说道:“如果说,‘灵犬’是一只‘犬’,那么头条的反低俗系统更像是一支‘工作犬’部队。今日头条的反低俗系统,远不止于‘灵犬’。”他表示,在反低俗系统领域,今日头条在国内建设比较早、数据样本积累量比较大,而且每天都在迭代的,“灵犬”可能是全球最实用的反低俗系统。

据了解,到目前为止,今日头条已经投入了近万人的专业审核团队,同时结合技术优势,搭建了筛查色情、低俗、标题党、虚假信息、低质等模型数百个,并以人工和技术相结合的方式,提升内容审核的效率和准确度。在内容安全机制上,今日头条一直用高标准要求自己。内容安全方面的把控主要分为两方面:一个是头条客户端UGC 的用户内容,如问答、用户评论、微头条;另一个是具有成熟内容生产能力的头条媒体平台PGC的内容,以媒体报道为主。数量相对可控的媒体平台内容,会直接进行风险审核,没有问题就会被大范围推荐;而UGC内容则需要经过一个风险模型的过滤,有问题的再进入二次风险审核。只有在审核通过后,内容才会被真正地进行推荐。但是如果推荐后收到了一定数量的评论或者举报等负面反馈,该项内容仍会回到复审环节,或者直接下架。

当被问及功能强大但是目前仍以小程序的模式存在于今日头条的APP里面的“灵犬”小助手,未来是否可能变成一个独立功能来开发时,王长虎则对记者表示,“灵犬”目前是个帮助检测低俗低质内容的辅助小工具。下一步的计划会结合用户等多方反馈综合考虑。他说:“我们做‘灵犬’的初衷是系统能通过开放,促进行业发展,也让大家更了解今日头条的反低俗情况。目前,我们已经在规划进一步开放,将灵犬和头条创作者后台打通,做到在发文前提示创作者,更方便创作者使用。同时,我们也欢迎更多第三方跟我们合作,一起来帮助行业提升标准。”

放眼全球,打击低俗低质内容是所有信息平台都面临的难题,不管是国外的Facebook、Google,还是国内的微信、头条等,都在想办法更好地解决这个难题。王长虎在发布会的PPT 最后一页,打上了“信息创造价值”这六个大字,他说这是今日头条所秉持的理念。看着“灵犬”不断地迭代进化,我们也有理由相信,可以用技术来做有价值的事情,让技术和人一起,让信息迸发出更大、更丰富的价值,共同迈向一个内容安全、生态健康的互联网未来。

  (作者系《南方传媒研究》特约作者)

版权声明:未经许可禁止以任何形式转载

分享到:

QQ空间
新浪微博

更多精彩内容请进入频道查看

还没看够?打开南方+看看吧
立即打开