科技日报 记者 李钊 2016-09-22 08:23
表述明确,文笔犀凌!未来的某天,一早翻看新闻的你,不禁赞叹起某位记者的高水平。不过你心里也清楚,即便当面听到,这位从不吃饭、睡觉的“作者”也不会说声谢谢。因为“他”,是机器人。
预言完毕,让我们回到今天。奥运会虽然结束了,但写稿机器人在新闻界所引发的震动,乃至恐惧,依然余音未消。有人预言,在不远的未来,写稿机器人将彻底取代人力记者。那么,所有的媒体同行,以及看热闹的围观群众,写稿机器人到底是我们的对手还是帮手呢?
机器记者能拿普利策奖
人工智能注定将渗透到各个行业,媒体业亦不能“幸免”。
奥运会期间,写稿机器人“张小明”通过直接对接奥组委的数据库信息,实时撰写新闻稿件,以电视直播的速度发布稿件,主要报道了乒乓球、网球、羽毛球和女足的比赛,在16天的时间内共发布456篇奥运简讯和资讯,平均每条新闻生成到发布时间不到2秒钟,为103万读者提供了第一时间的赛事报道,单篇最高阅读量超过11万。
随着自然语言处理、大数据计算等人工智能技术的发展,国内外许多媒体已经开始了机器人报道的探索与实践。以写稿机器人为代表的人工智能可让大数据从负担变成便利,重塑媒体的内容生产和分散发布。
美国《纽约时报》在财报季、运动比赛报道中用机器人写稿已成惯例,其数字部门开发的机器人编辑Blossomblot每天推送300篇文章,受推荐文章的平均阅读量是未推荐文章的38倍;美联社在过去一年多时间里均使用Wordsmith系统编发企业财报;国际文传电讯社计划用雅虎的机器人算法来发布美式橄榄球回顾式报道;成立于2007年的Automated Insights是一家有美联社融资背景的科技公司,2015年写了150亿篇文章,宣称自己是世界上最大的内容生产者;路透社也在尝试发表机器撰写的文章,其负责人称在一次盲测中,机器的作品表现得比人类作品更具可读性……有专家预言,机器人将在20年内竞逐普利策奖。
写稿机器人在国内的发展也十分迅速。2015年9月,腾讯财经一篇名为《8月CPI涨2%创12个月新高》的文章刷爆各大媒体头条,其作者就是腾讯开发的自动化新闻写作机器人“Dreamwriter”。今年5月29日,四川绵阳发生地震,一条题为《绵阳安州发生4.3级地震》的新闻开始流传于网络,写下这篇560字的新闻稿件并第一时间发布在网络上的正是国家地震台网研发的智能机器人,且全程仅花了6秒钟,可以说几乎跑赢了地震波的速度。
人工智能发展的必然结果
媒体领域遭遇机器人入侵,原因就在于自然识别和信息数据库技术已经达到了相当成熟度,且这种成熟度是和新闻媒体的要求很好地匹配了起来。
写稿机器人的背后是一个高度结构化的海量信息网,无论是文案、信息图表或其他表达形式,机器人编辑都可以像音乐家摆弄音符一样去重构组装。无论是天气预报还是地震预警再到赛事报道等各种信息,都最终能够放入到机器人数据库中去,这样的系统潜力巨大,可以构建无限可能。
北大计算机研究院教授万小军告诉记者,写稿机器人实际上是一种数字技术和智能写稿编程系统。它用机器代替人完成实时监控信息源,利用文本解析和信息抽取技术实现自动信息抽取,采用机器学习算法并融合编辑记者团队的经验和智慧,以模板和规则知识库的方式,根据实时抽取的信息作出判断,输出相应的模板及规则知识库内容,从而产生新闻,以此应对海量、高速、多样的大数据产生的信息。
和传统媒体人相比,写稿机器人可以瞬间完成海量阅读、海量分析,尤其是针对上市公司的公告、财务报表、官方发布、社交平台、证券行情等信息源。与此同时,又可以根据互联网活跃点击量数据,瞬时筛选出下一个热点新闻,并通过后台的算法快速合成新闻。整体上看来,写稿机器人在速度和数量上有着不可忽视的绝对优势。
依靠海量的大数据平台和不断演进的算法设计,生成一篇深度报道的时间已经由最初的30秒缩短到2秒以内,其精度和准确率还在不断提升,而且拟人化、情感化的技能也在持续加强。
“张小明”团队的技术总监李磊说,近两年的国际自然语言大会(ACL)给人感受最深的是,在自然语言处理和理解方面,机器深度学习的进步非常之大,2016年几乎超过2/3的论文在研究深度学习领域。虽然深度学习和自然语言处理在文本方面还没有达到语音和图像处理技术一样的成熟度,但现在也已有了很大进步。事实上,国外已经出现了新一代智能写作软件“Narrative”。
“活人”记者依然是师傅
当然,纯技术角度做新闻编辑报道还是存在一定局限性。万年进化而成的人脑,绝非几十岁的机器人能轻易代替。
美国密苏里大学教授唐纳德·里诺兹曾表示,大多数自然语言系统都在简单描述一个事件,但大多数新闻都是描绘性的,甚至是事件驱动型的。人工智能系统在进行新闻创作时需要解决海量技术难题,包括自然语言处理中的自动摘要、文本分类等,还有知识库和知识发现(KDD)等相关技术,比如实体定义、关系抽取、问答系统等。简单来说,就是机器首先需要理解自然语言,然后通过知识管理弄明白新闻中各个要素之间的关系。
有问题,就有答案。谷歌开源了SyntaxNet,将神经网络和搜索技术结合起来,在解决歧义问题上取得显著进展,该软件能像训练有素的语言学家一样分析简单句法;Facebook推出了文本理解引擎DeepText,每秒能理解几千篇博文内容,语言种类多达20多种,准确度接近人类水平。
今年6月,人工智能创业公司Maluuba公司发表了一篇关于机器理解的论文,提出了目前最先进的机器阅读理解系统EpiReader,该模型在CNN和童书测试(CBT)两个数据集上的成绩都超过了谷歌DeepMind、Facebook和IBM。EpiReader采取两个步骤来确定问题答案。第一步(Extractor),使用了一个双向GPU逐字阅读故事和问题,接着采用一种类似Pointer Network中的Attention机制在故事中挑选出可能作为答案备选的单词。第二步(Reasoner),这些备选答案被插入(完型填空)式的问题中,构成一些“假设”,接着卷积神经网络会将每个假设与故事中的每个句子加以比较,寻找文本蕴涵(Textual Entailment)关系。简单来说,蕴涵是指,两个陈述具有很强的相关性。因此,最近似故事假设的蕴涵得分最高。最后,将蕴涵得分与第一步得到的分数相结合,给出每一个备选答案正确的概率。
万小军教授说,记者联系采访对象,观察对方,用心去感受人物,再对大量资料进行整理,做出取舍,对这些复杂细致的情感工作,目前人工智能机器人用深度学习的算法尚不能搞定。由于目前的技术制约,写稿机器人还无法开展自行思考,智能写稿系统在稿件的深度以及稿件个性化上很难在短时间内取得突破。从这个意义上讲,写稿机器人为传统记者节省了大量查阅资料的检索时间,有助于人力记者写出更有深度和富含情感的新闻作品。新闻的字里行间包含着记者的判断、价值观与人文关怀,未来新闻人应该把精力重点放在机器人无法完成的调查性、深度解释性报道上,这样双方才可以真正实现互相补充、相得益彰。
李磊说,新闻机器人并不会取代记者,相反会成为记者的好帮手。机器人写稿将大大提高记者产出新闻的数量和速度,节省媒体的时间成本和运营成本,提升媒体运营的成本收益率。用户的阅读兴趣呈长尾分布,单篇阅读量高的新闻可以由人力记者来写,但是更大量的单篇阅读量稍低的新闻同样很有价值,由人来写则收益率并不高,而请机器人来写既能弥补这部分阅读需求,又能降低新闻采编的成本,可谓一举多得。
记者观察:有了“他”们会更好
撰写这篇稿件时,我始终无法不去想这样一个问题:写稿机器人来了,自己会不会失业呢?
当然,目前还不至于。对于媒体,内容是王道,没有深度的媒体人可能会被写稿机器人淘汰,而能做出好内容的深度报道记者则不会。
人工智能要想达到替代人类的水平,需要好几个阶段的演化。第一阶段首先是在各个垂直领域诞生若干超级智能,比如健康和知识问答领域的“沃森”、围棋领域的“AlphaGo”等。这些垂直超级智能可以在特定领域内展现出远超人类的能力,但是在擅长领域之外没有任何作为。不过,他们将为诞生在所有领域内具备超人能力的终极智能打下初步基础。
知识改变命运,技术改变世界。相信在以写稿机器人为代表的人工智能技术引领下,全球终将步入一个全新的信息技术时代。凭借不断进步的技术的力量和更多的试验、更早的调整及更好的准备,人类将会建设出一个更加智能化的美好世界。