腾讯近日宣布,腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能,展示了其在图像自动生成领域的领先能力。升级后的腾讯混元中文能力整体超过GPT3.5,代码能力大幅提升20%,达到业界领先水平。
输入提示词“轻舟已过万重山,水墨画风格”就可以得到相应图片。
作为实用级的通用大模型,腾讯混元大模型的应用场景丰富多样。目前,超过180个腾讯内部业务已接入腾讯混元,包括腾讯会议、腾讯文档、企业微信、腾讯广告、微信支付和微信搜一搜等。最近,QQ浏览器还基于腾讯混元推出了“PDF阅读助手”,具备智能摘要、智能问答和多轮提问等功能。
目前,已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户,通过腾讯云调用腾讯混元大模型API,应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。今年9月首批通过备案后,腾讯混元大模型也已经面向C端用户陆续开放体验,用户通过小程序或网页端,就能与腾讯混元对话。
生成一幅照片:桂林漓江的山水,江上有一艘小船。
腾讯混元大模型文生图技术负责人芦清林谈到,腾讯整体流量产品较为丰富,对“文生图”的诉求非常强烈,比如怎么合成商品广告,在游戏上怎么做背景和元素的生成,内容场景如何给小说配图,等等。
“文生图”算法有非常明显的三个难点,一是能不能把用户想输入的文本非常准确用图片表达出来;二是生成图片可能有一些构图的不完整或者不合理的地方,怎么样能够让生成的结构更加合理;三是生成的质感和细节是不是足够丰富和细节比较到位。
“打造混元文生图的基础模型,需要解决三个比较明确的点:语义理解、生成结构、画面细节。”他举例说,语义表达怎么样理解更充分、表达更完整。比如女娲补天,这种情况下一定是中文原始输入才能了解是不是女娲,怎么补天,如果用英文语境输入则较难以把古代神话人物表达出来。
图文形态需要非常细致的属性理解,比如黑色衣服的女人和红色衣服的男人,这里面包含了黑色、红色、男人、女人,整体的解决思路是模型实现双语理解,同时要强化文本特征,因此不管输入中文还是输入英文都可以和图片对应。
针对广告、游戏、企业微信等不同场景,大模型是如何满足这些需求的?
芦清林对此解释,广告覆盖的行业非常多,包括金融、教育、电商、旅游、游戏等等,每个行业提出来的需要非常不一样,因此腾讯也会把各个行业的需求收集到一块,看哪些是语义方面问题,哪些是细节方面问题,哪些是数据、模型本身的问题,腾讯不会从行业的视角上专门针对做一个优化,而是搜集起来归类看如何从模型上解决问题。
腾讯机器学习平台算法负责人康战辉则提到,“大模大做,小模小做”,当前各大厂商都有自己相对比较大的模型,也有比较小的模型,大的大模型追求效果为主要导向,小模型更追求成本和效益的平衡。
当前,大模型纷纷涌现,在这场优胜劣汰中,如何实现适者生存?康战辉对此解释,玩家比较多,大厂也有,中小厂也有,还有创业公司,开源、闭源也都有,相比之下,腾讯更多立足于业务、服务业务,这是大模型研发的基础。
而涉及商业模式方面,芦清林表示,广告场景的盈利模式非常明确,一是能够帮助广告主更快提升投放广告效率,二是腾讯本身有很多广告经验知识,知道怎么生成更符合目标对象的广告,这样一来,广告主愿意在产品上做投入。
“广告的量非常大,广告主投放广告,会计算投出去多少钱,能不能带来更多的增益,如果能够带来增益多少钱都是愿意花。”芦清林说,目前包括游戏创作、搜索广告等等,都有图片生成的需求。
南方+记者 郜小平
订阅后可查看全文(剩余80%)