超180个腾讯业务接入“混元”大模型，商业模式逐步清晰_南方+

腾讯近日宣布，腾讯混元大模型迎来全新升级，并正式对外开放“文生图”功能，展示了其在图像自动生成领域的领先能力。升级后的腾讯混元中文能力整体超过GPT3.5，代码能力大幅提升20%，达到业界领先水平。

输入提示词“轻舟已过万重山，水墨画风格”就可以得到相应图片。

作为实用级的通用大模型，腾讯混元大模型的应用场景丰富多样。目前，超过180个腾讯内部业务已接入腾讯混元，包括腾讯会议、腾讯文档、企业微信、腾讯广告、微信支付和微信搜一搜等。最近，QQ浏览器还基于腾讯混元推出了“PDF阅读助手”，具备智能摘要、智能问答和多轮提问等功能。

目前，已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户，通过腾讯云调用腾讯混元大模型API，应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。今年9月首批通过备案后，腾讯混元大模型也已经面向C端用户陆续开放体验，用户通过小程序或网页端，就能与腾讯混元对话。

生成一幅照片：桂林漓江的山水，江上有一艘小船。

腾讯混元大模型文生图技术负责人芦清林谈到，腾讯整体流量产品较为丰富，对“文生图”的诉求非常强烈，比如怎么合成商品广告，在游戏上怎么做背景和元素的生成，内容场景如何给小说配图，等等。

“文生图”算法有非常明显的三个难点，一是能不能把用户想输入的文本非常准确用图片表达出来；二是生成图片可能有一些构图的不完整或者不合理的地方，怎么样能够让生成的结构更加合理；三是生成的质感和细节是不是足够丰富和细节比较到位。

“打造混元文生图的基础模型，需要解决三个比较明确的点：语义理解、生成结构、画面细节。”他举例说，语义表达怎么样理解更充分、表达更完整。比如女娲补天，这种情况下一定是中文原始输入才能了解是不是女娲，怎么补天，如果用英文语境输入则较难以把古代神话人物表达出来。

图文形态需要非常细致的属性理解，比如黑色衣服的女人和红色衣服的男人，这里面包含了黑色、红色、男人、女人，整体的解决思路是模型实现双语理解，同时要强化文本特征，因此不管输入中文还是输入英文都可以和图片对应。

针对广告、游戏、企业微信等不同场景，大模型是如何满足这些需求的？

芦清林对此解释，广告覆盖的行业非常多，包括金融、教育、电商、旅游、游戏等等，每个行业提出来的需要非常不一样，因此腾讯也会把各个行业的需求收集到一块，看哪些是语义方面问题，哪些是细节方面问题，哪些是数据、模型本身的问题，腾讯不会从行业的视角上专门针对做一个优化，而是搜集起来归类看如何从模型上解决问题。

腾讯机器学习平台算法负责人康战辉则提到，“大模大做，小模小做”，当前各大厂商都有自己相对比较大的模型，也有比较小的模型，大的大模型追求效果为主要导向，小模型更追求成本和效益的平衡。

当前，大模型纷纷涌现，在这场优胜劣汰中，如何实现适者生存？康战辉对此解释，玩家比较多，大厂也有，中小厂也有，还有创业公司，开源、闭源也都有，相比之下，腾讯更多立足于业务、服务业务，这是大模型研发的基础。

而涉及商业模式方面，芦清林表示，广告场景的盈利模式非常明确，一是能够帮助广告主更快提升投放广告效率，二是腾讯本身有很多广告经验知识，知道怎么生成更符合目标对象的广告，这样一来，广告主愿意在产品上做投入。

“广告的量非常大，广告主投放广告，会计算投出去多少钱，能不能带来更多的增益，如果能够带来增益多少钱都是愿意花。”芦清林说，目前包括游戏创作、搜索广告等等，都有图片生成的需求。

南方+记者郜小平