一张贺年卡里，能有多少尖端AI技术？

作者：董子博

2023/01/31 17:43

作者：董子博

编辑：岑峰

一张贺年卡里，能有多少尖端AI技术？

农历新春将近，新一届“拜年文学大赛”又要开始了。

一到此时，各路拜年祝福就争奇斗艳，层出不穷。想要文义优美、辞藻生动，本就让不少人想破脑袋；如果再想配上一幅优美的图片，原创且有新意，更是成了每一年的大难题。

往年“卷”得不行的拜年消息，在今天只需输入简单几句话，就能轻松搞定。而这背后，自然是AIGC技术的重大赋能。

一张贺年卡里，能有多少尖端AI技术？

这张由智谱AI生成的贺年卡，不仅不花什么功夫，还包含了一段年味十足的祝福语，和一张精美的图片，如果有心，还能附上一首贺年的诗词。一眼看上去平平无奇，但实际上，却是尖端AIGC技术的集中体现。

先说说每年最让人头疼的祝福语：在这张祝福卡上，仅凭寥寥几句引导语，由清华大学KEG实验室和智谱AI研发的开放问答机器人小呆（XDAI）就能够完成一段相当高质量的祝福，甚至还能实现押韵。

但这还并不是XDAI最强大的功能，短短一段祝福语背后，小呆还有着能够完成有逻辑、有内容的对话实力。

大规模预训练语言模型（PLM）在近年来的进展有目共睹，尤其是ChatGPT横空出世，更是给PLM圈粉无数，吸引了大量关注。但也有学者看到，在大模型下构建基于知识的对话系统，实现知识资源的收集，并根据任务调优，对于个人开发者来说成本太高。这也就让这项技术在落地上门槛太高，挡住了一大批有兴趣的开发者。

XDAI的提出，就是针对上面的情况，旨在让开发人员无需微调，即可利用PLM，快速创建开放域对话系统，并可以用Prompt（引导语）定制自己的特定域系统。

这也是XDAI最强大的能力，它不仅能借此完成颇具年味的文字生成，还能通过设计不同的Prompt，达成对XDAI“人设”、甚至“性格”的调整，来设计一个愤怒版、抑郁版、暖心版等不同版本的“小呆”。

说回贺年卡，如果你觉得“小呆”为你生成的文字不够诗意，你可以呼叫“悟能”，让它来帮你写作一首诗。

“悟能作诗”是智谱AI开发的，一个在PLM的基础上开发的AI作诗平台。在原先的PLM中，尽管模型已经能够生成不错的文字内容，但却往往缺乏对于问题主题的专注。

在对话中，这个弱点可能瑕不掩瑜；但在诗歌创作上，缺乏主题却相当致命。

于是，开发者想到，可以使用Inverse Prompting的方式，来避免这个弱点——利用生成的文本去复原给定的标题，在通过对生成语句的打分，配合梁式搜索，每生成一个短句，就进行一次评分，并保留分数最高的内容。

再使用这个方法，“悟能”能够学习自己生成的内容，对自己的内容打分，并以此做微调，加强自身作诗的能力。

在“悟能作诗”，雷峰网(公众号：雷峰网)以“新年”为关键词，并限定了“悲伤”的情绪，最终生成的结果如下：

新年

【悟道】风格: 李白(唐)

圣历初开岁云山半老时

七轮才偃月九陌乱填丝

曙角分龙节寒尘敛隼旗

元宵几处玩禁火夜弥迟

最后再说说，这张贺年卡背后，图片生成的AIGC产品——CogView。

CogView的算法框架分为VQ-VAE和Transformer两部分，对图像和文本进行大规模生成式联合预训练，首先以VQ-VAE将图像压缩成Token，再将其输入Transformer进行生成训练；反其道而行之，也可以将Transformer输出的Token作为依据，生成图像。

一张贺年卡里，能有多少尖端AI技术？

在文字、诗歌、图片生成的领域，AIGC都担任了重要的工作。而在小呆、悟能、CogView的背后，都有大规模语言训练模型GLM-130B的影子。

这个由清华大学计算机系KEG实验室，和智谱AI开发的开源双语大规模语言训练模型，在前些时间的基准测试上超过了OpenAI的GPT-3和谷歌的PALM，并且以开源的形式，作为开源大模型的中国力量，普惠广大的使用者。

一张小小的贺年卡，背后是一个开源大模型的支持，和三种AIGC的尖端技术。在未来，AIGC技术可能也会给一年一度的“拜年文学大赛”画上句点。

后续我们会进一步对GLM-130B进行专项的写作和报道，如果感兴趣的话，可以加本文作者微信交流：william_dong。