“在 GAIR 上，看到生成式AI的过去、现在和未来。”

作者丨董子博王悦

编辑丨刘伟

从画图到写诗，从文案到制表，从PPT到写代码，十几个月以前，如果有人说，这些工作都可以用 AI 代劳，相信的人恐怕寥寥无几。

然而科技发展的起速却总是爆炸性的，2023年还远未结束，生成式 AI 的风潮就席卷了整个科技圈，让人无不心驰神往，趋之若鹜。

在由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会上，AIGC 领域的各路大牛齐聚在新加坡乌节大酒店，向世界分享他们在生成式 AI 领域的一手信息和最新认知。

此次参与 GAIR AIGC 和生成式内容分论坛的发言嘉宾有：

南洋理工大学计算机科学与工程学院助理教授，潘新钢
joinrealm.ai 创始人，蔡丛兴
新加坡 Help&Grow 社群发起人，王桐
荔枝集团 CTO，丁宁
南洋理工大学高级研究科学家；Deepir Inc. 创始人，吴鹏程
腾讯海外游戏发行算法中心主任，郎君

在当下炙手可热的 AI 赛道，如何保持清醒的头脑，在技术、产品和商业模式上精研革新？与会嘉宾们又有哪些真知灼见，让他们能够在生成式 AI 的热潮中长风破浪？

南洋理工大学潘新钢：视觉内容关键点拖拽，我们没有选用扩散模型

提到 AIGC，在当下的赛道，所有人第一个总会想起在海外评价颇高的 MidJourney，和它背后的技术支持——扩散模型。

而来自南洋理工大学计算机科学与工程学院的助理教授，曾在港中文师从汤晓鸥教授的潘新钢，却在他最新的“视觉内容关键点拖拽式编辑”中，果断放弃了扩散模型，而是使用了一项更“老”的技术——生成对抗网络（GAN）。

不少人看到了 AI 生成图像的强大能力，就认为 AIGC 的时代已经来临；而潘新钢却发现，“生成图像”往往不是用户创作过程的最后一步。

后续对图片的调整——尤其是对 AI 生成的画面元素往往充满不确定性，要满足用户的需求，就必须得让画面中的各个元素可以在后期被用户微调。

比如 AI 生成了一只很逼真的狮子，用户如果想要狮子的头转一转、移动它的位置、甚至改变狮子的表情，以当下的产品形态就很难完成。

这些操作听起来简单，但都是关于物体空间属性的精细控制，在技术上还面临着巨大的挑战。

过去曾有方式是沿袭文生图的思路，去根据文字的指引编辑图片——比如“让狮子的鼻子向右移动30像素”。

但这个解决思路也存在问题：

一方面，是文字模型对于物体空间属性的理解必须足够强大，才能满足用户不一而足的编辑需求和方式，让交互更直观；

另一方面，对于语言模型来说，它很难精确理解图像中的长度和尺寸，这也给视觉内容编辑带来了不小的麻烦。

交互层面，对于用户来说，最直觉、最易用的，无疑是拖拽式的交互；而从技术实现层面，用户只需要指定一个红色的抓取点和蓝色的目标点，由 AI 把红点所对应的图像的语义的部分，移到蓝点的位置，就能达到对图像空间属性的编辑的效果。

在过去，也有人开发过类似的功能，但通常需要对所要编辑的图像进行网格化，并且对物体的高度有一定的假设——对图像的编辑不过是对原图2D的扭曲变形，没法生成新的内容。

既要精细，又要有生成内容，潘新钢在做技术研判时并未采用当下最热的扩散模型，而是选用了生成对抗网络的技术。首先，是 GAN 所描述的图像空间非常连续，比扩散模型连续很多；其次 GAN 的 comtact 的隐空间非常适合编辑的属性。

而随着潘新钢团队研究的进一步发展，他们又在原有基础上支持了多点编辑，可以让图像内的物品姿态改变，重新设计一款车的外形、或改变车的视角，让一只小猫睁一只眼闭一只眼，改变人像的发型或表情、姿态或衣服长短，让使用者能更方便地对图像进行编辑，甚至可以以这个方式，来完成视频内容的生成。

当下这个工作已在 GitHub 上开源，并且获得了32000个 Star。

而未来，把 GAN 和扩散模型结合，是潘新钢对于正在完成工作的一个愿景——既有扩散模型的生成能力，又有 GAN 在图像编辑上的优势，同时也或许可以将这些能力运用到视频和 3D、4D 内容中，让未来的AIGC 更智能、也更易用。

joinrealm.ai 蔡丛兴：做基于 AIGC 的社交网络

从美国加州南湾硅谷的山景城而来，joinrealm.ai 的蔡丛兴有一个做AIGC社交网络的梦想。

2016年左右就加入 Snapchat，在公司负责短视频的产品开发，蔡丛兴经历过短视频行业的超高速发展期。而在 TikTok 无有争议地在海外成为了现象级产品之后，蔡丛兴又动了别的心思：

“我们觉得，在生产式短视频内容的赛道上，大家已经朝着某一个方向发展；而未来，在生成式视频上，产业一定会有一个新的突破。”

于是，蔡丛兴和朋友一起，创办了 joinrealm.ai。

蔡丛兴认为，AIGC是一个特别宽泛且抽象的概念，而 joinrealm.ai 的方向，主要是介于“直接提供API”和“完成人机交互革新”的中间地带——对于内容创作商业模式的探索上。

“为什么内容创作这个模式很重要？基于我们对于短视频的这个过去十年的观察，很大的一个变革，实际上是因为智能相机的出现。智能相机的普及，很大的程度上它不仅仅是给了每个人一个手机，而是给世界提供了几十亿个移动的基础设备。”

从“word”到“story”，是 joinrealm.ai 创业的一个核心关键——借由AI，用户能把自己脑海中的内容呈现成图像，就如同一个“思维的相机”。

而要想达到这个效果，蔡丛兴在 joinrealm.ai 的探索中发现，还有许多问题亟待解决：

首先，是 Prompt 和自然语言的差异仍然存在——Prompt 归根结底还是一种大众难以直觉理解的程序语言，用户仍然要经历大量的“尝试-失败-尝试”的步骤，才能生成出他们想要的内容；

其次，就是基础模型在今天仍然并不能完全满足 AIGC 用户的需求，以 Stable Diffusion 为例，新用户愿意分享生成内容的比例，在今天大概还低于20%；

缺少可以由用户精调的概念，也是 AIGC 当下面临第一个重大的问题，用户很难借由一套被定义了的概念，去控制 AI 的生成，也就很难控制自己“故事的讲述”；

最后，就是图像生成结果和成本之间的效率平衡，如何在更低的价格区间里，生成更高质量的内容，也是 AIGC 在当下一个难以忽略的问题。

为了迎接这些挑战，蔡丛兴和团队见了将近一百位有影响力的AI创作者，发现他们的制作方法大多独特，很少雷同，并且都会使用大量的工具，不断地调试、调节。

最终，joinrealm.ai 在研判后，决定在三个关键点完成升级：

首先是工具链，通过完成用户交互界面的优化，让使用体验更优；

其次是让用户可以自建自己的 fine-tune，比如使用“我”的描述，产品就可以以用户自己的图像为基础，来更精准地生成自己想要的图像。

第三就是自建社区，让用户能够在社区里获得更多的使用教学和灵感启发。

圆桌讨论：AIGC“走出去”

新加坡 Help&Grow 社群发起人王桐作为主持人，与 joinrealm.ai 创始人蔡丛兴、荔枝集团的 CTO 丁宁、南洋理工大学高级研究科学家&Deepir Inc. 创始人吴鹏程、腾讯海外游戏发行算法中心主任郎君共同探讨了当下 AIGC 与生成式内容的热点话题。

AIGC 的商业化模式更容易在 To B 领域落地还是在 To C 领域落地？各位嘉宾从各自经验出发设想了未来的落脚点。

郎君认为，To B 并不好做，因为需要根据多个不同的实际案例抽象提炼出一种解决方案去应对，To C 方面，在做游戏的运营的时候可以帮助很多游戏玩家快速地融入进游戏。内部在做算法的时候，郎君和团队也会不停地判断什么样的模式能更好地去深化 AIGC 落地的场景。

吴鹏程表示，To B 和 To C 都很有机会，但伟大的公司一定是 To C 。他结合妙鸭相机、苹果 VR 眼镜、数字人直播带货等今年在 ToC 层面做出成绩的公司，强调 AIGC To C 会诞生很多有趣的应用。

丁宁认为，AIGC 的商业化仍然处于偏早期的阶段，虽然有一些率先做出成绩的公司，但大部分还在路上。他特别强调，对于技术创业者来说，不能仅仅沉浸于对技术的感动之中，还应更多的考虑用户的需求和痛点。关于To B 和 To C 的落地，他表示To B 的市场很大，需要能力和资源，而To C 的竞争大，需要有对市场的敏锐察觉力、社区的运营能力等，两者未来都很广阔。

关于 AIGC 的出海和全球化，几位嘉宾分享了他们总结的经验。

郎君观察到，国内的团队有非常密集的人才优势，高效的知识分享途径以及对互联网行业的强大兴趣，这种配置的资源在海外其实并不多。他强调，当下 AIGC 还没有一个特别成熟的商业模式，所以谁有更好的资源组合的能力，谁就更容易“跑出来”。

丁宁认为，AIGC 出海首先要走出去，把身段放低，不一定非要把产品做到什么程度，意识到两年到三年的时间内是很难一下子在市场中获得成功。他补充到，尊重海外市场是很重要的，文化、语言、法律法规的差异都是这个非常大，需对当地市场有清晰的认知。

吴鹏程认为，AIGC 出海是很有机会的，一方面，可以把中国的技术用到国外；另一方面，国外也有本地需求，两者可以做深度融合，会产生巨大价值。同时也需要考虑到，出海只是第一步，也需要考虑如何才能在海外更好地遨游。