红袍纠察队挑战OpenAI：DALL-E 3部署ChatGPT的风险大揭秘！-技术圈

大数据文摘授权转载自夕小瑶科技说
编译：奶茶子

OpenAI宣布将于 10月在ChatGPT-Plus、ChatGPT Enterprise 和 API 中推出 DALL-E 3。除此之外，OpenAI Labs 推出的 DALL-E 3 独立版本（类似于 DALL-E 2）将于今年秋天发布。

据OpenAI 称，DALL-E 3 在生成准确遵循复杂提示的图像的能力方面取得了显着进步。这包括准确地表示具有特定对象的场景、它们之间的关系以及图像中的人手或文本等细节，这是以前文本到图像系统的典型弱点。

在部署的同时，OpenAI提出将采取一系列措施来确保用户生成的图像符合安全和内容准则，并且通过召集的“red teaming”来揭示潜在的危害和冒犯性的内容。

让我们一起看一下OpenAI为防止用户生成潜在有害或冒犯性图像所做的努力，以及OpenAI提出的规范风险控制方案吧。

控制生成的prompts

OpenAI指出，将DALL-E 3集成到ChatGPT不仅仅是出于便利的考虑，也是计划利用“prompt transformations”来检查GhatGPT用户输入的提示是否包含潜在的不当内容，然后以一种方式对其进行重写，以避免意外出现不当内容。

此外，ChatGPT将会拒绝处理明显违规的提示，尤其包含在OpenAI阻止列表中的prompt（列表的来源是DALL-E 2和DALL-E 3上的beta测试的经验），例如在之前一些名人、艺术家风格被用作生成模板，但是这并没有得到授权或者许可。

在此基础上，ChatGPT's监控API 会干预那些违反OpenAI内容准则的prompts。

值得注意的是，OpenAI将开始采用红队网络(red teaming network)的评估结果来制定对已知风险的缓解措施，并挖掘新的潜在风险。

OpenAI曾在九月份宣布公开招募外部专家加入红队（red teaming），邀请领域专家合作评估其人工智能模型-red teaming network，以进一步提升模型的安全性。网络中的专家将在整个模型和产品开发生命周期中根据其专业领域协助进行风险评估。目标是提供多样化和持续的输入，使红队成为一个迭代过程。

▲OpenAI红队涉猎的一些领域

用于“色情”图像的专有图像分类器

针对性别歧视或其他“色情”的内容，OpenAI训练了一个过滤切检测图像中的可疑模式并停止生成。

在引入这个过滤器之前，DALL-E 3的早期版本会有一定概率生成包含暴力、宗教和侵犯版权元素的图像。

根据OpenAI的数据，DALL-E 3发布版本中，不必要、冒犯性的图像的风险已经降低到了0.7%，这意味着出现不必要的图像（例如，提示中未要求的肌肉发达的裸体男子）的可能性大大减少。在DALL-E 3的早期版本中，它生成了一张"一个人在公园里悠闲地野餐"的图像，这个人被描绘成一个肌肉发达、几乎裸体的男人，但在加了过滤器后最终发布的版本中，图像的焦点转向了食物，而不是那个人。

然而过滤器的添加引发了一些争议，部分人工智能艺术领域的人提出，对于生成内容过多的干预将会限制艺术创作的自由。

偏见和虚假信息

OpenAI指出，与DALL-E 2一样，DALL-E 3也存在文化偏见，这种偏见通常体现在对西方文化的偏好上，尤其在当用户未明确指定国籍、文化或肤色等参数的提示时。

此外，DALL-E 3能够生成逼真的图像，包括知名人物的图像，这些图像有可能被用于传播虚假信息。针对这种潜在的风险，OpenAI回应是模型会拒绝大部分这类图像生成请求，或者生成的图像可能不够令人信服。

然而red teaming指出了一种欺骗OpenAI保护系统的方法，例如“模仿CCTV视频的风格”，这些方法可以用来欺骗DALL-E 3的保护系统。

版权和生物武器

在版权方面的，也也存在着争议与纠纷。

早期使用DALL-E 3的用户已经成功地创造出了与一些商标或角色相关的内容，这可令拥有这些商标、角色版权的公司感到不满。举例来说，使用支持DALL-E 3的Bing Image Creator的用户可以创建出尼克频道的吉祥物"海绵宝宝"驾驶飞机飞向两座类似世界贸易中心的摩天大楼的场景。同样，Meta 在其新推出的AI stickers中也涉及类似的问题，比如有一款贴纸显示米老鼠手持机关枪。

OpenAI称虽然已经采取了风险缓解措施来限制这些场景的滥用，但他们也坦承“无法预见所有可能出现的变化”，而且使用DALL-E 3生成的武器或有害化学物质的图像，在现实生活中并没有产生重大影响。

然而，红队提出，在化学、生物学和物理学等领域的专业测试中发现DALL-E 3在这些领域的准确性存在严重问题，这将真实地产生负面影响。

结语

虽然OpenAI采取了这些风险措施来提高生成技术的安全性，但也存在一些潜在的弊端和挑战。例如，过度过滤和删减创意，以及"prompt transformations"过滤器的滞后性可能会引发分类偏差。那么，大家对于生成式人工智能潜在风险的看法如何呢？欢迎大家在评论区与我们分享和讨论这个话题～

参考资料

[1]https://the-decoder.com/early-dall-e-3-had-an-absurd-concept-of-a-picnic-before-openais-alignment/
[2]https://the-decoder.com/openai-launches-red-teaming-network-to-root-out-ai-risks/

黑色小圆动图分割线

租！GPU云资源

新上线一批A100/A800

运营商机房，服务有保障

扫码了解详情☝

点「在看」的人都变好看了哦！