InternGPT视觉交互系统-技术圈

InternGPT（简称 iGPT） / InternChat（简称 iChat）是一种基于指向语言驱动的视觉交互系统，允许你使用指向设备通过点击、拖动和绘制与 ChatGPT 进行互动。

InternGPT 的名称代表了 interaction（交互）、nonverbal（非语言）和 ChatGPT。与依赖纯语言的现有交互系统不同，通过整合指向指令，iGPT 显著提高了用户与聊天机器人之间的沟通效率，以及聊天机器人在视觉为中心任务中的准确性，特别是在复杂的视觉场景中。

此外，在 iGPT 中，采用辅助控制机制来提高 LLM 的控制能力，并对一个大型视觉-语言模型 Husky 进行微调，以实现高质量的多模态对话（在ChatGPT-3.5-turbo评测中达到 93.89% GPT-4 质量）。

在图片上传成功后，你可以发送如下消息与iGPT进行多模态相关的对话："what is it in the image?" or "what is the background color of image?".

你同样也可以交互式地操作、编辑或者生成图片，具体如下：

点击图片上的任意位置，然后按下 Pick 按钮，预览分割区域。你也可以按下 OCR 按钮，识别具体位置处存在的所有单词；
要在图像中 删除掩码区域，你可以发送如下消息：“remove the masked region”；
要在图像中 替换掩码区域的物体为其他物体，你可以发送如下消息：“replace the masked region with {your prompt}”；
想 生成新图像，你可以发送如下消息：“generate a new image based on its segmentation describing {your prompt}”；
想通过 涂鸦创建新图像，你应该按下 Whiteboard 按钮并在白板上绘制。绘制完成后，你需要按下 保存 按钮并发送如下消息：“generate a new image based on this scribble describing {your prompt}”。

A) 移除遮盖的对象

B) 交互式图像编辑

C) 图像生成

D) 交互式视觉问答

E) 交互式图像生成

F) 视频高光解说

基本要求

安装 Python 的依赖项

pip install -r requirements.txt