InternGPT-基于指向语言驱动的视觉交互系统

前言#

本文简单记录介绍一下 InternGPT。

InternGPT 可以让用户通过点击、拖动和绘制与聊天机器人进行多模态交互。支持图片上传后与聊天机器人进行多模态相关的对话和交互式操作图片等功能。

InternGPT

非常多的功能，包括移除遮盖的对象、交互式图像编辑、图像生成、交互式视觉问答、交互式图像生成和视频高光解说。此外，该项目还支持搜索引擎、语音助手、点击交互、交互式图像编辑、交互式图像生成、视频描述、视频密集描述、视频高光时刻截取等功能，最新版还支持音频生成图片功能。

最好手动在官方提供的model_zoo处下载模型参数，如果让脚本自动下载速度比较慢，其中主要模型组件是HuskyVQA, SegmentAnything, ImageOCRRecognition，imagebing和最新DragGAN的复现模型。

然后安装好依赖，运行 app.py 即可打开 gradio 界面。

InternGPT 中视觉问答模型是 HuskyVQA，基于 llama 训练而来，项目官方表示达到了业界顶尖水平，测试后发现效果确实不错。

其他的没有过多测试，主要最近比较忙，技术又迭代的太快😂

总的来说多模态统一已经是常态了，未来哪个大模型不支持多模态可能就 out 啦！

参考文章：

本文仅作为个人学习记录。

本文与hblog保持同步。