banner
hughie

hughie

热爱技术的小菜鸟, 记录一下所学所感

InternGPT-基于指向语言驱动的视觉交互系统

前言#

​ 本文简单记录介绍一下 InternGPT。

​ InternGPT 可以让用户通过点击、拖动和绘制与聊天机器人进行多模态交互。支持图片上传后与聊天机器人进行多模态相关的对话和交互式操作图片等功能。


正文#

一、什么是 InternGPT#

InternGPT

二、InternGPT 功能#

非常多的功能,包括移除遮盖的对象、交互式图像编辑、图像生成、交互式视觉问答、交互式图像生成和视频高光解说。此外,该项目还支持搜索引擎、语音助手、点击交互、交互式图像编辑、交互式图像生成、视频描述、视频密集描述、视频高光时刻截取等功能,最新版还支持音频生成图片功能。

三、InternGPT 使用#

最好手动在官方提供的model_zoo处下载模型参数,如果让脚本自动下载速度比较慢,其中主要模型组件是HuskyVQA, SegmentAnything, ImageOCRRecognitionimagebing和最新DragGAN复现模型

然后安装好依赖,运行 app.py 即可打开 gradio 界面。

四、总结#

InternGPT 中视觉问答模型是 HuskyVQA,基于 llama 训练而来,项目官方表示达到了业界顶尖水平,测试后发现效果确实不错。

其他的没有过多测试,主要最近比较忙,技术又迭代的太快😂

总的来说多模态统一已经是常态了,未来哪个大模型不支持多模态可能就 out 啦!


最后#

参考文章:

官方项目


声明#

本文仅作为个人学习记录。

本文与hblog保持同步。

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。