InternGPT-基於指向語言驅動的視覺交互系統

前言#

本文簡單記錄介紹一下 InternGPT。

InternGPT 可以讓使用者通過點擊、拖動和繪製與聊天機器人進行多模態互動。支援圖片上傳後與聊天機器人進行多模態相關的對話和互動式操作圖片等功能。

InternGPT

非常多的功能，包括移除遮蓋的對象、互動式圖像編輯、圖像生成、互動式視覺問答、互動式圖像生成和視頻高光解說。此外，該專案還支援搜索引擎、語音助手、點擊互動、互動式圖像編輯、互動式圖像生成、視頻描述、視頻密集描述、視頻高光時刻截取等功能，最新版還支援音頻生成圖片功能。

最好手動在官方提供的model_zoo處下載模型參數，如果讓腳本自動下載速度比較慢，其中主要模型組件是HuskyVQA, SegmentAnything, ImageOCRRecognition，imagebing和最新DragGAN的複現模型。

然後安裝好依賴，運行 app.py 即可打開 gradio 界面。

InternGPT 中視覺問答模型是 HuskyVQA，基於 llama 訓練而來，專案官方表示達到了業界頂尖水平，測試後發現效果確實不錯。

其他的沒有過多測試，主要最近比較忙，技術又迭代的太快😂

總的來說多模態統一已經是常態了，未來哪個大模型不支援多模態可能就 out 啦！

參考文章：

本文僅作為個人學習記錄。

本文與hblog保持同步。