banner
hughie

hughie

热爱技术的小菜鸟, 记录一下所学所感

InternGPT-基於指向語言驅動的視覺交互系統

前言#

本文簡單記錄介紹一下 InternGPT。

InternGPT 可以讓使用者通過點擊、拖動和繪製與聊天機器人進行多模態互動。支援圖片上傳後與聊天機器人進行多模態相關的對話和互動式操作圖片等功能。


正文#

一、什麼是 InternGPT#

InternGPT

二、InternGPT 功能#

非常多的功能,包括移除遮蓋的對象、互動式圖像編輯、圖像生成、互動式視覺問答、互動式圖像生成和視頻高光解說。此外,該專案還支援搜索引擎、語音助手、點擊互動、互動式圖像編輯、互動式圖像生成、視頻描述、視頻密集描述、視頻高光時刻截取等功能,最新版還支援音頻生成圖片功能。

三、InternGPT 使用#

最好手動在官方提供的model_zoo處下載模型參數,如果讓腳本自動下載速度比較慢,其中主要模型組件是HuskyVQA, SegmentAnything, ImageOCRRecognitionimagebing和最新DragGAN複現模型

然後安裝好依賴,運行 app.py 即可打開 gradio 界面。

四、總結#

InternGPT 中視覺問答模型是 HuskyVQA,基於 llama 訓練而來,專案官方表示達到了業界頂尖水平,測試後發現效果確實不錯。

其他的沒有過多測試,主要最近比較忙,技術又迭代的太快😂

總的來說多模態統一已經是常態了,未來哪個大模型不支援多模態可能就 out 啦!


最後#

參考文章:

官方專案


声明#

本文僅作為個人學習記錄。

本文與hblog保持同步。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。