InternGPT-言語指向型ビジュアルインタラクションシステム

序文#

この記事では、InternGPT について簡単に紹介します。

InternGPT は、ユーザーがクリック、ドラッグ、および描画によってチャットボットとマルチモーダルなインタラクションを行うことができます。画像のアップロード後、チャットボットとのマルチモーダルな対話や画像に関連するインタラクティブな操作などがサポートされています。

本文#

1. InternGPT とは#

InternGPT

2. InternGPT の機能#

非常に多くの機能があります。マスキングされたオブジェクトの除去、インタラクティブな画像編集、画像生成、インタラクティブなビジュアルクエスチョンアンドアンサー、インタラクティブな画像生成、ハイライトされたビデオの解説などが含まれます。さらに、このプロジェクトは検索エンジン、音声アシスタント、クリックインタラクション、インタラクティブな画像編集、インタラクティブな画像生成、ビデオの説明、ビデオの密集した説明、ハイライトされたビデオのキャプチャなどの機能をサポートしています。最新バージョンでは、音声から画像を生成する機能もサポートされています。

3. InternGPT の使用方法#

モデルのパラメータは、公式のmodel_zooから手動でダウンロードすることをおすすめします。スクリプトによる自動ダウンロードは遅い場合があります。主なモデルコンポーネントはHuskyVQA、SegmentAnything、ImageOCRRecognition、imagebing、および最新のDragGANの再現モデルです。

依存関係をインストールした後、app.py を実行して gradio のインターフェースを開くことができます。

4. 結論#

InternGPT のビジュアルクエスチョンアンドアンサーモデルは HuskyVQA であり、llama をベースにトレーニングされています。プロジェクトの公式によれば、業界トップレベルの性能を実現しています。テストの結果も非常に良好であることが確認されました。

その他の機能については、あまり試していません。最近は忙しく、技術も非常に速く進化しています😂

全体的に言えば、マルチモーダルの統合は既に一般的な状態です。将来、マルチモーダルをサポートしていない大規模モデルは時代遅れになるかもしれません！

最後に#

参考記事：

公式プロジェクト

免責事項#

この記事は個人の学習記録として作成されています。

この記事はhblogと同期しています。