diff --git a/FAQ_ja.md b/FAQ_ja.md new file mode 100644 index 0000000..196d85f --- /dev/null +++ b/FAQ_ja.md @@ -0,0 +1,55 @@ +# FAQ + +## インストールと環境 + +#### transformers のバージョンは? + +4.31.0 が望ましいです。 + +#### コードとチェックポイントをダウンロードしましたが、モデルをローカルにロードできません。どうすればよいでしょうか? + +コードを最新のものに更新し、すべてのシャードされたチェックポイントファイルを正しくダウンロードしたかどうか確認してください。 + +#### `qwen.tiktoken` が見つかりません。これは何ですか? + +これは tokenizer のマージファイルです。ダウンロードする必要があります。[git-lfs](https://git-lfs.com) を使わずにリポジトリを git clone しただけでは、このファイルをダウンロードできないことに注意してください。 + +#### transformers_stream_generator/tiktoken/accelerate が見つかりません。 + +コマンド `pip install -r requirements.txt` を実行してください。このファイルは [https://github.com/QwenLM/Qwen-VL/blob/main/requirements.txt](https://github.com/QwenLM/Qwen-VL/blob/main/requirements.txt) にあります。 +

+ + + +## デモと推論 + +#### デモはありますか? + +ウェブデモは `web_demo_mm.py` を参照してください。詳細は README を参照してください。 + + + +#### Qwen-VLはストリーミングに対応していますか? + +いいえ、まだサポートしていません。 + +#### 世代と命令は関係ないようですが... + +Qwen-VL ではなく Qwen-VL-Chat を読み込んでいないか確認してください。Qwen-VL はアライメントなしのベースモデルで、SFT/Chat モデルとは動作が異なります。 + +#### 量子化はサポートされていますか? + +いいえ。早急に量子化をサポートするつもりです。 + +#### 長いシーケンスの処理で不満足なパフォーマンス + +NTK が適用されていることを確認してください。`config.json` の `use_dynamc_ntk` と `use_logn_attn` を `true` に設定する必要がある(デフォルトでは `true`)。 +

+ + +## Tokenizer + +#### bos_id/eos_id/pad_id が見つかりません。 + +私たちのトレーニングでは、セパレータとパディングトークンとして `<|endoftext|>` のみを使用しています。bos_id、eos_id、pad_id は tokenizer.eod_id に設定できます。私たちの tokenizer について詳しくは、tokenizer についてのドキュメントをご覧ください。 + diff --git a/README.md b/README.md index 2e1e6fe..d789bc0 100644 --- a/README.md +++ b/README.md @@ -12,7 +12,7 @@

- 中文  |   English + 中文  |   English |   日本語



diff --git a/README_CN.md b/README_CN.md index f22a986..713af11 100644 --- a/README_CN.md +++ b/README_CN.md @@ -11,7 +11,7 @@

- 中文  |  English + 中文  |  English |   日本語



diff --git a/README_JA.md b/README_JA.md new file mode 100644 index 0000000..26e1285 --- /dev/null +++ b/README_JA.md @@ -0,0 +1,678 @@ +
+ +

+ +

+
+ +

+ Qwen-VL 🤖 | 🤗  | Qwen-VL-Chat 🤖 | 🤗  |  Demo  |  Report   |   Discord + +

+
+ +

+ 中文  |   English |   日本語 +

+

+

+ Japanese document maintainer: Ikko Eltociear Ashimine +

+
+ +**Qwen-VL** (Qwen Large Vision Language Model)は、アリババクラウドが提唱するラージモデルシリーズ Qwen(略称: Tongyi Qianwen)のマルチモーダル版です。Qwen-VL は、画像、テキスト、バウンディングボックスを入力として受け付け、テキストとバウンディングボックスを出力します。Qwen-VL の特徴は以下の通りです: +- **好調なパフォーマンス**: 複数の英語評価ベンチマーク(Zero-shot Captioning、VQA、DocVQA、Grounding を含む)において、同様のモデル規模でオープンソース化された既存のラージビジョン言語モデル(LVLM)を大幅に上回ります。 +- **テキスト認識をサポートする多言語 LVLM**: Qwen-VL は、英語、中国語、多言語の会話を自然にサポートし、画像内の中国語と英語の二言語テキストのエンドツーエンドの認識を促進します。 +- **複数画像のインターリーブ会話**: この機能により、複数の画像を入力し、比較することができる。また、画像に関連する質問を指定し、複数の画像によるストーリーテリングを行うこともできます。 +- **中国語のグラウンディングを支える初のジェネラリストモデル**: 中国語と英語のオープンドメイン言語表現によるバウンディングボックスの検出。 +- **きめ細やかな認識と理解**: 現在他のオープンソース LVLM で使用されている 224\*224 の解像度と比較して、448\*448 の解像度は、きめ細かいテキスト認識、文書 QA、バウンディングボックス注釈を促進する。 + +
+

+ +

+
+ +Qwen-VL シリーズの 2 つのモデルを公開します: +- Qwen-VL: LLM の初期化に Qwen-7B を、視覚エンコーダの初期化に [Openclip ViT-bigG](https://github.com/mlfoundations/open_clip) を用いた学習済み LVLM モデル。そして、それらをランダムに初期化されたクロスアテンションレイヤーで接続する。 +- Qwen-VL-Chat: マルチモーダルな LLM ベースの AI アシスタント。Qwen-VL-Chat は、複数の画像入力、複数ラウンドの質問応答、クリエイティブな機能など、より柔軟なインタラクションをサポートします。 + + +## 評価 + +モデルの能力を2つの観点から評価しました: +1. **標準ベンチマーク**: マルチモーダルなタスクの4つの主要カテゴリーについて、モデルの基本的なタスク能力を評価する: + - ゼロショットキャプション: 未見のデータセットに対して、モデルのゼロショット画像キャプション能力を評価する; + - 一般的なVQA: 判定、色、数、カテゴリなど、画像の一般的な質問応答能力を評価する; + - テキストベースVQA: 文書QA、図表QAなど、写真内のテキストを認識するモデルの能力を評価する; + - 参照表現理解: 参照表現理解: 参照表現で記述された画像内の対象物を特定する能力を評価する。 + +2. **TouchStone**: 総合的なテキスト画像対話能力と人間とのアライメントレベルを評価するために、GPT4 によるスコアリングに基づく TouchStone と呼ばれるベンチマークを構築し、LVLM モデルを評価しました。 + - TouchStone ベンチマークは、合計 300 以上の画像、800 以上の質問、27 のカテゴリをカバーしています。例えば、属性ベースの Q&A、有名人の認識、詩の作文、複数の画像の要約、商品比較、数学の問題解決などです; + - 画像の直接入力という GPT4 の現在の制限を打ち破るため、TouchStone は人間のラベル付けによるきめ細かい画像注釈を提供します。これらの詳細な注釈は、質問とモデルの出力と共に、採点のために GPT4 に提示されます。 + - ベンチマークには英語版と中国語版があります。 + +評価結果は以下の通りです: + +Qwen-VL は、複数の VL タスクにおいて、現行の SOTA ジェネラリストモデルを上回り、また、能力 範囲の点でより包括的なカバレッジを持ちます。 + +

+ +

+ +### ゼロショットキャプションと一般的な VQA + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Model typeModelZero-shot CaptioningGeneral VQA
NoCapsFlickr30KVQAv2devOK-VQAGQASciQA-Img
(0-shot)
VizWiz
(0-shot)
Generalist
Models
Flamingo-9B-61.551.844.7--28.8
Flamingo-80B-67.256.350.6--31.6
Unified-IO-XL100.0-77.954.0---
Kosmos-1-67.151.0---29.2
Kosmos-2-80.551.1----
BLIP-2 (Vicuna-13B)103.971.665.045.932.361.019.6
InstructBLIP (Vicuna-13B)121.982.8--49.563.133.4
Shikra (Vicuna-13B)-73.977.3647.16---
Qwen-VL (Qwen-7B)121.485.878.858.659.367.135.2
Qwen-VL-Chat120.281.078.256.657.568.238.9
Previous SOTA
(Per Task Fine-tuning)
-127.0
(PALI-17B)
84.5
(InstructBLIP
-FlanT5-XL)
86.1
(PALI-X
-55B)
66.1
(PALI-X
-55B)
72.1
(CFR)
92.53
(LLaVa+
GPT-4)
70.9
(PALI-X
-55B)
+ +- ゼロショット画像のキャプション付けでは、Qwen-VL は Flickr30K で **SOTA** を達成し、InstructBlip を使用した Nocaps でも競争力のある結果を得ています。 +- 一般的な VQA では、Qwen-VL は同じ一般的な LVLM スケール設定で **SOTA** を達成しています。 + +### テキスト指向VQA(画像中のテキスト理解能力に重点を置く) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Model typeModelTextVQADocVQAChartQAAI2DOCR-VQA
Generalist ModelsBLIP-2 (Vicuna-13B)42.4----
InstructBLIP (Vicuna-13B)50.7----
mPLUG-DocOwl (LLaMA-7B)52.662.257.4--
Pic2Struct-Large (1.3B)-76.658.642.171.3
Qwen-VL (Qwen-7B)63.865.165.762.375.7
Specialist SOTAs
(Specialist/Finetuned)
PALI-X-55B (Single-task FT)
(Without OCR Pipeline)
71.4480.070.081.275.0
+ +- テキスト関連の認識/QA 評価において、Qwen-VL は汎用の LVLM スケール設定で SOTA を達成しています。 +- 解像度は上記のいくつかの評価において重要である。解像度が 224 のオープンソースの LVLM モデルの多くは、これらの評価ができないか、画像をカットすることでしか解決できないが、Qwen-VL は解像度を 448 にスケーリングし、エンドツーエンドで評価できるようにしました。Qwen-VL は、一部のタスクにおいて、解像度 1024 の Pic2Struct-Large モデルをも凌駕しています。 + +### 表現理解の参照 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Model typeModelRefCOCORefCOCO+RefCOCOgGRIT
valtest-Atest-Bvaltest-Atest-Bval-utest-urefexp
Generalist ModelsGPV-2--------51.50
OFA-L*79.9683.6776.3968.2976.0061.7567.5767.5861.70
Unified-IO--------78.61
VisionLLM-H86.70-------
Shikra-7B87.0190.6180.24 81.6087.3672.1282.2782.1969.34
Shikra-13B87.83 91.1181.8182.8987.7974.4182.6483.1669.03
Qwen-VL-7B89.3692.2685.3483.1288.2577.2185.5885.4878.22
Qwen-VL-7B-Chat88.5592.2784.5182.8288.5976.7985.9686.32-
Specialist SOTAs
(Specialist/Finetuned)
G-DINO-L90.56  93.1988.2482.7588.9575.9286.1387.02-
UNINEXT-H92.64 94.3391.4685.2489.6379.7988.7389.37-
ONE-PEACE92.58 94.1889.2688.7792.2183.2389.2289.27-
+ +- Qwen-VL は、上記のすべての参照表現理解ベンチマークで **SOTA** を達成した。 +- Qwen-VL は中国語の下地データを学習していないが、中国語のキャプションデータと英語の下地データを学習することで、ゼロショットで中国語の下地タスクに汎化することができます。 + +私たちの実験結果を再現するために、上記の評価スクリプトをすべて提供しています。詳しくは [eval_mm/EVALUATION.md](eval_mm/EVALUATION.md) をお読みください。 + +### チャット評価 + +TouchStone は GPT4 によるスコアリングに基づくベンチマークで、テキストと画像の対話および人間とのアライメントレベルにおける LVLM モデルの能力を評価する。合計 300 以上の画像、800 以上の質問、属性ベースの Q&A、有名人の認識、詩の作成、複数の画像の要約、商品比較、数学の問題解決など27のカテゴリをカバーしています。詳しくは [touchstone/README_JA.md](touchstone/README_JA.md) をお読みください。 + +#### 英語評価 + +| Model | Score | +|---------------|-------| +| PandaGPT | 488.5 | +| MiniGPT4 | 531.7 | +| InstructBLIP | 552.4 | +| LLaMA-AdapterV2 | 590.1 | +| LLaVA | 602.7 | +| mPLUG-Owl | 605.4 | +| Qwen-VL-Chat | 645.2 | + +#### 中国語評価 + +| Model | Score | +|---------------|-------| +| VisualGLM | 247.1 | +| Qwen-VL-Chat | 401.2 | + +Qwen-VL-Chat は中国語と英語のアライメント評価で最高の結果を得ました。 + +## 必要条件 + +* python 3.8 以上 +* pytorch 1.12 以上、2.0 以上を推奨 +* CUDA 11.4 以上を推奨(GPU ユーザー向けです) + +## クイックスタート + +以下では、Qwen-VL と Qwen-VL-Chat を 🤖 ModelScope と 🤗 Transformers とともに使う方法を、簡単な例で示します。 + +コードを実行する前に、環境のセットアップと必要なパッケージのインストールが済んでいることを 確認してください。上記の要件を満たしていることを確認してから、依存するライブラリをインストールしてください。 + +```bash +pip install -r requirements.txt +``` + +これで ModelScope や Transformers を使い始めることができます。ビジョンエンコーダについての詳しい使い方は、[チュートリアル](TUTORIAL.md)を参照してください。 + +#### 🤗 Transformers + +Qwen-VL-Chat を推論に使用するために必要なのは、以下に示す数行のコードを入力することだけです。ただし、**最新のコードを使用していることを確認してください。** + +```python +from transformers import AutoModelForCausalLM, AutoTokenizer +from transformers.generation import GenerationConfig +import torch +torch.manual_seed(1234) + +# Note: デフォルトの動作では、インジェクション攻撃防止機能がオフになりました。 +tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL-Chat", trust_remote_code=True) + +# bf16 の使用 +# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval() +# fp16 の使用 +# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="auto", trust_remote_code=True, fp16=True).eval() +# cpu のみの使用 +# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="cpu", trust_remote_code=True).eval() +# cuda デバイスの使用 +model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="cuda", trust_remote_code=True).eval() + +# 生成のためのハイパーパラメータの指定 +model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-VL-Chat", trust_remote_code=True) + +# 第 1 回 対話ターン +query = tokenizer.from_list_format([ + {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'}, # ローカルパスまたは url + {'text': '这是什么?'}, +]) +response, history = model.chat(tokenizer, query=query, history=None) +print(response) +# 写真はビーチでラブラドールの隣で愛犬と戯れる女性が写っており、彼らは砂の中にいる。 + +# 第 2 回 対話ターン +response, history = model.chat(tokenizer, '框出图中击掌的位置', history=history) +print(response) +# 击掌(536,509),(588,602) +image = tokenizer.draw_bbox_on_latest_picture(response, history) +if image: + image.save('1.jpg') +else: + print("no box") +``` + +

+ +

+ +

+ Running Qwen-VL + +Running Qwen-VL pretrained base model is also simple. + +```python +from transformers import AutoModelForCausalLM, AutoTokenizer +from transformers.generation import GenerationConfig +import torch +torch.manual_seed(1234) + +tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL", trust_remote_code=True) + +# bf16 の使用 +# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="auto", trust_remote_code=True, bf16=True).eval() +# fp16 の使用 +# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="auto", trust_remote_code=True, fp16=True).eval() +# cpu のみの使用 +# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="cpu", trust_remote_code=True).eval() +# cuda デバイスの使用 +model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="cuda", trust_remote_code=True).eval() + +# 生成のためのハイパーパラメータの指定 +model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-VL", trust_remote_code=True) + +query = tokenizer.from_list_format([ + {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'}, # ローカルパスまたは url + {'text': 'Generate the caption in English with grounding:'}, +]) +inputs = tokenizer(query, return_tensors='pt') +inputs = inputs.to(model.device) +pred = model.generate(**inputs) +response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False) +print(response) +# https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpegGenerate the caption in English with grounding: Woman(451,379),(731,806) and her dog(219,424),(576,896) playing on the beach<|endoftext|> +image = tokenizer.draw_bbox_on_latest_picture(response) +if image: + image.save('2.jpg') +else: + print("no box") +``` + +

+ +

+ +

+ + +#### 🤖 ModelScope + +ModelScope は、MaaS(Model-as-a-Service)のためのオープンソースプラットフォームであり、AI 開発者に柔軟で費用対効果の高いモデルサービスを提供します。同様に、以下のように ModelScope でモデルを実行することができます: + +```python +from modelscope import ( + snapshot_download, AutoModelForCausalLM, AutoTokenizer, GenerationConfig +) +import torch +model_id = 'qwen/Qwen-VL-Chat' +revision = 'v1.0.0' + +model_dir = snapshot_download(model_id, revision=revision) +torch.manual_seed(1234) + +tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True) +if not hasattr(tokenizer, 'model_dir'): + tokenizer.model_dir = model_dir +# bf16 の使用 +# model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, bf16=True).eval() +# fp16 の使用 +model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, fp16=True).eval() +# cpu の使用 +# model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="cpu", trust_remote_code=True).eval() +# auto の使用 +# model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True).eval() + +# 生成のためのハイパーパラメータの指定 +model.generation_config = GenerationConfig.from_pretrained(model_dir, trust_remote_code=True) + +# 第 1 回 対話ターン +# Either a local path or an url between tags. +image_path = 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg' +response, history = model.chat(tokenizer, query=f'{image_path}这是什么', history=None) +print(response) +# 写真は、若い女性がビーチで愛犬のラブラドール種と戯れているところ。 二人は浜辺に座り、犬の前脚を上げて触れ合っている。 + +# 第 2 回 対話ターン +response, history = model.chat(tokenizer, '输出击掌的检测框', history=history) +print(response) +# "击掌"(211,412),(577,891) +image = tokenizer.draw_bbox_on_latest_picture(response, history) +if image: + image.save('output_chat.jpg') +else: + print("no box") +``` + +

+ +

+ +## デモ + +### Web UI + +Web UI デモを構築するためのコードを提供します。始める前に、以下のパッケージがインストールされていることを確認してください: + +```bash +pip install -r requirements_web_demo.txt +``` + +次に以下のコマンドを実行し、生成されたリンクをクリックします: + +```bash +python web_demo_mm.py +``` + +## FAQ + +問題が発生した場合は、[FAQ](FAQ_ja.md) や issue を参照し、新しい issue を立ち上げる前に解決策を探してください。 + + +## ライセンス契約 + +研究者や開発者は、Qwen-VL と Qwen-VL-Chat のコードとモデルウェイトを自由に使用することができます。また、商用利用も可能です。詳しくは [LICENSE](LICENSE) をご覧ください。 + +## お問い合わせ + +研究チームまたは製品チームへのメッセージは、qianwen_opensource@alibabacloud.com までお気軽にお送りください。 + diff --git a/touchstone/README.md b/touchstone/README.md index 65f0f70..aeae9e5 100644 --- a/touchstone/README.md +++ b/touchstone/README.md @@ -6,7 +6,7 @@

- 中文  |  English + 中文  |  English |  日本語



diff --git a/touchstone/README_CN.md b/touchstone/README_CN.md index 66ce2a0..31d0991 100644 --- a/touchstone/README_CN.md +++ b/touchstone/README_CN.md @@ -6,7 +6,7 @@

- 中文  |  English + 中文  |  English |  日本語



diff --git a/touchstone/README_JA.md b/touchstone/README_JA.md new file mode 100644 index 0000000..2f2ae94 --- /dev/null +++ b/touchstone/README_JA.md @@ -0,0 +1,68 @@ +
+ +

+ +

+
+ +

+ 中文  |  English|  日本語 +

+

+ +**TOUCHSTONE** は、マルチモーダル言語モデルの包括的な評価であり、基本的な認識や理解だけでなく、文学的な創作にまで及びます。評価プロセスを自動化し、マルチモーダル情報をテキストに変換することで、私達の TouchStone は、人手を介することなく高度な言語モデルの力を活用し、対話の質を効率的かつ正確に評価することができます。 + +## DATASET + +LVLMの能力を評価するために、基本的な記述能力、視覚認識能力、視覚理解能力、視覚ストーリーテリング能力、複数画像解析能力の5つの主要な次元をカバーする多様で包括的なデータセットを構築する。 + +- **基本的描写力** 画像記述には、単純な記述と詳細な記述を含め、画像に含まれる情報を記述するモデルの能力が含まれる。単純な記述は、通常、画像の主な主題とアクションを記述する短いフレーズであり、詳細な記述は、画像のシーン、それらの属性、および関係についてのより詳細な情報を提供します。 + +- **視覚認識能力** 画像認識とは、画像内のオブジェクトやシーンを認識し、関連情報を推論するタスクである。この分野はさらに、属性QA、映画/テレビ認識、アート認識、ランドマーク認識、有名人認識、感情認識、テキスト認識、オブジェクト認識、構造コンテンツ認識など、いくつかのサブタスクに分けることができる。 + +- **視覚理解能力** 画像理解とは、モデルが画像の意味や関連するタスクを理解する能力のことである。この分野には、スタイル理解、抽象画像理解、ミーム理解、画像分析、チャート分析、一般的な問題解決、推論QAなど、いくつかのサブタスクが含まれる。 + +- **視覚的ストーリーテリング能力** ビジュアルストーリーテリング能力とは、メール、詩、物語、広告/商品推薦、ブレーンストーミングの執筆など、ビジュアルコンテンツに基づいた文学創作のプロセスである。 + +- **マルチ画像解析能力** 複数画像解析とは、複数の画像を解析・比較する作業である。この分野には、2つまたは複数の画像を比較する、複数の画像情報を要約する、商品を比較する、画像を段階的に分析するなどのタスクが含まれます。 + + +

+ +

+ +モデルの能力を 5 つの次元から総合的に評価する。上図のように、27 のサブタスクの例を示す。知覚から認知、創造性まで、難易度が上がるにつれて、モデルに求められる要件もどんどん高くなっている。現在、LVLM の機能は初期段階にある。我々のデータセットには 800 以上の質問と 27 のカテゴリーが含まれている。 + +## 方法 + + +自動評価を可能にするために、強力な LLM を判定器として適用する。画像の内容を効果的に理解するために、実際の画像入力をきめ細かいテキスト注釈に手動で置き換える。これらの注釈と対応する質問を GPT4 のような強力な LLM に入力することで、参照解答を得る。 + +LVLMの評価には、実際の画像と質問を入力として与え、それぞれの回答を得る。最後に、GPT4を用いて、LVLMが生成した回答を、細かいアノテーションと質問に基づいてスコアリングする。スコアリングの指示は、注釈を画像の内容とみなして、回答の有用性、関連性、正確性を評価するようモデルに要求する。評価の公平性を確保するため、各モデルの回答はGPT4の一貫した参照回答と比較されます。全問題におけるモデルの平均スコアを最終スコアとする。 + +解答位置の影響を排除するために、解答位置を入れ替えて2回目の採点ラウンドを行い、得られた2つのスコアの平均を計算します。このアプローチは、解答の配置によって生じるバイアスを軽減することを目的としています。 +

+ +

+ +### 評価 + +#### 英語ベースのマルチモーダル対話における評価 + +| Model | Score | +|---------------|-------| +| PandaGPT | 488.5 | +| MiniGPT4 | 531.7 | +| InstructBLIP | 552.4 | +| LLaMA-AdapterV2 | 590.1 | +| mPLUG-Owl | 605.4 | +| LLaVA | 602.7 | +| Qwen-VL-Chat | 645.2 | + +#### 中国語ベースのマルチモーダル対話における評価 + +| Model | Score | +|---------------|-------| +| VisualGLM | 247.1 | +| Qwen-VL-Chat | 401.2 | +