diff --git a/FAQ_ja.md b/FAQ_ja.md
new file mode 100644
index 0000000..196d85f
--- /dev/null
+++ b/FAQ_ja.md
@@ -0,0 +1,55 @@
+# FAQ
+
+## インストールと環境
+
+#### transformers のバージョンは?
+
+4.31.0 が望ましいです。
+
+#### コードとチェックポイントをダウンロードしましたが、モデルをローカルにロードできません。どうすればよいでしょうか?
+
+コードを最新のものに更新し、すべてのシャードされたチェックポイントファイルを正しくダウンロードしたかどうか確認してください。
+
+#### `qwen.tiktoken` が見つかりません。これは何ですか?
+
+これは tokenizer のマージファイルです。ダウンロードする必要があります。[git-lfs](https://git-lfs.com) を使わずにリポジトリを git clone しただけでは、このファイルをダウンロードできないことに注意してください。
+
+#### transformers_stream_generator/tiktoken/accelerate が見つかりません。
+
+コマンド `pip install -r requirements.txt` を実行してください。このファイルは [https://github.com/QwenLM/Qwen-VL/blob/main/requirements.txt](https://github.com/QwenLM/Qwen-VL/blob/main/requirements.txt) にあります。
+
+
+
+
+## デモと推論
+
+#### デモはありますか?
+
+ウェブデモは `web_demo_mm.py` を参照してください。詳細は README を参照してください。
+
+
+
+#### Qwen-VLはストリーミングに対応していますか?
+
+いいえ、まだサポートしていません。
+
+#### 世代と命令は関係ないようですが...
+
+Qwen-VL ではなく Qwen-VL-Chat を読み込んでいないか確認してください。Qwen-VL はアライメントなしのベースモデルで、SFT/Chat モデルとは動作が異なります。
+
+#### 量子化はサポートされていますか?
+
+いいえ。早急に量子化をサポートするつもりです。
+
+#### 長いシーケンスの処理で不満足なパフォーマンス
+
+NTK が適用されていることを確認してください。`config.json` の `use_dynamc_ntk` と `use_logn_attn` を `true` に設定する必要がある(デフォルトでは `true`)。
+
+
+
+## Tokenizer
+
+#### bos_id/eos_id/pad_id が見つかりません。
+
+私たちのトレーニングでは、セパレータとパディングトークンとして `<|endoftext|>` のみを使用しています。bos_id、eos_id、pad_id は tokenizer.eod_id に設定できます。私たちの tokenizer について詳しくは、tokenizer についてのドキュメントをご覧ください。
+
diff --git a/README.md b/README.md
index 2e1e6fe..d789bc0 100644
--- a/README.md
+++ b/README.md
@@ -12,7 +12,7 @@
- 中文  |   English + 中文  |   English |   日本語
- 中文  |  English + 中文  |  English |   日本語
+ +
+
+
+
+ Qwen-VL 🤖 | 🤗  | Qwen-VL-Chat 🤖 | 🤗  |  Demo  |  Report   |   Discord + +
++ 中文  |   English |   日本語 +
++ Japanese document maintainer: Ikko Eltociear Ashimine +
++ +
+
+
+Qwen-VL シリーズの 2 つのモデルを公開します:
+- Qwen-VL: LLM の初期化に Qwen-7B を、視覚エンコーダの初期化に [Openclip ViT-bigG](https://github.com/mlfoundations/open_clip) を用いた学習済み LVLM モデル。そして、それらをランダムに初期化されたクロスアテンションレイヤーで接続する。
+- Qwen-VL-Chat: マルチモーダルな LLM ベースの AI アシスタント。Qwen-VL-Chat は、複数の画像入力、複数ラウンドの質問応答、クリエイティブな機能など、より柔軟なインタラクションをサポートします。
+
+
+## 評価
+
+モデルの能力を2つの観点から評価しました:
+1. **標準ベンチマーク**: マルチモーダルなタスクの4つの主要カテゴリーについて、モデルの基本的なタスク能力を評価する:
+ - ゼロショットキャプション: 未見のデータセットに対して、モデルのゼロショット画像キャプション能力を評価する;
+ - 一般的なVQA: 判定、色、数、カテゴリなど、画像の一般的な質問応答能力を評価する;
+ - テキストベースVQA: 文書QA、図表QAなど、写真内のテキストを認識するモデルの能力を評価する;
+ - 参照表現理解: 参照表現理解: 参照表現で記述された画像内の対象物を特定する能力を評価する。
+
+2. **TouchStone**: 総合的なテキスト画像対話能力と人間とのアライメントレベルを評価するために、GPT4 によるスコアリングに基づく TouchStone と呼ばれるベンチマークを構築し、LVLM モデルを評価しました。
+ - TouchStone ベンチマークは、合計 300 以上の画像、800 以上の質問、27 のカテゴリをカバーしています。例えば、属性ベースの Q&A、有名人の認識、詩の作文、複数の画像の要約、商品比較、数学の問題解決などです;
+ - 画像の直接入力という GPT4 の現在の制限を打ち破るため、TouchStone は人間のラベル付けによるきめ細かい画像注釈を提供します。これらの詳細な注釈は、質問とモデルの出力と共に、採点のために GPT4 に提示されます。
+ - ベンチマークには英語版と中国語版があります。
+
+評価結果は以下の通りです:
+
+Qwen-VL は、複数の VL タスクにおいて、現行の SOTA ジェネラリストモデルを上回り、また、能力 範囲の点でより包括的なカバレッジを持ちます。
+
+
+ +
+ +### ゼロショットキャプションと一般的な VQA +
Model type | +Model | +Zero-shot Captioning | +General VQA | +|||||
---|---|---|---|---|---|---|---|---|
NoCaps | +Flickr30K | +VQAv2dev | +OK-VQA | +GQA | +SciQA-Img (0-shot) |
+ VizWiz (0-shot) |
+ ||
Generalist Models |
+ Flamingo-9B | +- | +61.5 | +51.8 | +44.7 | +- | +- | +28.8 | +
Flamingo-80B | +- | +67.2 | +56.3 | +50.6 | +- | +- | +31.6 | +|
Unified-IO-XL | +100.0 | +- | +77.9 | +54.0 | +- | +- | +- | +|
Kosmos-1 | +- | +67.1 | +51.0 | +- | +- | +- | +29.2 | +|
Kosmos-2 | +- | +80.5 | +51.1 | +- | +- | +- | +- | +|
BLIP-2 (Vicuna-13B) | +103.9 | +71.6 | +65.0 | +45.9 | +32.3 | +61.0 | +19.6 | +|
InstructBLIP (Vicuna-13B) | +121.9 | +82.8 | +- | +- | +49.5 | +63.1 | +33.4 | +|
Shikra (Vicuna-13B) | +- | +73.9 | +77.36 | +47.16 | +- | +- | +- | +|
Qwen-VL (Qwen-7B) | +121.4 | +85.8 | +78.8 | +58.6 | +59.3 | +67.1 | +35.2 | +|
Qwen-VL-Chat | +120.2 | +81.0 | +78.2 | +56.6 | +57.5 | +68.2 | +38.9 | +|
Previous SOTA (Per Task Fine-tuning) |
+ - | +127.0 (PALI-17B) |
+ 84.5 (InstructBLIP -FlanT5-XL) |
+ 86.1 (PALI-X -55B) |
+ 66.1 (PALI-X -55B) |
+ 72.1 (CFR) |
+ 92.53 (LLaVa+ GPT-4) |
+ 70.9 (PALI-X -55B) |
+
Model type | +Model | +TextVQA | +DocVQA | +ChartQA | +AI2D | +OCR-VQA | +
---|---|---|---|---|---|---|
Generalist Models | +BLIP-2 (Vicuna-13B) | +42.4 | +- | +- | +- | +- | +
InstructBLIP (Vicuna-13B) | +50.7 | +- | +- | +- | +- | +|
mPLUG-DocOwl (LLaMA-7B) | +52.6 | +62.2 | +57.4 | +- | +- | +|
Pic2Struct-Large (1.3B) | +- | +76.6 | +58.6 | +42.1 | +71.3 | +|
Qwen-VL (Qwen-7B) | +63.8 | +65.1 | +65.7 | +62.3 | +75.7 | +|
Specialist SOTAs (Specialist/Finetuned) |
+ PALI-X-55B (Single-task FT) (Without OCR Pipeline) |
+ 71.44 | +80.0 | +70.0 | +81.2 | +75.0 | +
Model type | +Model | +RefCOCO | +RefCOCO+ | +RefCOCOg | +GRIT | +|||||
---|---|---|---|---|---|---|---|---|---|---|
val | +test-A | +test-B | +val | +test-A | +test-B | +val-u | +test-u | +refexp | +||
Generalist Models | +GPV-2 | +- | +- | +- | +- | +- | +- | +- | +- | +51.50 | +
OFA-L* | +79.96 | +83.67 | +76.39 | +68.29 | +76.00 | +61.75 | +67.57 | +67.58 | +61.70 | +|
Unified-IO | +- | +- | +- | +- | +- | +- | +- | +- | +78.61 | +|
VisionLLM-H | ++ | 86.70 | +- | +- | +- | +- | +- | +- | +- | +|
Shikra-7B | +87.01 | +90.61 | +80.24 | +81.60 | +87.36 | +72.12 | +82.27 | +82.19 | +69.34 | +|
Shikra-13B | +87.83 | +91.11 | +81.81 | +82.89 | +87.79 | +74.41 | +82.64 | +83.16 | +69.03 | +|
Qwen-VL-7B | +89.36 | +92.26 | +85.34 | +83.12 | +88.25 | +77.21 | +85.58 | +85.48 | +78.22 | +|
Qwen-VL-7B-Chat | +88.55 | +92.27 | +84.51 | +82.82 | +88.59 | +76.79 | +85.96 | +86.32 | +- | +|
Specialist SOTAs (Specialist/Finetuned) |
+ G-DINO-L | +90.56 | +93.19 | +88.24 | +82.75 | +88.95 | +75.92 | +86.13 | +87.02 | +- | +
UNINEXT-H | +92.64 | +94.33 | +91.46 | +85.24 | +89.63 | +79.79 | +88.73 | +89.37 | +- | +|
ONE-PEACE | +92.58 | +94.18 | +89.26 | +88.77 | +92.21 | +83.23 | +89.22 | +89.27 | +- | +
+ +
+
+
+
+
+
+Running Qwen-VL
+
+Running Qwen-VL pretrained base model is also simple.
+
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from transformers.generation import GenerationConfig
+import torch
+torch.manual_seed(1234)
+
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL", trust_remote_code=True)
+
+# bf16 の使用
+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="auto", trust_remote_code=True, bf16=True).eval()
+# fp16 の使用
+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="auto", trust_remote_code=True, fp16=True).eval()
+# cpu のみの使用
+# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="cpu", trust_remote_code=True).eval()
+# cuda デバイスの使用
+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="cuda", trust_remote_code=True).eval()
+
+# 生成のためのハイパーパラメータの指定
+model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-VL", trust_remote_code=True)
+
+query = tokenizer.from_list_format([
+ {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'}, # ローカルパスまたは url
+ {'text': 'Generate the caption in English with grounding:'},
+])
+inputs = tokenizer(query, return_tensors='pt')
+inputs = inputs.to(model.device)
+pred = model.generate(**inputs)
+response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False)
+print(response)
+# https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpegGenerate the caption in English with grounding: Woman
+ +
+
+## デモ
+
+### Web UI
+
+Web UI デモを構築するためのコードを提供します。始める前に、以下のパッケージがインストールされていることを確認してください:
+
+```bash
+pip install -r requirements_web_demo.txt
+```
+
+次に以下のコマンドを実行し、生成されたリンクをクリックします:
+
+```bash
+python web_demo_mm.py
+```
+
+## FAQ
+
+問題が発生した場合は、[FAQ](FAQ_ja.md) や issue を参照し、新しい issue を立ち上げる前に解決策を探してください。
+
+
+## ライセンス契約
+
+研究者や開発者は、Qwen-VL と Qwen-VL-Chat のコードとモデルウェイトを自由に使用することができます。また、商用利用も可能です。詳しくは [LICENSE](LICENSE) をご覧ください。
+
+## お問い合わせ
+
+研究チームまたは製品チームへのメッセージは、qianwen_opensource@alibabacloud.com までお気軽にお送りください。
+
diff --git a/touchstone/README.md b/touchstone/README.md
index 65f0f70..aeae9e5 100644
--- a/touchstone/README.md
+++ b/touchstone/README.md
@@ -6,7 +6,7 @@
- 中文  |  English + 中文  |  English |  日本語
- 中文  |  English + 中文  |  English |  日本語
+ +
+
+
+
+ 中文  |  English|  日本語 +
++ +
+ +モデルの能力を 5 つの次元から総合的に評価する。上図のように、27 のサブタスクの例を示す。知覚から認知、創造性まで、難易度が上がるにつれて、モデルに求められる要件もどんどん高くなっている。現在、LVLM の機能は初期段階にある。我々のデータセットには 800 以上の質問と 27 のカテゴリーが含まれている。 + +## 方法 + + +自動評価を可能にするために、強力な LLM を判定器として適用する。画像の内容を効果的に理解するために、実際の画像入力をきめ細かいテキスト注釈に手動で置き換える。これらの注釈と対応する質問を GPT4 のような強力な LLM に入力することで、参照解答を得る。 + +LVLMの評価には、実際の画像と質問を入力として与え、それぞれの回答を得る。最後に、GPT4を用いて、LVLMが生成した回答を、細かいアノテーションと質問に基づいてスコアリングする。スコアリングの指示は、注釈を画像の内容とみなして、回答の有用性、関連性、正確性を評価するようモデルに要求する。評価の公平性を確保するため、各モデルの回答はGPT4の一貫した参照回答と比較されます。全問題におけるモデルの平均スコアを最終スコアとする。 + +解答位置の影響を排除するために、解答位置を入れ替えて2回目の採点ラウンドを行い、得られた2つのスコアの平均を計算します。このアプローチは、解答の配置によって生じるバイアスを軽減することを目的としています。 +
+ +
+ +### 評価 + +#### 英語ベースのマルチモーダル対話における評価 + +| Model | Score | +|---------------|-------| +| PandaGPT | 488.5 | +| MiniGPT4 | 531.7 | +| InstructBLIP | 552.4 | +| LLaMA-AdapterV2 | 590.1 | +| mPLUG-Owl | 605.4 | +| LLaVA | 602.7 | +| Qwen-VL-Chat | 645.2 | + +#### 中国語ベースのマルチモーダル対話における評価 + +| Model | Score | +|---------------|-------| +| VisualGLM | 247.1 | +| Qwen-VL-Chat | 401.2 | +