From c8209f7328903486f8d91da4e745f68c5f62783a Mon Sep 17 00:00:00 2001 From: Junyang Lin Date: Wed, 30 Aug 2023 17:57:40 +0800 Subject: [PATCH] Update README_JA.md --- README_JA.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/README_JA.md b/README_JA.md index 8f5b507c..a1edc7cc 100644 --- a/README_JA.md +++ b/README_JA.md @@ -259,10 +259,10 @@ BF16 の精度と Int4 の量子化レベルの下で、それぞれ 2048 個と また、BF16またはInt4の量子化レベルで、それぞれ2048トークンをコンテキストとしてエンコードした場合(および単一のトークンを生成した場合)と、8192トークンを生成した場合(単一のトークンをコンテキストとして生成した場合)のGPUメモリ使用量のピーク値をプロファイリングしました。その結果を以下に示します。 -| Quantization | Peak Usage for Encoding 2048 Tokens | Peak Usage for Generating 8192 Tokens | -| -------------- | :-----------------------------------: | :-------------------------------------: | -| BF16 | 17.66GB | 22.58GB | -| Int4 | 8.21GB | 13.62GB | +| Quantization Level | Peak Usage for Encoding 2048 Tokens | Peak Usage for Generating 8192 Tokens | +| ------------------ | :---------------------------------: | :-----------------------------------: | +| BF16 | 17.66GB | 22.58GB | +| Int4 | 8.21GB | 13.62GB | 上記のスピードとメモリーのプロファイリングは、[このスクリプト](https://qianwen-res.oss-cn-beijing.aliyuncs.com/profile.py)を使用しています。