Skip to content

Commit

Permalink
Merge pull request #24 from eltociear/add-japanese-readme
Browse files Browse the repository at this point in the history
docs: add Japanese README
  • Loading branch information
wangbinDL authored Sep 13, 2024
2 parents 55c9dd4 + 13e10d4 commit b140d33
Show file tree
Hide file tree
Showing 3 changed files with 225 additions and 8 deletions.
221 changes: 221 additions & 0 deletions README-ja.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,221 @@
<div align="center">

[English](./README.md) | [简体中文](./README-zh_CN.md) | 日本語

<h1>UniMERNet: 実世界の数式認識のためのユニバーサルネットワーク</h1>

[[ 論文 ]](https://arxiv.org/abs/2404.15254) [[ ウェブサイト ]](https://github.com/opendatalab/UniMERNet/tree/main) [[ データセット (OpenDataLab)]](https://opendatalab.com/OpenDataLab/UniMER-Dataset) [[ データセット (Hugging Face) ]](https://huggingface.co/datasets/wanderkid/UniMER_Dataset)

[[モデル 🤗(Hugging Face)]](https://huggingface.co/wanderkid/unimernet_base)
[[モデル <img src="./asset/images/modelscope_logo.png" width="20px">(ModelScope)]](https://www.modelscope.cn/models/wanderkid/unimernet_base)

🔥🔥 [CDM: 公平で正確な数式認識評価のための信頼できる指標](https://github.com/opendatalab/UniMERNet/tree/main/cdm)

</div>

UniMERNetの公式リポジトリへようこそ。これは、数式の画像をLaTeXに変換するソリューションであり、さまざまな実世界のシナリオに適しています。

## ニュース 🚀🚀🚀
**2024.09.06** 🎉🎉 <font color="red">UniMERNetの更新: 新バージョンはモデルが小さくなり、推論が高速化されました。トレーニングコードがオープンソース化されました。詳細は最新の論文[UniMERNet](https://arxiv.org/abs/2404.15254)をご覧ください。</font>
**2024.09.06** 🎉🎉 <font color="red">数式認識の新しい指標を導入: [CDM](https://github.com/opendatalab/UniMERNet/tree/main/cdm)。BLEU/EditDistanceと比較して、CDMはより直感的で正確な評価スコアを提供し、数式表現の多様性に影響されずに異なるモデルの公平な比較を可能にします。</font>
**2024.07.21** 🎉🎉 [PDF-Extract-Kit](https://github.com/opendatalab/PDF-Extract-Kit) MFDモデルに基づく数式検出(MFD)チュートリアルを追加しました。
**2024.06.06** 🎉🎉 UniMERデータセットの評価コードをオープンソース化しました。
**2024.05.06** 🎉🎉 UniMERデータセットをオープンソース化しました。これには、モデルトレーニング用のUniMER-1MとMER評価用のUniMER-Testが含まれます。
**2024.05.06** 🎉🎉 Streamlit数式認識デモを追加し、ローカルデプロイメントアプリを提供しました。
**2024.04.24** 🎉🎉 論文が[ArXiv](https://arxiv.org/abs/2404.15254)で公開されました。
**2024.04.24** 🎉🎉 推論コードとチェックポイントがリリースされました。

## デモビデオ
https://github.com/opendatalab/UniMERNet/assets/69186975/ac54c6b9-442c-48b0-95f9-a4a3fce8780b

https://github.com/opendatalab/UniMERNet/assets/69186975/09b71c55-c58a-4792-afc1-d5774880ccf8

## クイックスタート

### リポジトリをクローンし、モデルをダウンロード
```bash
git clone https://github.com/opendatalab/UniMERNet.git
```

```bash
cd UniMERNet/models
# モデルとトークナイザーを個別にダウンロードするか、git-lfsを使用
git lfs install
git clone https://huggingface.co/wanderkid/unimernet_base # 1.3GB
git clone https://huggingface.co/wanderkid/unimernet_small # 773MB
git clone https://huggingface.co/wanderkid/unimernet_tiny # 441MB

# モデルをModelScopeからもダウンロードできます
git clone https://www.modelscope.cn/wanderkid/unimernet_base.git
git clone https://www.modelscope.cn/wanderkid/unimernet_small.git
git clone https://www.modelscope.cn/wanderkid/unimernet_tiny.git
```

### インストール

> クリーンなConda環境を作成
``` bash
conda create -n unimernet python=3.10

conda activate unimernet
```

> インストール方法1:pip installで直接インストール(一般ユーザー向け)
```bash
pip install --upgrade unimernet

pip install "unimernet[full]"
```

> インストール方法2:ローカルインストール(開発者向け)
```bash
pip install -e ."[full]"
```


### UniMERNetの実行

1. **Streamlitアプリケーション**:インタラクティブでユーザーフレンドリーな体験のために、StreamlitベースのGUIを使用します。このアプリケーションでは、リアルタイムの数式認識とレンダリングが可能です。

```bash
unimernet_gui
```
最新バージョンのUniMERNetをインストールしていることを確認してください(`pip install --upgrade unimernet & pip install "unimernet[full]"`)Streamlit GUIアプリケーションを使用するために。

2. **コマンドラインデモ**:画像からLaTeXコードを予測します。

```bash
python demo.py
```

3. **Jupyter Notebookデモ**:画像から数式を認識してレンダリングします。

```bash
jupyter-lab ./demo.ipynb
```

## SOTAメソッドとのパフォーマンス比較(BLEU)。

> UniMERNetは、実世界の数式認識において主流のモデルを大幅に上回り、BLEUスコア評価によって示されるように、シンプルな印刷表現(SPE)、複雑な印刷表現(CPE)、スクリーンキャプチャ表現(SCE)、手書き表現(HWE)において優れた性能を示しています。

![BLEU](./asset/papers/fig1_bleu.jpg)

## 異なるメソッドによる可視化結果。

> UniMERNetは、他のメソッドを上回る挑戦的なサンプルの視覚的認識において優れています。

![Visualization](https://github.com/opendatalab/VIGC/assets/69186975/6edcac69-5082-43a2-8095-5681b7a707b9)

## UniMERデータセット
### イントロダクション
UniMERデータセットは、数式認識(MER)分野を進展させるために特別に収集されたコレクションです。これには、100万以上のインスタンスを含む包括的なUniMER-1Mトレーニングセットと、実世界のシナリオに対するMERモデルのベンチマークテスト用に精巧に設計されたUniMERテストセットが含まれます。データセットの詳細は以下の通りです:

**UniMER-1Mトレーニングセット:**
- 総サンプル数:1,061,791のLaTeX-画像ペア
- 構成:簡潔で複雑な拡張数式表現のバランスの取れた混合
- 目的:堅牢で高精度なMERモデルをトレーニングし、認識精度と一般化能力を向上させる

**UniMERテストセット:**
- 総サンプル数:23,757、4種類の表現に分類:
- シンプルな印刷表現(SPE):6,762サンプル
- 複雑な印刷表現(CPE):5,921サンプル
- スクリーンキャプチャ表現(SCE):4,742サンプル
- 手書き表現(HWE):6,332サンプル
- 目的:さまざまな実世界の条件下でMERモデルを徹底的に評価する

### データセットのダウンロード
データセットは[OpenDataLab](https://opendatalab.com/OpenDataLab/UniMER-Dataset)(中国ユーザー向け推奨)または[HuggingFace](https://huggingface.co/datasets/wanderkid/UniMER_Dataset)からダウンロードできます。

### UniMER-Testデータセットのダウンロード

UniMER-1Mデータセットをダウンロードし、以下のディレクトリに解凍します:
```bash
./data/UniMER-1M
```

UniMER-Testデータセットをダウンロードし、以下のディレクトリに解凍します:
```bash
./data/UniMER-Test
```

## トレーニング

UniMERNetモデルをトレーニングするには、以下の手順に従ってください:

1. **トレーニングデータセットパスの指定**`configs/train`フォルダを開き、トレーニングデータセットのパスを設定します。

2. **トレーニングスクリプトの実行**:以下のコマンドを実行してトレーニングプロセスを開始します。

```bash
bash script/train.sh
```

### 注意:
- `configs/train`フォルダに指定されたデータセットパスが正しくアクセス可能であることを確認してください。
- トレーニングプロセス中のエラーや問題を監視してください。

## テスト

UniMERNetモデルをテストするには、以下の手順に従ってください:

1. **テストデータセットパスの指定**`configs/val`フォルダを開き、テストデータセットのパスを設定します。

2. **テストスクリプトの実行**:以下のコマンドを実行してテストプロセスを開始します。

```bash
bash script/test.sh
```

### 注意:
- `configs/val`フォルダに指定されたデータセットパスが正しくアクセス可能であることを確認してください。
- `test.py`スクリプトは指定されたテストデータセットを使用して評価を行います。test.pyのテストセットパスを実際のパスに変更することを忘れないでください。
- テスト結果を確認して、パフォーマンス指標や潜在的な問題を確認してください。

## 数式検出チュートリアル

数式認識の前提条件は、PDFやウェブページのスクリーンショット内の数式が存在する領域を検出することです。[PDF-Extract-Kit](https://github.com/opendatalab/PDF-Extract-Kit)には、数式を検出するための強力なモデルが含まれています。数式の検出と認識の両方を自分で行いたい場合は、数式検出モデルのデプロイと使用に関するガイドラインについて[数式検出チュートリアル](./MFD/README.md)を参照してください。

## TODO
[✅] UniMERNetの推論コードとモデルをリリース。
[✅] UniMER-1MとUniMER-Testをリリース。
[✅] Streamlit数式認識GUIアプリケーションをオープンソース化。
[✅] UniMERNetのトレーニングコードをリリース。


## 引用
私たちのモデル/コード/論文が研究に役立つ場合は、スターを付けていただき、私たちの仕事を引用してください。ありがとうございます。
```bibtex
@misc{wang2024unimernetuniversalnetworkrealworld,
title={UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition},
author={Bin Wang and Zhuangcheng Gu and Guang Liang and Chao Xu and Bo Zhang and Botian Shi and Conghui He},
year={2024},
eprint={2404.15254},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2404.15254},
}
@misc{wang2024cdmreliablemetricfair,
title={CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation},
author={Bin Wang and Fan Wu and Linke Ouyang and Zhuangcheng Gu and Rui Zhang and Renqiu Xia and Bo Zhang and Conghui He},
year={2024},
eprint={2409.03643},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2409.03643},
}
```

## 謝辞
- [VIGC](https://github.com/opendatalab/VIGC)。モデルフレームワークはVIGCに依存しています。
- [Texify](https://github.com/VikParuchuri/texify)。主流のMERアルゴリズムであり、UniMERNetのデータ処理はTexifyを参考にしています。
- [Latex-OCR](https://github.com/lukas-blecher/LaTeX-OCR)。もう一つの主流のMERアルゴリズムです。
- [Donut](https://huggingface.co/naver-clova-ix/donut-base)。UniMERNetのTransformerエンコーダー-デコーダーはDonutを参考にしています。
- [Nougat](https://github.com/facebookresearch/nougat)。トークナイザーはNougatを使用しています。

## お問い合わせ
質問、コメント、提案がある場合は、[email protected]までお気軽にお問い合わせください。

## ライセンス
[Apache License 2.0](LICENSE)
5 changes: 2 additions & 3 deletions README-zh_CN.md
Original file line number Diff line number Diff line change
@@ -1,7 +1,6 @@

<div align="center">

[English](./README.md) | 简体中文
[English](./README.md) | 简体中文 | [日本語](./README-ja.md)

<h1>UniMERNet: 一个用于真实世界数学表达式识别的通用网络</h1>

Expand Down Expand Up @@ -219,4 +218,4 @@ UniMER 数据集是一个专门收集的集合,旨在推进数学表达式识
如果你有任何问题、意见或建议,请随时通过 [email protected] 联系我们。

## 许可证
[Apache 许可证 2.0](LICENSE)
[Apache 许可证 2.0](LICENSE)
7 changes: 2 additions & 5 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,9 +1,6 @@



<div align="center">

English | [简体中文](./README-zh_CN.md)
English | [简体中文](./README-zh_CN.md) | [日本語](./README-ja.md)


<h1>UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition</h1>
Expand Down Expand Up @@ -234,4 +231,4 @@ If you find our models / code / papers useful in your research, please consider
If you have any questions, comments, or suggestions, please do not hesitate to contact us at [email protected].
## License
[Apache License 2.0](LICENSE)
[Apache License 2.0](LICENSE)

0 comments on commit b140d33

Please sign in to comment.