diff --git a/README-ja.md b/README-ja.md new file mode 100644 index 0000000..d753b18 --- /dev/null +++ b/README-ja.md @@ -0,0 +1,221 @@ +
+ +[English](./README.md) | [简体中文](./README-zh_CN.md) | 日本語 + +

UniMERNet: 実世界の数式認識のためのユニバーサルネットワーク

+ +[[ 論文 ]](https://arxiv.org/abs/2404.15254) [[ ウェブサイト ]](https://github.com/opendatalab/UniMERNet/tree/main) [[ データセット (OpenDataLab)]](https://opendatalab.com/OpenDataLab/UniMER-Dataset) [[ データセット (Hugging Face) ]](https://huggingface.co/datasets/wanderkid/UniMER_Dataset) + +[[モデル 🤗(Hugging Face)]](https://huggingface.co/wanderkid/unimernet_base) +[[モデル (ModelScope)]](https://www.modelscope.cn/models/wanderkid/unimernet_base) + +🔥🔥 [CDM: 公平で正確な数式認識評価のための信頼できる指標](https://github.com/opendatalab/UniMERNet/tree/main/cdm) + +
+ +UniMERNetの公式リポジトリへようこそ。これは、数式の画像をLaTeXに変換するソリューションであり、さまざまな実世界のシナリオに適しています。 + +## ニュース 🚀🚀🚀 +**2024.09.06** 🎉🎉 UniMERNetの更新: 新バージョンはモデルが小さくなり、推論が高速化されました。トレーニングコードがオープンソース化されました。詳細は最新の論文[UniMERNet](https://arxiv.org/abs/2404.15254)をご覧ください。 +**2024.09.06** 🎉🎉 数式認識の新しい指標を導入: [CDM](https://github.com/opendatalab/UniMERNet/tree/main/cdm)。BLEU/EditDistanceと比較して、CDMはより直感的で正確な評価スコアを提供し、数式表現の多様性に影響されずに異なるモデルの公平な比較を可能にします。 +**2024.07.21** 🎉🎉 [PDF-Extract-Kit](https://github.com/opendatalab/PDF-Extract-Kit) MFDモデルに基づく数式検出(MFD)チュートリアルを追加しました。 +**2024.06.06** 🎉🎉 UniMERデータセットの評価コードをオープンソース化しました。 +**2024.05.06** 🎉🎉 UniMERデータセットをオープンソース化しました。これには、モデルトレーニング用のUniMER-1MとMER評価用のUniMER-Testが含まれます。 +**2024.05.06** 🎉🎉 Streamlit数式認識デモを追加し、ローカルデプロイメントアプリを提供しました。 +**2024.04.24** 🎉🎉 論文が[ArXiv](https://arxiv.org/abs/2404.15254)で公開されました。 +**2024.04.24** 🎉🎉 推論コードとチェックポイントがリリースされました。 + +## デモビデオ +https://github.com/opendatalab/UniMERNet/assets/69186975/ac54c6b9-442c-48b0-95f9-a4a3fce8780b + +https://github.com/opendatalab/UniMERNet/assets/69186975/09b71c55-c58a-4792-afc1-d5774880ccf8 + +## クイックスタート + +### リポジトリをクローンし、モデルをダウンロード +```bash +git clone https://github.com/opendatalab/UniMERNet.git +``` + +```bash +cd UniMERNet/models +# モデルとトークナイザーを個別にダウンロードするか、git-lfsを使用 +git lfs install +git clone https://huggingface.co/wanderkid/unimernet_base # 1.3GB +git clone https://huggingface.co/wanderkid/unimernet_small # 773MB +git clone https://huggingface.co/wanderkid/unimernet_tiny # 441MB + +# モデルをModelScopeからもダウンロードできます +git clone https://www.modelscope.cn/wanderkid/unimernet_base.git +git clone https://www.modelscope.cn/wanderkid/unimernet_small.git +git clone https://www.modelscope.cn/wanderkid/unimernet_tiny.git +``` + +### インストール + +> クリーンなConda環境を作成 + +``` bash +conda create -n unimernet python=3.10 + +conda activate unimernet +``` + +> インストール方法1:pip installで直接インストール(一般ユーザー向け) +```bash +pip install --upgrade unimernet + +pip install "unimernet[full]" +``` + +> インストール方法2:ローカルインストール(開発者向け) +```bash +pip install -e ."[full]" +``` + + +### UniMERNetの実行 + +1. **Streamlitアプリケーション**:インタラクティブでユーザーフレンドリーな体験のために、StreamlitベースのGUIを使用します。このアプリケーションでは、リアルタイムの数式認識とレンダリングが可能です。 + + ```bash + unimernet_gui + ``` + 最新バージョンのUniMERNetをインストールしていることを確認してください(`pip install --upgrade unimernet & pip install "unimernet[full]"`)Streamlit GUIアプリケーションを使用するために。 + +2. **コマンドラインデモ**:画像からLaTeXコードを予測します。 + + ```bash + python demo.py + ``` + +3. **Jupyter Notebookデモ**:画像から数式を認識してレンダリングします。 + + ```bash + jupyter-lab ./demo.ipynb + ``` + +## SOTAメソッドとのパフォーマンス比較(BLEU)。 + +> UniMERNetは、実世界の数式認識において主流のモデルを大幅に上回り、BLEUスコア評価によって示されるように、シンプルな印刷表現(SPE)、複雑な印刷表現(CPE)、スクリーンキャプチャ表現(SCE)、手書き表現(HWE)において優れた性能を示しています。 + +![BLEU](./asset/papers/fig1_bleu.jpg) + +## 異なるメソッドによる可視化結果。 + +> UniMERNetは、他のメソッドを上回る挑戦的なサンプルの視覚的認識において優れています。 + +![Visualization](https://github.com/opendatalab/VIGC/assets/69186975/6edcac69-5082-43a2-8095-5681b7a707b9) + +## UniMERデータセット +### イントロダクション +UniMERデータセットは、数式認識(MER)分野を進展させるために特別に収集されたコレクションです。これには、100万以上のインスタンスを含む包括的なUniMER-1Mトレーニングセットと、実世界のシナリオに対するMERモデルのベンチマークテスト用に精巧に設計されたUniMERテストセットが含まれます。データセットの詳細は以下の通りです: + +**UniMER-1Mトレーニングセット:** + - 総サンプル数:1,061,791のLaTeX-画像ペア + - 構成:簡潔で複雑な拡張数式表現のバランスの取れた混合 + - 目的:堅牢で高精度なMERモデルをトレーニングし、認識精度と一般化能力を向上させる + +**UniMERテストセット:** + - 総サンプル数:23,757、4種類の表現に分類: + - シンプルな印刷表現(SPE):6,762サンプル + - 複雑な印刷表現(CPE):5,921サンプル + - スクリーンキャプチャ表現(SCE):4,742サンプル + - 手書き表現(HWE):6,332サンプル + - 目的:さまざまな実世界の条件下でMERモデルを徹底的に評価する + +### データセットのダウンロード +データセットは[OpenDataLab](https://opendatalab.com/OpenDataLab/UniMER-Dataset)(中国ユーザー向け推奨)または[HuggingFace](https://huggingface.co/datasets/wanderkid/UniMER_Dataset)からダウンロードできます。 + +### UniMER-Testデータセットのダウンロード + +UniMER-1Mデータセットをダウンロードし、以下のディレクトリに解凍します: +```bash +./data/UniMER-1M +``` + +UniMER-Testデータセットをダウンロードし、以下のディレクトリに解凍します: +```bash +./data/UniMER-Test +``` + +## トレーニング + +UniMERNetモデルをトレーニングするには、以下の手順に従ってください: + +1. **トレーニングデータセットパスの指定**:`configs/train`フォルダを開き、トレーニングデータセットのパスを設定します。 + +2. **トレーニングスクリプトの実行**:以下のコマンドを実行してトレーニングプロセスを開始します。 + + ```bash + bash script/train.sh + ``` + +### 注意: +- `configs/train`フォルダに指定されたデータセットパスが正しくアクセス可能であることを確認してください。 +- トレーニングプロセス中のエラーや問題を監視してください。 + +## テスト + +UniMERNetモデルをテストするには、以下の手順に従ってください: + +1. **テストデータセットパスの指定**:`configs/val`フォルダを開き、テストデータセットのパスを設定します。 + +2. **テストスクリプトの実行**:以下のコマンドを実行してテストプロセスを開始します。 + + ```bash + bash script/test.sh + ``` + +### 注意: +- `configs/val`フォルダに指定されたデータセットパスが正しくアクセス可能であることを確認してください。 +- `test.py`スクリプトは指定されたテストデータセットを使用して評価を行います。test.pyのテストセットパスを実際のパスに変更することを忘れないでください。 +- テスト結果を確認して、パフォーマンス指標や潜在的な問題を確認してください。 + +## 数式検出チュートリアル + +数式認識の前提条件は、PDFやウェブページのスクリーンショット内の数式が存在する領域を検出することです。[PDF-Extract-Kit](https://github.com/opendatalab/PDF-Extract-Kit)には、数式を検出するための強力なモデルが含まれています。数式の検出と認識の両方を自分で行いたい場合は、数式検出モデルのデプロイと使用に関するガイドラインについて[数式検出チュートリアル](./MFD/README.md)を参照してください。 + +## TODO + [✅] UniMERNetの推論コードとモデルをリリース。 + [✅] UniMER-1MとUniMER-Testをリリース。 + [✅] Streamlit数式認識GUIアプリケーションをオープンソース化。 + [✅] UniMERNetのトレーニングコードをリリース。 + + +## 引用 +私たちのモデル/コード/論文が研究に役立つ場合は、スターを付けていただき、私たちの仕事を引用してください。ありがとうございます。 +```bibtex +@misc{wang2024unimernetuniversalnetworkrealworld, + title={UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition}, + author={Bin Wang and Zhuangcheng Gu and Guang Liang and Chao Xu and Bo Zhang and Botian Shi and Conghui He}, + year={2024}, + eprint={2404.15254}, + archivePrefix={arXiv}, + primaryClass={cs.CV}, + url={https://arxiv.org/abs/2404.15254}, +} + +@misc{wang2024cdmreliablemetricfair, + title={CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation}, + author={Bin Wang and Fan Wu and Linke Ouyang and Zhuangcheng Gu and Rui Zhang and Renqiu Xia and Bo Zhang and Conghui He}, + year={2024}, + eprint={2409.03643}, + archivePrefix={arXiv}, + primaryClass={cs.CV}, + url={https://arxiv.org/abs/2409.03643}, +} +``` + +## 謝辞 +- [VIGC](https://github.com/opendatalab/VIGC)。モデルフレームワークはVIGCに依存しています。 +- [Texify](https://github.com/VikParuchuri/texify)。主流のMERアルゴリズムであり、UniMERNetのデータ処理はTexifyを参考にしています。 +- [Latex-OCR](https://github.com/lukas-blecher/LaTeX-OCR)。もう一つの主流のMERアルゴリズムです。 +- [Donut](https://huggingface.co/naver-clova-ix/donut-base)。UniMERNetのTransformerエンコーダー-デコーダーはDonutを参考にしています。 +- [Nougat](https://github.com/facebookresearch/nougat)。トークナイザーはNougatを使用しています。 + +## お問い合わせ +質問、コメント、提案がある場合は、wangbin@pjlab.org.cnまでお気軽にお問い合わせください。 + +## ライセンス +[Apache License 2.0](LICENSE) diff --git a/README-zh_CN.md b/README-zh_CN.md index fabfd5d..b4327f5 100644 --- a/README-zh_CN.md +++ b/README-zh_CN.md @@ -1,7 +1,6 @@ -
-[English](./README.md) | 简体中文 +[English](./README.md) | 简体中文 | [日本語](./README-ja.md)

UniMERNet: 一个用于真实世界数学表达式识别的通用网络

@@ -219,4 +218,4 @@ UniMER 数据集是一个专门收集的集合,旨在推进数学表达式识 如果你有任何问题、意见或建议,请随时通过 wangbin@pjlab.org.cn 联系我们。 ## 许可证 -[Apache 许可证 2.0](LICENSE) \ No newline at end of file +[Apache 许可证 2.0](LICENSE) diff --git a/README.md b/README.md index aceebe1..fb88c38 100644 --- a/README.md +++ b/README.md @@ -1,9 +1,6 @@ - - -
-English | [简体中文](./README-zh_CN.md) +English | [简体中文](./README-zh_CN.md) | [日本語](./README-ja.md)

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

@@ -234,4 +231,4 @@ If you find our models / code / papers useful in your research, please consider If you have any questions, comments, or suggestions, please do not hesitate to contact us at wangbin@pjlab.org.cn. ## License -[Apache License 2.0](LICENSE) \ No newline at end of file +[Apache License 2.0](LICENSE)