Visual-Semantic-Transformer

这的项目是复现Visual-Semantic Transformer for Scene Text Recognition这篇论文的工作VST

本论文中使用视觉特征去关联它的语义信息，这篇文章中一共包括5个关键的模块ConvNet Module(CNN特征提取), Visual Module(视觉建模), Vsalign Module(Visual Semantic Alignment模块)， Iteraction Module(用于两个模态的信息进行类间和类内的交互), Semantic Module(语义推理模块)。

Required enveriment

这里我列举一下本项目所使用的packages

torch==1.1.0
torchvision==0.3.0
fastai==1.0.60
LMDB
Pillow
opencv-python
tensorboardX

所使用的数据集

Training datasets
1. MJSynth (MJ):
  - Use tools/create_lmdb_dataset.py to convert images into LMDB dataset
  - LMDB dataset BaiduNetdisk(passwd:n23k)
2. SynthText (ST):
  - Use tools/crop_by_word_bb.py to crop images from original SynthText dataset, and convert images into LMDB dataset by tools/create_lmdb_dataset.py
  - LMDB dataset BaiduNetdisk(passwd:n23k)
Evaluation datasets, LMDB datasets can be downloaded from BaiduNetdisk(passwd:1dbv), GoogleDrive.
1. ICDAR 2013 (IC13)
2. ICDAR 2015 (IC15)
3. IIIT5K Words (IIIT)
4. Street View Text (SVT)
5. Street View Text-Perspective (SVTP)
6. CUTE80 (CUTE)

data 目录的结构是下面的样子：

data
├── charset_36.txt
├── evaluation
│   ├── CUTE80
│   ├── IC13_857
│   ├── IC15_1811
│   ├── IIIT5k_3000
│   ├── SVT
│   └── SVTP
|── training
│   ├── MJ
│   │   ├── MJ_test
│   │   ├── MJ_train
│   │   └── MJ_valid
│   └── ST

模型训练和测试

训练模型：

CUDA_VISIBLE_DEVICES=0,1,2,3 python main.py --config=configs/train_vstnet.yaml

模型验证：
```
CUDA_VISIBLE_DEVICES=0 python main.py --config=configs/train_abinet.yaml --phase test
```
附加参数设置:
- --checkpoint /path/to/checkpoint set the path of evaluation model
- --test_root /path/to/dataset set the path of evaluation dataset
- --model_eval [alignment|vision] which sub-model to evaluate

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
__pycache__		__pycache__
configs		configs
modules		modules
README.md		README.md
callbacks.py		callbacks.py
dataset.py		dataset.py
demo.py		demo.py
losses.py		losses.py
main.py		main.py
read_wiki.ipynb		read_wiki.ipynb
transforms.py		transforms.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Visual-Semantic-Transformer

Required enveriment

所使用的数据集

模型训练和测试

About

Releases

Packages

Languages

bang123-box/Visual-Semantic-Transformer

Folders and files

Latest commit

History

Repository files navigation

Visual-Semantic-Transformer

Required enveriment

所使用的数据集

模型训练和测试

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages