diff --git a/.github/workflows/pythonpublish.yml b/.github/workflows/pypi.yml
similarity index 95%
rename from .github/workflows/pythonpublish.yml
rename to .github/workflows/pypi.yml
index f167525a..4a019573 100644
--- a/.github/workflows/pythonpublish.yml
+++ b/.github/workflows/pypi.yml
@@ -4,9 +4,8 @@
 name: Upload Python Package
 
 on:
-  push:
-    branches:
-      - master
+  schedule:
+    - cron: "0 12 * * *"
 
 jobs:
   deploy:
diff --git a/.github/workflows/build_sphix_master.yml b/.github/workflows/sphix_build_master.yml
similarity index 97%
rename from .github/workflows/build_sphix_master.yml
rename to .github/workflows/sphix_build_master.yml
index adc53018..2bc2462d 100644
--- a/.github/workflows/build_sphix_master.yml
+++ b/.github/workflows/sphix_build_master.yml
@@ -47,5 +47,5 @@ jobs:
         env:
           GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
         with:
-          build_dir: "docs/build/html/*"
+          build_dir: docs/build/html/
           target_branch: gh-pages
diff --git a/.github/workflows/sphix_build_pr.yml b/.github/workflows/sphix_build_pr.yml
index 5b171b9a..4cc3850e 100644
--- a/.github/workflows/sphix_build_pr.yml
+++ b/.github/workflows/sphix_build_pr.yml
@@ -9,16 +9,21 @@ on:
 
 jobs:
   docs:
-    runs-on: ubuntu-latest
+    runs-on: self-hosted
     steps:
       - uses: actions/checkout@v2
       - uses: seanmiddleditch/gha-setup-ninja@master
-        
-      - name: Set up Python
-        uses: actions/setup-python@v1
+
+      - name: Set PR Number
+        uses: actions/github-script@0.3.0
         with:
-          python-version: 3.7
-          
+          github-token: ${{github.token}}
+          script: |
+            const core = require('@actions/core')
+            const prNumber = context.payload.number;
+            core.exportVariable('PULL_NUMBER', prNumber);
+            core.exportVariable("PATH", "/home/ubuntu/anaconda3/bin:/usr/local/bin:/usr/bin/:/bin:$PATH")
+        
       - name: Install dependencies
         run: |
           python -m pip install --upgrade pip
@@ -39,35 +44,11 @@ jobs:
           cd docs/
           make html
           touch build/html/.nojekyll
-          
-      - name: Set PR Number
-        uses: actions/github-script@0.3.0
-        with:
-          github-token: ${{github.token}}
-          script: |
-            const core = require('@actions/core')
-            const prNumber = context.payload.number;
-            core.exportVariable('PULL_NUMBER', prNumber);
-        
-        
-      # https://github.com/marketplace/actions/github-pages
-      - name: Deploy
-        if: success()
-        uses: jakejarvis/s3-sync-action@master
-        with:
-          args: --acl public-read --follow-symlinks --delete
-        env:
-          AWS_S3_BUCKET: ${{ secrets.AWS_S3_BUCKET }}
-          AWS_ACCESS_KEY_ID: ${{ secrets.AWS_ACCESS_KEY_ID }}
-          AWS_SECRET_ACCESS_KEY: ${{ secrets.AWS_SECRET_ACCESS_KEY }}
-          AWS_REGION: ${{ secrets.AWS_REGION }}
-          DEST_DIR: "${{ secrets.DEST_DIR }}/${PULL_NUMBER}"
-          SOURCE_DIR: 'docs/build/html/'
-          
+          aws s3 sync build/html/ s3://hangzh/encoding/docs/${{ env.PULL_NUMBER }}/ --acl public-read --follow-symlinks --delete
           
       - name: Comment
         if: success()
         uses: thollander/actions-comment-pull-request@master
         with:
-          message: "The docs are uploaded and can be previewed at http://${{ secrets.AWS_S3_BUCKET }}.s3.amazonaws.com/${{ secrets.DEST_DIR }}/${{ env.PULL_NUMBER }}/index.html"
+          message: "The docs are uploaded and can be previewed at http://hangzh.s3.amazonaws.com/encoding/docs/${{ env.PULL_NUMBER }}/index.html"
           GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
diff --git a/.gitignore b/.gitignore
index fc428944..cc0b4412 100644
--- a/.gitignore
+++ b/.gitignore
@@ -8,3 +8,6 @@ docs/src/
 docs/html/
 encoding/_ext/
 encoding.egg-info/
+*.o
+*.so
+*.ninja*
diff --git a/README.md b/README.md
index 06851187..a4c9856e 100644
--- a/README.md
+++ b/README.md
@@ -1,7 +1,8 @@
 [![PyPI](https://img.shields.io/pypi/v/torch-encoding.svg)](https://pypi.python.org/pypi/torch-encoding)
-[![PyPI Pre-release](https://img.shields.io/badge/pypi--prerelease-v1.1.0-ff69b4.svg)](https://pypi.org/project/torch-encoding/#history)
+[![PyPI Pre-release](https://img.shields.io/badge/pypi--prerelease-v1.2.0-ff69b4.svg)](https://pypi.org/project/torch-encoding/#history)
 [![Upload Python Package](https://github.com/zhanghang1989/PyTorch-Encoding/workflows/Upload%20Python%20Package/badge.svg)](https://github.com/zhanghang1989/PyTorch-Encoding/actions)
 [![Downloads](http://pepy.tech/badge/torch-encoding)](http://pepy.tech/project/torch-encoding)
+[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
 [![Build Docs](https://github.com/zhanghang1989/PyTorch-Encoding/workflows/Build%20Docs/badge.svg)](https://github.com/zhanghang1989/PyTorch-Encoding/actions)
 # PyTorch-Encoding
 
@@ -11,10 +12,23 @@ created by [Hang Zhang](http://hangzh.com/)
 
 - Please visit the [**Docs**](http://hangzh.com/PyTorch-Encoding/) for detail instructions of installation and usage. 
 
-- Please visit the [link](http://hangzh.com/PyTorch-Encoding/experiments/segmentation.html) to examples of semantic segmentation.
+- Please visit the [link](http://hangzh.com/PyTorch-Encoding/model_zoo/imagenet.html) to image classification models.
+
+- Please visit the [link](http://hangzh.com/PyTorch-Encoding/model_zoo/segmentation.html) to semantic segmentation models.
 
 ## Citations
 
+**ResNeSt: Split-Attention Networks** [[arXiv]]()  
+  [Hang Zhang](http://hangzh.com/), Chongruo Wu, Zhongyue Zhang, Yi Zhu, Zhi Zhang, Haibin Lin, Yue Sun, Tong He, Jonas Muller, R. Manmatha, Mu Li and Alex Smola
+```
+@article{zhang2020resnest,
+title={ResNeSt: Split-Attention Networks},
+author={Zhang, Hang and Wu, Chongruo and Zhang, Zhongyue and Zhu, Yi and Zhang, Zhi and Lin, Haibin and Sun, Yue and He, Tong and Muller, Jonas and Manmatha, R. and Li, Mu and Smola, Alexander},
+journal={arXiv preprint},
+year={2020}
+}
+```
+
 **Context Encoding for Semantic Segmentation** [[arXiv]](https://arxiv.org/pdf/1803.08904.pdf)  
  [Hang Zhang](http://hangzh.com/), [Kristin Dana](http://eceweb1.rutgers.edu/vision/dana.html), [Jianping Shi](http://shijianping.me/), [Zhongyue Zhang](http://zhongyuezhang.com/), [Xiaogang Wang](http://www.ee.cuhk.edu.hk/~xgwang/), [Ambrish Tyagi](https://scholar.google.com/citations?user=GaSWCoUAAAAJ&hl=en), [Amit Agrawal](http://www.amitkagrawal.com/)
 ```
diff --git a/docs/source/index.rst b/docs/source/index.rst
index fb8a9567..4cfcadcb 100644
--- a/docs/source/index.rst
+++ b/docs/source/index.rst
@@ -13,16 +13,23 @@ An optimized PyTorch package with CUDA backend.
 .. toctree::
    :glob:
    :maxdepth: 1
-   :caption: Notes
+   :caption: Installation
 
    notes/*
 
 .. toctree::
    :glob:
    :maxdepth: 1
-   :caption: Experiment Systems
+   :caption: Model Zoo
 
-   experiments/*
+   model_zoo/*
+
+.. toctree::
+   :glob:
+   :maxdepth: 1
+   :caption: Other Tutorials
+
+   tutorials/*
 
 .. toctree::
    :maxdepth: 1
@@ -30,7 +37,6 @@ An optimized PyTorch package with CUDA backend.
 
    nn
    parallel
-   models
    utils
 
 Indices and tables
diff --git a/docs/source/model_zoo/imagenet.rst b/docs/source/model_zoo/imagenet.rst
new file mode 100644
index 00000000..982c7ca2
--- /dev/null
+++ b/docs/source/model_zoo/imagenet.rst
@@ -0,0 +1,83 @@
+Image Classification
+====================
+
+Install Package
+---------------
+
+- Clone the GitHub repo::
+    
+    git clone https://github.com/zhanghang1989/PyTorch-Encoding
+
+- Install PyTorch Encoding (if not yet). Please follow the installation guide `Installing PyTorch Encoding <../notes/compile.html>`_.
+
+Get Pre-trained Model
+---------------------
+
+.. hint::
+    How to get pretrained model, for example ``ResNeSt50``::
+
+        model = encoding.models.get_model('ResNeSt50', pretrained=True)
+
+    After clicking ``cmd`` in the table, the command for training the model can be found below the table.
+
+.. role:: raw-html(raw)
+   :format: html
+
+
+ResNeSt
+~~~~~~~
+
+.. note::
+    The provided models were trained using MXNet Gluon, this PyTorch implementation is slightly worse than the original implementation.
+
+===============================  ==============    ==============    =========================================================================================================
+Model                            crop-size         Acc               Command                                                                                      
+===============================  ==============    ==============    =========================================================================================================
+ResNeSt-50                       224               81.03             :raw-html:`<a href="javascript:toggleblock('cmd_resnest50')" class="toggleblock">cmd</a>`
+ResNeSt-101                      256               82.83             :raw-html:`<a href="javascript:toggleblock('cmd_resnest101')" class="toggleblock">cmd</a>`
+ResNeSt-200                      320               83.84             :raw-html:`<a href="javascript:toggleblock('cmd_resnest200')" class="toggleblock">cmd</a>`
+ResNeSt-269                      416               84.54             :raw-html:`<a href="javascript:toggleblock('cmd_resnest269')" class="toggleblock">cmd</a>`
+===============================  ==============    ==============    =========================================================================================================
+
+.. raw:: html
+
+    <code xml:space="preserve" id="cmd_resnest50" style="display: none; text-align: left; white-space: pre-wrap">
+    # change the rank for worker node
+    python train_dist.py --dataset imagenet --model resnest50 --lr-scheduler cos --epochs 270 --checkname resnest50 --lr 0.025 --batch-size 64 --dist-url tcp://MASTER:NODE:IP:ADDRESS:23456 --world-size 4 --label-smoothing 0.1 --mixup 0.2 --no-bn-wd --last-gamma --warmup-epochs 5 --rand-aug --rank 0
+    </code>
+
+    <code xml:space="preserve" id="cmd_resnest101" style="display: none; text-align: left; white-space: pre-wrap">
+    # change the rank for worker node
+    python train_dist.py --dataset imagenet --model resnest101 --lr-scheduler cos --epochs 270 --checkname resnest101 --lr 0.025 --batch-size 64 --dist-url tcp://MASTER:NODE:IP:ADDRESS:23456 --world-size 4 --label-smoothing 0.1 --mixup 0.2 --no-bn-wd --last-gamma --warmup-epochs 5 --rand-aug --rank 0
+    </code>
+
+    <code xml:space="preserve" id="cmd_resnest200" style="display: none; text-align: left; white-space: pre-wrap">
+    # change the rank for worker node
+    python train_dist.py --dataset imagenet --model resnest200 --lr-scheduler cos --epochs 270 --checkname resnest200 --lr 0.0125 --batch-size 32 --dist-url tcp://MASTER:NODE:IP:ADDRESS:23456 --world-size 8 --label-smoothing 0.1 --mixup 0.2 --no-bn-wd --last-gamma --warmup-epochs 5 --rand-aug --crop-size 256 --rank 0
+    </code>
+
+    <code xml:space="preserve" id="cmd_resnest269" style="display: none; text-align: left; white-space: pre-wrap">
+    # change the rank for worker node
+    python train_dist.py --dataset imagenet --model resnest269 --lr-scheduler cos --epochs 270 --checkname resnest269 --lr 0.0125 --batch-size 32 --dist-url tcp://MASTER:NODE:IP:ADDRESS:23456 --world-size 8 --label-smoothing 0.1 --mixup 0.2 --no-bn-wd --last-gamma --warmup-epochs 5 --rand-aug --crop-size 320 --rank 0
+    </code>
+
+Test Pretrained
+~~~~~~~~~~~~~~~
+
+- Prepare the datasets by downloading the data into current folder and then runing the scripts in the ``scripts/`` folder::
+
+      python scripts/prepare_imagenet.py --data-dir ./
+  
+- The test script is in the ``experiments/recognition/`` folder. For evaluating the model (using MS),
+  for example ``ResNeSt50``::
+
+      python test.py --dataset imagenet --model-zoo ResNeSt50 --crop-size 224 --eval
+
+Train Your Own Model
+--------------------
+
+- Prepare the datasets by downloading the data into current folder and then runing the scripts in the ``scripts/`` folder::
+
+    python scripts/prepare_imagenet.py --data-dir ./
+
+- The training script is in the ``experiments/recognition/`` folder. Commands for reproducing pre-trained models can be found in the table.
diff --git a/docs/source/experiments/segmentation.rst b/docs/source/model_zoo/segmentation.rst
similarity index 59%
rename from docs/source/experiments/segmentation.rst
rename to docs/source/model_zoo/segmentation.rst
index cbd74b23..72bc3646 100644
--- a/docs/source/experiments/segmentation.rst
+++ b/docs/source/model_zoo/segmentation.rst
@@ -1,5 +1,5 @@
-Context Encoding for Semantic Segmentation (EncNet)
-===================================================
+Semantic Segmentation
+=====================
 
 Install Package
 ---------------
@@ -29,31 +29,52 @@ Get Pre-trained Model
    :format: html
 
 
-.. tabularcolumns:: |>{\centering\arraybackslash}\X{4}{5}|>{\raggedleft\arraybackslash}\X{1}{5}|
+ResNeSt Backbone Models
+-----------------------
 
-==============================================================================  ==============    ==============    =============================================================================================
+==============================================================================  ==============    ==============    =========================================================================================================
 Model                                                                           pixAcc            mIoU              Command                                                                                      
-==============================================================================  ==============    ==============    =============================================================================================
-Encnet_ResNet50_PContext                                                        79.2%             51.0%             :raw-html:`<a href="javascript:toggleblock('cmd_enc50_pcont')" class="toggleblock">cmd</a>`  
-EncNet_ResNet101_PContext                                                       80.7%             54.1%             :raw-html:`<a href="javascript:toggleblock('cmd_enc101_pcont')" class="toggleblock">cmd</a>` 
-EncNet_ResNet50_ADE                                                             80.1%             41.5%             :raw-html:`<a href="javascript:toggleblock('cmd_enc50_ade')" class="toggleblock">cmd</a>`    
-EncNet_ResNet101_ADE                                                            81.3%             44.4%             :raw-html:`<a href="javascript:toggleblock('cmd_enc101_ade')" class="toggleblock">cmd</a>`   
-EncNet_ResNet101_VOC                                                            N/A               85.9%             :raw-html:`<a href="javascript:toggleblock('cmd_enc101_voc')" class="toggleblock">cmd</a>`   
-==============================================================================  ==============    ==============    =============================================================================================
-
+==============================================================================  ==============    ==============    =========================================================================================================
+FCN_ResNeSt50_ADE                                                               xx.xx%            xx.xx%            :raw-html:`<a href="javascript:toggleblock('cmd_fcn_nest50_ade')" class="toggleblock">cmd</a>`
+DeepLabV3_ResNeSt50_ADE                                                         81.17%            45.12%            :raw-html:`<a href="javascript:toggleblock('cmd_deeplab_resnest50_ade')" class="toggleblock">cmd</a>`
+DeepLabV3_ResNeSt101_ADE                                                        82.07%            46.91%            :raw-html:`<a href="javascript:toggleblock('cmd_deeplab_resnest101_ade')" class="toggleblock">cmd</a>`
+==============================================================================  ==============    ==============    =========================================================================================================
 
 .. raw:: html
 
-    <code xml:space="preserve" id="cmd_fcn50_pcont" style="display: none; text-align: left; white-space: pre-wrap">
-    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset PContext --model FCN
+    <code xml:space="preserve" id="cmd_fcn_nest50_ade" style="display: none; text-align: left; white-space: pre-wrap">
+    python train.py --dataset ade20k --model fcn  --aux --backbone resnest50 --batch-size 2
     </code>
 
-    <code xml:space="preserve" id="cmd_enc50_pcont" style="display: none; text-align: left; white-space: pre-wrap">
-    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset PContext --model EncNet --aux --se-loss
+    <code xml:space="preserve" id="cmd_deeplab_resnest50_ade" style="display: none; text-align: left; white-space: pre-wrap">
+    python train.py --dataset ADE20K --model deeplab --aux --backbone resnest50
     </code>
 
-    <code xml:space="preserve" id="cmd_enc101_pcont" style="display: none; text-align: left; white-space: pre-wrap">
-    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset PContext --model EncNet --aux --se-loss --backbone resnet101
+    <code xml:space="preserve" id="cmd_deeplab_resnest101_ade" style="display: none; text-align: left; white-space: pre-wrap">
+    python train.py --dataset ADE20K --model deeplab --aux --backbone resnest101
+    </code>
+
+
+ResNet Backbone Models
+----------------------
+
+ADE20K Dataset
+~~~~~~~~~~~~~~
+
+==============================================================================  =================    ==============    =============================================================================================
+Model                                                                           pixAcc               mIoU              Command                                                                                      
+==============================================================================  =================    ==============    =============================================================================================
+FCN_ResNet50_ADE                                                                78.7%                38.5%             :raw-html:`<a href="javascript:toggleblock('cmd_fcn50_ade')" class="toggleblock">cmd</a>`
+EncNet_ResNet50_ADE                                                             80.1%                41.5%             :raw-html:`<a href="javascript:toggleblock('cmd_enc50_ade')" class="toggleblock">cmd</a>`    
+EncNet_ResNet101_ADE                                                            81.3%                44.4%             :raw-html:`<a href="javascript:toggleblock('cmd_enc101_ade')" class="toggleblock">cmd</a>`   
+EncNet_ResNet101_VOC                                                            N/A                  85.9%             :raw-html:`<a href="javascript:toggleblock('cmd_enc101_voc')" class="toggleblock">cmd</a>`   
+==============================================================================  =================    ==============    =============================================================================================
+
+
+.. raw:: html
+
+    <code xml:space="preserve" id="cmd_fcn50_ade" style="display: none; text-align: left; white-space: pre-wrap">
+    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset ADE20K --model FCN
     </code>
 
     <code xml:space="preserve" id="cmd_psp50_ade" style="display: none; text-align: left; white-space: pre-wrap">
@@ -64,7 +85,6 @@ EncNet_ResNet101_VOC
     CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset ADE20K --model EncNet --aux --se-loss
     </code>
 
-
     <code xml:space="preserve" id="cmd_enc101_ade" style="display: none; text-align: left; white-space: pre-wrap">
     CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset ADE20K --model EncNet --aux --se-loss --backbone resnet101 --base-size 640 --crop-size 576
     </code>
@@ -77,6 +97,33 @@ EncNet_ResNet101_VOC
     CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset Pascal_voc --model encnet --aux  --se-loss --backbone resnet101 --lr 0.0001 --syncbn --ngpus 4 --checkname res101 --resume runs/Pascal_aug/encnet/res101/checkpoint.params --ft
     </code>
 
+
+
+Pascal Context Dataset
+~~~~~~~~~~~~~~~~~~~~~~
+
+==============================================================================  =================    ==============    =============================================================================================
+Model                                                                           pixAcc               mIoU              Command                                                                                      
+==============================================================================  =================    ==============    =============================================================================================
+Encnet_ResNet50_PContext                                                        79.2%                51.0%             :raw-html:`<a href="javascript:toggleblock('cmd_enc50_pcont')" class="toggleblock">cmd</a>`  
+EncNet_ResNet101_PContext                                                       80.7%                54.1%             :raw-html:`<a href="javascript:toggleblock('cmd_enc101_pcont')" class="toggleblock">cmd</a>` 
+==============================================================================  =================    ==============    =============================================================================================
+
+.. raw:: html
+
+    <code xml:space="preserve" id="cmd_fcn50_pcont" style="display: none; text-align: left; white-space: pre-wrap">
+    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset PContext --model FCN
+    </code>
+
+    <code xml:space="preserve" id="cmd_enc50_pcont" style="display: none; text-align: left; white-space: pre-wrap">
+    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset PContext --model EncNet --aux --se-loss
+    </code>
+
+    <code xml:space="preserve" id="cmd_enc101_pcont" style="display: none; text-align: left; white-space: pre-wrap">
+    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset PContext --model EncNet --aux --se-loss --backbone resnet101
+    </code>
+
+
 Test Pretrained
 ~~~~~~~~~~~~~~~
 
@@ -127,13 +174,13 @@ Quick Demo
 Train Your Own Model
 --------------------
 
-- Prepare the datasets by runing the scripts in the ``scripts/`` folder, for example preparing ``PASCAL Context`` dataset::
+- Prepare the datasets by runing the scripts in the ``scripts/`` folder, for example preparing ``ADE20K`` dataset::
 
-    python scripts/prepare_pcontext.py
+    python scripts/prepare_ade20k.py
 
 - The training script is in the ``experiments/segmentation/`` folder, example training command::
 
-    CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --dataset pcontext --model encnet --aux --se-loss
+    python train_dist.py --dataset ade20k --model encnet --aux --se-loss
 
 - Detail training options, please run ``python train.py -h``. Commands for reproducing pre-trained models can be found in the table.
 
@@ -142,7 +189,7 @@ Train Your Own Model
     training correctness purpose. For evaluating the pretrained model on validation set using MS,
     please use the command::
 
-        CUDA_VISIBLE_DEVICES=0,1,2,3 python test.py --dataset pcontext --model encnet --aux --se-loss --resume mycheckpoint --eval
+        python test.py --dataset pcontext --model encnet --aux --se-loss --resume mycheckpoint --eval
 
 Citation
 --------
diff --git a/docs/source/models.rst b/docs/source/models.rst
deleted file mode 100644
index 0ec7a81f..00000000
--- a/docs/source/models.rst
+++ /dev/null
@@ -1,52 +0,0 @@
-.. role:: hidden
-    :class: hidden-section
-
-encoding.models
-================
-
-.. automodule:: encoding.models.resnet
-.. currentmodule:: encoding.models.resnet
-
-ResNet
-------
-
-We provide correct dilated pre-trained ResNet and DenseNet (stride of 8) for semantic segmentation. 
-For dilation of DenseNet, we provide :class:`encoding.nn.DilatedAvgPool2d`. 
-All provided models have been verified. 
-
-.. note::
-    This code is provided together with the paper
-
-    * Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal. "Context Encoding for Semantic Segmentation"  *The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018*
-
-
-:hidden:`ResNet`
-~~~~~~~~~~~~~~~~
-
-.. autoclass:: ResNet
-    :members:
-
-:hidden:`resnet18`
-~~~~~~~~~~~~~~~~~~
-
-.. autofunction:: resnet18
-
-:hidden:`resnet34`
-~~~~~~~~~~~~~~~~~~
-
-.. autofunction:: resnet34
-
-:hidden:`resnet50`
-~~~~~~~~~~~~~~~~~~
-
-.. autofunction:: resnet50
-
-:hidden:`resnet101`
-~~~~~~~~~~~~~~~~~~~
-
-.. autofunction:: resnet101
-
-:hidden:`resnet152`
-~~~~~~~~~~~~~~~~~~~
-
-.. autofunction:: resnet152
diff --git a/docs/source/nn.rst b/docs/source/nn.rst
index 7310ac15..ef888c90 100644
--- a/docs/source/nn.rst
+++ b/docs/source/nn.rst
@@ -14,6 +14,12 @@ Customized NN modules in Encoding Package. For Synchronized Cross-GPU Batch Norm
 .. autoclass:: Encoding
     :members:
 
+:hidden:`DistSyncBatchNorm`
+~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+.. autoclass:: DistSyncBatchNorm
+    :members:
+
 :hidden:`SyncBatchNorm`
 ~~~~~~~~~~~~~~~~~~~~~~~~
 
diff --git a/docs/source/notes/compile.rst b/docs/source/notes/compile.rst
index 40d570d8..3a3e305b 100644
--- a/docs/source/notes/compile.rst
+++ b/docs/source/notes/compile.rst
@@ -5,17 +5,41 @@ Install and Citations
 Installation
 ------------
 
-    * Install PyTorch 1.0 by following the `PyTorch instructions <http://pytorch.org/>`_.
+    * Install PyTorch 1.4.0 by following the `PyTorch instructions <http://pytorch.org/>`_.
  
     * PIP Install::
 
-        pip install torch-encoding
+        pip install torch-encoding --pre
 
     * Install from source:: 
 
         git clone https://github.com/zhanghang1989/PyTorch-Encoding && cd PyTorch-Encoding
         python setup.py install
 
+
+Detailed Steps
+--------------
+
+This tutorial is a sucessful setup example for AWS EC2 p3 instance with ubuntu 16.04, CUDA 10.
+We cannot guarantee it to work for all the machines, but the steps should be similar.
+Assuming CUDA and cudnn are already sucessfully installed, otherwise please refer to other tutorials.
+
+      * Install Anaconda from the `link <https://www.anaconda.com/distribution/>`_ .
+
+      * Install ninja::
+ 
+         wget https://github.com/ninja-build/ninja/releases/download/v1.8.2/ninja-linux.zip
+         sudo unzip ninja-linux.zip -d /usr/local/bin/
+         sudo update-alternatives --install /usr/bin/ninja ninja /usr/local/bin/ninja 1 --force
+
+      * Install PyTorch::
+
+         conda install pytorch torchvision cudatoolkit=100 -c pytorch
+
+      * Install this package::
+
+         pip install torch-encoding --pre
+
 Citations
 ---------
 
diff --git a/docs/source/parallel.rst b/docs/source/parallel.rst
index 99738483..3f66b73b 100644
--- a/docs/source/parallel.rst
+++ b/docs/source/parallel.rst
@@ -7,10 +7,7 @@ encoding.parallel
 - Current PyTorch DataParallel Table is not supporting mutl-gpu loss calculation, which makes the gpu memory usage very in-balance. We address this issue here by doing DataParallel for Model & Criterion. 
 
 .. note::
-    This code is provided together with the paper
-
-    * Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal. "Context Encoding for Semantic Segmentation"  *The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018*
-
+    Deprecated, please use torch.nn.parallel.DistributedDataParallel with :class:`encoding.nn.DistSyncBatchNorm` for the best performance.
 
 .. automodule:: encoding.parallel
 .. currentmodule:: encoding.parallel
diff --git a/docs/source/experiments/cifar.rst b/docs/source/tutorials/cifar.rst
similarity index 100%
rename from docs/source/experiments/cifar.rst
rename to docs/source/tutorials/cifar.rst
diff --git a/docs/source/experiments/style.rst b/docs/source/tutorials/style.rst
similarity index 100%
rename from docs/source/experiments/style.rst
rename to docs/source/tutorials/style.rst
diff --git a/docs/source/notes/syncbn.rst b/docs/source/tutorials/syncbn.rst
similarity index 100%
rename from docs/source/notes/syncbn.rst
rename to docs/source/tutorials/syncbn.rst
diff --git a/docs/source/experiments/texture.rst b/docs/source/tutorials/texture.rst
similarity index 100%
rename from docs/source/experiments/texture.rst
rename to docs/source/tutorials/texture.rst
diff --git a/docs/source/utils.rst b/docs/source/utils.rst
index a5bd538f..0c5d9648 100644
--- a/docs/source/utils.rst
+++ b/docs/source/utils.rst
@@ -20,6 +20,12 @@ Useful util functions.
 
 .. autofunction:: save_checkpoint
 
+:hidden:`SegmentationMetric`
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+.. autoclass:: SegmentationMetric
+    :members:
+
 :hidden:`batch_pix_accuracy`
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
diff --git a/encoding/datasets/ade20k.py b/encoding/datasets/ade20k.py
index 56b172d1..0d732ae6 100644
--- a/encoding/datasets/ade20k.py
+++ b/encoding/datasets/ade20k.py
@@ -57,38 +57,43 @@ def __getitem__(self, index):
             mask = self.target_transform(mask)
         return img, mask
 
-    def _sync_transform(self, img, mask):
-        # random mirror
-        if random.random() < 0.5:
-            img = img.transpose(Image.FLIP_LEFT_RIGHT)
-            mask = mask.transpose(Image.FLIP_LEFT_RIGHT)
-        crop_size = self.crop_size
-        w, h = img.size
-        long_size = random.randint(int(self.base_size*0.5), int(self.base_size*2.5))
-        if h > w:
-            oh = long_size
-            ow = int(1.0 * w * long_size / h + 0.5)
-            short_size = ow
-        else:
-            ow = long_size
-            oh = int(1.0 * h * long_size / w + 0.5)
-            short_size = oh
-        img = img.resize((ow, oh), Image.BILINEAR)
-        mask = mask.resize((ow, oh), Image.NEAREST)
-        # pad crop
-        if short_size < crop_size:
-            padh = crop_size - oh if oh < crop_size else 0
-            padw = crop_size - ow if ow < crop_size else 0
-            img = ImageOps.expand(img, border=(0, 0, padw, padh), fill=0)
-            mask = ImageOps.expand(mask, border=(0, 0, padw, padh), fill=0)
-        # random crop crop_size
-        w, h = img.size
-        x1 = random.randint(0, w - crop_size)
-        y1 = random.randint(0, h - crop_size)
-        img = img.crop((x1, y1, x1+crop_size, y1+crop_size))
-        mask = mask.crop((x1, y1, x1+crop_size, y1+crop_size))
-        # final transform
-        return img, self._mask_transform(mask)
+    #def _sync_transform(self, img, mask):
+    #    # random mirror
+    #    if random.random() < 0.5:
+    #        img = img.transpose(Image.FLIP_LEFT_RIGHT)
+    #        mask = mask.transpose(Image.FLIP_LEFT_RIGHT)
+    #    crop_size = self.crop_size
+    #    # random scale (short edge)
+    #    w, h = img.size
+    #    long_size = random.randint(int(self.base_size*0.5), int(self.base_size*2.0))
+    #    if h > w:
+    #        oh = long_size
+    #        ow = int(1.0 * w * long_size / h + 0.5)
+    #        short_size = ow
+    #    else:
+    #        ow = long_size
+    #        oh = int(1.0 * h * long_size / w + 0.5)
+    #        short_size = oh
+    #    img = img.resize((ow, oh), Image.BILINEAR)
+    #    mask = mask.resize((ow, oh), Image.NEAREST)
+    #    # pad crop
+    #    if short_size < crop_size:
+    #        padh = crop_size - oh if oh < crop_size else 0
+    #        padw = crop_size - ow if ow < crop_size else 0
+    #        img = ImageOps.expand(img, border=(0, 0, padw, padh), fill=0)
+    #        mask = ImageOps.expand(mask, border=(0, 0, padw, padh), fill=0)
+    #    # random crop crop_size
+    #    w, h = img.size
+    #    x1 = random.randint(0, w - crop_size)
+    #    y1 = random.randint(0, h - crop_size)
+    #    img = img.crop((x1, y1, x1+crop_size, y1+crop_size))
+    #    mask = mask.crop((x1, y1, x1+crop_size, y1+crop_size))
+    #    # gaussian blur as in PSP
+    #    if random.random() < 0.5:
+    #        img = img.filter(ImageFilter.GaussianBlur(
+    #            radius=random.random()))
+    #    # final transform
+    #    return img, self._mask_transform(mask)
 
     def _mask_transform(self, mask):
         target = np.array(mask).astype('int64') - 1
diff --git a/encoding/datasets/base.py b/encoding/datasets/base.py
index 52b38fd5..bd64f784 100644
--- a/encoding/datasets/base.py
+++ b/encoding/datasets/base.py
@@ -67,6 +67,7 @@ def _sync_transform(self, img, mask):
             img = img.transpose(Image.FLIP_LEFT_RIGHT)
             mask = mask.transpose(Image.FLIP_LEFT_RIGHT)
         crop_size = self.crop_size
+        # random scale (short edge)
         w, h = img.size
         long_size = random.randint(int(self.base_size*0.5), int(self.base_size*2.0))
         if h > w:
diff --git a/encoding/datasets/cityscapes.py b/encoding/datasets/cityscapes.py
index 8e3b2842..aa19cc77 100644
--- a/encoding/datasets/cityscapes.py
+++ b/encoding/datasets/cityscapes.py
@@ -19,7 +19,7 @@
 
 class CitySegmentation(BaseDataset):
     NUM_CLASS = 19
-    def __init__(self, root=os.path.expanduser('~/.encoding/data'), split='train',
+    def __init__(self, root=os.path.expanduser('~/.encoding/data/citys/'), split='train',
                  mode=None, transform=None, target_transform=None, **kwargs):
         super(CitySegmentation, self).__init__(
             root, split, mode, transform, target_transform, **kwargs)
diff --git a/encoding/datasets/cityscapescoarse.py b/encoding/datasets/cityscapescoarse.py
new file mode 100644
index 00000000..72bdd7aa
--- /dev/null
+++ b/encoding/datasets/cityscapescoarse.py
@@ -0,0 +1,158 @@
+###########################################################################
+# Created by: Hang Zhang
+# Email: zhang.hang@rutgers.edu
+# Copyright (c) 2017
+###########################################################################
+
+import os
+import sys
+import numpy as np
+import random
+import math
+from tqdm import tqdm
+from PIL import Image, ImageOps, ImageFilter
+
+import torch
+import torch.utils.data as data
+import torchvision.transforms as transform
+
+class Segmentation(data.Dataset):
+    BASE_DIR = 'cityscapes'
+    
+    def __init__(self, data_folder, mode='train', transform=None, 
+                 target_transform=None):
+        self.root = os.path.join(data_folder, self.BASE_DIR)
+        self.transform = transform
+        self.target_transform = target_transform
+        self.mode = mode
+        self.images, self.masks = get_city_pairs(self.root, mode)
+        assert (len(self.images) == len(self.masks))
+        if len(self.images) == 0:
+            raise(RuntimeError("Found 0 images in subfolders of: \
+                " + self.root + "\n"))
+
+    def __getitem__(self, index):
+        img = Image.open(self.images[index]).convert('RGB')
+        if self.mode == 'test':
+            if self.transform is not None:
+                img = self.transform(img)
+            return img, os.path.basename(self.images[index])
+
+        mask = Image.open(self.masks[index])#.convert("P")
+        mask = np.array(mask) 
+        mask += 1
+        mask[mask==256] = 0
+        mask = Image.fromarray(mask)
+        # synchrosized transform
+        if self.mode == 'train':
+            img, mask = self._sync_transform(img, mask)
+        elif self.mode == 'val':
+            img, mask = self._val_sync_transform(img, mask)
+        else:
+            raise RuntimeError('unknown mode for dataloader: {}'.format(self.mode))
+        
+
+        # general resize, normalize and toTensor
+        if self.transform is not None:
+            #print("transform for input")
+            img = self.transform(img)
+        if self.target_transform is not None:
+            #print("transform for label")
+            mask = self.target_transform(mask)
+
+        return img, mask
+
+    def __len__(self):
+        return len(self.images)
+
+    def _val_sync_transform(self, img, mask):
+        """
+        synchronized transformation
+        """
+        outsize = 720
+        short = outsize
+        w, h = img.size
+        if w > h:
+            oh = short
+            ow = int(1.0 * w * oh / h)
+        else:
+            ow = short
+            oh = int(1.0 * h * ow / w)
+        img = img.resize((ow, oh), Image.BILINEAR)
+        mask = mask.resize((ow, oh), Image.NEAREST)
+        # center crop
+        w, h = img.size
+        x1 = int(round((w - outsize) / 2.))
+        y1 = int(round((h - outsize) / 2.))
+        img = img.crop((x1, y1, x1+outsize, y1+outsize))
+        mask = mask.crop((x1, y1, x1+outsize, y1+outsize))
+
+        return img, mask
+
+    def _sync_transform(self, img, mask):
+        # random mirror
+        if random.random() < 0.5:
+            img  = img.transpose(Image.FLIP_LEFT_RIGHT)
+            mask = mask.transpose(Image.FLIP_LEFT_RIGHT)
+        base_size = 2048
+        crop_size = 720
+        # random scale (short edge from 480 to 720)
+        long_size = random.randint(int(base_size*0.5), int(base_size*2.0))
+        w, h = img.size
+        if h > w:
+            oh = long_size
+            ow = int(1.0 * w * oh / h)
+            short_size = ow
+        else:
+            ow = long_size
+            oh = int(1.0 * h * ow / w)
+            short_size = oh
+        img = img.resize((ow, oh), Image.BILINEAR)
+        mask = mask.resize((ow, oh), Image.NEAREST)
+        # random rotate -10~10, mask using NN rotate
+        deg = random.uniform(-10,10)
+        img = img.rotate(deg, resample=Image.BILINEAR)
+        mask = mask.rotate(deg, resample=Image.NEAREST)
+        # pad crop
+        if short_size < crop_size:
+            padh = crop_size - oh if oh < crop_size else 0
+            padw = crop_size - ow if ow < crop_size else 0
+            img  = ImageOps.expand(img,  border=(0,0,padw,padh), fill=0)
+            mask = ImageOps.expand(mask, border=(0,0,padw,padh), fill=0)
+        # random crop 480
+        w, h = img.size
+        x1 = random.randint(0, w - crop_size)
+        y1 = random.randint(0, h - crop_size) 
+        img = img.crop((x1, y1, x1+crop_size, y1+crop_size))
+        mask = mask.crop((x1, y1, x1+crop_size, y1+crop_size))
+        # gaussian blur as in PSP ?
+        if random.random() < 0.5:
+            img = img.filter(ImageFilter.GaussianBlur(
+                radius=random.random()))
+        return img, mask
+
+
+def get_city_pairs(folder, mode='train'):
+    img_paths = []  
+    mask_paths = []  
+    if mode=='train':
+        img_folder = os.path.join(folder, 'leftImg8bit/train_extra')
+        mask_folder = os.path.join(folder, 'gtCoarse/train_extra')
+    else:
+        img_folder = os.path.join(folder, 'leftImg8bit/val')
+        mask_folder = os.path.join(folder, 'gtFine/val')
+    for root, directories, files in os.walk(img_folder):
+        for filename in files:
+            basename, extension =os.path.splitext(filename)
+            if filename.endswith(".png"):
+                imgpath = os.path.join(root, filename)
+                foldername = os.path.basename(os.path.dirname(imgpath))
+                maskname = filename.replace('leftImg8bit','gtCoarse_trainIds')
+                maskpath = os.path.join(mask_folder, foldername, maskname)
+                if os.path.isfile(imgpath) and os.path.isfile(maskpath):
+                    img_paths.append(imgpath)
+                    mask_paths.append(maskpath)
+                else:
+                    print('cannot find the mask or image:', imgpath, maskpath)
+
+    return img_paths, mask_paths
diff --git a/encoding/datasets/folder.py b/encoding/datasets/folder.py
new file mode 100644
index 00000000..95fab1f8
--- /dev/null
+++ b/encoding/datasets/folder.py
@@ -0,0 +1,70 @@
+###########################################################################
+# Created by: Hang Zhang 
+# Email: zhang.hang@rutgers.edu 
+# Copyright (c) 2017
+###########################################################################
+
+import os
+import sys
+import numpy as np
+import random
+import math
+
+import torch.utils.data as data
+from PIL import Image, ImageOps
+
+import torch.utils.data as data
+import torchvision.transforms as transform
+from .dataset import ToLabel
+
+class FolderLoader(data.Dataset):
+    def __init__(self, root, transform=None):
+        self.root = root
+        self.transform = transform
+        self.images = get_folder_images(root)
+        if len(self.images) == 0:
+            raise(RuntimeError("Found 0 images in subfolders of: \
+                " + self.root + "\n"))
+
+    def __getitem__(self, index):
+        img = Image.open(self.images[index]).convert('RGB')
+        if self.transform is not None:
+            img = self.transform(img)
+        return img, os.path.basename(self.images[index])
+
+    def __len__(self):
+        return len(self.images)
+
+
+def get_folder_images(img_folder):
+    img_paths = []  
+    for filename in os.listdir(img_folder):
+        if filename.endswith(".jpg"):
+            imgpath = os.path.join(img_folder, filename)
+            img_paths.append(imgpath)
+    return img_paths
+
+
+
+class Dataloder():
+    def __init__(self, args):
+        # the data augmentation is implemented as part of the dataloader
+        assert(args.test)
+        input_transform = transform.Compose([
+            transform.ToTensor(),
+            transform.Normalize(args.mean, args.std)])
+        args.test_batch_size = 1 
+
+        assert(args.test_folder is not None)
+        print('loading the data from: {}'.format(args.test_folder))
+
+        testset = FolderLoader(args.test_folder, input_transform)
+        kwargs = {'num_workers': args.workers, 'pin_memory': True} \
+            if args.cuda else {}
+        self.trainloader = None
+        self.testloader = data.DataLoader(testset,
+                                     batch_size=args.test_batch_size,
+                                     shuffle=False, **kwargs)
+
+    def getloader(self):
+        return self.trainloader, self.testloader
diff --git a/encoding/datasets/hpw18.py b/encoding/datasets/hpw18.py
new file mode 100644
index 00000000..f9f89d6e
--- /dev/null
+++ b/encoding/datasets/hpw18.py
@@ -0,0 +1,104 @@
+# created by: Sean Liu
+# Amazon Lab 126
+from __future__ import print_function
+
+import errno
+import hashlib
+import os
+import sys
+import tarfile
+import numpy as np
+import random
+import math
+
+import torch.utils.data as data
+import PIL
+from PIL import Image, ImageOps
+
+from six.moves import urllib
+
+
+class Segmentation_HPW18(data.Dataset):
+    CLASSES = [
+        'background', 'hat', 'hair', 'sunglasses', 'upper-clothes', 
+        'skirt', 'pants', 'dress', 'belt', 'left-shoe', 'right-shoe', 
+        'face', 'left-leg', 'right-leg', 'left-arm', 'right-arm', 'bag', 
+        'scarf'
+    ]
+
+    URL = "/cvdata1/lliuqian/humanParsingDataset"
+    FILE = "hpw18.tar.gz"
+    MD5 = ''
+    BASE_DIR = ''
+
+    def __init__(self,
+                 root,
+                 train=True,
+                 transform=None,
+                 target_transform=None,
+                 download=False):
+        self.root = root
+        _hpw18_root = os.path.join(self.root, self.BASE_DIR)
+        _mask_dir = os.path.join(_hpw18_root, 'SegmentationClassAug_256x384')
+        _image_dir = os.path.join(_hpw18_root, 'JPEGImages_256x384')
+        self.transform = transform
+        self.target_transform = target_transform
+        self.train = train
+
+        if download:
+            self._download()
+
+        # train/val/test splits are pre-cut
+        _splits_dir = _hpw18_root
+        _split_f = os.path.join(_splits_dir, 'humanparsingImageMask_256x384_absPath_train.txt')
+        if not self.train:
+            _split_f = os.path.join(_splits_dir, 'humanparsingImageMask_256x384_absPath_val.txt')
+
+        print("reading from ", _split_f)
+
+        self.images = []
+        self.masks = []
+        with open(os.path.join(_split_f), "r") as lines:
+            for line in lines:
+                s = line.split()
+                _image = s[0] # image absolution path
+                _mask = s[1] # mask absolution path
+                assert os.path.isfile(_image)
+                assert os.path.isfile(_mask)
+                self.images.append(_image)
+                self.masks.append(_mask)
+        assert (len(self.images) == len(self.masks))
+
+    def __getitem__(self, index):
+        _img = Image.open(self.images[index]).convert('RGB')
+        _timg = Image.open(self.masks[index])
+        _target = np.array(_timg, dtype=np.uint8)
+        _target = Image.fromarray(_target)
+
+        # synchrosized transform
+        if self.train:
+            _img, _target = self._sync_transform( _img, _target)
+
+        # general resize, normalize and toTensor
+        if self.transform is not None:
+            _img = self.transform(_img)
+        if self.target_transform is not None:
+            _target = self.target_transform(_target)
+
+        return _img, _target
+
+    def __len__(self):
+        return len(self.images)
+
+    def _sync_transform(self, img, mask):
+        # random rotate -10~10
+        deg = random.uniform(-10,10)
+        img = img.rotate(deg)
+        mask = mask.rotate(deg, PIL.Image.NEAREST)
+
+        return img, mask
+
+if __name__ == '__main__':
+    hpw18 = Segmentation_HPW18('/cvdata1/lliuqian/', train=True)
+    print(hpw18[0])
+    print (len(hpw18))
diff --git a/encoding/datasets/imagenet.py b/encoding/datasets/imagenet.py
index 78b375f3..fbe5ff53 100644
--- a/encoding/datasets/imagenet.py
+++ b/encoding/datasets/imagenet.py
@@ -11,6 +11,9 @@
 import torchvision.transforms as transforms
 import torchvision.datasets as datasets
 
+import warnings
+warnings.filterwarnings("ignore", "(Possibly )?corrupt EXIF data", UserWarning)
+
 class ImageNetDataset(datasets.ImageFolder):
     BASE_DIR = "ILSVRC2012"
     def __init__(self, root=os.path.expanduser('~/.encoding/data'), transform=None,
diff --git a/encoding/functions/__init__.py b/encoding/functions/__init__.py
index 9113739d..fd19e561 100644
--- a/encoding/functions/__init__.py
+++ b/encoding/functions/__init__.py
@@ -1,4 +1,6 @@
 """Encoding Autograd Fuctions"""
 from .encoding import *
 from .syncbn import *
+from .dist_syncbn import dist_syncbatchnorm
 from .customize import *
+from .rectify import *
diff --git a/encoding/functions/dist_syncbn.py b/encoding/functions/dist_syncbn.py
new file mode 100644
index 00000000..5c0297df
--- /dev/null
+++ b/encoding/functions/dist_syncbn.py
@@ -0,0 +1,106 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+
+import torch
+from torch.autograd.function import Function
+from .. import lib
+
+__all__ = ['dist_syncbatchnorm']
+
+class dist_syncbatchnorm_(Function):
+    @staticmethod
+    def forward(ctx, x, gamma, beta, running_mean, running_var, eps, momentum, training, process_group):
+        x = x.contiguous()
+        ctx.training = training
+        ctx.momentum = momentum
+        ctx.eps = eps
+        ctx.process_group = process_group
+
+        if not ctx.training:
+            _ex, _var = running_mean.contiguous(), running_var.contiguous()
+            _exs = _var + _ex ** 2 
+            if x.is_cuda:
+                y = lib.gpu.batchnorm_forward(x, _ex, _exs, gamma, beta, ctx.eps)
+            else:
+                y = lib.cpu.batchnorm_forward(x, _ex, _exs, gamma, beta, ctx.eps)
+            ctx.save_for_backward(x, _ex, _exs, gamma, beta)
+            return y
+
+        size = x.numel() // x.size(1)
+        if size == 1:
+            raise ValueError('Expected more than 1 value per channel when training, got input size {}'.format(size))
+
+        if x.is_cuda:
+            _ex, _exs = lib.gpu.expectation_forward(x)
+        else:
+            raise NotImplemented
+
+        count = torch.Tensor([1]).to(x.device)
+        count_all_reduce = torch.distributed.all_reduce(count, group=process_group, async_op=True)
+        _ex_all_reduce = torch.distributed.all_reduce(_ex, group=process_group, async_op=True)
+        _exs_all_reduce = torch.distributed.all_reduce(_exs, group=process_group, async_op=True)
+
+        count_all_reduce.wait()
+        _ex_all_reduce.wait()
+        _exs_all_reduce.wait()
+
+        _ex = _ex / count
+        _exs = _exs / count
+
+        # Update running stats
+        _var = _exs - _ex ** 2
+        running_mean.mul_((1 - ctx.momentum)).add_(ctx.momentum * _ex)
+        running_var.mul_((1 - ctx.momentum)).add_(ctx.momentum * _var)
+
+        # Mark in-place modified tensors
+        ctx.mark_dirty(running_mean, running_var)
+
+        # BN forward + activation
+        if x.is_cuda:
+            y = lib.gpu.batchnorm_forward(x, _ex, _exs, gamma, beta, ctx.eps)
+        else:
+            y = lib.cpu.batchnorm_forward(x, _ex, _exs, gamma, beta, ctx.eps)
+
+        ctx.save_for_backward(x, _ex, _exs, gamma, beta)
+        return y
+
+    @staticmethod
+    def backward(ctx, dz):
+        x, _ex, _exs, gamma, beta = ctx.saved_tensors
+        dz = dz.contiguous()
+
+        # BN backward
+        if dz.is_cuda:
+            dx, _dex, _dexs, dgamma, dbeta = \
+                lib.gpu.batchnorm_backward(dz, x, _ex, _exs, gamma, beta, ctx.eps)
+        else:
+            raise NotImplemented
+
+        if ctx.training:
+            process_group = ctx.process_group
+            count = torch.Tensor([1]).to(x.device)
+            count_all_reduce = torch.distributed.all_reduce(count, group=process_group, async_op=True)
+            _dex_all_reduce = torch.distributed.all_reduce(_dex, group=process_group, async_op=True)
+            _dexs_all_reduce = torch.distributed.all_reduce(_dexs, group=process_group, async_op=True)
+
+            count_all_reduce.wait()
+            _dex_all_reduce.wait()
+            _dexs_all_reduce.wait()
+
+            _dex = _dex / count
+            _dexs = _dexs / count
+
+            if x.is_cuda:
+                dx_ = lib.gpu.expectation_backward(x, _dex, _dexs)
+            else:
+                raise NotImplemented
+            dx = dx + dx_
+
+        return dx, dgamma, dbeta, None, None, None, None, None, None
+
+dist_syncbatchnorm = dist_syncbatchnorm_.apply
diff --git a/encoding/functions/rectify.py b/encoding/functions/rectify.py
new file mode 100644
index 00000000..75eb175b
--- /dev/null
+++ b/encoding/functions/rectify.py
@@ -0,0 +1,47 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+
+"""Rectify function"""
+import torch
+from torch.autograd import Function
+
+from .. import lib
+
+__all__ = ['rectify']
+
+class _rectify(Function):
+    @staticmethod
+    def forward(ctx, y, x, kernel_size, stride, padding, dilation, average):
+        ctx.save_for_backward(x)
+        # assuming kernel_size is 3
+        kernel_size = [k + 2 * (d - 1) for k,d in zip(kernel_size, dilation)]
+        ctx.kernel_size = kernel_size
+        ctx.stride = stride
+        ctx.padding = padding
+        ctx.dilation = dilation
+        ctx.average = average
+        if x.is_cuda:
+            lib.gpu.conv_rectify(y, x, kernel_size, stride, padding, dilation, average)
+        else:
+            lib.cpu.conv_rectify(y, x, kernel_size, stride, padding, dilation, average)
+        ctx.mark_dirty(y)
+        return y
+
+    @staticmethod
+    def backward(ctx, grad_y):
+        x, = ctx.saved_variables
+        if x.is_cuda:
+            lib.gpu.conv_rectify(grad_y, x, ctx.kernel_size, ctx.stride,
+                                 ctx.padding, ctx.dilation, ctx.average)
+        else:
+            lib.cpu.conv_rectify(grad_y, x, ctx.kernel_size, ctx.stride,
+                                 ctx.padding, ctx.dilation, ctx.average)
+        ctx.mark_dirty(grad_y)
+        return grad_y, None, None, None, None, None, None
+
+rectify = _rectify.apply
diff --git a/encoding/functions/syncbn.py b/encoding/functions/syncbn.py
index e989f4a1..43154ef3 100644
--- a/encoding/functions/syncbn.py
+++ b/encoding/functions/syncbn.py
@@ -10,7 +10,7 @@
 """Synchronized Cross-GPU Batch Normalization functions"""
 import torch
 import torch.cuda.comm as comm
-from torch.autograd import Variable, Function
+from torch.autograd import Function
 from torch.autograd.function import once_differentiable
 from .. import lib
 
diff --git a/encoding/lib/__init__.py b/encoding/lib/__init__.py
index 5675dfc6..6d703776 100644
--- a/encoding/lib/__init__.py
+++ b/encoding/lib/__init__.py
@@ -12,6 +12,7 @@
         os.path.join(cpu_path, 'syncbn_cpu.cpp'),
         os.path.join(cpu_path, 'roi_align_cpu.cpp'),
         os.path.join(cpu_path, 'nms_cpu.cpp'),
+        os.path.join(cpu_path, 'rectify_cpu.cpp'),
     ], build_directory=cpu_path, verbose=False)
 
 if torch.cuda.is_available():
@@ -19,9 +20,9 @@
             os.path.join(gpu_path, 'operator.cpp'),
             os.path.join(gpu_path, 'activation_kernel.cu'),
             os.path.join(gpu_path, 'encoding_kernel.cu'),
-            os.path.join(gpu_path, 'encodingv2_kernel.cu'),
             os.path.join(gpu_path, 'syncbn_kernel.cu'),
             os.path.join(gpu_path, 'roi_align_kernel.cu'),
             os.path.join(gpu_path, 'nms_kernel.cu'),
+            os.path.join(gpu_path, 'rectify_cuda.cu'),
         ], extra_cuda_cflags=["--expt-extended-lambda"],
         build_directory=gpu_path, verbose=False)
diff --git a/encoding/lib/cpu/operator.cpp b/encoding/lib/cpu/operator.cpp
index a74bd991..9c5b28c2 100644
--- a/encoding/lib/cpu/operator.cpp
+++ b/encoding/lib/cpu/operator.cpp
@@ -12,4 +12,5 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("sumsquare_forward", &Sum_Square_Forward_CPU, "SumSqu forward (CPU)");
   m.def("sumsquare_backward", &Sum_Square_Backward_CPU, "SumSqu backward (CPU)");
   m.def("non_max_suppression", &Non_Max_Suppression_CPU, "NMS (CPU)");
+  m.def("conv_rectify", &CONV_RECTIFY_CPU, "Convolution Rectifier (CPU)");
 }
diff --git a/encoding/lib/cpu/operator.h b/encoding/lib/cpu/operator.h
index 4e1a48c5..a0642155 100644
--- a/encoding/lib/cpu/operator.h
+++ b/encoding/lib/cpu/operator.h
@@ -72,3 +72,12 @@ std::vector<at::Tensor> Non_Max_Suppression_CPU(
   const at::Tensor& input,
   const at::Tensor& scores,
   double thresh);
+
+void CONV_RECTIFY_CPU(
+  at::Tensor& output,
+  const at::Tensor& input,
+  at::IntArrayRef kernel_size,
+  at::IntArrayRef stride,
+  at::IntArrayRef padding,
+  at::IntArrayRef dilation,
+  bool avg_mode);
diff --git a/encoding/lib/cpu/rectify_cpu.cpp b/encoding/lib/cpu/rectify_cpu.cpp
new file mode 100644
index 00000000..2f464fc1
--- /dev/null
+++ b/encoding/lib/cpu/rectify_cpu.cpp
@@ -0,0 +1,234 @@
+#include <ATen/ATen.h>
+#include <ATen/Parallel.h>
+#include <ATen/NativeFunctions.h>
+#include <ATen/Parallel.h>
+#include <tuple>
+
+#include <torch/extension.h>
+#include <ATen/div_rtn.h>
+#include <ATen/TensorUtils.h>
+#include <ATen/AccumulateType.h>
+
+template <typename dest_t, typename src_t>
+static inline dest_t safe_downcast(src_t v)
+{
+  TORCH_CHECK(std::numeric_limits<dest_t>::min() <= v && v <= std::numeric_limits<dest_t>::max(),
+              "integer out of range");
+
+  return static_cast<dest_t>(v);
+}
+
+
+template<typename T>
+static inline T pooling_output_shape_pad_lr(
+        T inputSize, T kernelSize, T pad_l, T pad_r, T stride, T dilation,
+        bool ceil_mode) {
+    T outputSize = div_rtn<T>(
+        inputSize + pad_l + pad_r - dilation * (kernelSize - 1) - 1 +
+        (ceil_mode ? stride - 1 : 0), stride) + 1;
+    if (pad_l) {
+        // ensure that the last pooling starts inside the image
+        // needed to avoid problems in ceil mode
+        if ((outputSize - 1) * stride >= inputSize + pad_l)
+          --outputSize;
+    }
+    return outputSize;
+}
+
+template<typename T>
+static inline T pooling_output_shape(
+      T inputSize, T kernelSize, T pad, T stride, T dilation, bool ceil_mode) {
+    return pooling_output_shape_pad_lr(
+        inputSize, kernelSize, pad, pad, stride, dilation, ceil_mode);
+}
+
+static inline void pool2d_shape_check(
+  const at::Tensor& input,
+  int kH, int kW, int dH, int dW, int padH, int padW, int dilationH, int dilationW,
+  int64_t nInputPlane,
+  int64_t inputHeight, int64_t inputWidth,
+  int64_t outputHeight, int64_t outputWidth)
+{
+  const int64_t ndim = input.ndimension();
+  const int64_t nOutputPlane = nInputPlane;
+
+  TORCH_CHECK(kW > 0 && kH > 0,
+              "kernel size should be greater than zero, but got ",
+              "kH: ", kH, " kW: ", kW);
+  TORCH_CHECK(dW > 0 && dH > 0,
+              "stride should be greater than zero, but got "
+              "dH: ", dH, " dW: ", dW);
+  TORCH_CHECK(dilationH > 0 && dilationW > 0,
+              "dilation should be greater than zero, but got ",
+              "dilationH: ", dilationH, " dilationW: ", dilationW);
+
+  TORCH_CHECK(input.numel() > 0 && (ndim == 3 || ndim == 4),
+              "non-empty 3D or 4D input tensor expected but got ndim: ", ndim);
+  //TORCH_CHECK(kW/2 >= padW && kH/2 >= padH,
+  //            "pad should be smaller than half of kernel size, but got ",
+  //            "padW = ", padW, ", padH = ", padH, ", kW = ", kW, ", kH = ", kH);
+
+  TORCH_CHECK(outputWidth >= 1 && outputHeight >= 1,
+              "Given input size: (",
+              nInputPlane, "x", inputHeight, "x", inputWidth, "). ",
+              "Calculated output size: (",
+              nOutputPlane, "x", outputHeight, "x", outputWidth, "). ",
+              "Output size is too small");
+}
+
+
+template <typename scalar_t>
+static void conv_rectify_cpu_frame(
+          scalar_t *output_data,
+          int64_t nbatch,
+          int64_t nInputPlane,
+          int64_t inputWidth,
+          int64_t inputHeight,
+          int64_t outputWidth,
+          int64_t outputHeight,
+          int kW,
+          int kH,
+          int dW,
+          int dH,
+          int padW,
+          int padH,
+          const int dilation_h,
+          const int dilation_w,
+          bool average_mode) {
+  //at::parallel_for(0, nInputPlane, 0, [&](int64_t start, int64_t end) {
+  for (int64_t k = 0; k < nInputPlane; k++) {
+    int64_t p;
+    for(p = 0; p < nbatch; p++)
+    {
+      int64_t xx, yy;
+      /* For all output pixels... */
+      scalar_t *ptr_output = output_data + p*nInputPlane*outputWidth*outputHeight + k*outputWidth*outputHeight;
+      //int64_t i;
+
+      for(yy = 0; yy < outputHeight; yy++)
+      {
+        for(xx = 0; xx < outputWidth; xx++)
+        {
+          /* Compute the mean of the input image... */
+          int64_t hstart = yy * dH - padH;
+          int64_t wstart = xx * dW - padW;
+          int64_t hend = std::min(hstart + kH, inputHeight + padH);
+          int64_t wend = std::min(wstart + kW, inputWidth + padW);
+          //int pool_size = (hend - hstart) * (wend - wstart);
+          int pool_size = ((kH - 1) / dilation_h + 1) * ((kW - 1) / dilation_w + 1);
+          hstart = std::max(hstart, (int64_t) 0);
+          wstart = std::max(wstart, (int64_t) 0);
+          hend = std::min(hend, inputHeight);
+          wend = std::min(wend, inputWidth);
+          int hcount = int(((hend - hstart) - 1) / dilation_h + 1);
+          int wcount = int(((wend - wstart) - 1) / dilation_w + 1);
+
+          scalar_t mul_factor;
+          if (average_mode) {
+            mul_factor = scalar_t(1.0) / (hcount * wcount);
+          }
+          else {
+            mul_factor = scalar_t(1.0) * pool_size / (hcount * wcount);
+          }
+          *ptr_output++ *= mul_factor;
+        }
+      }
+    }
+  }
+  //});
+}
+
+void conv_rectify_cpu_tempalte(
+          at::Tensor &output,
+          const at::Tensor &input_,
+          at::IntArrayRef kernel_size,
+          at::IntArrayRef stride, 
+          at::IntArrayRef padding,
+          at::IntArrayRef dilation,
+          bool average_mode)
+{
+  // #20866, #22032: Guarantee this for the official C++ API?
+  TORCH_CHECK(kernel_size.size() == 1 || kernel_size.size() == 2,
+    "conv_rectify: kernel_size must either be a single int, or a tuple of two ints");
+  const int kH = safe_downcast<int, int64_t>(kernel_size[0]);
+  const int kW = kernel_size.size() == 1 ? kH : safe_downcast<int, int64_t>(kernel_size[1]);
+
+  TORCH_CHECK(stride.empty() || stride.size() == 1 || stride.size() == 2,
+    "conv_rectify: stride must either be omitted, a single int, or a tuple of two ints");
+  const int dH = stride.empty() ? kH : safe_downcast<int, int64_t>(stride[0]);
+  const int dW = stride.empty() ? kW :
+                 stride.size() == 1 ? dH : safe_downcast<int, int64_t>(stride[1]);
+
+  TORCH_CHECK(padding.size() == 1 || padding.size() == 2,
+    "conv_rectify: padding must either be a single int, or a tuple of two ints");
+  const int padH = safe_downcast<int, int64_t>(padding[0]);
+  const int padW = padding.size() == 1 ? padH : safe_downcast<int, int64_t>(padding[1]);
+
+  TORCH_CHECK(dilation.size() == 1 || dilation.size() == 2,
+    "rectify: dilation must either be a single int, or a tuple of two ints");
+  const int dilationH = safe_downcast<int, int64_t>(dilation[0]);
+  const int dilationW = dilation.size() == 1 ? dilationH : safe_downcast<int, int64_t>(dilation[1]);
+
+  TORCH_CHECK((input_.ndimension() == 3 || input_.ndimension() == 4),
+    "non-empty 2D or 3D (batch mode) tensor expected for input");
+
+  /* sizes */
+  const int64_t nbatch = input_.ndimension() == 4 ? input_.size(-4) : 1;
+  const int64_t nInputPlane = input_.size(-3);
+  const int64_t inputHeight = input_.size(-2);
+  const int64_t inputWidth = input_.size(-1);
+
+  //const int64_t outputHeight = pooling_output_shape<int64_t>(inputHeight, kH, padH, dH, dilationH, false);
+  //const int64_t outputWidth = pooling_output_shape<int64_t>(inputWidth, kW, padW, dW, dilationW, false);
+  const int64_t outputHeight = output.size(-2);
+  const int64_t outputWidth = output.size(-1);
+
+  pool2d_shape_check(
+    input_,
+    kH, kW, dH, dW, padH, padW, dilationH, dilationW,
+    nInputPlane,
+    inputHeight, inputWidth,
+    outputHeight, outputWidth);
+
+  TORCH_CHECK(output.is_contiguous(), "conv_rectify: output must be contiguous");
+
+  at::Tensor input = input_.contiguous();
+
+  AT_DISPATCH_FLOATING_TYPES(input.type(), "conv_rectify_cuda_frame", ([&] {
+      scalar_t *output_data = output.data_ptr<scalar_t>();
+      conv_rectify_cpu_frame<scalar_t>(
+        output_data,
+        nbatch,
+        nInputPlane,
+        inputWidth, inputHeight,
+        outputWidth, outputHeight,
+        kW, kH,
+        dW, dH,
+        padW, padH,
+        dilationH,
+        dilationW,
+        average_mode);
+    }
+  ));
+}
+
+void CONV_RECTIFY_CPU(
+  at::Tensor& output,
+  const at::Tensor& input,
+  at::IntArrayRef kernel_size,
+  at::IntArrayRef stride,
+  at::IntArrayRef padding,
+  at::IntArrayRef dilation,
+  bool average) {
+  //at::Tensor output = at::empty({0}, input.options());
+  conv_rectify_cpu_tempalte(
+    output,
+    input,
+    kernel_size,
+    stride,
+    padding,
+    dilation,
+    average);
+}
+
+
diff --git a/encoding/lib/gpu/activation_kernel.cu b/encoding/lib/gpu/activation_kernel.cu
index d58118d7..c14bcada 100644
--- a/encoding/lib/gpu/activation_kernel.cu
+++ b/encoding/lib/gpu/activation_kernel.cu
@@ -1,12 +1,11 @@
-#include <vector>
 #include <torch/extension.h>
 #include <ATen/ATen.h>
-// #include <ATen/cuda/CUDAContext.h>
+#include <vector>
 
 #include <cuda_runtime_api.h>
-
 #include <thrust/device_ptr.h>
 #include <thrust/transform.h>
+#include "common.h"
 
 
 namespace {
diff --git a/encoding/lib/gpu/encodingv2_kernel.cu b/encoding/lib/gpu/encodingv2_kernel.cu
deleted file mode 100644
index 068c2bd5..00000000
--- a/encoding/lib/gpu/encodingv2_kernel.cu
+++ /dev/null
@@ -1,427 +0,0 @@
-#include <vector>
-#include <torch/extension.h>
-#include <ATen/ATen.h>
-#include <ATen/Functions.h>
-#include <ATen/cuda/CUDAContext.h>
-
-#include "common.h"
-#include "device_tensor.h"
-
-namespace {
-
-template<typename DType, typename Acctype>
-struct KD2Op {
-  __device__ KD2Op(DeviceTensor<DType, 3> x,
-                   DeviceTensor<DType, 2> c,
-                   DeviceTensor<DType, 2> std) : X(x), C(c), STD(std) {}
-  __device__ __forceinline__ Acctype operator()(int b, int i, int k, int d) 
-  {
-      DType r = (X[b][i][d] - C[k][d]) / STD[k][d];
-      return ScalarConvert<DType, Acctype>::to(r * r);
-  }
-  DeviceTensor<DType, 3> X;
-  DeviceTensor<DType, 2> C;
-  DeviceTensor<DType, 2> STD;
-};
-
-template<typename DType, typename Acctype>
-__global__ void Encoding_Dist_Forward_kernel (
-    DeviceTensor<DType, 3> KD,
-    DeviceTensor<DType, 3> X,
-    DeviceTensor<DType, 2> C,
-    DeviceTensor<DType, 2> STD) {
-  /* declarations of the variables */
-  int b, k, i, D;
-  /* Get the index and channels */ 
-  b = blockIdx.z;
-  k = blockIdx.x;
-  i = blockIdx.y;
-  D = X.getSize(2);
-  /* main operation */
-  KD2Op<DType, Acctype> g(X, C, STD);
-  KD[b][i][k] = reduceD<Acctype>(g, b, i, k, D);;
-}
-
-template<typename DType, typename Acctype>
-struct EncGradXOp {
-  __device__ EncGradXOp(
-    DeviceTensor<DType, 3> gkd,
-    DeviceTensor<DType, 3> x,
-    DeviceTensor<DType, 2> c,
-    DeviceTensor<DType, 2> std) : GKD(gkd), X(x), C(c), STD(std) {}
-    // DeviceTensor<DType, 1> s, S(s)
-  __device__ __forceinline__ Acctype operator()(int b, int i, int k, int d) {
-    return ScalarConvert<DType, Acctype>::to(
-      2 * GKD[b][i][k] * (X[b][i][d] - C[k][d]) / 
-      (STD[k][d] * STD[k][d]));
-  }
-  DeviceTensor<DType, 3> GKD;
-  DeviceTensor<DType, 3> X;
-  DeviceTensor<DType, 2> C;
-  DeviceTensor<DType, 2> STD;
-  // DeviceTensor<DType, 1> S;
-};
-
-template<typename DType, typename Acctype>
-__global__ void Encoding_GradX_kernel (
-    DeviceTensor<DType, 3> GKD,
-    DeviceTensor<DType, 3> GX,
-    DeviceTensor<DType, 3> X,
-    DeviceTensor<DType, 2> C,
-    DeviceTensor<DType, 2> STD) {
-    // DeviceTensor<DType, 1> S
-  /* declarations of the variables */
-  int b, d, i, K;
-  /* Get the index and channels */ 
-  b = blockIdx.z;
-  i = blockIdx.y;
-  d = blockIdx.x;
-  K = C.getSize(0);
-  /* main operation */
-  EncGradXOp<DType, Acctype> g(GKD, X, C, STD);
-  GX[b][i][d] = reduceK<Acctype>(g, b, i, d, K);
-}
-
-template<typename DType, typename Acctype>
-struct EncGradSTDOp {
-  __device__ EncGradSTDOp(
-    DeviceTensor<DType, 3> gkd,
-    DeviceTensor<DType, 3> x,
-    DeviceTensor<DType, 2> c,
-    DeviceTensor<DType, 2> std) : GKD(gkd), X(x), C(c), STD(std) {}
-    // DeviceTensor<DType, 1> s, S(s)
-  __device__ __forceinline__ Acctype operator()(int b, int i, int k, int d) {
-    return ScalarConvert<DType, Acctype>::to(
-      -2 * GKD[b][i][k] * (X[b][i][d] - C[k][d]) *
-      (X[b][i][d] - C[k][d]) / (STD[k][d] * STD[k][d] * STD[k][d]));
-  }
-  DeviceTensor<DType, 3> GKD;
-  DeviceTensor<DType, 3> X;
-  DeviceTensor<DType, 2> C;
-  DeviceTensor<DType, 2> STD;
-  // DeviceTensor<DType, 1> S;
-};
-
-template<typename DType, typename Acctype>
-__global__ void Encoding_GradCSTD_kernel (
-    DeviceTensor<DType, 3> GKD,
-    DeviceTensor<DType, 2> GC,
-    DeviceTensor<DType, 2> GSTD,
-    DeviceTensor<DType, 3> X,
-    DeviceTensor<DType, 2> C,
-    DeviceTensor<DType, 2> STD) {
-  /* declarations of the variables */
-  int k, d, B, N;
-  /* Get the index and channels */ 
-  d = blockIdx.x;
-  k = blockIdx.y;
-  B = X.getSize(0);
-  N = X.getSize(1);
-  /* main operation */
-  EncGradXOp<DType, Acctype> g1(GKD, X, C, STD);
-  EncGradSTDOp<DType, Acctype> g2(GKD, X, C, STD);
-  GC[k][d] = -reduceBN<Acctype>(g1, k, d, B, N);
-  GSTD[k][d] += reduceBN<Acctype>(g2, k, d, B, N);
-}
-
-template<typename DType, typename Acctype>
-struct EncGradSTDXOp {
-  __device__ EncGradSTDXOp(
-    DeviceTensor<DType, 2> gstd,
-    DeviceTensor<DType, 3> x,
-    DeviceTensor<DType, 2> c,
-    DeviceTensor<DType, 2> std) : GSTD(gstd), X(x), C(c), STD(std) {}
-  __device__ __forceinline__ Acctype operator()(int b, int i, int k, int d) {
-    return ScalarConvert<DType, Acctype>::to(
-      GSTD[k][d] * (X[b][i][d] - C[k][d]) / STD[k][d]);
-  }
-  DeviceTensor<DType, 2> GSTD;
-  DeviceTensor<DType, 3> X;
-  DeviceTensor<DType, 2> C;
-  DeviceTensor<DType, 2> STD;
-};
-
-template<typename DType, typename Acctype>
-__global__ void Encoding_GradSTDX_kernel (
-    DeviceTensor<DType, 2> GSTD,
-    DeviceTensor<DType, 3> GX,
-    DeviceTensor<DType, 3> X,
-    DeviceTensor<DType, 2> C,
-    DeviceTensor<DType, 2> STD,
-    int N) {
-  /* declarations of the variables */
-  int b, d, i, K;
-  /* Get the index and channels */ 
-  b = blockIdx.z;
-  i = blockIdx.y;
-  d = blockIdx.x;
-  K = C.getSize(0);
-  /* main operation */
-  EncGradSTDXOp<DType, Acctype> g(GSTD, X, C, STD);
-  GX[b][i][d] += reduceK<Acctype>(g, b, i, d, K) / N;
-}
-
-template<typename DType, typename Acctype>
-struct AggOpV2 {
-  __device__ AggOpV2(DeviceTensor<DType, 3> a,
-                     DeviceTensor<DType, 3> x,
-                     DeviceTensor<DType, 2> c,
-                     DeviceTensor<DType, 2> std) : A(a), X(x), C(c), STD(std) {}
-  __device__ __forceinline__ Acctype operator()(int b, int i, int k, int d) {
-    return ScalarConvert<DType, Acctype>::to(A[b][i][k] * (X[b][i][d] - C[k][d]) /
-                                             STD[k][d]);
-  }
-  DeviceTensor<DType, 3> A;
-  DeviceTensor<DType, 3> X;
-  DeviceTensor<DType, 2> C;
-  DeviceTensor<DType, 2> STD;
-};
-
-template<typename DType, typename Acctype>
-__global__ void AggregateV2_Forward_kernel (
-    DeviceTensor<DType, 3> E,
-    DeviceTensor<DType, 3> A,
-    DeviceTensor<DType, 3> X,
-    DeviceTensor<DType, 2> C,
-    DeviceTensor<DType, 2> STD) {
-  /* declarations of the variables */
-  int b, k, d, N;
-  /* Get the index and channels */ 
-  b = blockIdx.z;
-  d = blockIdx.x;
-  k = blockIdx.y;
-  N = X.getSize(1);
-  /* main operation */
-  AggOpV2<DType, Acctype> g(A, X, C, STD);
-  E[b][k][d] = reduceN<Acctype>(g, b, k, d, N);
-}
-
-template<typename DType, typename Acctype>
-struct AggV2BackOp {
-  __device__ AggV2BackOp(DeviceTensor<DType, 3> g,
-                         DeviceTensor<DType, 3> x,
-                         DeviceTensor<DType, 2> c,
-                         DeviceTensor<DType, 2> std) : G(g), X(x), C(c), STD(std) {}
-  __device__ __forceinline__ Acctype operator()(int b, int i, int k, int d) {
-    return ScalarConvert<DType, Acctype>::to(G[b][k][d] * (X[b][i][d] - C[k][d]) /
-                                             STD[k][d]);
-  }
-  DeviceTensor<DType, 3> G;
-  DeviceTensor<DType, 3> X;
-  DeviceTensor<DType, 2> C;
-  DeviceTensor<DType, 2> STD;
-};
-
-template<typename DType, typename Acctype>
-__global__ void AggregateV2_Backward_kernel (
-    DeviceTensor<DType, 3> GA,
-    DeviceTensor<DType, 3> GE,
-    DeviceTensor<DType, 3> A,
-    DeviceTensor<DType, 3> X,
-    DeviceTensor<DType, 2> C,
-    DeviceTensor<DType, 2> STD) {
-  /* declarations of the variables */
-  int b, k, i, D;
-  /* Get the index and channels */ 
-  b = blockIdx.z;
-  i = blockIdx.y;
-  k = blockIdx.x;
-  D = GE.getSize(2);
-  /* main operation */
-  AggV2BackOp<DType, Acctype> g(GE, X, C, STD);
-  GA[b][i][k] = reduceD<Acctype>(g, b, i, k, D);
-}
-
-} // namespace
-
-at::Tensor Encoding_Dist_Inference_Forward_CUDA(
-    const at::Tensor X_,
-    const at::Tensor C_,
-    const at::Tensor STD_) {
-    // const at::Tensor S_,
-  // X \in R^{B, N, D}, C \in R^{K, D}, S \in R^K
-  auto KD_ = torch::zeros({X_.size(0), X_.size(1), C_.size(0)}, X_.options());
-  // E(x), E(x^2)
-  int N = X_.size(0) * X_.size(1);
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  dim3 blocks(C_.size(0), X_.size(1), X_.size(0));
-  dim3 threads(getNumThreads(C_.size(1)));
-  // calculate the kernel distance
-  AT_DISPATCH_FLOATING_TYPES(X_.type(), "Encoding_Dist_Inference_Forward_CUDA", ([&] {
-    /* Device tensors */
-    DeviceTensor<scalar_t, 3> KD = devicetensor<scalar_t, 3>(KD_);
-    DeviceTensor<scalar_t, 3> X = devicetensor<scalar_t, 3>(X_);
-    DeviceTensor<scalar_t, 2> C = devicetensor<scalar_t, 2>(C_);
-    DeviceTensor<scalar_t, 2> STD = devicetensor<scalar_t, 2>(STD_);
-    /* kernel function */
-    Encoding_Dist_Forward_kernel<scalar_t, scalar_t>
-        <<<blocks, threads, 0, stream>>> (KD, X, C, STD);
-  }));
-  AT_ASSERT(cudaGetLastError() == cudaSuccess);
-  return KD_;
-}
-
-std::vector<at::Tensor> Encoding_Dist_Inference_Backward_CUDA(
-    const at::Tensor GKD_,
-    const at::Tensor KD_,
-    const at::Tensor X_,
-    const at::Tensor C_,
-    const at::Tensor STD_) {
-  auto GX_ = at::zeros_like(X_);
-  auto GC_ = at::zeros_like(C_);
-  auto GSTD_ = at::zeros_like(STD_);
-  /* kernel function */
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  dim3 blocks1(X_.size(2), X_.size(1), X_.size(0));
-  dim3 threads1(getNumThreads(C_.size(0)));
-  dim3 blocks2(C_.size(1), C_.size(0));
-  dim3 threads2(getNumThreads(X_.size(1)));
-  int N = X_.size(0) * X_.size(1);
-  AT_DISPATCH_FLOATING_TYPES(X_.type(), "Encoding_Dist_Backward_CUDA", ([&] {
-    /* Device tensors */
-    DeviceTensor<scalar_t, 3> GKD = devicetensor<scalar_t, 3>(GKD_);
-    DeviceTensor<scalar_t, 2> GSTD = devicetensor<scalar_t, 2>(GSTD_);
-    DeviceTensor<scalar_t, 3> GX = devicetensor<scalar_t, 3>(GX_);
-    DeviceTensor<scalar_t, 2> GC = devicetensor<scalar_t, 2>(GC_);
-    DeviceTensor<scalar_t, 3> X = devicetensor<scalar_t, 3>(X_);
-    DeviceTensor<scalar_t, 2> C = devicetensor<scalar_t, 2>(C_);
-    DeviceTensor<scalar_t, 2> STD = devicetensor<scalar_t, 2>(STD_);
-    Encoding_GradX_kernel<scalar_t, scalar_t>
-      <<<blocks1, threads1, 0, stream>>> (GKD, GX, X, C, STD);
-    AT_ASSERT(cudaGetLastError() == cudaSuccess);
-    Encoding_GradCSTD_kernel<scalar_t, scalar_t>
-      <<<blocks2, threads2, 0, stream>>> (GKD, GC, GSTD, X, C, STD);
-    AT_ASSERT(cudaGetLastError() == cudaSuccess);
-  }));
-  return {GX_, GC_, GSTD_};
-}
-
-std::vector<at::Tensor> Encoding_Dist_Forward_CUDA(
-    const at::Tensor X_,
-    const at::Tensor C_,
-    double eps) {
-    // const at::Tensor S_,
-  // X \in R^{B, N, D}, C \in R^{K, D}, S \in R^K
-  auto KD_ = torch::zeros({X_.size(0), X_.size(1), C_.size(0)}, X_.options());
-  // E(x), E(x^2)
-  int N = X_.size(0) * X_.size(1);
-  auto SVar_ = (X_.pow(2).sum(0).sum(0).view({1, X_.size(2)}) -
-                2 * C_ * X_.sum(0).sum(0).view({1, X_.size(2)})).expand_as(C_) +
-               C_.pow(2) * N;
-  auto STD_ = at::sqrt(SVar_ / N + eps);
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  dim3 blocks(C_.size(0), X_.size(1), X_.size(0));
-  dim3 threads(getNumThreads(C_.size(1)));
-  // calculate the kernel distance
-  AT_DISPATCH_FLOATING_TYPES(X_.type(), "Encoding_Dist_Forward_CUDA", ([&] {
-    /* Device tensors */
-    DeviceTensor<scalar_t, 3> KD = devicetensor<scalar_t, 3>(KD_);
-    DeviceTensor<scalar_t, 3> X = devicetensor<scalar_t, 3>(X_);
-    DeviceTensor<scalar_t, 2> C = devicetensor<scalar_t, 2>(C_);
-    DeviceTensor<scalar_t, 2> STD = devicetensor<scalar_t, 2>(STD_);
-    /* kernel function */
-    Encoding_Dist_Forward_kernel<scalar_t, scalar_t>
-        <<<blocks, threads, 0, stream>>> (KD, X, C, STD);
-  }));
-  AT_ASSERT(cudaGetLastError() == cudaSuccess);
-  return {KD_, STD_, SVar_ / (N - 1)};
-}
-
-std::vector<at::Tensor> Encoding_Dist_Backward_CUDA(
-    const at::Tensor GKD_,
-    const at::Tensor GSTD_,
-    const at::Tensor KD_,
-    const at::Tensor X_,
-    const at::Tensor C_,
-    const at::Tensor STD_) {
-  auto GX_ = at::zeros_like(X_);
-  auto GC_ = at::zeros_like(C_);
-  auto GSTD2_ = GSTD_.clone();
-  /* kernel function */
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  dim3 blocks1(X_.size(2), X_.size(1), X_.size(0));
-  dim3 threads1(getNumThreads(C_.size(0)));
-  dim3 blocks2(C_.size(1), C_.size(0));
-  dim3 threads2(getNumThreads(X_.size(1)));
-  int N = X_.size(0) * X_.size(1);
-  AT_DISPATCH_FLOATING_TYPES(X_.type(), "Encoding_Dist_Backward_CUDA", ([&] {
-    /* Device tensors */
-    DeviceTensor<scalar_t, 3> GKD = devicetensor<scalar_t, 3>(GKD_);
-    DeviceTensor<scalar_t, 2> GSTD = devicetensor<scalar_t, 2>(GSTD2_);
-    DeviceTensor<scalar_t, 3> GX = devicetensor<scalar_t, 3>(GX_);
-    DeviceTensor<scalar_t, 2> GC = devicetensor<scalar_t, 2>(GC_);
-    DeviceTensor<scalar_t, 3> X = devicetensor<scalar_t, 3>(X_);
-    DeviceTensor<scalar_t, 2> C = devicetensor<scalar_t, 2>(C_);
-    DeviceTensor<scalar_t, 2> STD = devicetensor<scalar_t, 2>(STD_);
-    Encoding_GradX_kernel<scalar_t, scalar_t>
-      <<<blocks1, threads1, 0, stream>>> (GKD, GX, X, C, STD);
-    AT_ASSERT(cudaGetLastError() == cudaSuccess);
-    Encoding_GradCSTD_kernel<scalar_t, scalar_t>
-      <<<blocks2, threads2, 0, stream>>> (GKD, GC, GSTD, X, C, STD);
-    AT_ASSERT(cudaGetLastError() == cudaSuccess);
-    Encoding_GradSTDX_kernel<scalar_t, scalar_t>
-      <<<blocks1, threads1, 0, stream>>> (GSTD, GX, X, C, STD, N);
-    AT_ASSERT(cudaGetLastError() == cudaSuccess);
-  }));
-  // d_sigma/d_c
-  GC_ = GC_ - GSTD2_ * (X_.mean(0).mean(0) - C_) / STD_;
-  return {GX_, GC_};
-}
-
-at::Tensor AggregateV2_Forward_CUDA(
-    const at::Tensor A_,
-    const at::Tensor X_,
-    const at::Tensor C_,
-    const at::Tensor STD_) {
-  /* Device tensors */
-  auto E_ = torch::zeros({A_.size(0), C_.size(0), C_.size(1)}, A_.options());
-  // auto IS_ = 1.0f / (S_ + eps).sqrt();
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  // B, K, D
-  dim3 blocks(C_.size(1), C_.size(0), X_.size(0));
-  dim3 threads(getNumThreads(X_.size(1)));
-
-  AT_DISPATCH_FLOATING_TYPES(A_.type(), "Aggregate_Forward_CUDA", ([&] {
-    DeviceTensor<scalar_t, 3> E = devicetensor<scalar_t, 3>(E_);
-    DeviceTensor<scalar_t, 3> A = devicetensor<scalar_t, 3>(A_);
-    DeviceTensor<scalar_t, 3> X = devicetensor<scalar_t, 3>(X_);
-    DeviceTensor<scalar_t, 2> C = devicetensor<scalar_t, 2>(C_);
-    DeviceTensor<scalar_t, 2> STD = devicetensor<scalar_t, 2>(STD_);
-    /* kernel function */
-    AggregateV2_Forward_kernel<scalar_t, scalar_t>
-      <<<blocks, threads, 0, stream>>>(E, A, X, C, STD);
-  }));
-  AT_ASSERT(cudaGetLastError() == cudaSuccess);
-  return E_;
-}
-
-std::vector<at::Tensor> AggregateV2_Backward_CUDA(
-    const at::Tensor GE_,
-    const at::Tensor E_,
-    const at::Tensor A_,
-    const at::Tensor X_,
-    const at::Tensor C_,
-    const at::Tensor STD_) {
-  auto gradA_ = at::zeros_like(A_);
-  auto gradX_ = at::bmm(A_ , (GE_ / STD_.unsqueeze(0)));
-  auto gradC_ = -(A_.sum(1).unsqueeze(2) * GE_ / STD_.unsqueeze(0)).sum(0);
-  auto gradSTD_ = -(GE_ * E_).sum(0) / STD_;
-  // auto gradS_ = -0.5 * (GE_ * E_).sum(2).sum(0) / S_;
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-  // B, K, D
-  dim3 blocks(C_.size(0), X_.size(1), X_.size(0));
-  dim3 threads(getNumThreads(C_.size(1)));
-  AT_DISPATCH_FLOATING_TYPES(A_.type(), "Aggregate_Backward_CUDA", ([&] {
-    /* Device tensors */
-    DeviceTensor<scalar_t, 3> GA = devicetensor<scalar_t, 3>(gradA_);
-    DeviceTensor<scalar_t, 3> GE = devicetensor<scalar_t, 3>(GE_);
-    DeviceTensor<scalar_t, 3> A = devicetensor<scalar_t, 3>(A_);
-    DeviceTensor<scalar_t, 3> X = devicetensor<scalar_t, 3>(X_);
-    DeviceTensor<scalar_t, 2> C = devicetensor<scalar_t, 2>(C_);
-    DeviceTensor<scalar_t, 2> STD = devicetensor<scalar_t, 2>(STD_);
-    AggregateV2_Backward_kernel<scalar_t, scalar_t>
-      <<<blocks, threads, 0, stream>>> (GA, GE, A, X, C, STD);
-  }));
-  AT_ASSERT(cudaGetLastError() == cudaSuccess);
-  return {gradA_, gradX_, gradC_, gradSTD_};
-}
diff --git a/encoding/lib/gpu/operator.cpp b/encoding/lib/gpu/operator.cpp
index 5d21a16e..e51352d4 100644
--- a/encoding/lib/gpu/operator.cpp
+++ b/encoding/lib/gpu/operator.cpp
@@ -16,14 +16,7 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("expectation_backward", &Expectation_Backward_CUDA, "Expectation backward (CUDA)");
   m.def("expectation_inp_backward", &Expectation_Inp_Backward_CUDA,
         "Inplace Expectation backward (CUDA)");
-  m.def("encoding_dist_forward", &Encoding_Dist_Forward_CUDA, "EncDist forward (CUDA)");
-  m.def("encoding_dist_backward", &Encoding_Dist_Backward_CUDA, "Assign backward (CUDA)");
-  m.def("encoding_dist_inference_forward", &Encoding_Dist_Inference_Forward_CUDA,
-        "EncDist Inference forward (CUDA)");
-  m.def("encoding_dist_inference_backward", &Encoding_Dist_Inference_Backward_CUDA,
-        "Assign Inference backward (CUDA)");
-  m.def("aggregatev2_forward", &AggregateV2_Forward_CUDA, "AggregateV2 forward (CUDA)");
-  m.def("aggregatev2_backward", &AggregateV2_Backward_CUDA, "AggregateV2 backward (CUDA)");
   m.def("leaky_relu_forward", &LeakyRelu_Forward_CUDA, "Learky ReLU forward (CUDA)");
   m.def("leaky_relu_backward", &LeakyRelu_Backward_CUDA, "Learky ReLU backward (CUDA)");
+  m.def("conv_rectify", &CONV_RECTIFY_CUDA, "Convolution Rectifier (CUDA)");
 }
diff --git a/encoding/lib/gpu/operator.h b/encoding/lib/gpu/operator.h
index 64dbe1de..01ec9b48 100644
--- a/encoding/lib/gpu/operator.h
+++ b/encoding/lib/gpu/operator.h
@@ -1,4 +1,5 @@
 #include <torch/extension.h>
+#include <ATen/ATen.h>
 #include <vector>
 
 at::Tensor ROIAlign_Forward_CUDA(
@@ -102,45 +103,15 @@ at::Tensor Expectation_Inp_Backward_CUDA(
   const at::Tensor beta_,
   float eps);
 
-at::Tensor Encoding_Dist_Inference_Forward_CUDA(
-  const at::Tensor X_,
-  const at::Tensor C_,
-  const at::Tensor STD_);
-
-std::vector<at::Tensor> Encoding_Dist_Inference_Backward_CUDA(
-  const at::Tensor GKD_,
-  const at::Tensor KD_,
-  const at::Tensor X_,
-  const at::Tensor C_,
-  const at::Tensor STD_);
-
-std::vector<at::Tensor> Encoding_Dist_Forward_CUDA(
-  const at::Tensor X,
-  const at::Tensor C,
-  double eps);
-
-std::vector<at::Tensor> Encoding_Dist_Backward_CUDA(
-  const at::Tensor GKD_,
-  const at::Tensor GSTD_,
-  const at::Tensor KD_,
-  const at::Tensor X_,
-  const at::Tensor C_,
-  const at::Tensor STD_);
-
-at::Tensor AggregateV2_Forward_CUDA(
-  const at::Tensor A_,
-  const at::Tensor X_,
-  const at::Tensor C_,
-  const at::Tensor STD_);
-
-std::vector<at::Tensor> AggregateV2_Backward_CUDA(
-  const at::Tensor GE_,
-  const at::Tensor E_,
-  const at::Tensor A_,
-  const at::Tensor X_,
-  const at::Tensor C_,
-  const at::Tensor STD_);
-
 void LeakyRelu_Forward_CUDA(at::Tensor z, float slope);
 
 void LeakyRelu_Backward_CUDA(at::Tensor z, at::Tensor dz, float slope);
+
+void CONV_RECTIFY_CUDA(
+  at::Tensor& output,
+  const at::Tensor& input,
+  at::IntArrayRef kernel_size,
+  at::IntArrayRef stride,
+  at::IntArrayRef padding,
+  at::IntArrayRef dilation,
+  bool avg_mode);
diff --git a/encoding/lib/gpu/rectify_cuda.cu b/encoding/lib/gpu/rectify_cuda.cu
new file mode 100644
index 00000000..6bf56d2f
--- /dev/null
+++ b/encoding/lib/gpu/rectify_cuda.cu
@@ -0,0 +1,222 @@
+#include <torch/extension.h>
+#include <ATen/ATen.h>
+#include <ATen/div_rtn.h>
+#include <ATen/Dispatch.h>
+#include <ATen/TensorUtils.h>
+#include <ATen/AccumulateType.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAApplyUtils.cuh>
+#include <ATen/cuda/detail/TensorInfo.cuh>
+#include <ATen/cuda/detail/IndexUtils.cuh>
+#include <ATen/cuda/detail/KernelUtils.h>
+
+
+template <typename dest_t, typename src_t>
+static inline dest_t safe_downcast(src_t v)
+{
+  TORCH_CHECK(std::numeric_limits<dest_t>::min() <= v && v <= std::numeric_limits<dest_t>::max(),
+              "integer out of range");
+
+  return static_cast<dest_t>(v);
+}
+
+template<typename T>
+static inline T pooling_output_shape_pad_lr(
+        T inputSize, T kernelSize, T pad_l, T pad_r, T stride, T dilation,
+        bool ceil_mode) {
+    T outputSize = div_rtn<T>(
+        inputSize + pad_l + pad_r - dilation * (kernelSize - 1) - 1 +
+        (ceil_mode ? stride - 1 : 0), stride) + 1;
+    if (pad_l) {
+        // ensure that the last pooling starts inside the image
+        // needed to avoid problems in ceil mode
+        if ((outputSize - 1) * stride >= inputSize + pad_l)
+          --outputSize;
+    }
+    return outputSize;
+}
+
+template<typename T>
+static inline T pooling_output_shape(
+      T inputSize, T kernelSize, T pad, T stride, T dilation, bool ceil_mode) {
+    return pooling_output_shape_pad_lr(
+        inputSize, kernelSize, pad, pad, stride, dilation, ceil_mode);
+}
+
+static inline void pool2d_shape_check(
+  const at::Tensor& input,
+  int kH, int kW, int dH, int dW, int padH, int padW, int dilationH, int dilationW,
+  int64_t nInputPlane,
+  int64_t inputHeight, int64_t inputWidth,
+  int64_t outputHeight, int64_t outputWidth)
+{
+  const int64_t ndim = input.ndimension();
+  const int64_t nOutputPlane = nInputPlane;
+
+  TORCH_CHECK(kW > 0 && kH > 0,
+              "kernel size should be greater than zero, but got ",
+              "kH: ", kH, " kW: ", kW);
+  TORCH_CHECK(dW > 0 && dH > 0,
+              "stride should be greater than zero, but got "
+              "dH: ", dH, " dW: ", dW);
+  TORCH_CHECK(dilationH > 0 && dilationW > 0,
+              "dilation should be greater than zero, but got ",
+              "dilationH: ", dilationH, " dilationW: ", dilationW);
+
+  TORCH_CHECK(input.numel() > 0 && (ndim == 3 || ndim == 4),
+              "non-empty 3D or 4D input tensor expected but got ndim: ", ndim);
+  //TORCH_CHECK(kW/2 >= padW && kH/2 >= padH,
+  //            "pad should be smaller than half of kernel size, but got ",
+  //            "padW = ", padW, ", padH = ", padH, ", kW = ", kW, ", kH = ", kH);
+
+  TORCH_CHECK(outputWidth >= 1 && outputHeight >= 1,
+              "Given input size: (",
+              nInputPlane, "x", inputHeight, "x", inputWidth, "). ",
+              "Calculated output size: (",
+              nOutputPlane, "x", outputHeight, "x", outputWidth, "). ",
+              "Output size is too small");
+}
+
+template <typename scalar_t, typename accscalar_t>
+__global__ void conv_rectify_cuda_frame(
+    const int nthreads,
+    //const scalar_t* const bottom_data,
+    const int num, const int channels,
+    const int height, const int width, const int pooled_height,
+    const int pooled_width, const int kernel_h, const int kernel_w,
+    const int stride_h, const int stride_w, const int pad_h, const int pad_w,
+    const int dilation_h, const int dilation_w,
+    scalar_t* const top_data,
+    bool average_mode) {
+  CUDA_KERNEL_LOOP(index, nthreads) {
+    const int pw = index % pooled_width;
+    const int ph = (index / pooled_width) % pooled_height;
+    //const int c = (index / pooled_width / pooled_height) % channels;
+    //const int n = index / pooled_width / pooled_height / channels;
+    int hstart = ph * stride_h - pad_h;
+    int wstart = pw * stride_w - pad_w;
+    int hend = min(hstart + kernel_h, height + pad_h);
+    int wend = min(wstart + kernel_w, width + pad_w);
+    const int pool_size = ((kernel_h - 1) / dilation_h + 1) * ((kernel_w - 1) / dilation_w + 1);
+    hstart = max(hstart, 0);
+    wstart = max(wstart, 0);
+    hend = min(hend, height);
+    wend = min(wend, width);
+    accscalar_t mul_factor;
+    int hcount = int(((hend - hstart) - 1) / dilation_h + 1);
+    int wcount = int(((wend - wstart) - 1) / dilation_w + 1);
+    if (average_mode) {
+      mul_factor = accscalar_t(1.0) / (hcount * wcount);
+    }
+    else {
+      mul_factor = accscalar_t(1.0) * pool_size / (hcount * wcount);
+    }
+    top_data[index] = ScalarConvert<accscalar_t, scalar_t>::to(top_data[index] * mul_factor);
+  }
+}
+
+void conv_rectify_cuda_tempalte(
+  at::Tensor& output,
+  const at::Tensor& input_,
+  at::IntArrayRef kernel_size,
+  at::IntArrayRef stride,
+  at::IntArrayRef padding,
+  at::IntArrayRef dilation,
+  bool average)
+{
+  //at::TensorArg output_arg{ output, "output", 1 };
+  //at::TensorArg input_arg{ input_, "input_", 2 };
+
+  //checkAllSameGPU("rectify_out_cuda", {output_arg, input_arg});
+
+  // #20866, #22032: Guarantee this for the official C++ API?
+  TORCH_CHECK(kernel_size.size() == 1 || kernel_size.size() == 2,
+    "rectify: kernel_size must either be a single int, or a tuple of two ints");
+  const int kH = safe_downcast<int, int64_t>(kernel_size[0]);
+  const int kW = kernel_size.size() == 1 ? kH : safe_downcast<int, int64_t>(kernel_size[1]);
+
+  TORCH_CHECK(stride.empty() || stride.size() == 1 || stride.size() == 2,
+    "rectify: stride must either be omitted, a single int, or a tuple of two ints");
+  const int dH = stride.empty() ? kH : safe_downcast<int, int64_t>(stride[0]);
+  const int dW = stride.empty() ? kW :
+                 stride.size() == 1 ? dH : safe_downcast<int, int64_t>(stride[1]);
+
+  TORCH_CHECK(padding.size() == 1 || padding.size() == 2,
+    "rectify: padding must either be a single int, or a tuple of two ints");
+  const int padH = safe_downcast<int, int64_t>(padding[0]);
+  const int padW = padding.size() == 1 ? padH : safe_downcast<int, int64_t>(padding[1]);
+
+  TORCH_CHECK(dilation.size() == 1 || dilation.size() == 2,
+    "rectify: dilation must either be a single int, or a tuple of two ints");
+  const int dilationH = safe_downcast<int, int64_t>(dilation[0]);
+  const int dilationW = dilation.size() == 1 ? dilationH : safe_downcast<int, int64_t>(dilation[1]);
+
+  TORCH_CHECK((input_.ndimension() == 3 || input_.ndimension() == 4),
+    "non-empty 3D or 4D (batch mode) tensor expected for input");
+
+  const int64_t nbatch = input_.ndimension() == 4 ? input_.size(-4) : 1;
+  const int64_t nInputPlane = input_.size(-3);
+  const int64_t inputHeight = input_.size(-2);
+  const int64_t inputWidth = input_.size(-1);
+
+  //const int64_t outputHeight = pooling_output_shape<int64_t>(inputHeight, kH, padH, dH, dilationH, false);
+  //const int64_t outputWidth = pooling_output_shape<int64_t>(inputWidth, kW, padW, dW, dilationW, false);
+  const int64_t outputHeight = output.size(-2);
+  const int64_t outputWidth = output.size(-1);
+
+  pool2d_shape_check(
+    input_,
+    kH, kW, dH, dW, padH, padW, dilationH, dilationW,
+    nInputPlane,
+    inputHeight, inputWidth,
+    outputHeight, outputWidth);
+
+  at::Tensor input = input_.contiguous();
+
+  //output.resize_({nbatch, nInputPlane, outputHeight, outputWidth});
+
+  const int32_t count = safe_downcast<int32_t, int64_t>(output.numel());
+  const uint32_t  num_threads = std::min(at::cuda::getCurrentDeviceProperties()->maxThreadsPerBlock, 1024);
+  const uint32_t num_blocks = at::cuda::ATenCeilDiv<uint32_t>(count, num_threads);
+
+  AT_DISPATCH_FLOATING_TYPES(input.type(), "conv_rectify_cuda_frame", ([&] {
+        //using accscalar_t = acc_type<scalar_t, true>;
+        scalar_t *output_data = output.data_ptr<scalar_t>();
+        conv_rectify_cuda_frame<scalar_t, scalar_t>
+            <<<num_blocks, num_threads, 0, at::cuda::getCurrentCUDAStream()>>>(
+            count,
+                nbatch,
+                nInputPlane,
+                inputHeight, inputWidth,
+                outputHeight, outputWidth,
+                kH, kW,
+                dH, dW,
+                padH, padW,
+                dilationH, dilationW,
+                output_data,
+                average);
+  }));
+
+
+  AT_CUDA_CHECK(cudaGetLastError());
+}
+
+void CONV_RECTIFY_CUDA(
+  at::Tensor& output,
+  const at::Tensor& input,
+  at::IntArrayRef kernel_size,
+  at::IntArrayRef stride,
+  at::IntArrayRef padding,
+  at::IntArrayRef dilation,
+  bool average) {
+  //at::Tensor output = at::empty({0}, input.options());
+  conv_rectify_cuda_tempalte(
+    output,
+    input,
+    kernel_size,
+    stride,
+    padding,
+    dilation,
+    average);
+}
+
diff --git a/encoding/lib/gpu/setup.py b/encoding/lib/gpu/setup.py
index f0ac8169..9e74e89f 100644
--- a/encoding/lib/gpu/setup.py
+++ b/encoding/lib/gpu/setup.py
@@ -8,10 +8,10 @@
             'operator.cpp',
             'activation_kernel.cu',
             'encoding_kernel.cu',
-            'encodingv2_kernel.cu',
             'syncbn_kernel.cu',
             'roi_align_kernel.cu',
             'nms_kernel.cu',
+            'rectify.cu',
             ]),
     ],
     cmdclass={
diff --git a/encoding/lib/gpu/syncbn_kernel.cu b/encoding/lib/gpu/syncbn_kernel.cu
index ed509869..3c06f007 100644
--- a/encoding/lib/gpu/syncbn_kernel.cu
+++ b/encoding/lib/gpu/syncbn_kernel.cu
@@ -1,7 +1,7 @@
-#include <vector>
 #include <torch/extension.h>
 #include <ATen/ATen.h>
 #include <ATen/cuda/CUDAContext.h>
+#include <vector>
 
 #include "common.h"
 #include "device_tensor.h"
diff --git a/encoding/models/__init__.py b/encoding/models/__init__.py
index 0211e48c..28c71dff 100644
--- a/encoding/models/__init__.py
+++ b/encoding/models/__init__.py
@@ -1,21 +1,4 @@
 from .model_zoo import get_model
 from .model_store import get_model_file
-from .resnet import *
-from .cifarresnet import *
-from .base import *
-from .fcn import *
-from .psp import *
-from .encnet import *
-from .deeplab import *
 
-def get_segmentation_model(name, **kwargs):
-    from .fcn import get_fcn
-    models = {
-        'fcn': get_fcn,
-        'psp': get_psp,
-        'atten': get_atten,
-        'encnet': get_encnet,
-        'encnetv2': get_encnetv2,
-        'deeplab': get_deeplab,
-    }
-    return models[name.lower()](**kwargs)
+from .sseg import get_segmentation_model, MultiEvalModule
diff --git a/encoding/models/backbone/__init__.py b/encoding/models/backbone/__init__.py
new file mode 100644
index 00000000..ba9f1d97
--- /dev/null
+++ b/encoding/models/backbone/__init__.py
@@ -0,0 +1,6 @@
+from .resnet import *
+from .resnest import *
+from .resnext import *
+from .resnet_variants import *
+from .wideresnet import *
+from  .xception import *
diff --git a/encoding/models/backbone/resnest.py b/encoding/models/backbone/resnest.py
new file mode 100644
index 00000000..6be033df
--- /dev/null
+++ b/encoding/models/backbone/resnest.py
@@ -0,0 +1,77 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+"""ResNeSt models"""
+
+import torch
+from .resnet import ResNet, Bottleneck
+from ..model_store import get_model_file
+
+__all__ = ['resnest50', 'resnest101', 'resnest200', 'resnest269']
+
+_url_format = 'https://hangzh.s3.amazonaws.com/encoding/models/{}-{}.pth'
+
+
+def resnest50(pretrained=False, root='~/.encoding/models', **kwargs):
+    model = ResNet(Bottleneck, [3, 4, 6, 3],
+                   radix=2, groups=1, bottleneck_width=64,
+                   deep_stem=True, stem_width=32, avg_down=True,
+                   avd=True, avd_first=False, **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnest50', root=root)), strict=False)
+    return model
+
+def resnest101(pretrained=False, root='~/.encoding/models', **kwargs):
+    model = ResNet(Bottleneck, [3, 4, 23, 3],
+                   radix=2, groups=1, bottleneck_width=64,
+                   deep_stem=True, stem_width=64, avg_down=True,
+                   avd=True, avd_first=False, **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnest101', root=root)), strict=False)
+    return model
+
+def resnest200(pretrained=False, root='~/.encoding/models', **kwargs):
+    model = ResNet(Bottleneck, [3, 24, 36, 3],
+                   radix=2, groups=1, bottleneck_width=64,
+                   deep_stem=True, stem_width=64, avg_down=True,
+                   avd=True, avd_first=False, **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnest152', root=root)), strict=False)
+    return model
+
+def resnest269(pretrained=False, root='~/.encoding/models', **kwargs):
+    model = ResNet(Bottleneck, [3, 30, 48, 8],
+                   radix=2, groups=1, bottleneck_width=64,
+                   deep_stem=True, stem_width=64, avg_down=True,
+                   avd=True, avd_first=False, **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnest269', root=root)), strict=False)
+    return model
+
+def resnest50_fast(pretrained=False, root='~/.encoding/models', **kwargs):
+    model = ResNet(Bottleneck, [3, 4, 6, 3],
+                   radix=2, groups=1, bottleneck_width=64,
+                   deep_stem=True, stem_width=32, avg_down=True,
+                   avd=True, avd_first=True, **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnest50fast', root=root)), strict=False)
+    return model
+
+def resnest101_fast(pretrained=False, root='~/.encoding/models', **kwargs):
+    model = ResNet(Bottleneck, [3, 4, 23, 3],
+                   radix=2, groups=1, bottleneck_width=64,
+                   deep_stem=True, stem_width=64, avg_down=True,
+                   avd=True, avd_first=True, **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnest101fast', root=root)), strict=False)
+    return model
diff --git a/encoding/models/backbone/resnet.py b/encoding/models/backbone/resnet.py
new file mode 100644
index 00000000..2abb0005
--- /dev/null
+++ b/encoding/models/backbone/resnet.py
@@ -0,0 +1,331 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+"""ResNet variants"""
+import math
+import torch
+import torch.nn as nn
+
+from ...nn import SplAtConv2d, DropBlock2D, GlobalAvgPool2d, RFConv2d
+from ..model_store import get_model_file
+
+__all__ = ['ResNet', 'Bottleneck',
+           'resnet50', 'resnet101', 'resnet152']
+
+class Bottleneck(nn.Module):
+    """ResNet Bottleneck
+    """
+    # pylint: disable=unused-argument
+    expansion = 4
+    def __init__(self, inplanes, planes, stride=1, downsample=None,
+                 radix=1, cardinality=1, bottleneck_width=64,
+                 avd=False, avd_first=False, dilation=1, is_first=False,
+                 rectified_conv=False, rectify_avg=False,
+                 norm_layer=None, dropblock_prob=0.0, last_gamma=False):
+        super(Bottleneck, self).__init__()
+        group_width = int(planes * (bottleneck_width / 64.)) * cardinality
+        self.conv1 = nn.Conv2d(inplanes, group_width, kernel_size=1, bias=False)
+        self.bn1 = norm_layer(group_width)
+        self.dropblock_prob = dropblock_prob
+        self.radix = radix
+        self.avd = avd and (stride > 1 or is_first)
+        self.avd_first = avd_first
+
+        if self.avd:
+            self.avd_layer = nn.AvgPool2d(3, stride, padding=1)
+            stride = 1
+
+        if dropblock_prob > 0.0:
+            self.dropblock1 = DropBlock2D(dropblock_prob, 3)
+            if radix == 1:
+                self.dropblock2 = DropBlock2D(dropblock_prob, 3)
+            self.dropblock3 = DropBlock2D(dropblock_prob, 3)
+
+        if radix > 1:
+            self.conv2 = SplAtConv2d(
+                group_width, group_width, kernel_size=3,
+                stride=stride, padding=dilation,
+                dilation=dilation, groups=cardinality, bias=False,
+                radix=radix, rectify=rectified_conv,
+                rectify_avg=rectify_avg,
+                norm_layer=norm_layer,
+                dropblock_prob=dropblock_prob)
+        elif rectified_conv:
+            self.conv2 = RFConv2d(
+                group_width, group_width, kernel_size=3, stride=stride,
+                padding=dilation, dilation=dilation,
+                groups=cardinality, bias=False,
+                average_mode=rectify_avg)
+            self.bn2 = norm_layer(group_width)
+        else:
+            self.conv2 = nn.Conv2d(
+                group_width, group_width, kernel_size=3, stride=stride,
+                padding=dilation, dilation=dilation,
+                groups=cardinality, bias=False)
+            self.bn2 = norm_layer(group_width)
+
+        self.conv3 = nn.Conv2d(
+            group_width, planes * 4, kernel_size=1, bias=False)
+        self.bn3 = norm_layer(planes*4)
+
+        if last_gamma:
+            from torch.nn.init import zeros_
+            zeros_(self.bn3.weight)
+        self.relu = nn.ReLU(inplace=True)
+        self.downsample = downsample
+        self.dilation = dilation
+        self.stride = stride
+
+    def forward(self, x):
+        residual = x
+
+        out = self.conv1(x)
+        out = self.bn1(out)
+        if self.dropblock_prob > 0.0:
+            out = self.dropblock1(out)
+        out = self.relu(out)
+
+        if self.avd and self.avd_first:
+            out = self.avd_layer(out)
+
+        out = self.conv2(out)
+        if self.radix == 1:
+            out = self.bn2(out)
+            if self.dropblock_prob > 0.0:
+                out = self.dropblock2(out)
+            out = self.relu(out)
+
+        if self.avd and not self.avd_first:
+            out = self.avd_layer(out)
+
+        out = self.conv3(out)
+        out = self.bn3(out)
+        if self.dropblock_prob > 0.0:
+            out = self.dropblock3(out)
+
+        if self.downsample is not None:
+            residual = self.downsample(x)
+
+        out += residual
+        out = self.relu(out)
+
+        return out
+
+class ResNet(nn.Module):
+    """ResNet Variants
+
+    Parameters
+    ----------
+    block : Block
+        Class for the residual block. Options are BasicBlockV1, BottleneckV1.
+    layers : list of int
+        Numbers of layers in each block
+    classes : int, default 1000
+        Number of classification classes.
+    dilated : bool, default False
+        Applying dilation strategy to pretrained ResNet yielding a stride-8 model,
+        typically used in Semantic Segmentation.
+    norm_layer : object
+        Normalization layer used in backbone network (default: :class:`mxnet.gluon.nn.BatchNorm`;
+        for Synchronized Cross-GPU BachNormalization).
+
+    Reference:
+
+        - He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
+
+        - Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions."
+    """
+    # pylint: disable=unused-variable
+    def __init__(self, block, layers, radix=1, groups=1, bottleneck_width=64,
+                 num_classes=1000, dilated=False, dilation=1,
+                 deep_stem=False, stem_width=64, avg_down=False,
+                 rectified_conv=False, rectify_avg=False,
+                 avd=False, avd_first=False,
+                 final_drop=0.0, dropblock_prob=0,
+                 last_gamma=False, norm_layer=nn.BatchNorm2d):
+        self.cardinality = groups
+        self.bottleneck_width = bottleneck_width
+        # ResNet-D params
+        self.inplanes = stem_width*2 if deep_stem else 64
+        self.avg_down = avg_down
+        self.last_gamma = last_gamma
+        # ResNeSt params
+        self.radix = radix
+        self.avd = avd
+        self.avd_first = avd_first
+
+        super(ResNet, self).__init__()
+        self.rectified_conv = rectified_conv
+        self.rectify_avg = rectify_avg
+        if rectified_conv:
+            conv_layer = RFConv2d
+        else:
+            conv_layer = nn.Conv2d
+        conv_kwargs = {'average_mode': rectify_avg} if rectified_conv else {}
+        if deep_stem:
+            self.conv1 = nn.Sequential(
+                conv_layer(3, stem_width, kernel_size=3, stride=2, padding=1, bias=False, **conv_kwargs),
+                norm_layer(stem_width),
+                nn.ReLU(inplace=True),
+                conv_layer(stem_width, stem_width, kernel_size=3, stride=1, padding=1, bias=False, **conv_kwargs),
+                norm_layer(stem_width),
+                nn.ReLU(inplace=True),
+                conv_layer(stem_width, stem_width*2, kernel_size=3, stride=1, padding=1, bias=False, **conv_kwargs),
+            )
+        else:
+            self.conv1 = conv_layer(3, 64, kernel_size=7, stride=2, padding=3,
+                                   bias=False, **conv_kwargs)
+        self.bn1 = norm_layer(self.inplanes)
+        self.relu = nn.ReLU(inplace=True)
+        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+        self.layer1 = self._make_layer(block, 64, layers[0], norm_layer=norm_layer, is_first=False)
+        self.layer2 = self._make_layer(block, 128, layers[1], stride=2, norm_layer=norm_layer)
+        if dilated or dilation == 4:
+            self.layer3 = self._make_layer(block, 256, layers[2], stride=1,
+                                           dilation=2, norm_layer=norm_layer,
+                                           dropblock_prob=dropblock_prob)
+            self.layer4 = self._make_layer(block, 512, layers[3], stride=1,
+                                           dilation=4, norm_layer=norm_layer,
+                                           dropblock_prob=dropblock_prob)
+        elif dilation==2:
+            self.layer3 = self._make_layer(block, 256, layers[2], stride=2,
+                                           dilation=1, norm_layer=norm_layer,
+                                           dropblock_prob=dropblock_prob)
+            self.layer4 = self._make_layer(block, 512, layers[3], stride=1,
+                                           dilation=2, norm_layer=norm_layer,
+                                           dropblock_prob=dropblock_prob)
+        else:
+            self.layer3 = self._make_layer(block, 256, layers[2], stride=2,
+                                           norm_layer=norm_layer,
+                                           dropblock_prob=dropblock_prob)
+            self.layer4 = self._make_layer(block, 512, layers[3], stride=2,
+                                           norm_layer=norm_layer,
+                                           dropblock_prob=dropblock_prob)
+        self.avgpool = GlobalAvgPool2d()
+        self.drop = nn.Dropout(final_drop) if final_drop > 0.0 else None
+        self.fc = nn.Linear(512 * block.expansion, num_classes)
+
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
+                m.weight.data.normal_(0, math.sqrt(2. / n))
+            elif isinstance(m, norm_layer):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+
+    def _make_layer(self, block, planes, blocks, stride=1, dilation=1, norm_layer=None,
+                    dropblock_prob=0.0, is_first=True):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * block.expansion:
+            down_layers = []
+            if self.avg_down:
+                if dilation == 1:
+                    down_layers.append(nn.AvgPool2d(kernel_size=stride, stride=stride,
+                                                    ceil_mode=True, count_include_pad=False))
+                else:
+                    down_layers.append(nn.AvgPool2d(kernel_size=1, stride=1,
+                                                    ceil_mode=True, count_include_pad=False))
+                down_layers.append(nn.Conv2d(self.inplanes, planes * block.expansion,
+                                             kernel_size=1, stride=1, bias=False))
+            else:
+                down_layers.append(nn.Conv2d(self.inplanes, planes * block.expansion,
+                                             kernel_size=1, stride=stride, bias=False))
+            down_layers.append(norm_layer(planes * block.expansion))
+            downsample = nn.Sequential(*down_layers)
+
+        layers = []
+        if dilation == 1 or dilation == 2:
+            layers.append(block(self.inplanes, planes, stride, downsample=downsample,
+                                radix=self.radix, cardinality=self.cardinality,
+                                bottleneck_width=self.bottleneck_width,
+                                avd=self.avd, avd_first=self.avd_first,
+                                dilation=1, is_first=is_first, rectified_conv=self.rectified_conv,
+                                rectify_avg=self.rectify_avg,
+                                norm_layer=norm_layer, dropblock_prob=dropblock_prob,
+                                last_gamma=self.last_gamma))
+        elif dilation == 4:
+            layers.append(block(self.inplanes, planes, stride, downsample=downsample,
+                                radix=self.radix, cardinality=self.cardinality,
+                                bottleneck_width=self.bottleneck_width,
+                                avd=self.avd, avd_first=self.avd_first,
+                                dilation=2, is_first=is_first, rectified_conv=self.rectified_conv,
+                                rectify_avg=self.rectify_avg,
+                                norm_layer=norm_layer, dropblock_prob=dropblock_prob,
+                                last_gamma=self.last_gamma))
+        else:
+            raise RuntimeError("=> unknown dilation size: {}".format(dilation))
+
+        self.inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes,
+                                radix=self.radix, cardinality=self.cardinality,
+                                bottleneck_width=self.bottleneck_width,
+                                avd=self.avd, avd_first=self.avd_first,
+                                dilation=dilation, rectified_conv=self.rectified_conv,
+                                rectify_avg=self.rectify_avg,
+                                norm_layer=norm_layer, dropblock_prob=dropblock_prob,
+                                last_gamma=self.last_gamma))
+
+        return nn.Sequential(*layers)
+
+    def forward(self, x):
+        x = self.conv1(x)
+        x = self.bn1(x)
+        x = self.relu(x)
+        x = self.maxpool(x)
+
+        x = self.layer1(x)
+        x = self.layer2(x)
+        x = self.layer3(x)
+        x = self.layer4(x)
+
+        x = self.avgpool(x)
+        #x = x.view(x.size(0), -1)
+        x = torch.flatten(x, 1)
+        if self.drop:
+            x = self.drop(x)
+        x = self.fc(x)
+
+        return x
+
+def resnet50(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a ResNet-50 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnet50', root=root)), strict=False)
+    return model
+
+
+def resnet101(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a ResNet-101 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 4, 23, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnet101', root=root)), strict=False)
+    return model
+
+
+def resnet152(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a ResNet-152 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 8, 36, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnet152', root=root)), strict=False)
+    return model
diff --git a/encoding/models/backbone/resnet_variants.py b/encoding/models/backbone/resnet_variants.py
new file mode 100644
index 00000000..0ab31391
--- /dev/null
+++ b/encoding/models/backbone/resnet_variants.py
@@ -0,0 +1,58 @@
+"""ResNet variants"""
+
+import torch
+from .resnet import ResNet, Bottleneck
+from ..model_store import get_model_file
+
+__all__ = ['resnet50s', 'resnet101s', 'resnet152s',
+           'resnet50d']
+
+# pspnet version of ResNet
+def resnet50s(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a ResNetS-50 model as in PSPNet.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    kwargs['deep_stem'] = True
+    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnet50', root=root)), strict=False)
+    return model
+
+def resnet101s(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a ResNetS-101 model as in PSPNet.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    kwargs['deep_stem'] = True
+    model = ResNet(Bottleneck, [3, 4, 23, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnet101', root=root)), strict=False)
+    return model
+
+def resnet152s(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a ResNetS-152 model as in PSPNet.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    kwargs['deep_stem'] = True
+    model = ResNet(Bottleneck, [3, 8, 36, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnet152', root=root)), strict=False)
+    return model
+
+# ResNet-D
+def resnet50d(pretrained=False, root='~/.encoding/models', **kwargs):
+    model = ResNet(Bottleneck, [3, 4, 6, 3],
+                   deep_stem=True, stem_width=32,
+                   avg_down=True, **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnet50d', root=root)), strict=False)
+    return model
diff --git a/encoding/models/backbone/resnext.py b/encoding/models/backbone/resnext.py
new file mode 100644
index 00000000..b92d8b3f
--- /dev/null
+++ b/encoding/models/backbone/resnext.py
@@ -0,0 +1,39 @@
+"""ResNeXt models"""
+
+from .resnet import ResNet, Bottleneck
+from ..model_store import get_model_file
+
+__all__ = ['resnext50_32x4d', 'resnext101_32x8d']
+
+def resnext50_32x4d(pretrained=False, root='~/.encoding/models', **kwargs):
+    r"""ResNeXt-50 32x4d model from
+    `"Aggregated Residual Transformation for Deep Neural Networks" <https://arxiv.org/pdf/1611.05431.pdf>`_
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+        progress (bool): If True, displays a progress bar of the download to stderr
+    """
+    kwargs['groups'] = 32
+    kwargs['bottleneck_width'] = 4
+    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnext50_32x4d', root=root)), strict=False)
+    return model
+
+def resnext101_32x8d(pretrained=False, root='~/.encoding/models', **kwargs):
+    r"""ResNeXt-101 32x8d model from
+    `"Aggregated Residual Transformation for Deep Neural Networks" <https://arxiv.org/pdf/1611.05431.pdf>`_
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+        progress (bool): If True, displays a progress bar of the download to stderr
+    """
+    kwargs['groups'] = 32
+    kwargs['bottleneck_width'] = 8
+    model = ResNet(Bottleneck, [3, 4, 23, 3], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('resnext101_32x8d', root=root)), strict=False)
+    return model
+
diff --git a/encoding/models/backbone/wideresnet.py b/encoding/models/backbone/wideresnet.py
new file mode 100644
index 00000000..f6224fb1
--- /dev/null
+++ b/encoding/models/backbone/wideresnet.py
@@ -0,0 +1,220 @@
+import sys
+from collections import OrderedDict
+from functools import partial
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+from ...nn import SyncBatchNorm, GlobalAvgPool2d
+from ..model_store import get_model_file
+
+__all__ = ['WideResNet', 'wideresnet38', 'wideresnet50']
+
+ABN = partial(SyncBatchNorm, activation='leaky_relu', slope=0.01, sync=True, inplace=True)
+
+class BasicBlock(nn.Module):
+    """WideResNet BasicBlock
+    """
+    def __init__(self, inplanes, planes, stride=1, dilation=1, expansion=1, downsample=None,
+                 previous_dilation=1, dropout=0.0, **kwargs):
+        super(BasicBlock, self).__init__()
+        self.bn1 = ABN(inplanes)
+        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=3, stride=stride,
+                               padding=dilation, dilation=dilation, bias=False)
+        self.bn2 = ABN(planes)
+        self.conv2 = nn.Conv2d(planes, planes * expansion, kernel_size=3,
+                               stride=1, padding=previous_dilation, dilation=previous_dilation,
+                               bias=False)
+        self.downsample = downsample
+        self.drop = None
+        if dropout > 0.0:
+            self.drop = nn.Dropout(dropout)
+
+    def forward(self, x):
+        if self.downsample:
+            bn1 = self.bn1(x)
+            residual = self.downsample(bn1)
+        else:
+            residual = x.clone()
+            bn1 = self.bn1(x)
+
+        out = self.conv1(bn1)
+        out = self.bn2(out)
+        if self.drop:
+            out = self.drops(out)
+        out = self.conv2(out)
+        out = out + residual
+        return out
+
+
+class Bottleneck(nn.Module):
+    """WideResNet BottleneckV1b
+    """
+    # pylint: disable=unused-argument
+    def __init__(self, inplanes, planes, stride=1, dilation=1, expansion=4, dropout=0.0,
+                 downsample=None, previous_dilation=1, **kwargs):
+        super(Bottleneck, self).__init__()
+        self.bn1 = ABN(inplanes)
+
+        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
+        self.bn2 = ABN(planes)
+        self.conv2 = nn.Conv2d(planes, planes*expansion//2, kernel_size=3, stride=stride,
+            padding=dilation, dilation=dilation, bias=False)
+
+        self.bn3 = ABN(planes*expansion//2)
+        self.conv3 = nn.Conv2d(planes*expansion//2, planes*expansion, kernel_size=1,
+            bias=False)
+        self.downsample = downsample
+        self.drop = None
+        if dropout > 0.0:
+            self.drop = nn.Dropout(dropout)
+
+    def forward(self, x):
+        if self.downsample:
+            bn1 = self.bn1(x)
+            residual = self.downsample(bn1)
+        else:
+            residual = x.clone()
+            bn1 = self.bn1(x)
+
+        out = self.conv1(bn1)
+        out = self.bn2(out)
+        out = self.conv2(out)
+        out = self.bn3(out)
+
+        if self.drop:
+            out = self.drop(out)
+
+        out = self.conv3(out)
+        out = out + residual
+        return out
+
+
+class WideResNet(nn.Module):
+    """ Pre-trained WideResNet Model
+    featuremaps at conv5.
+
+    Parameters
+    ----------
+    layers : list of int
+        Numbers of layers in each block
+    classes : int, default 1000
+        Number of classification classes.
+    dilated : bool, default False
+        Applying dilation strategy to pretrained ResNet yielding a stride-8 model,
+        typically used in Semantic Segmentation.
+    final_drop : float, default 0.0
+        Dropout ratio before the final classification layer.
+
+    Reference:
+
+        - Zifeng Wu, et al. "Wider or Deeper: Revisiting the ResNet Model for Visual Recognition"
+
+        - Samuel Rota Bulò, et al. 
+            "In-Place Activated BatchNorm for Memory-Optimized Training of DNNs"
+    """
+
+    # pylint: disable=unused-variable
+    def __init__(self, layers, classes=1000, dilated=False, **kwargs):
+        self.inplanes = 64
+        super(WideResNet, self).__init__()
+        self.mod1 = nn.Conv2d(3, 64, kernel_size=3, stride=1,
+                               padding=1, bias=False)
+        self.pool2 = nn.MaxPool2d(3, stride=2, padding=1)
+
+        self.mod2 = self._make_layer(2, BasicBlock, 128, layers[0])
+        self.pool3 = nn.MaxPool2d(3, stride=2, padding=1)
+
+        self.mod3 = self._make_layer(3, BasicBlock, 256, layers[1], stride=1)
+        self.mod4 = self._make_layer(4, BasicBlock, 512, layers[2], stride=2)
+
+        if dilated:
+            self.mod5 = self._make_layer(5, BasicBlock, 512, layers[3], stride=1, dilation=2,
+                                         expansion=2)
+            self.mod6 = self._make_layer(6, Bottleneck, 512, layers[4], stride=1, dilation=4,
+                                         expansion=4, dropout=0.3)
+            self.mod7 = self._make_layer(7, Bottleneck, 1024, layers[5], stride=1, dilation=4,
+                                         expansion=4, dropout=0.5)
+        else:
+            self.mod5 = self._make_layer(5, BasicBlock, 512, layers[3], stride=2, expansion=2)
+            self.mod6 = self._make_layer(6, Bottleneck, 512, layers[4], stride=2,
+                                         expansion=4, dropout=0.3)
+            self.mod7 = self._make_layer(7, Bottleneck, 1024, layers[5], stride=1, expansion=4,
+                                         dropout=0.5)
+        self.bn_out = ABN(4096)
+
+        self.avgpool = GlobalAvgPool2d()
+        self.fc = nn.Linear(4096, classes)
+
+    def _make_layer(self, stage_index, block, planes, blocks, stride=1, dilation=1, expansion=1,
+                    dropout=0.0):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(self.inplanes, planes * expansion,
+                          kernel_size=1, stride=stride, bias=False),
+            )
+
+        layers = []
+        if dilation in (1, 2):
+            layers.append(block(self.inplanes, planes, stride, dilation=1, expansion=expansion,
+                             dropout=dropout, downsample=downsample, previous_dilation=dilation))
+        elif dilation == 4 and stage_index < 7:
+            layers.append(block(self.inplanes, planes, stride, dilation=2, expansion=expansion,
+                             dropout=dropout, downsample=downsample, previous_dilation=dilation))
+        else:
+            assert stage_index == 7
+            layers.append(block(self.inplanes, planes, stride, dilation=dilation, expansion=expansion,
+                             dropout=dropout, downsample=downsample, previous_dilation=dilation))
+
+        self.inplanes = planes * expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes, dilation=dilation, expansion=expansion,
+                             dropout=dropout, previous_dilation=dilation))
+
+        return nn.Sequential(*layers)
+
+    def forward(self, x):
+        x = self.mod1(x)
+        x = self.pool2(x)
+        x = self.mod2(x)
+
+        x = self.pool3(x)
+        x = self.mod3(x)
+        x = self.mod4(x)
+        x = self.mod5(x)
+        x = self.mod6(x)
+        x = self.mod7(x)
+
+        x = self.bn_out(x)
+        x = self.avgpool(x)
+        x = x.view(x.size(0), -1)
+        x = self.fc(x)
+
+        return x
+
+def wideresnet38(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a WideResNet-38 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = WideResNet([3, 3, 6, 3, 1, 1], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('wideresnet38', root=root)), strict=False)
+    return model
+
+
+def wideresnet50(pretrained=False, root='~/.encoding/models', **kwargs):
+    """Constructs a WideResNet-50 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = WideResNet([3, 3, 6, 6, 3, 1], **kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(
+            get_model_file('wideresnet50', root=root)), strict=False)
+    return model
diff --git a/encoding/models/backbone/xception.py b/encoding/models/backbone/xception.py
new file mode 100644
index 00000000..e4eef1b9
--- /dev/null
+++ b/encoding/models/backbone/xception.py
@@ -0,0 +1,341 @@
+# code adapted from https://github.com/jfzhang95/pytorch-deeplab-xception/
+import math
+from collections import OrderedDict
+import torch.nn as nn
+import torch.nn.functional as F
+from ...nn import SyncBatchNorm, GlobalAvgPool2d
+from ..model_store import get_model_file
+
+__all__ = ['Xception65', 'Xception71', 'xception65']
+
+def fixed_padding(inputs, kernel_size, dilation):
+    kernel_size_effective = kernel_size + (kernel_size - 1) * (dilation - 1)
+    pad_total = kernel_size_effective - 1
+    pad_beg = pad_total // 2
+    pad_end = pad_total - pad_beg
+    padded_inputs = F.pad(inputs, (pad_beg, pad_end, pad_beg, pad_end))
+    return padded_inputs
+
+
+class SeparableConv2d(nn.Module):
+    def __init__(self, inplanes, planes, kernel_size=3, stride=1, dilation=1, bias=False, norm_layer=None):
+        super(SeparableConv2d, self).__init__()
+
+        self.conv1 = nn.Conv2d(inplanes, inplanes, kernel_size, stride, 0, dilation,
+                               groups=inplanes, bias=bias)
+        self.bn = norm_layer(inplanes)
+        self.pointwise = nn.Conv2d(inplanes, planes, 1, 1, 0, 1, 1, bias=bias)
+
+    def forward(self, x):
+        x = fixed_padding(x, self.conv1.kernel_size[0], dilation=self.conv1.dilation[0])
+        x = self.conv1(x)
+        x = self.bn(x)
+        x = self.pointwise(x)
+        return x
+
+
+class Block(nn.Module):
+    def __init__(self, inplanes, planes, reps, stride=1, dilation=1, norm_layer=None,
+                 start_with_relu=True, grow_first=True, is_last=False):
+        super(Block, self).__init__()
+        if planes != inplanes or stride != 1:
+            self.skip = nn.Conv2d(inplanes, planes, 1, stride=stride, bias=False)
+            self.skipbn = norm_layer(planes)
+        else:
+            self.skip = None
+        self.relu = nn.ReLU(inplace=True)
+        rep = []
+        filters = inplanes
+        if grow_first:
+            if start_with_relu:
+                rep.append(self.relu)
+            rep.append(SeparableConv2d(inplanes, planes, 3, 1, dilation, norm_layer=norm_layer))
+            rep.append(norm_layer(planes))
+            filters = planes
+        for i in range(reps - 1):
+            if grow_first or start_with_relu:
+                rep.append(self.relu)
+            rep.append(SeparableConv2d(filters, filters, 3, 1, dilation, norm_layer=norm_layer))
+            rep.append(norm_layer(filters))
+        if not grow_first:
+            rep.append(self.relu)
+            rep.append(SeparableConv2d(inplanes, planes, 3, 1, dilation, norm_layer=norm_layer))
+            rep.append(norm_layer(planes))
+        if stride != 1:
+            rep.append(self.relu)
+            rep.append(SeparableConv2d(planes, planes, 3, 2, norm_layer=norm_layer))
+            rep.append(norm_layer(planes))
+        elif is_last:
+            rep.append(self.relu)
+            rep.append(SeparableConv2d(planes, planes, 3, 1, dilation, norm_layer=norm_layer))
+            rep.append(norm_layer(planes))
+        #if not start_with_relu:
+        #    rep = rep[1:]
+        self.rep = nn.Sequential(*rep)
+
+    def forward(self, inp):
+        x = self.rep(inp)
+        if self.skip is not None:
+            skip = self.skip(inp)
+            skip = self.skipbn(skip)
+        else:
+            skip = inp
+        x = x + skip
+        return x
+
+class Xception65(nn.Module):
+    """Modified Aligned Xception
+    """
+    def __init__(self, output_stride=32, norm_layer=nn.BatchNorm2d):
+        super(Xception65, self).__init__()
+
+        if output_stride == 32:
+            entry_block3_stride = 2
+            middle_block_dilation = 1
+            exit_block20_stride = 2
+            exit_block_dilations = (1, 1)
+        elif output_stride == 16:
+            entry_block3_stride = 2
+            middle_block_dilation = 1
+            exit_block20_stride = 1
+            exit_block_dilations = (1, 2)
+        elif output_stride == 8:
+            entry_block3_stride = 1
+            middle_block_dilation = 2
+            exit_block20_stride = 1
+            exit_block_dilations = (2, 4)
+        else:
+            raise NotImplementedError
+
+        # Entry flow
+        self.conv1 = nn.Conv2d(3, 32, 3, stride=2, padding=1, bias=False)
+        self.bn1 = norm_layer(32)
+        self.relu = nn.ReLU(inplace=True)
+
+        self.conv2 = nn.Conv2d(32, 64, 3, stride=1, padding=1, bias=False)
+        self.bn2 = norm_layer(64)
+
+        self.block1 = Block(64, 128, reps=2, stride=2, norm_layer=norm_layer, start_with_relu=False)
+        self.block2 = Block(128, 256, reps=2, stride=2, norm_layer=norm_layer, start_with_relu=False,
+                            grow_first=True)
+        #print('self.block2', self.block2)
+        self.block3 = Block(256, 728, reps=2, stride=entry_block3_stride, norm_layer=norm_layer,
+                            start_with_relu=True, grow_first=True, is_last=True)
+
+        # Middle flow
+        midflowblocks = []
+        for i in range(4, 20):
+            midflowblocks.append(('block%d'%i, Block(728, 728, reps=3, stride=1,
+                                                     dilation=middle_block_dilation,
+                                                     norm_layer=norm_layer, start_with_relu=True,
+                                                     grow_first=True)))
+        self.midflow = nn.Sequential(OrderedDict(midflowblocks))
+
+        # Exit flow
+        self.block20 = Block(728, 1024, reps=2, stride=exit_block20_stride, dilation=exit_block_dilations[0],
+                             norm_layer=norm_layer, start_with_relu=True, grow_first=False, is_last=True)
+
+        self.conv3 = SeparableConv2d(1024, 1536, 3, stride=1, dilation=exit_block_dilations[1], norm_layer=norm_layer)
+        self.bn3 = norm_layer(1536)
+
+        self.conv4 = SeparableConv2d(1536, 1536, 3, stride=1, dilation=exit_block_dilations[1], norm_layer=norm_layer)
+        self.bn4 = norm_layer(1536)
+
+        self.conv5 = SeparableConv2d(1536, 2048, 3, stride=1, dilation=exit_block_dilations[1], norm_layer=norm_layer)
+        self.bn5 = norm_layer(2048)
+
+        self.avgpool = GlobalAvgPool2d()
+        self.fc = nn.Linear(2048, 1000)
+
+        # Init weights
+        self._init_weight()
+
+    def forward(self, x):
+        # Entry flow
+        x = self.conv1(x)
+        x = self.bn1(x)
+        x = self.relu(x)
+
+        x = self.conv2(x)
+        x = self.bn2(x)
+        x = self.relu(x)
+
+        x = self.block1(x)
+        # add relu here
+        x = self.relu(x)
+        #c1 = x
+        x = self.block2(x)
+        #c2 = x
+        x = self.block3(x)
+
+        # Middle flow
+        x = self.midflow(x)
+        #c3 = x
+
+        # Exit flow
+        x = self.block20(x)
+        x = self.relu(x)
+        x = self.conv3(x)
+        x = self.bn3(x)
+        x = self.relu(x)
+
+        x = self.conv4(x)
+        x = self.bn4(x)
+        x = self.relu(x)
+
+        x = self.conv5(x)
+        x = self.bn5(x)
+        x = self.relu(x)
+ 
+        x = self.avgpool(x)
+        x = x.view(x.size(0), -1)
+        x = self.fc(x)
+        return x
+
+    def _init_weight(self):
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
+                m.weight.data.normal_(0, math.sqrt(2. / n))
+            elif isinstance(m, SyncBatchNorm):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+            elif isinstance(m, nn.BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+
+class Xception71(nn.Module):
+    """Modified Aligned Xception
+    """
+    def __init__(self, output_stride=32, norm_layer=nn.BatchNorm2d):
+        super(Xception71, self).__init__()
+
+        if output_stride == 32:
+            entry_block3_stride = 2
+            middle_block_dilation = 1
+            exit_block20_stride = 2
+            exit_block_dilations = (1, 1)
+        elif output_stride == 16:
+            entry_block3_stride = 2
+            middle_block_dilation = 1
+            exit_block20_stride = 1
+            exit_block_dilations = (1, 2)
+        elif output_stride == 8:
+            entry_block3_stride = 1
+            middle_block_dilation = 2
+            exit_block20_stride = 1
+            exit_block_dilations = (2, 4)
+        else:
+            raise NotImplementedError
+
+        # Entry flow
+        self.conv1 = nn.Conv2d(3, 32, 3, stride=2, padding=1, bias=False)
+        self.bn1 = norm_layer(32)
+        self.relu = nn.ReLU(inplace=True)
+
+        self.conv2 = nn.Conv2d(32, 64, 3, stride=1, padding=1, bias=False)
+        self.bn2 = norm_layer(64)
+
+        self.block1 = Block(64, 128, reps=2, stride=2, norm_layer=norm_layer, start_with_relu=False)
+        block2 = []
+        block2.append(Block(128, 256, reps=2, stride=1, norm_layer=norm_layer, start_with_relu=False,
+                            grow_first=True))
+        block2.append(Block(256, 256, reps=2, stride=2, norm_layer=norm_layer, start_with_relu=False,
+                            grow_first=True))
+        block2.append(Block(256, 728, reps=2, stride=1, norm_layer=norm_layer, start_with_relu=False,
+                            grow_first=True))
+        self.block2 = nn.Sequential(*block2)
+        self.block3 = Block(728, 728, reps=2, stride=entry_block3_stride, norm_layer=norm_layer,
+                            start_with_relu=True, grow_first=True, is_last=True)
+
+        # Middle flow
+        midflowblocks = []
+        for i in range(4, 20):
+            midflowblocks.append(('block%d'%i, Block(728, 728, reps=3, stride=1,
+                                                     dilation=middle_block_dilation,
+                                                     norm_layer=norm_layer, start_with_relu=True,
+                                                     grow_first=True)))
+        self.midflow = nn.Sequential(OrderedDict(midflowblocks))
+
+        # Exit flow
+        self.block20 = Block(728, 1024, reps=2, stride=exit_block20_stride, dilation=exit_block_dilations[0],
+                             norm_layer=norm_layer, start_with_relu=True, grow_first=False, is_last=True)
+
+        self.conv3 = SeparableConv2d(1024, 1536, 3, stride=1, dilation=exit_block_dilations[1], norm_layer=norm_layer)
+        self.bn3 = norm_layer(1536)
+
+        self.conv4 = SeparableConv2d(1536, 1536, 3, stride=1, dilation=exit_block_dilations[1], norm_layer=norm_layer)
+        self.bn4 = norm_layer(1536)
+
+        self.conv5 = SeparableConv2d(1536, 2048, 3, stride=1, dilation=exit_block_dilations[1], norm_layer=norm_layer)
+        self.bn5 = norm_layer(2048)
+
+        self.avgpool = GlobalAvgPool2d()
+        self.fc = nn.Linear(2048, 1000)
+
+        # Init weights
+        self._init_weight()
+
+    def forward(self, x):
+        # Entry flow
+        x = self.conv1(x)
+        x = self.bn1(x)
+        x = self.relu(x)
+
+        x = self.conv2(x)
+        x = self.bn2(x)
+        x = self.relu(x)
+
+        x = self.block1(x)
+        # add relu here
+        x = self.relu(x)
+        low_level_feat = x
+        x = self.block2(x)
+        x = self.block3(x)
+
+        # Middle flow
+        x = self.midflow(x)
+
+        # Exit flow
+        x = self.block20(x)
+        x = self.relu(x)
+        x = self.conv3(x)
+        x = self.bn3(x)
+        x = self.relu(x)
+
+        x = self.conv4(x)
+        x = self.bn4(x)
+        x = self.relu(x)
+
+        x = self.conv5(x)
+        x = self.bn5(x)
+        x = self.relu(x)
+
+        x = self.avgpool(x)
+        x = x.view(x.size(0), -1)
+        x = self.fc(x)
+        return x#, low_level_feat
+
+    def _init_weight(self):
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
+                m.weight.data.normal_(0, math.sqrt(2. / n))
+            elif isinstance(m, SyncBatchNorm):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+            elif isinstance(m, nn.BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+
+
+def xception65(pretrained=False, **kwargs):
+    """Constructs a ResNet-18 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = Xception65(**kwargs)
+    if pretrained:
+        model.load_state_dict(torch.load(get_model_file('xception65', root=root)))
+    return model
diff --git a/encoding/models/cifarresnet.py b/encoding/models/cifarresnet.py
deleted file mode 100644
index f61993ab..00000000
--- a/encoding/models/cifarresnet.py
+++ /dev/null
@@ -1,139 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-import torch.nn as nn
-from torch.autograd import Variable
-from ..nn import View
-
-__all__ = ['cifar_resnet20']
-
-def conv3x3(in_planes, out_planes, stride=1):
-    return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False)
-
-class Basicblock(nn.Module):
-    """ Pre-activation residual block
-    Identity Mapping in Deep Residual Networks
-    ref https://arxiv.org/abs/1603.05027
-    """
-    expansion = 1
-    def __init__(self, inplanes, planes, stride=1, norm_layer=nn.BatchNorm2d):
-        super(Basicblock, self).__init__()
-        if inplanes != planes or stride !=1 :
-            self.downsample = True
-            self.residual_layer = nn.Conv2d(inplanes, planes,
-                                            kernel_size=1, stride=stride)
-        else:
-            self.downsample = False
-        conv_block=[]
-        conv_block+=[norm_layer(inplanes),
-                     nn.ReLU(inplace=True),
-                     conv3x3(inplanes, planes,stride=stride),
-                     norm_layer(planes),
-                     nn.ReLU(inplace=True),
-                     conv3x3(planes, planes)]
-        self.conv_block = nn.Sequential(*conv_block)
-    
-    def forward(self, input):
-        if self.downsample:
-            residual = self.residual_layer(input)
-        else:
-            residual = input
-        return residual + self.conv_block(input)
-
-
-class Bottleneck(nn.Module):
-    """ Pre-activation residual block
-    Identity Mapping in Deep Residual Networks
-    ref https://arxiv.org/abs/1603.05027
-    """
-    expansion = 4
-    def __init__(self, inplanes, planes, stride=1, norm_layer=nn.BatchNorm2d):
-        super(Bottleneck, self).__init__()
-        if inplanes != planes*self.expansion or stride !=1 :
-            self.downsample = True
-            self.residual_layer = nn.Conv2d(inplanes, 
-                planes * self.expansion, kernel_size=1, stride=stride)
-        else:
-            self.downsample = False
-        conv_block = []
-        conv_block += [norm_layer(inplanes),
-                       nn.ReLU(inplace=True),
-                       nn.Conv2d(inplanes, planes, kernel_size=1, 
-                           stride=1, bias=False)]
-        conv_block += [norm_layer(planes),
-                       nn.ReLU(inplace=True),
-                       nn.Conv2d(planes, planes, kernel_size=3, 
-                           stride=stride, padding=1, bias=False)]
-        conv_block += [norm_layer(planes),
-                       nn.ReLU(inplace=True),
-                       nn.Conv2d(planes, planes * self.expansion, 
-                           kernel_size=1, stride=1, bias=False)]
-        self.conv_block = nn.Sequential(*conv_block)
-        
-    def forward(self, x):
-        if self.downsample:
-            residual = self.residual_layer(x)
-        else:
-            residual = x
-        return residual + self.conv_block(x)
-        
-
-class CIFAR_ResNet(nn.Module):
-    def __init__(self, block=Basicblock, num_blocks=[2,2,2], width_factor = 1, 
-                 num_classes=10, norm_layer=torch.nn.BatchNorm2d):
-        super(CIFAR_ResNet, self).__init__()
-        self.expansion = block.expansion
-
-        self.inplanes = int(width_factor * 16)
-        strides = [1, 2, 2]
-        model = []
-        # Conv_1
-        model += [nn.Conv2d(3, self.inplanes, kernel_size=3, padding=1),
-                  norm_layer(self.inplanes),
-                  nn.ReLU(inplace=True)]
-        # Residual units
-        model += [self._residual_unit(block, self.inplanes, num_blocks[0],
-                                      strides[0], norm_layer=norm_layer)]
-        for i in range(2):
-            model += [self._residual_unit(
-                block, int(2*self.inplanes/self.expansion),
-                num_blocks[i+1], strides[i+1], norm_layer=norm_layer)]
-        # Last conv layer
-        model += [norm_layer(self.inplanes),
-                  nn.ReLU(inplace=True),
-                  nn.AvgPool2d(8),
-                  View(-1, self.inplanes),
-                  nn.Linear(self.inplanes, num_classes)]
-        self.model = nn.Sequential(*model)
-
-    def _residual_unit(self, block, planes, n_blocks, stride, norm_layer):
-        strides = [stride] + [1]*(n_blocks-1)
-        layers = []
-        for i in range(n_blocks):
-            layers += [block(self.inplanes, planes, strides[i], norm_layer=norm_layer)]
-            self.inplanes = self.expansion*planes
-        return nn.Sequential(*layers)
-
-    def forward(self, input):
-        return self.model(input)
-
-
-def cifar_resnet20(pretrained=False, root='~/.encoding/models', **kwargs):
-    """Constructs a CIFAR ResNet-18 model.
-
-    Args:
-        pretrained (bool): If True, returns a model pre-trained on ImageNet
-    """
-    model = CIFAR_ResNet(Bottleneck, [3, 3, 3], **kwargs)
-    if pretrained:
-        model.load_state_dict(torch.load(
-            get_model_file('cifar_resnet20', root=root)), strict=False)
-    return model
diff --git a/encoding/models/deepten.py b/encoding/models/deepten.py
index 50ef8281..ba329b3d 100644
--- a/encoding/models/deepten.py
+++ b/encoding/models/deepten.py
@@ -12,7 +12,7 @@
 import torch.nn as nn
 
 from ..nn import Encoding, View, Normalize
-from . import resnet
+from .backbone import resnet
 
 __all__ = ['DeepTen', 'get_deepten', 'get_deepten_resnet50_minc']
 
diff --git a/encoding/models/model_store.py b/encoding/models/model_store.py
index daa1b237..5ba359b4 100644
--- a/encoding/models/model_store.py
+++ b/encoding/models/model_store.py
@@ -3,16 +3,32 @@
 __all__ = ['get_model_file', 'purge']
 import os
 import zipfile
+import portalocker
 
 from ..utils import download, check_sha1
 
 _model_sha1 = {name: checksum for checksum, name in [
+    # resnet
     ('25c4b50959ef024fcc050213a06b614899f94b3d', 'resnet50'),
     ('2a57e44de9c853fa015b172309a1ee7e2d0e4e2a', 'resnet101'),
     ('0d43d698c66aceaa2bc0309f55efdd7ff4b143af', 'resnet152'),
+    # rectified
+    ('9b5dc32b3b36ca1a6b41ecd4906830fc84dae8ed', 'resnet101_rt'),
+    # resnest
+    ('fb9de5b360976e3e8bd3679d3e93c5409a5eff3c', 'resnest50'),
+    ('966fb78c22323b0c68097c5c1242bd16d3e07fd5', 'resnest101'),
+    ('d7fd712f5a1fcee5b3ce176026fbb6d0d278454a', 'resnest200'),
+    ('b743074c6fc40f88d7f53e8affb350de38f4f49d', 'resnest269'),
+    # resnet other variants
+    ('a75c83cfc89a56a4e8ba71b14f1ec67e923787b3', 'resnet50s'),
+    ('03a0f310d6447880f1b22a83bd7d1aa7fc702c6e', 'resnet101s'),
+    ('36670e8bc2428ecd5b7db1578538e2dd23872813', 'resnet152s'),
+    # other segmentation backbones
     ('da4785cfc837bf00ef95b52fb218feefe703011f', 'wideresnet38'),
     ('b41562160173ee2e979b795c551d3c7143b1e5b5', 'wideresnet50'),
+    # deepten paper
     ('1225f149519c7a0113c43a056153c1bb15468ac0', 'deepten_resnet50_minc'),
+    # segmentation models
     ('662e979de25a389f11c65e9f1df7e06c2c356381', 'fcn_resnet50_ade'),
     ('eeed8e582f0fdccdba8579e7490570adc6d85c7c', 'fcn_resnet50_pcontext'),
     ('54f70c772505064e30efd1ddd3a14e1759faa363', 'psp_resnet50_ade'),
@@ -22,6 +38,9 @@
     ('9f27ea13d514d7010e59988341bcbd4140fcc33d', 'encnet_resnet101_pcontext'),
     ('07ac287cd77e53ea583f37454e17d30ce1509a4a', 'encnet_resnet50_ade'),
     ('3f54fa3b67bac7619cd9b3673f5c8227cf8f4718', 'encnet_resnet101_ade'),
+    # resnest segmentation models
+    ('2225f09d0f40b9a168d9091652194bc35ec2a5a9', 'deeplab_resnest50_ade'),
+    ('06ca799c8cc148fe0fafb5b6d052052935aa3cc8', 'deeplab_resnest101_ade'),
     ]}
 
 encoding_repo_url = 'https://hangzh.s3.amazonaws.com/'
@@ -50,37 +69,48 @@ def get_model_file(name, root=os.path.join('~', '.encoding', 'models')):
     file_path
         Path to the requested pretrained model file.
     """
+    if name not in _model_sha1:
+        from torchvision.models.resnet import model_urls
+        if name not in model_urls:
+            raise ValueError('Pretrained model for {name} is not available.'.format(name=name))
+        root = os.path.expanduser(root)
+        return download(model_urls[name],
+                        path=root,
+                        overwrite=True)
     file_name = '{name}-{short_hash}'.format(name=name, short_hash=short_hash(name))
     root = os.path.expanduser(root)
+    if not os.path.exists(root):
+        os.makedirs(root)
+
     file_path = os.path.join(root, file_name+'.pth')
     sha1_hash = _model_sha1[name]
-    if os.path.exists(file_path):
-        if check_sha1(file_path, sha1_hash):
-            return file_path
-        else:
-            print('Mismatch in the content of model file {} detected.' +
-                  ' Downloading again.'.format(file_path))
-    else:
-        print('Model file {} is not found. Downloading.'.format(file_path))
 
-    if not os.path.exists(root):
-        os.makedirs(root)
+    lockfile = os.path.join(root, file_name + '.lock')
+    with portalocker.Lock(lockfile, timeout=300):
+        if os.path.exists(file_path):
+            if check_sha1(file_path, sha1_hash):
+                return file_path
+            else:
+                print('Mismatch in the content of model file {} detected.' +
+                      ' Downloading again.'.format(file_path))
+        else:
+            print('Model file {} is not found. Downloading.'.format(file_path))
 
-    zip_file_path = os.path.join(root, file_name+'.zip')
-    repo_url = os.environ.get('ENCODING_REPO', encoding_repo_url)
-    if repo_url[-1] != '/':
-        repo_url = repo_url + '/'
-    download(_url_format.format(repo_url=repo_url, file_name=file_name),
-             path=zip_file_path,
-             overwrite=True)
-    with zipfile.ZipFile(zip_file_path) as zf:
-        zf.extractall(root)
-    os.remove(zip_file_path)
+        zip_file_path = os.path.join(root, file_name+'.zip')
+        repo_url = os.environ.get('ENCODING_REPO', encoding_repo_url)
+        if repo_url[-1] != '/':
+            repo_url = repo_url + '/'
+        download(_url_format.format(repo_url=repo_url, file_name=file_name),
+                 path=zip_file_path,
+                 overwrite=True)
+        with zipfile.ZipFile(zip_file_path) as zf:
+            zf.extractall(root)
+        os.remove(zip_file_path)
 
-    if check_sha1(file_path, sha1_hash):
-        return file_path
-    else:
-        raise ValueError('Downloaded file has different hash. Please try again.')
+        if check_sha1(file_path, sha1_hash):
+            return file_path
+        else:
+            raise ValueError('Downloaded file has different hash. Please try again.')
 
 def purge(root=os.path.join('~', '.encoding', 'models')):
     r"""Purge all pretrained model files in local file store.
diff --git a/encoding/models/model_zoo.py b/encoding/models/model_zoo.py
index d660acc8..55ca36e3 100644
--- a/encoding/models/model_zoo.py
+++ b/encoding/models/model_zoo.py
@@ -1,15 +1,11 @@
 # pylint: disable=wildcard-import, unused-wildcard-import
 
-from .resnet import *
-from .cifarresnet import *
-from .fcn import *
-from .psp import *
-from .encnet import *
+from .backbone import *
+from .sseg import *
 from .deepten import *
 
 __all__ = ['get_model']
 
-
 def get_model(name, **kwargs):
     """Returns a pre-defined model by name
 
@@ -28,13 +24,29 @@ def get_model(name, **kwargs):
         The model.
     """
     models = {
-        'resnet18': resnet18,
-        'resnet34': resnet34,
+        # resnet
         'resnet50': resnet50,
         'resnet101': resnet101,
         'resnet152': resnet152,
-        'cifar_resnet20': cifar_resnet20,
+        # resnest
+        'resnest50': resnest50,
+        'resnest101': resnest101,
+        'resnest200': resnest200,
+        'resnest269': resnest269,
+        # resnet other variants
+        'resnet50s': resnet50s,
+        'resnet101s': resnet101s,
+        'resnet152s': resnet152s,
+        'resnet50d': resnet50d,
+        'resnext50_32x4d': resnext50_32x4d,
+        'resnext101_32x8d': resnext101_32x8d,
+        # other segmentation backbones
+        'xception65': xception65,
+        'wideresnet38': wideresnet38,
+        'wideresnet50': wideresnet50,
+        # deepten paper
         'deepten_resnet50_minc': get_deepten_resnet50_minc,
+        # segmentation models
         'fcn_resnet50_pcontext': get_fcn_resnet50_pcontext,
         'encnet_resnet50_pcontext': get_encnet_resnet50_pcontext,
         'encnet_resnet101_pcontext': get_encnet_resnet101_pcontext,
@@ -42,6 +54,8 @@ def get_model(name, **kwargs):
         'encnet_resnet101_ade': get_encnet_resnet101_ade,
         'fcn_resnet50_ade': get_fcn_resnet50_ade,
         'psp_resnet50_ade': get_psp_resnet50_ade,
+        'deeplab_resnest50_ade': get_deeplab_resnest50_ade,
+        'deeplab_resnest101_ade': get_deeplab_resnest101_ade,
         }
     name = name.lower()
     if name not in models:
diff --git a/encoding/models/resnet.py b/encoding/models/resnet.py
deleted file mode 100644
index 0908a062..00000000
--- a/encoding/models/resnet.py
+++ /dev/null
@@ -1,298 +0,0 @@
-"""Dilated ResNet"""
-import math
-import torch
-import torch.utils.model_zoo as model_zoo
-import torch.nn as nn
-
-from ..nn import GlobalAvgPool2d
-from ..models.model_store import get_model_file
-
-__all__ = ['ResNet', 'resnet18', 'resnet34', 'resnet50', 'resnet101',
-           'resnet152', 'BasicBlock', 'Bottleneck']
-
-model_urls = {
-    'resnet18': 'https://download.pytorch.org/models/resnet18-5c106cde.pth',
-    'resnet34': 'https://download.pytorch.org/models/resnet34-333f7ec4.pth',
-}
-
-
-def conv3x3(in_planes, out_planes, stride=1):
-    "3x3 convolution with padding"
-    return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride,
-                     padding=1, bias=False)
-
-
-class BasicBlock(nn.Module):
-    """ResNet BasicBlock
-    """
-    expansion = 1
-    def __init__(self, inplanes, planes, stride=1, dilation=1, downsample=None, previous_dilation=1,
-                 norm_layer=None):
-        super(BasicBlock, self).__init__()
-        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=3, stride=stride,
-                               padding=dilation, dilation=dilation, bias=False)
-        self.bn1 = norm_layer(planes)
-        self.relu = nn.ReLU(inplace=True)
-        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1,
-                               padding=previous_dilation, dilation=previous_dilation, bias=False)
-        self.bn2 = norm_layer(planes)
-        self.downsample = downsample
-        self.stride = stride
-
-    def forward(self, x):
-        residual = x
-
-        out = self.conv1(x)
-        out = self.bn1(out)
-        out = self.relu(out)
-
-        out = self.conv2(out)
-        out = self.bn2(out)
-
-        if self.downsample is not None:
-            residual = self.downsample(x)
-
-        out += residual
-        out = self.relu(out)
-
-        return out
-
-
-class Bottleneck(nn.Module):
-    """ResNet Bottleneck
-    """
-    # pylint: disable=unused-argument
-    expansion = 4
-    def __init__(self, inplanes, planes, stride=1, dilation=1,
-                 downsample=None, previous_dilation=1, norm_layer=None):
-        super(Bottleneck, self).__init__()
-        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
-        self.bn1 = norm_layer(planes)
-        self.conv2 = nn.Conv2d(
-            planes, planes, kernel_size=3, stride=stride,
-            padding=dilation, dilation=dilation, bias=False)
-        self.bn2 = norm_layer(planes)
-        self.conv3 = nn.Conv2d(
-            planes, planes * 4, kernel_size=1, bias=False)
-        self.bn3 = norm_layer(planes * 4)
-        self.relu = nn.ReLU(inplace=True)
-        self.downsample = downsample
-        self.dilation = dilation
-        self.stride = stride
-
-    def _sum_each(self, x, y):
-        assert(len(x) == len(y))
-        z = []
-        for i in range(len(x)):
-            z.append(x[i]+y[i])
-        return z
-
-    def forward(self, x):
-        residual = x
-
-        out = self.conv1(x)
-        out = self.bn1(out)
-        out = self.relu(out)
-
-        out = self.conv2(out)
-        out = self.bn2(out)
-        out = self.relu(out)
-
-        out = self.conv3(out)
-        out = self.bn3(out)
-
-        if self.downsample is not None:
-            residual = self.downsample(x)
-
-        out += residual
-        out = self.relu(out)
-
-        return out
-
-
-class ResNet(nn.Module):
-    """Dilated Pre-trained ResNet Model, which preduces the stride of 8 featuremaps at conv5.
-
-    Parameters
-    ----------
-    block : Block
-        Class for the residual block. Options are BasicBlockV1, BottleneckV1.
-    layers : list of int
-        Numbers of layers in each block
-    classes : int, default 1000
-        Number of classification classes.
-    dilated : bool, default False
-        Applying dilation strategy to pretrained ResNet yielding a stride-8 model,
-        typically used in Semantic Segmentation.
-    norm_layer : object
-        Normalization layer used in backbone network (default: :class:`mxnet.gluon.nn.BatchNorm`;
-        for Synchronized Cross-GPU BachNormalization).
-
-    Reference:
-
-        - He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
-
-        - Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions."
-    """
-    # pylint: disable=unused-variable
-    def __init__(self, block, layers, num_classes=1000, dilated=False, multi_grid=False,
-                 deep_base=True, norm_layer=nn.BatchNorm2d):
-        self.inplanes = 128 if deep_base else 64
-        super(ResNet, self).__init__()
-        if deep_base:
-            self.conv1 = nn.Sequential(
-                nn.Conv2d(3, 64, kernel_size=3, stride=2, padding=1, bias=False),
-                norm_layer(64),
-                nn.ReLU(inplace=True),
-                nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1, bias=False),
-                norm_layer(64),
-                nn.ReLU(inplace=True),
-                nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1, bias=False),
-            )
-        else:
-            self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
-                                   bias=False)
-        self.bn1 = norm_layer(self.inplanes)
-        self.relu = nn.ReLU(inplace=True)
-        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
-        self.layer1 = self._make_layer(block, 64, layers[0], norm_layer=norm_layer)
-        self.layer2 = self._make_layer(block, 128, layers[1], stride=2, norm_layer=norm_layer)
-        if dilated:
-            self.layer3 = self._make_layer(block, 256, layers[2], stride=1,
-                                           dilation=2, norm_layer=norm_layer)
-            if multi_grid:
-                self.layer4 = self._make_layer(block, 512, layers[3], stride=1,
-                                               dilation=4, norm_layer=norm_layer,
-                                               multi_grid=True)
-            else:
-                self.layer4 = self._make_layer(block, 512, layers[3], stride=1,
-                                               dilation=4, norm_layer=norm_layer)
-        else:
-            self.layer3 = self._make_layer(block, 256, layers[2], stride=2,
-                                           norm_layer=norm_layer)
-            self.layer4 = self._make_layer(block, 512, layers[3], stride=2,
-                                           norm_layer=norm_layer)
-        self.avgpool = GlobalAvgPool2d()
-        self.fc = nn.Linear(512 * block.expansion, num_classes)
-
-        for m in self.modules():
-            if isinstance(m, nn.Conv2d):
-                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
-                m.weight.data.normal_(0, math.sqrt(2. / n))
-            elif isinstance(m, norm_layer):
-                m.weight.data.fill_(1)
-                m.bias.data.zero_()
-
-    def _make_layer(self, block, planes, blocks, stride=1, dilation=1, norm_layer=None, multi_grid=False):
-        downsample = None
-        if stride != 1 or self.inplanes != planes * block.expansion:
-            downsample = nn.Sequential(
-                nn.Conv2d(self.inplanes, planes * block.expansion,
-                          kernel_size=1, stride=stride, bias=False),
-                norm_layer(planes * block.expansion),
-            )
-
-        layers = []
-        multi_dilations = [4, 8, 16]
-        if multi_grid:
-            layers.append(block(self.inplanes, planes, stride, dilation=multi_dilations[0],
-                                downsample=downsample, previous_dilation=dilation, norm_layer=norm_layer))
-        elif dilation == 1 or dilation == 2:
-            layers.append(block(self.inplanes, planes, stride, dilation=1,
-                                downsample=downsample, previous_dilation=dilation, norm_layer=norm_layer))
-        elif dilation == 4:
-            layers.append(block(self.inplanes, planes, stride, dilation=2,
-                                downsample=downsample, previous_dilation=dilation, norm_layer=norm_layer))
-        else:
-            raise RuntimeError("=> unknown dilation size: {}".format(dilation))
-
-        self.inplanes = planes * block.expansion
-        for i in range(1, blocks):
-            if multi_grid:
-                layers.append(block(self.inplanes, planes, dilation=multi_dilations[i],
-                                    previous_dilation=dilation, norm_layer=norm_layer))
-            else:
-                layers.append(block(self.inplanes, planes, dilation=dilation, previous_dilation=dilation,
-                                    norm_layer=norm_layer))
-
-        return nn.Sequential(*layers)
-
-    def forward(self, x):
-        x = self.conv1(x)
-        x = self.bn1(x)
-        x = self.relu(x)
-        x = self.maxpool(x)
-
-        x = self.layer1(x)
-        x = self.layer2(x)
-        x = self.layer3(x)
-        x = self.layer4(x)
-
-        x = self.avgpool(x)
-        x = x.view(x.size(0), -1)
-        x = self.fc(x)
-
-        return x
-
-
-def resnet18(pretrained=False, **kwargs):
-    """Constructs a ResNet-18 model.
-
-    Args:
-        pretrained (bool): If True, returns a model pre-trained on ImageNet
-    """
-    model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs)
-    if pretrained:
-        model.load_state_dict(model_zoo.load_url(model_urls['resnet18']))
-    return model
-
-
-def resnet34(pretrained=False, **kwargs):
-    """Constructs a ResNet-34 model.
-
-    Args:
-        pretrained (bool): If True, returns a model pre-trained on ImageNet
-    """
-    model = ResNet(BasicBlock, [3, 4, 6, 3], **kwargs)
-    if pretrained:
-        model.load_state_dict(model_zoo.load_url(model_urls['resnet34']))
-    return model
-
-
-def resnet50(pretrained=False, root='~/.encoding/models', **kwargs):
-    """Constructs a ResNet-50 model.
-
-    Args:
-        pretrained (bool): If True, returns a model pre-trained on ImageNet
-    """
-    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
-    if pretrained:
-        model.load_state_dict(torch.load(
-            get_model_file('resnet50', root=root)), strict=False)
-    return model
-
-
-def resnet101(pretrained=False, root='~/.encoding/models', **kwargs):
-    """Constructs a ResNet-101 model.
-
-    Args:
-        pretrained (bool): If True, returns a model pre-trained on ImageNet
-    """
-    model = ResNet(Bottleneck, [3, 4, 23, 3], **kwargs)
-    if pretrained:
-        model.load_state_dict(torch.load(
-            get_model_file('resnet101', root=root)), strict=False)
-    return model
-
-
-def resnet152(pretrained=False, root='~/.encoding/models', **kwargs):
-    """Constructs a ResNet-152 model.
-
-    Args:
-        pretrained (bool): If True, returns a model pre-trained on ImageNet
-    """
-    model = ResNet(Bottleneck, [3, 8, 36, 3], **kwargs)
-    if pretrained:
-        model.load_state_dict(torch.load(
-            get_model_file('resnet152', root=root)), strict=False)
-    return model
diff --git a/encoding/models/sseg/__init__.py b/encoding/models/sseg/__init__.py
new file mode 100644
index 00000000..b5efb140
--- /dev/null
+++ b/encoding/models/sseg/__init__.py
@@ -0,0 +1,20 @@
+from .base import *
+from .fcn import *
+from .psp import *
+from .fcfpn import *
+from .atten import *
+from .encnet import *
+from .deeplab import *
+from .upernet import *
+
+def get_segmentation_model(name, **kwargs):
+    models = {
+        'fcn': get_fcn,
+        'psp': get_psp,
+        'fcfpn': get_fcfpn,
+        'atten': get_atten,
+        'encnet': get_encnet,
+        'upernet': get_upernet,
+        'deeplab': get_deeplab,
+    }
+    return models[name.lower()](**kwargs)
diff --git a/encoding/models/sseg/atten.py b/encoding/models/sseg/atten.py
new file mode 100644
index 00000000..9400e423
--- /dev/null
+++ b/encoding/models/sseg/atten.py
@@ -0,0 +1,163 @@
+###########################################################################
+# Created by: Hang Zhang 
+# Email: zhang.hang@rutgers.edu 
+# Copyright (c) 2018
+###########################################################################
+from __future__ import division
+import os
+import numpy as np
+import torch
+import torch.nn as nn
+from torch.nn.functional import interpolate
+
+from .base import BaseNet
+from ...nn import ACFModule, ConcurrentModule, SyncBatchNorm
+from .fcn import FCNHead
+from .encnet import EncModule
+
+__all__ = ['ATTEN', 'get_atten']
+
+class ATTEN(BaseNet):
+    def __init__(self, nclass, backbone, nheads=8, nmixs=1, with_global=True,
+                 with_enc=True, with_lateral=False, aux=True, se_loss=False,
+                 norm_layer=SyncBatchNorm, **kwargs):
+        super(ATTEN, self).__init__(nclass, backbone, aux, se_loss,
+                                    norm_layer=norm_layer, **kwargs)
+        in_channels = 4096 if self.backbone.startswith('wideresnet') else 2048
+        self.head = ATTENHead(in_channels, nclass, norm_layer, self._up_kwargs, 
+                              nheads=nheads, nmixs=nmixs, with_global=with_global,
+                              with_enc=with_enc, se_loss=se_loss,
+                              lateral=with_lateral)
+        if aux:
+            self.auxlayer = FCNHead(1024, nclass, norm_layer)
+
+    def forward(self, x):
+        imsize = x.size()[2:]
+        #_, _, c3, c4 = self.base_forward(x)
+        #x = list(self.head(c4))
+        features = self.base_forward(x)
+        x = list(self.head(*features))
+        x[0] = interpolate(x[0], imsize, **self._up_kwargs)
+        if self.aux:
+            #auxout = self.auxlayer(c3)
+            auxout = self.auxlayer(features[2])
+            auxout = interpolate(auxout, imsize, **self._up_kwargs)
+            x.append(auxout)
+        return tuple(x)
+
+    def demo(self, x):
+        imsize = x.size()[2:]
+        features = self.base_forward(x)
+        return self.head.demo(*features)
+
+class GlobalPooling(nn.Module):
+    def __init__(self, in_channels, out_channels, norm_layer, up_kwargs):
+        super(GlobalPooling, self).__init__()
+        self._up_kwargs = up_kwargs
+        self.gap = nn.Sequential(nn.AdaptiveAvgPool2d(1),
+                                 nn.Conv2d(in_channels, out_channels, 1, bias=False),
+                                 norm_layer(out_channels),
+                                 nn.ReLU(True))
+
+    def forward(self, x):
+        _, _, h, w = x.size()
+        pool = self.gap(x)
+        return interpolate(pool, (h,w), **self._up_kwargs)
+ 
+class ATTENHead(nn.Module):
+    def __init__(self, in_channels, out_channels, norm_layer, up_kwargs,
+                 nheads, nmixs, with_global,
+                 with_enc, se_loss, lateral):
+        super(ATTENHead, self).__init__()
+        self.with_enc = with_enc
+        self.se_loss = se_loss
+        self._up_kwargs = up_kwargs
+        inter_channels = in_channels // 4
+        self.lateral = lateral
+        self.conv5 = nn.Sequential(
+            nn.Conv2d(in_channels, inter_channels, 3, padding=1, bias=False),
+            norm_layer(inter_channels),
+            nn.ReLU())
+        if lateral:
+            self.connect = nn.ModuleList([
+                nn.Sequential(
+                    nn.Conv2d(512, 512, kernel_size=1, bias=False),
+                    norm_layer(512),
+                    nn.ReLU(inplace=True)),
+                nn.Sequential(
+                    nn.Conv2d(1024, 512, kernel_size=1, bias=False),
+                    norm_layer(512),
+                    nn.ReLU(inplace=True)),
+            ])
+            self.fusion = nn.Sequential(
+                    nn.Conv2d(3*512, 512, kernel_size=3, padding=1, bias=False),
+                    norm_layer(512),
+                    nn.ReLU(inplace=True))
+        extended_channels = 0
+        self.atten = ACFModule(nheads, nmixs, inter_channels, inter_channels//nheads*nmixs,
+                               inter_channels//nheads, norm_layer)
+        if with_global:
+            extended_channels = inter_channels
+            self.atten_layers = ConcurrentModule([
+                    GlobalPooling(inter_channels, extended_channels, norm_layer, self._up_kwargs),
+                    self.atten,
+                    #nn.Sequential(*atten),
+                ])
+        else:
+            self.atten_layers = nn.Sequential(*atten)
+        if with_enc:
+            self.encmodule = EncModule(inter_channels+extended_channels, out_channels, ncodes=32,
+                                       se_loss=se_loss, norm_layer=norm_layer)
+        self.conv6 = nn.Sequential(nn.Dropout2d(0.1, False),
+                                   nn.Conv2d(inter_channels+extended_channels, out_channels, 1))
+
+    def forward(self, *inputs):
+        feat = self.conv5(inputs[-1])
+        if self.lateral:
+            c2 = self.connect[0](inputs[1])
+            c3 = self.connect[1](inputs[2])
+            feat = self.fusion(torch.cat([feat, c2, c3], 1))
+        feat = self.atten_layers(feat)
+        if self.with_enc:
+            outs = list(self.encmodule(feat))
+        else:
+            outs = [feat]
+        outs[0] = self.conv6(outs[0])
+        return tuple(outs)
+
+    def demo(self, *inputs):
+        feat = self.conv5(inputs[-1])
+        if self.lateral:
+            c2 = self.connect[0](inputs[1])
+            c3 = self.connect[1](inputs[2])
+            feat = self.fusion(torch.cat([feat, c2, c3], 1))
+        attn = self.atten.demo(feat)
+        return attn
+
+def get_atten(dataset='pascal_voc', backbone='resnet50s', pretrained=False,
+              root='~/.encoding/models', **kwargs):
+    r"""ATTEN model from the paper `"Fully Convolutional Network for semantic segmentation"
+    <https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_atten.pdf>`_
+    Parameters
+    ----------
+    dataset : str, default pascal_voc
+        The dataset that model pretrained on. (pascal_voc, ade20k)
+    pretrained : bool, default False
+        Whether to load the pretrained weights for model.
+    pooling_mode : str, default 'avg'
+        Using 'max' pool or 'avg' pool in the Attention module.
+    root : str, default '~/.encoding/models'
+        Location for keeping the model parameters.
+    Examples
+    --------
+    >>> model = get_atten(dataset='pascal_voc', backbone='resnet50s', pretrained=False)
+    >>> print(model)
+    """
+    # infer number of classes
+    from ...datasets import datasets, acronyms
+    model = ATTEN(datasets[dataset.lower()].NUM_CLASS, backbone=backbone, **kwargs)
+    if pretrained:
+        from .model_store import get_model_file
+        model.load_state_dict(torch.load(
+            get_model_file('atten_%s_%s'%(backbone, acronyms[dataset]), root=root)))
+    return model
diff --git a/encoding/models/base.py b/encoding/models/sseg/base.py
similarity index 87%
rename from encoding/models/base.py
rename to encoding/models/sseg/base.py
index e4e21022..82b20c5d 100644
--- a/encoding/models/base.py
+++ b/encoding/models/sseg/base.py
@@ -14,17 +14,47 @@
 from torch.nn.parallel.parallel_apply import parallel_apply
 from torch.nn.parallel.scatter_gather import scatter
 
-from . import resnet
-from ..utils import batch_pix_accuracy, batch_intersection_union
+from ...utils import batch_pix_accuracy, batch_intersection_union
+
+from ..backbone import *
 
 up_kwargs = {'mode': 'bilinear', 'align_corners': True}
 
 __all__ = ['BaseNet', 'MultiEvalModule']
 
+def get_backbone(name, **kwargs):
+    models = {
+        # resnet
+        'resnet50': resnet50,
+        'resnet101': resnet101,
+        'resnet152': resnet152,
+        # resnest
+        'resnest50': resnest50,
+        'resnest101': resnest101,
+        'resnest200': resnest200,
+        'resnest269': resnest269,
+        # resnet other variants
+        'resnet50s': resnet50s,
+        'resnet101s': resnet101s,
+        'resnet152s': resnet152s,
+        'resnet50d': resnet50d,
+        'resnext50_32x4d': resnext50_32x4d,
+        'resnext101_32x8d': resnext101_32x8d,
+        # other segmentation backbones
+        'xception65': xception65,
+        'wideresnet38': wideresnet38,
+        'wideresnet50': wideresnet50,
+        }
+    name = name.lower()
+    if name not in models:
+        raise ValueError('%s\n\t%s' % (str(name), '\n\t'.join(sorted(models.keys()))))
+    net = models[name](**kwargs)
+    return net
+
 class BaseNet(nn.Module):
     def __init__(self, nclass, backbone, aux, se_loss, dilated=True, norm_layer=None,
                  base_size=520, crop_size=480, mean=[.485, .456, .406],
-                 std=[.229, .224, .225], root='~/.encoding/models'):
+                 std=[.229, .224, .225], root='~/.encoding/models', *args, **kwargs):
         super(BaseNet, self).__init__()
         self.nclass = nclass
         self.aux = aux
@@ -35,18 +65,11 @@ def __init__(self, nclass, backbone, aux, se_loss, dilated=True, norm_layer=None
         self.crop_size = crop_size
         # copying modules from pretrained models
         self.backbone = backbone
-        if backbone == 'resnet50':
-            self.pretrained = resnet.resnet50(pretrained=True, dilated=dilated,
-                                              norm_layer=norm_layer, root=root)
-        elif backbone == 'resnet101':
-            self.pretrained = resnet.resnet101(pretrained=True, dilated=dilated,
-                                               norm_layer=norm_layer, root=root)
-        elif backbone == 'resnet152':
-            self.pretrained = resnet.resnet152(pretrained=True, dilated=dilated,
-                                               norm_layer=norm_layer, root=root)
-        else:
-            raise RuntimeError('unknown backbone: {}'.format(backbone))
-        # bilinear upsample options
+
+        self.pretrained = get_backbone(backbone, pretrained=True, dilated=dilated,
+                                       norm_layer=norm_layer, root=root,
+                                       *args, **kwargs)
+        self.pretrained.fc = None
         self._up_kwargs = up_kwargs
 
     def base_forward(self, x):
diff --git a/encoding/models/deeplab.py b/encoding/models/sseg/deeplab.py
similarity index 68%
rename from encoding/models/deeplab.py
rename to encoding/models/sseg/deeplab.py
index f921bbe7..b1bfc690 100644
--- a/encoding/models/deeplab.py
+++ b/encoding/models/sseg/deeplab.py
@@ -14,6 +14,28 @@
 from .fcn import FCNHead
 
 class DeepLabV3(BaseNet):
+    r"""DeepLabV3
+
+    Parameters
+    ----------
+    nclass : int
+        Number of categories for the training dataset.
+    backbone : string
+        Pre-trained dilated backbone network type (default:'resnet50'; 'resnet50',
+        'resnet101' or 'resnet152').
+    norm_layer : object
+        Normalization layer used in backbone network (default: :class:`mxnet.gluon.nn.BatchNorm`;
+        for Synchronized Cross-GPU BachNormalization).
+    aux : bool
+        Auxiliary loss.
+
+
+    Reference:
+
+        Chen, Liang-Chieh, et al. "Rethinking atrous convolution for semantic image segmentation."
+        arXiv preprint arXiv:1706.05587 (2017).
+
+    """
     def __init__(self, nclass, backbone, aux=True, se_loss=False, norm_layer=nn.BatchNorm2d, **kwargs):
         super(DeepLabV3, self).__init__(nclass, backbone, aux, se_loss, norm_layer=norm_layer, **kwargs)
         self.head = DeepLabV3Head(2048, nclass, norm_layer, self._up_kwargs)
@@ -22,7 +44,7 @@ def __init__(self, nclass, backbone, aux=True, se_loss=False, norm_layer=nn.Batc
 
     def forward(self, x):
         _, _, h, w = x.size()
-        _, _, c3, c4 = self.base_forward(x)
+        c1, c2, c3, c4 = self.base_forward(x)
 
         outputs = []
         x = self.head(c4)
@@ -104,7 +126,7 @@ def forward(self, x):
         y = torch.cat((feat0, feat1, feat2, feat3, feat4), 1)
         return self.project(y)
 
-def get_deeplab(dataset='pascal_voc', backbone='resnet50', pretrained=False,
+def get_deeplab(dataset='pascal_voc', backbone='resnet50s', pretrained=False,
             root='~/.encoding/models', **kwargs):
     acronyms = {
         'pascal_voc': 'voc',
@@ -112,10 +134,10 @@ def get_deeplab(dataset='pascal_voc', backbone='resnet50', pretrained=False,
         'ade20k': 'ade',
     }
     # infer number of classes
-    from ..datasets import datasets, VOCSegmentation, VOCAugSegmentation, ADE20KSegmentation
+    from ...datasets import datasets, VOCSegmentation, VOCAugSegmentation, ADE20KSegmentation
     model = DeepLabV3(datasets[dataset.lower()].NUM_CLASS, backbone=backbone, root=root, **kwargs)
     if pretrained:
-        from .model_store import get_model_file
+        from ..model_store import get_model_file
         model.load_state_dict(torch.load(
             get_model_file('deeplab_%s_%s'%(backbone, acronyms[dataset]), root=root)))
     return model
@@ -137,4 +159,42 @@ def get_deeplab_resnet50_ade(pretrained=False, root='~/.encoding/models', **kwar
     >>> model = get_deeplab_resnet50_ade(pretrained=True)
     >>> print(model)
     """
-    return get_deeplab('ade20k', 'resnet50', pretrained, root=root, **kwargs)
+    return get_deeplab('ade20k', 'resnet50s', pretrained, root=root, **kwargs)
+
+def get_deeplab_resnest50_ade(pretrained=False, root='~/.encoding/models', **kwargs):
+    r"""DeepLabV3 model from the paper `"Context Encoding for Semantic Segmentation"
+    <https://arxiv.org/pdf/1803.08904.pdf>`_
+
+    Parameters
+    ----------
+    pretrained : bool, default False
+        Whether to load the pretrained weights for model.
+    root : str, default '~/.encoding/models'
+        Location for keeping the model parameters.
+
+
+    Examples
+    --------
+    >>> model = get_deeplab_resnet50_ade(pretrained=True)
+    >>> print(model)
+    """
+    return get_deeplab('ade20k', 'resnest50', pretrained, root=root, **kwargs)
+
+def get_deeplab_resnest101_ade(pretrained=False, root='~/.encoding/models', **kwargs):
+    r"""DeepLabV3 model from the paper `"Context Encoding for Semantic Segmentation"
+    <https://arxiv.org/pdf/1803.08904.pdf>`_
+
+    Parameters
+    ----------
+    pretrained : bool, default False
+        Whether to load the pretrained weights for model.
+    root : str, default '~/.encoding/models'
+        Location for keeping the model parameters.
+
+
+    Examples
+    --------
+    >>> model = get_deeplab_resnet50_ade(pretrained=True)
+    >>> print(model)
+    """
+    return get_deeplab('ade20k', 'resnest101', pretrained, root=root, **kwargs)
diff --git a/encoding/models/encnet.py b/encoding/models/sseg/encnet.py
similarity index 93%
rename from encoding/models/encnet.py
rename to encoding/models/sseg/encnet.py
index 9d7e0207..825a2fe7 100644
--- a/encoding/models/encnet.py
+++ b/encoding/models/sseg/encnet.py
@@ -11,7 +11,7 @@
 
 from .base import BaseNet
 from .fcn import FCNHead
-from ..nn import SyncBatchNorm, Encoding, Mean
+from ...nn import SyncBatchNorm, Encoding, Mean
 
 __all__ = ['EncNet', 'EncModule', 'get_encnet', 'get_encnet_resnet50_pcontext',
            'get_encnet_resnet101_pcontext', 'get_encnet_resnet50_ade',
@@ -112,7 +112,7 @@ def forward(self, *inputs):
         return tuple(outs)
 
 
-def get_encnet(dataset='pascal_voc', backbone='resnet50', pretrained=False,
+def get_encnet(dataset='pascal_voc', backbone='resnet50s', pretrained=False,
                root='~/.encoding/models', **kwargs):
     r"""EncNet model from the paper `"Context Encoding for Semantic Segmentation"
     <https://arxiv.org/pdf/1803.08904.pdf>`_
@@ -121,8 +121,8 @@ def get_encnet(dataset='pascal_voc', backbone='resnet50', pretrained=False,
     ----------
     dataset : str, default pascal_voc
         The dataset that model pretrained on. (pascal_voc, ade20k)
-    backbone : str, default resnet50
-        The backbone network. (resnet50, 101, 152)
+    backbone : str, default resnet50s
+        The backbone network. (resnet50s, 101s, 152s)
     pretrained : bool, default False
         Whether to load the pretrained weights for model.
     root : str, default '~/.encoding/models'
@@ -131,12 +131,12 @@ def get_encnet(dataset='pascal_voc', backbone='resnet50', pretrained=False,
 
     Examples
     --------
-    >>> model = get_encnet(dataset='pascal_voc', backbone='resnet50', pretrained=False)
+    >>> model = get_encnet(dataset='pascal_voc', backbone='resnet50s', pretrained=False)
     >>> print(model)
     """
     kwargs['lateral'] = True if dataset.lower().startswith('p') else False
     # infer number of classes
-    from ..datasets import datasets, acronyms
+    from ...datasets import datasets, acronyms
     model = EncNet(datasets[dataset.lower()].NUM_CLASS, backbone=backbone, root=root, **kwargs)
     if pretrained:
         from .model_store import get_model_file
@@ -161,7 +161,7 @@ def get_encnet_resnet50_pcontext(pretrained=False, root='~/.encoding/models', **
     >>> model = get_encnet_resnet50_pcontext(pretrained=True)
     >>> print(model)
     """
-    return get_encnet('pcontext', 'resnet50', pretrained, root=root, aux=True,
+    return get_encnet('pcontext', 'resnet50s', pretrained, root=root, aux=True,
                       base_size=520, crop_size=480, **kwargs)
 
 def get_encnet_resnet101_pcontext(pretrained=False, root='~/.encoding/models', **kwargs):
@@ -181,7 +181,7 @@ def get_encnet_resnet101_pcontext(pretrained=False, root='~/.encoding/models', *
     >>> model = get_encnet_resnet101_pcontext(pretrained=True)
     >>> print(model)
     """
-    return get_encnet('pcontext', 'resnet101', pretrained, root=root, aux=True,
+    return get_encnet('pcontext', 'resnet101s', pretrained, root=root, aux=True,
                       base_size=520, crop_size=480, **kwargs)
 
 def get_encnet_resnet50_ade(pretrained=False, root='~/.encoding/models', **kwargs):
@@ -221,7 +221,7 @@ def get_encnet_resnet101_ade(pretrained=False, root='~/.encoding/models', **kwar
     >>> model = get_encnet_resnet50_ade(pretrained=True)
     >>> print(model)
     """
-    return get_encnet('ade20k', 'resnet101', pretrained, root=root, aux=True,
+    return get_encnet('ade20k', 'resnet101s', pretrained, root=root, aux=True,
                       base_size=640, crop_size=576, **kwargs)
 
 def get_encnet_resnet152_ade(pretrained=False, root='~/.encoding/models', **kwargs):
@@ -241,5 +241,5 @@ def get_encnet_resnet152_ade(pretrained=False, root='~/.encoding/models', **kwar
     >>> model = get_encnet_resnet50_ade(pretrained=True)
     >>> print(model)
     """
-    return get_encnet('ade20k', 'resnet152', pretrained, root=root, aux=True,
+    return get_encnet('ade20k', 'resnet152s', pretrained, root=root, aux=True,
                       base_size=520, crop_size=480, **kwargs)
diff --git a/encoding/models/sseg/fcfpn.py b/encoding/models/sseg/fcfpn.py
new file mode 100644
index 00000000..732f140a
--- /dev/null
+++ b/encoding/models/sseg/fcfpn.py
@@ -0,0 +1,167 @@
+###########################################################################
+# Created by: Hang Zhang 
+# Email: zhang.hang@rutgers.edu 
+# Copyright (c) 2017
+###########################################################################
+from __future__ import division
+import os
+import numpy as np
+import torch
+import torch.nn as nn
+from torch.nn.functional import upsample
+
+from .base import BaseNet
+
+torch_ver = torch.__version__[:3]
+
+__all__ = ['FCFPN', 'get_fcfpn', 'get_fcfpn_50_ade']
+
+class FCFPN(BaseNet):
+    r"""Fully Convolutional Networks for Semantic Segmentation
+
+    Parameters
+    ----------
+    nclass : int
+        Number of categories for the training dataset.
+    backbone : string
+        Pre-trained dilated backbone network type (default:'resnet50'; 'resnet50',
+        'resnet101' or 'resnet152').
+    norm_layer : object
+        Normalization layer used in backbone network (default: :class:`mxnet.gluon.nn.BatchNorm`;
+
+
+    Reference:
+
+        Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks
+        for semantic segmentation." *CVPR*, 2015
+
+    Examples
+    --------
+    >>> model = FCFPN(nclass=21, backbone='resnet50')
+    >>> print(model)
+    """
+    def __init__(self, nclass, backbone, aux=True, se_loss=False, norm_layer=nn.BatchNorm2d, **kwargs):
+        super(FCFPN, self).__init__(nclass, backbone, aux, se_loss, dilated=False, norm_layer=norm_layer)
+        self.head = FCFPNHead(nclass, norm_layer, up_kwargs=self._up_kwargs)
+        assert not aux, "FCFPN does not support aux loss"
+
+    def forward(self, x):
+        imsize = x.size()[2:]
+        features = self.base_forward(x)
+
+        x = list(self.head(*features))
+        x[0] = upsample(x[0], imsize, **self._up_kwargs)
+        return tuple(x)
+
+
+class FCFPNHead(nn.Module):
+    def __init__(self, out_channels, norm_layer=None, fpn_inchannels=[256, 512, 1024, 2048],
+                 fpn_dim=256, up_kwargs=None):
+        super(FCFPNHead, self).__init__()
+        # bilinear upsample options
+        assert up_kwargs is not None
+        self._up_kwargs = up_kwargs
+        fpn_lateral = []
+        for fpn_inchannel in fpn_inchannels[:-1]:
+            fpn_lateral.append(nn.Sequential(
+                nn.Conv2d(fpn_inchannel, fpn_dim, kernel_size=1, bias=False),
+                norm_layer(fpn_dim),
+                nn.ReLU(inplace=True),
+            ))
+        self.fpn_lateral = nn.ModuleList(fpn_lateral)
+        fpn_out = []
+        for _ in range(len(fpn_inchannels) - 1):
+            fpn_out.append(nn.Sequential(
+                nn.Conv2d(fpn_dim, fpn_dim, kernel_size=3, padding=1, bias=False),
+                norm_layer(fpn_dim),
+                nn.ReLU(inplace=True),
+            ))
+        self.fpn_out = nn.ModuleList(fpn_out)
+        self.c4conv = nn.Sequential(nn.Conv2d(fpn_inchannels[-1], fpn_dim, 3, padding=1, bias=False),
+                                    norm_layer(fpn_dim),
+                                    nn.ReLU())
+        inter_channels = len(fpn_inchannels) * fpn_dim
+        self.conv5 = nn.Sequential(nn.Conv2d(inter_channels, 512, 3, padding=1, bias=False),
+                                   norm_layer(512),
+                                   nn.ReLU(),
+                                   nn.Dropout2d(0.1, False),
+                                   nn.Conv2d(512, out_channels, 1))
+
+    def forward(self, *inputs):
+        c4 = inputs[-1]
+        #se_pred = False
+        if hasattr(self, 'extramodule'):
+            #if self.extramodule.se_loss:
+            #    se_pred = True
+            #    feat, se_out = self.extramodule(feat)
+            #else:
+            c4 = self.extramodule(c4)
+        feat = self.c4conv(c4)
+        c1_size = inputs[0].size()[2:]
+        feat_up = upsample(feat, c1_size, **self._up_kwargs)
+        fpn_features = [feat_up]
+        # c4, c3, c2, c1
+        for i in reversed(range(len(inputs) - 1)):
+            feat_i = self.fpn_lateral[i](inputs[i])
+            feat = upsample(feat, feat_i.size()[2:], **self._up_kwargs)
+            feat = feat + feat_i
+            # upsample to the same size with c1
+            feat_up = upsample(self.fpn_out[i](feat), c1_size, **self._up_kwargs)
+            fpn_features.append(feat_up)
+        fpn_features = torch.cat(fpn_features, 1)
+        #if se_pred:
+        #    return (self.conv5(fpn_features), se_out)
+        return (self.conv5(fpn_features), )
+
+
+def get_fcfpn(dataset='pascal_voc', backbone='resnet50', pretrained=False,
+            root='~/.encoding/models', **kwargs):
+    r"""FCFPN model from the paper `"Fully Convolutional Network for semantic segmentation"
+    <https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcfpn.pdf>`_
+    Parameters
+    ----------
+    dataset : str, default pascal_voc
+        The dataset that model pretrained on. (pascal_voc, ade20k)
+    pretrained : bool, default False
+        Whether to load the pretrained weights for model.
+    root : str, default '~/.encoding/models'
+        Location for keeping the model parameters.
+    Examples
+    --------
+    >>> model = get_fcfpn(dataset='pascal_voc', backbone='resnet50s', pretrained=False)
+    >>> print(model)
+    """
+    acronyms = {
+        'pascal_voc': 'voc',
+        'pascal_aug': 'voc',
+        'ade20k': 'ade',
+    }
+    # infer number of classes
+    from ...datasets import datasets, VOCSegmentation, VOCAugSegmentation, ADE20KSegmentation
+    model = FCFPN(datasets[dataset.lower()].NUM_CLASS, backbone=backbone, **kwargs)
+    if pretrained:
+        from .model_store import get_model_file
+        model.load_state_dict(torch.load(
+            get_model_file('fcfpn_%s_%s'%(backbone, acronyms[dataset]), root=root)))
+    return model
+
+
+def get_fcfpn_50_ade(pretrained=False, root='~/.encoding/models', **kwargs):
+    r"""EncNet-PSP model from the paper `"Context Encoding for Semantic Segmentation"
+    <https://arxiv.org/pdf/1803.08904.pdf>`_
+
+    Parameters
+    ----------
+    pretrained : bool, default False
+        Whether to load the pretrained weights for model.
+    root : str, default '~/.encoding/models'
+        Location for keeping the model parameters.
+
+
+    Examples
+    --------
+    >>> model = get_fcfpn_50_ade(pretrained=True)
+    >>> print(model)
+    """
+    return get_fcfpn('ade20k', 'resnet50s', pretrained)
+
diff --git a/encoding/models/fcn.py b/encoding/models/sseg/fcn.py
similarity index 90%
rename from encoding/models/fcn.py
rename to encoding/models/sseg/fcn.py
index 6c030b87..7b11c24b 100644
--- a/encoding/models/fcn.py
+++ b/encoding/models/sseg/fcn.py
@@ -9,7 +9,7 @@
 import torch
 import torch.nn as nn
 from torch.nn.functional import interpolate
-from ..nn import ConcurrentModule, SyncBatchNorm
+from ...nn import ConcurrentModule, SyncBatchNorm
 
 from .base import BaseNet
 
@@ -23,8 +23,8 @@ class FCN(BaseNet):
     nclass : int
         Number of categories for the training dataset.
     backbone : string
-        Pre-trained dilated backbone network type (default:'resnet50'; 'resnet50',
-        'resnet101' or 'resnet152').
+        Pre-trained dilated backbone network type (default:'resnet50s'; 'resnet50s',
+        'resnet101s' or 'resnet152s').
     norm_layer : object
         Normalization layer used in backbone network (default: :class:`mxnet.gluon.nn.BatchNorm`;
 
@@ -36,12 +36,13 @@ class FCN(BaseNet):
 
     Examples
     --------
-    >>> model = FCN(nclass=21, backbone='resnet50')
+    >>> model = FCN(nclass=21, backbone='resnet50s')
     >>> print(model)
     """
     def __init__(self, nclass, backbone, aux=True, se_loss=False, with_global=False,
-                 norm_layer=SyncBatchNorm, **kwargs):
-        super(FCN, self).__init__(nclass, backbone, aux, se_loss, norm_layer=norm_layer, **kwargs)
+                 norm_layer=SyncBatchNorm, *args, **kwargs):
+        super(FCN, self).__init__(nclass, backbone, aux, se_loss, norm_layer=norm_layer,
+                                  *args, **kwargs)
         self.head = FCNHead(2048, nclass, norm_layer, self._up_kwargs, with_global)
         if aux:
             self.auxlayer = FCNHead(1024, nclass, norm_layer)
@@ -109,7 +110,7 @@ def forward(self, x):
         return self.conv5(x)
 
 
-def get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False,
+def get_fcn(dataset='pascal_voc', backbone='resnet50s', pretrained=False,
             root='~/.encoding/models', **kwargs):
     r"""FCN model from the paper `"Fully Convolutional Network for semantic segmentation"
     <https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf>`_
@@ -123,11 +124,11 @@ def get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False,
         Location for keeping the model parameters.
     Examples
     --------
-    >>> model = get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False)
+    >>> model = get_fcn(dataset='pascal_voc', backbone='resnet50s', pretrained=False)
     >>> print(model)
     """
     # infer number of classes
-    from ..datasets import datasets, acronyms
+    from ...datasets import datasets, acronyms
     model = FCN(datasets[dataset.lower()].NUM_CLASS, backbone=backbone, root=root, **kwargs)
     if pretrained:
         from .model_store import get_model_file
@@ -152,7 +153,7 @@ def get_fcn_resnet50_pcontext(pretrained=False, root='~/.encoding/models', **kwa
     >>> model = get_fcn_resnet50_pcontext(pretrained=True)
     >>> print(model)
     """
-    return get_fcn('pcontext', 'resnet50', pretrained, root=root, aux=False, **kwargs)
+    return get_fcn('pcontext', 'resnet50s', pretrained, root=root, aux=False, **kwargs)
 
 def get_fcn_resnet50_ade(pretrained=False, root='~/.encoding/models', **kwargs):
     r"""EncNet-PSP model from the paper `"Context Encoding for Semantic Segmentation"
@@ -171,4 +172,4 @@ def get_fcn_resnet50_ade(pretrained=False, root='~/.encoding/models', **kwargs):
     >>> model = get_fcn_resnet50_ade(pretrained=True)
     >>> print(model)
     """
-    return get_fcn('ade20k', 'resnet50', pretrained, root=root, **kwargs)
+    return get_fcn('ade20k', 'resnet50s', pretrained, root=root, **kwargs)
diff --git a/encoding/models/psp.py b/encoding/models/sseg/psp.py
similarity index 92%
rename from encoding/models/psp.py
rename to encoding/models/sseg/psp.py
index a4a2620e..f4c81791 100644
--- a/encoding/models/psp.py
+++ b/encoding/models/sseg/psp.py
@@ -12,7 +12,7 @@
 
 from .base import BaseNet
 from .fcn import FCNHead
-from ..nn import PyramidPooling
+from ...nn import PyramidPooling
 
 class PSP(BaseNet):
     def __init__(self, nclass, backbone, aux=True, se_loss=False, norm_layer=nn.BatchNorm2d, **kwargs):
@@ -50,10 +50,10 @@ def __init__(self, in_channels, out_channels, norm_layer, up_kwargs):
     def forward(self, x):
         return self.conv5(x)
 
-def get_psp(dataset='pascal_voc', backbone='resnet50', pretrained=False,
+def get_psp(dataset='pascal_voc', backbone='resnet50s', pretrained=False,
             root='~/.encoding/models', **kwargs):
     # infer number of classes
-    from ..datasets import datasets, acronyms
+    from ...datasets import datasets, acronyms
     model = PSP(datasets[dataset.lower()].NUM_CLASS, backbone=backbone, root=root, **kwargs)
     if pretrained:
         from .model_store import get_model_file
@@ -78,4 +78,4 @@ def get_psp_resnet50_ade(pretrained=False, root='~/.encoding/models', **kwargs):
     >>> model = get_psp_resnet50_ade(pretrained=True)
     >>> print(model)
     """
-    return get_psp('ade20k', 'resnet50', pretrained, root=root, **kwargs)
+    return get_psp('ade20k', 'resnet50s', pretrained, root=root, **kwargs)
diff --git a/encoding/models/sseg/upernet.py b/encoding/models/sseg/upernet.py
new file mode 100644
index 00000000..81904996
--- /dev/null
+++ b/encoding/models/sseg/upernet.py
@@ -0,0 +1,117 @@
+###########################################################################
+# Created by: Hang Zhang 
+# Email: zhang.hang@rutgers.edu 
+# Copyright (c) 2017
+###########################################################################
+from __future__ import division
+import os
+import numpy as np
+import torch
+import torch.nn as nn
+from torch.nn.functional import upsample
+
+from .base import BaseNet
+from .fcfpn import FCFPNHead
+from ...nn import PyramidPooling
+
+torch_ver = torch.__version__[:3]
+
+__all__ = ['UperNet', 'get_upernet', 'get_upernet_50_ade']
+
+class UperNet(BaseNet):
+    r"""Fully Convolutional Networks for Semantic Segmentation
+
+    Parameters
+    ----------
+    nclass : int
+        Number of categories for the training dataset.
+    backbone : string
+        Pre-trained dilated backbone network type (default:'resnet50s'; 'resnet50s',
+        'resnet101s' or 'resnet152s').
+    norm_layer : object
+        Normalization layer used in backbone network (default: :class:`mxnet.gluon.nn.BatchNorm`;
+
+
+    Reference:
+
+        Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks
+        for semantic segmentation." *CVPR*, 2015
+
+    Examples
+    --------
+    >>> model = UperNet(nclass=21, backbone='resnet50s')
+    >>> print(model)
+    """
+    def __init__(self, nclass, backbone, aux=True, se_loss=False, norm_layer=nn.BatchNorm2d, **kwargs):
+        super(UperNet, self).__init__(nclass, backbone, aux, se_loss, dilated=False, norm_layer=norm_layer)
+        self.head = UperNetHead(nclass, norm_layer, up_kwargs=self._up_kwargs)
+        assert not aux, "UperNet does not support aux loss"
+
+    def forward(self, x):
+        imsize = x.size()[2:]
+        features = self.base_forward(x)
+
+        x = list(self.head(*features))
+        x[0] = upsample(x[0], imsize, **self._up_kwargs)
+        return tuple(x)
+
+
+class UperNetHead(FCFPNHead):
+    def __init__(self, out_channels, norm_layer=None, fpn_inchannels=[256, 512, 1024, 2048],
+                 fpn_dim=256, up_kwargs=None):
+        fpn_inchannels[-1] = fpn_inchannels[-1] * 2
+        super(UperNetHead, self).__init__(out_channels, norm_layer, fpn_inchannels,
+                                          fpn_dim, up_kwargs)
+        self.extramodule = PyramidPooling(fpn_inchannels[-1] // 2, norm_layer, up_kwargs)
+
+
+def get_upernet(dataset='pascal_voc', backbone='resnet50s', pretrained=False,
+            root='~/.encoding/models', **kwargs):
+    r"""UperNet model from the paper `"Fully Convolutional Network for semantic segmentation"
+    <https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_upernet.pdf>`_
+    Parameters
+    ----------
+    dataset : str, default pascal_voc
+        The dataset that model pretrained on. (pascal_voc, ade20k)
+    pretrained : bool, default False
+        Whether to load the pretrained weights for model.
+    root : str, default '~/.encoding/models'
+        Location for keeping the model parameters.
+    Examples
+    --------
+    >>> model = get_upernet(dataset='pascal_voc', backbone='resnet50s', pretrained=False)
+    >>> print(model)
+    """
+    acronyms = {
+        'pascal_voc': 'voc',
+        'pascal_aug': 'voc',
+        'ade20k': 'ade',
+    }
+    # infer number of classes
+    from ...datasets import datasets, VOCSegmentation, VOCAugSegmentation, ADE20KSegmentation
+    model = UperNet(datasets[dataset.lower()].NUM_CLASS, backbone=backbone, **kwargs)
+    if pretrained:
+        from .model_store import get_model_file
+        model.load_state_dict(torch.load(
+            get_model_file('upernet_%s_%s'%(backbone, acronyms[dataset]), root=root)))
+    return model
+
+
+def get_upernet_50_ade(pretrained=False, root='~/.encoding/models', **kwargs):
+    r"""EncNet-PSP model from the paper `"Context Encoding for Semantic Segmentation"
+    <https://arxiv.org/pdf/1803.08904.pdf>`_
+
+    Parameters
+    ----------
+    pretrained : bool, default False
+        Whether to load the pretrained weights for model.
+    root : str, default '~/.encoding/models'
+        Location for keeping the model parameters.
+
+
+    Examples
+    --------
+    >>> model = get_upernet_50_ade(pretrained=True)
+    >>> print(model)
+    """
+    return get_upernet('ade20k', 'resnet50s', pretrained)
diff --git a/encoding/nn/__init__.py b/encoding/nn/__init__.py
index 58d9e3ec..86cd1452 100644
--- a/encoding/nn/__init__.py
+++ b/encoding/nn/__init__.py
@@ -12,4 +12,8 @@
 from .encoding import *
 from .syncbn import *
 from .customize import *
+from .attention import *
 from .loss import *
+from .rectify import *
+from .splat import SplAtConv2d
+from .dropblock import *
diff --git a/encoding/nn/attention.py b/encoding/nn/attention.py
new file mode 100644
index 00000000..34746cde
--- /dev/null
+++ b/encoding/nn/attention.py
@@ -0,0 +1,157 @@
+###########################################################################
+# Created by: Hang Zhang 
+# Email: zhang.hang@rutgers.edu 
+# Copyright (c) 2018
+###########################################################################
+import numpy as np
+import torch
+import torch.nn as nn
+from torch.nn import functional as F
+from .syncbn import SyncBatchNorm
+
+__all__ = ['ACFModule', 'MixtureOfSoftMaxACF']
+
+class ACFModule(nn.Module):
+    """ Multi-Head Attention module """
+    def __init__(self, n_head, n_mix, d_model, d_k, d_v, norm_layer=SyncBatchNorm, 
+                 kq_transform='conv', value_transform='conv',
+                 pooling=True, concat=False, dropout=0.1):
+        super(ACFModule, self).__init__()
+
+        self.n_head = n_head
+        self.n_mix = n_mix
+        self.d_k = d_k
+        self.d_v = d_v
+        self.pooling = pooling
+        self.concat = concat
+
+        if self.pooling:
+            self.pool = nn.AvgPool2d(3, 2, 1, count_include_pad=False)
+
+        if kq_transform == 'conv':
+            self.conv_qs = nn.Conv2d(d_model, n_head*d_k, 1)
+            nn.init.normal_(self.conv_qs.weight, mean=0, std=np.sqrt(2.0 / (d_model + d_k)))
+        elif kq_transform == 'ffn':
+            self.conv_qs = nn.Sequential(
+                nn.Conv2d(d_model, n_head*d_k, 3, padding=1, bias=False),
+                norm_layer(n_head*d_k),
+                nn.ReLU(True),
+                nn.Conv2d(n_head*d_k, n_head*d_k, 1),
+            )
+            nn.init.normal_(self.conv_qs[-1].weight, mean=0, std=np.sqrt(1.0 / d_k))
+        elif kq_transform == 'dffn':
+            self.conv_qs = nn.Sequential(
+                nn.Conv2d(d_model, n_head*d_k, 3, padding=4, dilation=4, bias=False),
+                norm_layer(n_head*d_k),
+                nn.ReLU(True),
+                nn.Conv2d(n_head*d_k, n_head*d_k, 1),
+            )
+            nn.init.normal_(self.conv_qs[-1].weight, mean=0, std=np.sqrt(1.0 / d_k))
+        else:
+            raise NotImplemented
+        #self.conv_ks = nn.Conv2d(d_model, n_head*d_k, 1)
+        self.conv_ks = self.conv_qs
+        if value_transform == 'conv':
+            self.conv_vs = nn.Conv2d(d_model, n_head*d_v, 1)
+        else:
+            raise NotImplemented
+
+        #nn.init.normal_(self.conv_ks.weight, mean=0, std=np.sqrt(2.0 / (d_model + d_k)))
+        nn.init.normal_(self.conv_vs.weight, mean=0, std=np.sqrt(2.0 / (d_model + d_v)))
+
+        self.attention = MixtureOfSoftMaxACF(n_mix=n_mix, d_k=d_k)
+
+        self.conv = nn.Conv2d(n_head*d_v, d_model, 1, bias=False)
+        self.norm_layer = norm_layer(d_model)
+
+    def forward(self, x):
+        residual = x
+
+        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
+        b_, c_, h_, w_ = x.size()
+
+        if self.pooling:
+            qt = self.conv_ks(x).view(b_*n_head, d_k, h_*w_)
+            kt = self.conv_ks(self.pool(x)).view(b_*n_head, d_k, h_*w_//4)
+            vt = self.conv_vs(self.pool(x)).view(b_*n_head, d_v, h_*w_//4)
+        else:
+            kt = self.conv_ks(x).view(b_*n_head, d_k, h_*w_)
+            qt = kt
+            vt = self.conv_vs(x).view(b_*n_head, d_v, h_*w_)
+
+        output, attn = self.attention(qt, kt, vt)
+
+        output = output.transpose(1, 2).contiguous().view(b_, n_head*d_v, h_, w_)
+
+        output = self.conv(output)
+        if self.concat:
+            output = torch.cat((self.norm_layer(output), residual), 1)
+        else:
+            output = self.norm_layer(output) + residual
+        return output
+
+    def demo(self, x):
+        residual = x
+
+        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
+        b_, c_, h_, w_ = x.size()
+
+        if self.pooling:
+            qt = self.conv_ks(x).view(b_*n_head, d_k, h_*w_)
+            kt = self.conv_ks(self.pool(x)).view(b_*n_head, d_k, h_*w_//4)
+            vt = self.conv_vs(self.pool(x)).view(b_*n_head, d_v, h_*w_//4)
+        else:
+            kt = self.conv_ks(x).view(b_*n_head, d_k, h_*w_)
+            qt = kt
+            vt = self.conv_vs(x).view(b_*n_head, d_v, h_*w_)
+
+        _, attn = self.attention(qt, kt, vt)
+        attn.view(b_, n_head, h_*w_, -1)
+        return attn
+
+    def extra_repr(self):
+        return 'n_head={}, n_mix={}, d_k={}, pooling={}' \
+            .format(self.n_head, self.n_mix, self.d_k, self.pooling)
+
+
+class MixtureOfSoftMaxACF(nn.Module):
+    """"Mixture of SoftMax"""
+    def __init__(self, n_mix, d_k, attn_dropout=0.1):
+        super(MixtureOfSoftMaxACF, self).__init__()
+        self.temperature = np.power(d_k, 0.5)
+        self.n_mix = n_mix
+        self.att_drop = attn_dropout
+        self.dropout = nn.Dropout(attn_dropout)
+        self.softmax1 = nn.Softmax(dim=1)
+        self.softmax2 = nn.Softmax(dim=2)
+        self.d_k = d_k
+        if n_mix > 1:
+            self.weight = nn.Parameter(torch.Tensor(n_mix, d_k))
+            std = np.power(n_mix, -0.5)
+            self.weight.data.uniform_(-std, std)
+
+    def forward(self, qt, kt, vt):
+        B, d_k, N = qt.size()
+        m = self.n_mix
+        assert d_k == self.d_k
+        d = d_k // m
+        if m > 1:
+            # \bar{v} \in R^{B, d_k, 1}
+            bar_qt = torch.mean(qt, 2, True)
+            # pi \in R^{B, m, 1}
+            pi = self.softmax1(torch.matmul(self.weight, bar_qt)).view(B*m, 1, 1)
+        # reshape for n_mix
+        q = qt.view(B*m, d, N).transpose(1, 2)
+        N2 = kt.size(2)
+        kt = kt.view(B*m, d, N2)
+        v = vt.transpose(1, 2)
+        # {Bm, N, N}
+        attn = torch.bmm(q, kt)
+        attn = attn / self.temperature
+        attn = self.softmax2(attn)
+        attn = self.dropout(attn)
+        if m > 1:
+            # attn \in R^{Bm, N, N2} => R^{B, N, N2}
+            attn = (attn * pi).view(B, m, N, N2).sum(1)
+        output = torch.bmm(attn, v)
+        return output, attn
diff --git a/encoding/nn/customize.py b/encoding/nn/customize.py
index 5c3a94c3..ff40faae 100644
--- a/encoding/nn/customize.py
+++ b/encoding/nn/customize.py
@@ -28,8 +28,6 @@ def __init__(self):
     def forward(self, inputs):
         return F.adaptive_avg_pool2d(inputs, 1).view(inputs.size(0), -1)
 
-
-
 class GramMatrix(nn.Module):
     r""" Gram Matrix for a 4D convolutional featuremaps as a mini-batch
 
diff --git a/encoding/nn/dropblock.py b/encoding/nn/dropblock.py
new file mode 100644
index 00000000..714200fa
--- /dev/null
+++ b/encoding/nn/dropblock.py
@@ -0,0 +1,127 @@
+# https://github.com/Randl/MobileNetV3-pytorch/blob/master/dropblock.py
+import torch
+import torch.nn.functional as F
+from torch import nn
+
+__all__ = ['DropBlock2D', 'reset_dropblock']
+
+class DropBlock2D(nn.Module):
+    r"""Randomly zeroes 2D spatial blocks of the input tensor.
+    As described in the paper
+    `DropBlock: A regularization method for convolutional networks`_ ,
+    dropping whole blocks of feature map allows to remove semantic
+    information as compared to regular dropout.
+    Args:
+        drop_prob (float): probability of an element to be dropped.
+        block_size (int): size of the block to drop
+    Shape:
+        - Input: `(N, C, H, W)`
+        - Output: `(N, C, H, W)`
+    .. _DropBlock: A regularization method for convolutional networks:
+       https://arxiv.org/abs/1810.12890
+    """
+
+    def __init__(self, drop_prob, block_size, share_channel=False):
+        super(DropBlock2D, self).__init__()
+        self.register_buffer('i', torch.zeros(1, dtype=torch.int64))
+        self.register_buffer('drop_prob', drop_prob * torch.ones(1, dtype=torch.float32))
+        self.inited = False
+        self.step_size = 0.0
+        self.start_step = 0
+        self.nr_steps = 0
+        self.block_size = block_size
+        self.share_channel = share_channel
+
+    def reset(self):
+        """stop DropBlock"""
+        self.inited = True
+        self.i[0] = 0
+        self.drop_prob = 0.0
+
+    def reset_steps(self, start_step, nr_steps, start_value=0, stop_value=None):
+        self.inited = True
+        stop_value = self.drop_prob.item() if stop_value is None else stop_value
+        self.i[0] = 0
+        self.drop_prob[0] = start_value
+        self.step_size = (stop_value - start_value) / nr_steps
+        self.nr_steps = nr_steps
+        self.start_step = start_step
+
+    def forward(self, x):
+        if not self.training or self.drop_prob.item() == 0.:
+            return x
+        else:
+            self.step()
+
+            # get gamma value
+            gamma = self._compute_gamma(x)
+
+            # sample mask and place on input device
+            if self.share_channel:
+                mask = (torch.rand(x.shape[0], *x.shape[2:], device=x.device, dtype=x.dtype) < gamma).squeeze(1)
+            else:
+                mask = (torch.rand(*x.shape, device=x.device, dtype=x.dtype) < gamma)
+
+            # compute block mask
+            block_mask, keeped = self._compute_block_mask(mask)
+
+            # apply block mask
+            out = x * block_mask
+
+            # scale output
+            out = out * (block_mask.numel() / keeped).to(out)
+            return out
+
+    def _compute_block_mask(self, mask):
+        block_mask = F.max_pool2d(mask,
+                                  kernel_size=(self.block_size, self.block_size),
+                                  stride=(1, 1),
+                                  padding=self.block_size // 2)
+
+        keeped = block_mask.numel() - block_mask.sum().to(torch.float32)
+        block_mask = 1 - block_mask
+
+        return block_mask, keeped
+
+    def _compute_gamma(self, x):
+        _, c, h, w = x.size()
+        gamma = self.drop_prob.item() / (self.block_size ** 2) * (h * w) / \
+            ((w - self.block_size + 1) * (h - self.block_size + 1))
+        return gamma
+
+    def step(self):
+        assert self.inited
+        idx = self.i.item()
+        if idx > self.start_step and idx < self.start_step + self.nr_steps:
+            self.drop_prob += self.step_size
+        self.i += 1
+
+    def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict,
+                              missing_keys, unexpected_keys, error_msgs):
+        idx_key = prefix + 'i'
+        drop_prob_key = prefix + 'drop_prob'
+        if idx_key not in state_dict:
+            state_dict[idx_key] =  torch.zeros(1, dtype=torch.int64)
+        if idx_key not in drop_prob_key:
+            state_dict[drop_prob_key] =  torch.ones(1, dtype=torch.float32)
+        super(DropBlock2D, self)._load_from_state_dict(
+            state_dict, prefix, local_metadata, strict,
+            missing_keys, unexpected_keys, error_msgs)
+
+    def _save_to_state_dict(self, destination, prefix, keep_vars):
+        """overwrite save method"""
+        pass
+
+    def extra_repr(self):
+        return 'drop_prob={}, step_size={}'.format(self.drop_prob, self.step_size)
+
+def reset_dropblock(start_step, nr_steps, start_value, stop_value, m):
+    """
+    Example:
+        from functools import partial
+        apply_drop_prob = partial(reset_dropblock, 0, epochs*iters_per_epoch, 0.0, 0.1)
+        net.apply(apply_drop_prob)
+    """
+    if isinstance(m, DropBlock2D):
+        print('reseting dropblock')
+        m.reset_steps(start_step, nr_steps, start_value, stop_value)
diff --git a/encoding/nn/encoding.py b/encoding/nn/encoding.py
index be550897..3495430d 100644
--- a/encoding/nn/encoding.py
+++ b/encoding/nn/encoding.py
@@ -17,7 +17,8 @@
 
 from ..functions import scaled_l2, aggregate, pairwise_cosine
 
-__all__ = ['Encoding', 'EncodingDrop', 'Inspiration', 'UpsampleConv2d']
+__all__ = ['Encoding', 'EncodingDrop', 'Inspiration', 'UpsampleConv2d',
+           'EncodingCosine']
 
 class Encoding(Module):
     r"""
@@ -304,3 +305,43 @@ def forward(self, input):
         out = F.conv2d(input, self.weight, self.bias, self.stride,
                        self.padding, self.dilation, self.groups)
         return F.pixel_shuffle(out, self.scale_factor)
+
+# Experimental
+class EncodingCosine(Module):
+    def __init__(self, D, K):
+        super(EncodingCosine, self).__init__()
+        # init codewords and smoothing factor
+        self.D, self.K = D, K
+        self.codewords = Parameter(torch.Tensor(K, D), requires_grad=True)
+        #self.scale = Parameter(torch.Tensor(K), requires_grad=True)
+        self.reset_params()
+
+    def reset_params(self):
+        std1 = 1./((self.K*self.D)**(1/2))
+        self.codewords.data.uniform_(-std1, std1)
+        #self.scale.data.uniform_(-1, 0)
+
+    def forward(self, X):
+        # input X is a 4D tensor
+        assert(X.size(1) == self.D)
+        if X.dim() == 3:
+            # BxDxN
+            B, D = X.size(0), self.D
+            X = X.transpose(1, 2).contiguous()
+        elif X.dim() == 4:
+            # BxDxHxW
+            B, D = X.size(0), self.D
+            X = X.view(B, D, -1).transpose(1, 2).contiguous()
+        else:
+            raise RuntimeError('Encoding Layer unknown input dims!')
+        # assignment weights NxKxD
+        L = pairwise_cosine(X, self.codewords)
+        A = F.softmax(L, dim=2)
+        # aggregate
+        E = aggregate(A, X, self.codewords)
+        return E
+
+    def __repr__(self):
+        return self.__class__.__name__ + '(' \
+            + 'N x ' + str(self.D) + '=>' + str(self.K) + 'x' \
+            + str(self.D) + ')'
diff --git a/encoding/nn/loss.py b/encoding/nn/loss.py
index a84f18f9..5be2b9d4 100644
--- a/encoding/nn/loss.py
+++ b/encoding/nn/loss.py
@@ -2,128 +2,60 @@
 import torch.nn.functional as F
 import torch.nn as nn
 from torch.autograd import Variable
-import numpy as np
-__all__ = ['SegmentationLosses', 'OhemCrossEntropy2d', 'OHEMSegmentationLosses']
 
-class SegmentationLosses(nn.CrossEntropyLoss):
-    """2D Cross Entropy Loss with Auxilary Loss"""
-    def __init__(self, se_loss=False, se_weight=0.2, nclass=-1,
-                 aux=False, aux_weight=0.4, weight=None,
-                 ignore_index=-1):
-        super(SegmentationLosses, self).__init__(weight, None, ignore_index)
-        self.se_loss = se_loss
-        self.aux = aux
-        self.nclass = nclass
-        self.se_weight = se_weight
-        self.aux_weight = aux_weight
-        self.bceloss = nn.BCELoss(weight) 
-
-    def forward(self, *inputs):
-        if not self.se_loss and not self.aux:
-            return super(SegmentationLosses, self).forward(*inputs)
-        elif not self.se_loss:
-            pred1, pred2, target = tuple(inputs)
-            loss1 = super(SegmentationLosses, self).forward(pred1, target)
-            loss2 = super(SegmentationLosses, self).forward(pred2, target)
-            return loss1 + self.aux_weight * loss2
-        elif not self.aux:
-            pred, se_pred, target = tuple(inputs)
-            se_target = self._get_batch_label_vector(target, nclass=self.nclass).type_as(pred)
-            loss1 = super(SegmentationLosses, self).forward(pred, target)
-            loss2 = self.bceloss(torch.sigmoid(se_pred), se_target)
-            return loss1 + self.se_weight * loss2
-        else:
-            pred1, se_pred, pred2, target = tuple(inputs)
-            se_target = self._get_batch_label_vector(target, nclass=self.nclass).type_as(pred1)
-            loss1 = super(SegmentationLosses, self).forward(pred1, target)
-            loss2 = super(SegmentationLosses, self).forward(pred2, target)
-            loss3 = self.bceloss(torch.sigmoid(se_pred), se_target)
-            return loss1 + self.aux_weight * loss2 + self.se_weight * loss3
+__all__ = ['LabelSmoothing', 'NLLMultiLabelSmooth', 'SegmentationLosses']
 
-    @staticmethod
-    def _get_batch_label_vector(target, nclass):
-        # target is a 3D Variable BxHxW, output is 2D BxnClass
-        batch = target.size(0)
-        tvect = Variable(torch.zeros(batch, nclass))
-        for i in range(batch):
-            hist = torch.histc(target[i].cpu().data.float(), 
-                               bins=nclass, min=0,
-                               max=nclass-1)
-            vect = hist>0
-            tvect[i] = vect
-        return tvect
-
-# adapted from https://github.com/PkuRainBow/OCNet/blob/master/utils/loss.py
-class OhemCrossEntropy2d(nn.Module):
-    def __init__(self, ignore_label=-1, thresh=0.7, min_kept=100000, use_weight=True):
-        super(OhemCrossEntropy2d, self).__init__()
-        self.ignore_label = ignore_label
-        self.thresh = float(thresh)
-        self.min_kept = int(min_kept)
-        if use_weight:
-            print("w/ class balance")
-            weight = torch.FloatTensor([0.8373, 0.918, 0.866, 1.0345, 1.0166, 0.9969, 0.9754,
-                1.0489, 0.8786, 1.0023, 0.9539, 0.9843, 1.1116, 0.9037, 1.0865, 1.0955,
-                1.0865, 1.1529, 1.0507])
-            self.criterion = torch.nn.CrossEntropyLoss(weight=weight, ignore_index=ignore_label)
-        else:
-            print("w/o class balance")
-            self.criterion = torch.nn.CrossEntropyLoss(ignore_index=ignore_label)
-
-    def forward(self, predict, target, weight=None):
+class LabelSmoothing(nn.Module):
+    """
+    NLL loss with label smoothing.
+    """
+    def __init__(self, smoothing=0.1):
         """
-        Args:
-            predict:(n, c, h, w)
-            target:(n, h, w)
-            weight (Tensor, optional): a manual rescaling weight given to each class.
-                                       If given, has to be a Tensor of size "nclasses"
+        Constructor for the LabelSmoothing module.
+        :param smoothing: label smoothing factor
         """
-        assert not target.requires_grad
-        assert predict.dim() == 4
-        assert target.dim() == 3
-        assert predict.size(0) == target.size(0), "{0} vs {1} ".format(predict.size(0), target.size(0))
-        assert predict.size(2) == target.size(1), "{0} vs {1} ".format(predict.size(2), target.size(1))
-        assert predict.size(3) == target.size(2), "{0} vs {1} ".format(predict.size(3), target.size(3))
+        super(LabelSmoothing, self).__init__()
+        self.confidence = 1.0 - smoothing
+        self.smoothing = smoothing
 
-        n, c, h, w = predict.size()
-        input_label = target.data.cpu().numpy().ravel().astype(np.int32)
-        x = np.rollaxis(predict.data.cpu().numpy(), 1).reshape((c, -1))
-        input_prob = np.exp(x - x.max(axis=0).reshape((1, -1)))
-        input_prob /= input_prob.sum(axis=0).reshape((1, -1))
+    def forward(self, x, target):
+        logprobs = torch.nn.functional.log_softmax(x, dim=-1)
 
-        valid_flag = input_label != self.ignore_label
-        valid_inds = np.where(valid_flag)[0]
-        label = input_label[valid_flag]
-        num_valid = valid_flag.sum()
-        if self.min_kept >= num_valid:
-            print('Labels: {}'.format(num_valid))
-        elif num_valid > 0:
-            prob = input_prob[:,valid_flag]
-            pred = prob[label, np.arange(len(label), dtype=np.int32)]
-            threshold = self.thresh
-            if self.min_kept > 0:
-                index = pred.argsort()
-                threshold_index = index[ min(len(index), self.min_kept) - 1 ]
-                if pred[threshold_index] > self.thresh:
-                    threshold = pred[threshold_index]
-            kept_flag = pred <= threshold
-            valid_inds = valid_inds[kept_flag]
+        nll_loss = -logprobs.gather(dim=-1, index=target.unsqueeze(1))
+        nll_loss = nll_loss.squeeze(1)
+        smooth_loss = -logprobs.mean(dim=-1)
+        loss = self.confidence * nll_loss + self.smoothing * smooth_loss
+        return loss.mean()
 
-        label = input_label[valid_inds].copy()
-        input_label.fill(self.ignore_label)
-        input_label[valid_inds] = label
-        valid_flag_new = input_label != self.ignore_label
-        # print(np.sum(valid_flag_new))
-        target = Variable(torch.from_numpy(input_label.reshape(target.size())).long().cuda())
+class NLLMultiLabelSmooth(nn.Module):
+    def __init__(self, smoothing = 0.1):
+        super(NLLMultiLabelSmooth, self).__init__()
+        self.confidence = 1.0 - smoothing
+        self.smoothing = smoothing
 
-        return self.criterion(predict, target)
+    def forward(self, x, target):
+        if self.training:
+            x = x.float()
+            target = target.float()
+            logprobs = torch.nn.functional.log_softmax(x, dim = -1)
+    
+            nll_loss = -logprobs * target
+            nll_loss = nll_loss.sum(-1)
+    
+            smooth_loss = -logprobs.mean(dim=-1)
+    
+            loss = self.confidence * nll_loss + self.smoothing * smooth_loss
+    
+            return loss.mean()
+        else:
+            return torch.nn.functional.cross_entropy(x, target)
 
-class OHEMSegmentationLosses(OhemCrossEntropy2d):
+class SegmentationLosses(nn.CrossEntropyLoss):
     """2D Cross Entropy Loss with Auxilary Loss"""
     def __init__(self, se_loss=False, se_weight=0.2, nclass=-1,
                  aux=False, aux_weight=0.4, weight=None,
                  ignore_index=-1):
-        super(OHEMSegmentationLosses, self).__init__(ignore_index)
+        super(SegmentationLosses, self).__init__(weight, None, ignore_index)
         self.se_loss = se_loss
         self.aux = aux
         self.nclass = nclass
@@ -133,23 +65,23 @@ def __init__(self, se_loss=False, se_weight=0.2, nclass=-1,
 
     def forward(self, *inputs):
         if not self.se_loss and not self.aux:
-            return super(OHEMSegmentationLosses, self).forward(*inputs)
+            return super(SegmentationLosses, self).forward(*inputs)
         elif not self.se_loss:
             pred1, pred2, target = tuple(inputs)
-            loss1 = super(OHEMSegmentationLosses, self).forward(pred1, target)
-            loss2 = super(OHEMSegmentationLosses, self).forward(pred2, target)
+            loss1 = super(SegmentationLosses, self).forward(pred1, target)
+            loss2 = super(SegmentationLosses, self).forward(pred2, target)
             return loss1 + self.aux_weight * loss2
         elif not self.aux:
             pred, se_pred, target = tuple(inputs)
             se_target = self._get_batch_label_vector(target, nclass=self.nclass).type_as(pred)
-            loss1 = super(OHEMSegmentationLosses, self).forward(pred, target)
+            loss1 = super(SegmentationLosses, self).forward(pred, target)
             loss2 = self.bceloss(torch.sigmoid(se_pred), se_target)
             return loss1 + self.se_weight * loss2
         else:
             pred1, se_pred, pred2, target = tuple(inputs)
             se_target = self._get_batch_label_vector(target, nclass=self.nclass).type_as(pred1)
-            loss1 = super(OHEMSegmentationLosses, self).forward(pred1, target)
-            loss2 = super(OHEMSegmentationLosses, self).forward(pred2, target)
+            loss1 = super(SegmentationLosses, self).forward(pred1, target)
+            loss2 = super(SegmentationLosses, self).forward(pred2, target)
             loss3 = self.bceloss(torch.sigmoid(se_pred), se_target)
             return loss1 + self.aux_weight * loss2 + self.se_weight * loss3
 
diff --git a/encoding/nn/rectify.py b/encoding/nn/rectify.py
new file mode 100644
index 00000000..319b69f9
--- /dev/null
+++ b/encoding/nn/rectify.py
@@ -0,0 +1,58 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+
+"""Rectify Module"""
+import warnings
+
+import torch
+from torch.nn import Conv2d
+import torch.nn.functional as F
+from torch.nn.modules.utils import _pair
+
+from ..functions import rectify
+
+__all__ = ['RFConv2d']
+
+
+class RFConv2d(Conv2d):
+    """Rectified Convolution
+    """
+    def __init__(self, in_channels, out_channels, kernel_size, stride=1,
+                 padding=0, dilation=1, groups=1,
+                 bias=True, padding_mode='zeros',
+                 average_mode=False):
+        kernel_size = _pair(kernel_size)
+        stride = _pair(stride)
+        padding = _pair(padding)
+        dilation = _pair(dilation)
+        self.rectify = average_mode or (padding[0] > 0 or padding[1] > 0)
+        self.average = average_mode
+
+        super(RFConv2d, self).__init__(
+                 in_channels, out_channels, kernel_size, stride=stride,
+                 padding=padding, dilation=dilation, groups=groups,
+                 bias=bias, padding_mode=padding_mode)
+
+    def _conv_forward(self, input, weight):
+        if self.padding_mode != 'zeros':
+            return F.conv2d(F.pad(input, self._padding_repeated_twice, mode=self.padding_mode),
+                            weight, self.bias, self.stride,
+                            _pair(0), self.dilation, self.groups)
+        return F.conv2d(input, weight, self.bias, self.stride,
+                        self.padding, self.dilation, self.groups)
+
+    def forward(self, input):
+        output = self._conv_forward(input, self.weight)
+        if self.rectify:
+            output = rectify(output, input, self.kernel_size, self.stride,
+                             self.padding, self.dilation, self.average)
+        return output
+
+    def extra_repr(self):
+        return super().extra_repr() + ', rectify={}, average_mode={}'. \
+            format(self.rectify, self.average)
diff --git a/encoding/nn/splat.py b/encoding/nn/splat.py
new file mode 100644
index 00000000..e675108b
--- /dev/null
+++ b/encoding/nn/splat.py
@@ -0,0 +1,78 @@
+"""Split-Attention"""
+
+import torch
+from torch import nn
+import torch.nn.functional as F
+from torch.nn import Conv2d, Module, Linear, BatchNorm2d, ReLU
+from torch.nn.modules.utils import _pair
+
+from ..nn import RFConv2d
+from .dropblock import DropBlock2D
+
+__all__ = ['SKConv2d']
+
+class SplAtConv2d(Module):
+    """Split-Attention Conv2d
+    """
+    def __init__(self, in_channels, channels, kernel_size, stride=(1, 1), padding=(0, 0),
+                 dilation=(1, 1), groups=1, bias=True,
+                 radix=2, reduction_factor=4,
+                 rectify=False, rectify_avg=False, norm_layer=None,
+                 dropblock_prob=0.0, **kwargs):
+        super(SplAtConv2d, self).__init__()
+        padding = _pair(padding)
+        self.rectify = rectify and (padding[0] > 0 or padding[1] > 0)
+        self.rectify_avg = rectify_avg
+        inter_channels = max(in_channels*radix//reduction_factor, 32)
+        self.radix = radix
+        self.cardinality = groups
+        self.channels = channels
+        self.dropblock_prob = dropblock_prob
+        if self.rectify:
+            self.conv = RFConv2d(in_channels, channels*radix, kernel_size, stride, padding, dilation,
+                                 groups=groups*radix, bias=bias, average_mode=rectify_avg, **kwargs)
+        else:
+            self.conv = Conv2d(in_channels, channels*radix, kernel_size, stride, padding, dilation,
+                               groups=groups*radix, bias=bias, **kwargs)
+        self.use_bn = norm_layer is not None
+        self.bn0 = norm_layer(channels*radix)
+        self.relu = ReLU(inplace=True)
+        self.fc1 = Conv2d(channels, inter_channels, 1, groups=self.cardinality)
+        self.bn1 = norm_layer(inter_channels)
+        self.fc2 = Conv2d(inter_channels, channels*radix, 1, groups=self.cardinality)
+        if dropblock_prob > 0.0:
+            self.dropblock = DropBlock2D(dropblock_prob, 3)
+
+    def forward(self, x):
+        x = self.conv(x)
+        if self.use_bn:
+            x = self.bn0(x)
+        if self.dropblock_prob > 0.0:
+            x = self.dropblock(x)
+        x = self.relu(x)
+
+        batch, channel = x.shape[:2]
+        if self.radix > 1:
+            splited = torch.split(x, channel//self.radix, dim=1)
+            gap = sum(splited) 
+        else:
+            gap = x
+        gap = F.adaptive_avg_pool2d(gap, 1)
+        gap = self.fc1(gap)
+
+        if self.use_bn:
+            gap = self.bn1(gap)
+        gap = self.relu(gap)
+
+        atten = self.fc2(gap).view((batch, self.radix, self.channels))
+        if self.radix > 1:
+            atten = F.softmax(atten, dim=1).view(batch, -1, 1, 1)
+        else:
+            atten = F.sigmoid(atten, dim=1).view(batch, -1, 1, 1)
+
+        if self.radix > 1:
+            atten = torch.split(atten, channel//self.radix, dim=1)
+            out = sum([att*split for (att, split) in zip(atten, splited)])
+        else:
+            out = atten * x
+        return out.contiguous()
diff --git a/encoding/nn/syncbn.py b/encoding/nn/syncbn.py
index be76b6d0..785db120 100644
--- a/encoding/nn/syncbn.py
+++ b/encoding/nn/syncbn.py
@@ -22,10 +22,9 @@
 from ..functions import *
 
 
-__all__ = ['SyncBatchNorm', 'BatchNorm1d', 'BatchNorm2d', 'BatchNorm3d']
+__all__ = ['DistSyncBatchNorm', 'SyncBatchNorm', 'BatchNorm1d', 'BatchNorm2d', 'BatchNorm3d']
 
-
-class SyncBatchNorm(_BatchNorm):
+class DistSyncBatchNorm(_BatchNorm):
     r"""Cross-GPU Synchronized Batch normalization (SyncBN)
 
     Standard BN [1]_ implementation only normalize the data within each device (GPU).
@@ -71,10 +70,86 @@ class SyncBatchNorm(_BatchNorm):
         .. [1] Ioffe, Sergey, and Christian Szegedy. "Batch normalization: Accelerating deep network training by reducing internal covariate shift." *ICML 2015*
         .. [2] Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, and Amit Agrawal. "Context Encoding for Semantic Segmentation." *CVPR 2018*
 
+    Examples:
+        >>> m = DistSyncBatchNorm(100)
+        >>> net = torch.nn.parallel.DistributedDataParallel(m)
+        >>> output = net(input)
+    """
+    def __init__(self, num_features, eps=1e-5, momentum=0.1, process_group=None):
+        super(DistSyncBatchNorm, self).__init__(num_features, eps=eps, momentum=momentum, affine=True, track_running_stats=True)
+        self.process_group = process_group
+
+    def forward(self, x):
+        need_sync = self.training or not self.track_running_stats
+        process_group = None
+        if need_sync:
+            process_group = torch.distributed.group.WORLD
+            if self.process_group:
+                process_group = self.process_group
+            world_size = torch.distributed.get_world_size(process_group)
+            need_sync = world_size > 1
+
+        # Resize the input to (B, C, -1).
+        input_shape = x.size()
+        x = x.view(input_shape[0], self.num_features, -1)
+        #def forward(ctx, x, gamma, beta, running_mean, running_var, eps, momentum, training, process_group):
+        y = dist_syncbatchnorm(x, self.weight, self.bias, self.running_mean, self.running_var,
+                               self.eps, self.momentum, self.training, process_group)
+
+        #_var = _exs - _ex ** 2
+        #running_mean.mul_((1 - ctx.momentum)).add_(ctx.momentum * _ex)
+        #running_var.mul_((1 - ctx.momentum)).add_(ctx.momentum * _var)
+        return y.view(input_shape)
+
+
+class SyncBatchNorm(_BatchNorm):
+    r"""Cross-GPU Synchronized Batch normalization (SyncBN)
+
+    Standard BN [1]_ implementation only normalize the data within each device (GPU).
+    SyncBN normalizes the input within the whole mini-batch.
+    We follow the sync-onece implmentation described in the paper [2]_ .
+    Please see the design idea in the `notes <./notes/syncbn.html>`_.
+
+    .. math::
+
+        y = \frac{x - mean[x]}{ \sqrt{Var[x] + \epsilon}} * gamma + beta
+
+    The mean and standard-deviation are calculated per-channel over
+    the mini-batches and gamma and beta are learnable parameter vectors
+    of size C (where C is the input size).
+
+    During training, this layer keeps a running estimate of its computed mean
+    and variance. The running sum is kept with a default momentum of 0.1.
+
+    During evaluation, this running mean/variance is used for normalization.
+
+    Because the BatchNorm is done over the `C` dimension, computing statistics
+    on `(N, H, W)` slices, it's common terminology to call this Spatial BatchNorm
+
+    Args:
+        num_features: num_features from an expected input of
+            size batch_size x num_features x height x width
+        eps: a value added to the denominator for numerical stability.
+            Default: 1e-5
+        momentum: the value used for the running_mean and running_var
+            computation. Default: 0.1
+        sync: a boolean value that when set to ``True``, synchronize across
+            different gpus. Default: ``True``
+        activation : str
+            Name of the activation functions, one of: `leaky_relu` or `none`.
+        slope : float
+            Negative slope for the `leaky_relu` activation.
+
+    Shape:
+        - Input: :math:`(N, C, H, W)`
+        - Output: :math:`(N, C, H, W)` (same shape as input)
+
     Examples:
         >>> m = SyncBatchNorm(100)
         >>> net = torch.nn.DataParallel(m)
         >>> output = net(input)
+        >>> # for Inpace ABN
+        >>> ABN = partial(SyncBatchNorm, activation='leaky_relu', slope=0.01, sync=True, inplace=True)
     """
 
     def __init__(self, num_features, eps=1e-5, momentum=0.1, sync=True, activation="none", slope=0.01,
diff --git a/encoding/transforms/__init__.py b/encoding/transforms/__init__.py
index 77521cb9..ec8582b9 100644
--- a/encoding/transforms/__init__.py
+++ b/encoding/transforms/__init__.py
@@ -1,89 +1,2 @@
-import torch
-from torchvision.transforms import *
-
-def get_transform(dataset, large_test_crop=False):
-    normalize = Normalize(mean=[0.485, 0.456, 0.406],
-                          std=[0.229, 0.224, 0.225])
-    if dataset == 'imagenet':
-        transform_train = Compose([
-            Resize(256),
-            RandomResizedCrop(224),
-            RandomHorizontalFlip(),
-            ColorJitter(0.4, 0.4, 0.4),
-            ToTensor(),
-            Lighting(0.1, _imagenet_pca['eigval'], _imagenet_pca['eigvec']),
-            normalize,
-        ])
-        if large_test_crop:
-            transform_val = Compose([
-                Resize(366),
-                CenterCrop(320),
-                ToTensor(),
-                normalize,
-            ])
-        else:
-            transform_val = Compose([
-                Resize(256),
-                CenterCrop(224),
-                ToTensor(),
-                normalize,
-            ])
-    elif dataset == 'minc':
-        transform_train = Compose([
-            Resize(256),
-            RandomResizedCrop(224),
-            RandomHorizontalFlip(),
-            ColorJitter(0.4, 0.4, 0.4),
-            ToTensor(),
-            Lighting(0.1, _imagenet_pca['eigval'], _imagenet_pca['eigvec']),
-            normalize,
-        ])
-        transform_val = Compose([
-            Resize(256),
-            CenterCrop(224),
-            ToTensor(),
-            normalize,
-        ])
-    elif dataset == 'cifar10':
-        transform_train = transforms.Compose([
-            transforms.RandomCrop(32, padding=4),
-            transforms.RandomHorizontalFlip(),
-            transforms.ToTensor(),
-            transforms.Normalize((0.4914, 0.4822, 0.4465), 
-                                 (0.2023, 0.1994, 0.2010)),
-        ])
-        transform_val = transforms.Compose([
-            transforms.ToTensor(),
-            transforms.Normalize((0.4914, 0.4822, 0.4465), 
-                    (0.2023, 0.1994, 0.2010)),
-        ])
-    return transform_train, transform_val
-
-_imagenet_pca = {
-    'eigval': torch.Tensor([0.2175, 0.0188, 0.0045]),
-    'eigvec': torch.Tensor([
-        [-0.5675,  0.7192,  0.4009],
-        [-0.5808, -0.0045, -0.8140],
-        [-0.5836, -0.6948,  0.4203],
-    ])
-}
-
-class Lighting(object):
-    """Lighting noise(AlexNet - style PCA - based noise)"""
-
-    def __init__(self, alphastd, eigval, eigvec):
-        self.alphastd = alphastd
-        self.eigval = eigval
-        self.eigvec = eigvec
-
-    def __call__(self, img):
-        if self.alphastd == 0:
-            return img
-
-        alpha = img.new().resize_(3).normal_(0, self.alphastd)
-        rgb = self.eigvec.type_as(img).clone()\
-            .mul(alpha.view(1, 3).expand(3, 3))\
-            .mul(self.eigval.view(1, 3).expand(3, 3))\
-            .sum(1).squeeze()
-
-        return img.add(rgb.view(3, 1, 1).expand_as(img))
+from .transforms import *
+from .get_transform import get_transform
diff --git a/encoding/transforms/autoaug.py b/encoding/transforms/autoaug.py
new file mode 100644
index 00000000..9c9fa693
--- /dev/null
+++ b/encoding/transforms/autoaug.py
@@ -0,0 +1,197 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+# code adapted from:
+# https://github.com/kakaobrain/fast-autoaugment
+# https://github.com/rpmcruz/autoaugment
+import math
+import random
+
+import numpy as np
+from collections import defaultdict
+import PIL, PIL.ImageOps, PIL.ImageEnhance, PIL.ImageDraw
+
+RESAMPLE_MODE=PIL.Image.BICUBIC#PIL.Image.BILINEAR#
+
+RANDOM_MIRROR = True
+
+def ShearX(img, v, resample=RESAMPLE_MODE):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if RANDOM_MIRROR and random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0),
+                         resample=resample)
+
+def ShearY(img, v, resample=RESAMPLE_MODE):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if RANDOM_MIRROR and random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0),
+                         resample=resample)
+
+
+def TranslateX(img, v, resample=RESAMPLE_MODE):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if RANDOM_MIRROR and random.random() > 0.5:
+        v = -v
+    v = v * img.size[0]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0),
+                         resample=resample)
+
+
+def TranslateY(img, v, resample=RESAMPLE_MODE):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if RANDOM_MIRROR and random.random() > 0.5:
+        v = -v
+    v = v * img.size[1]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v),
+                         resample=resample)
+
+
+def TranslateXabs(img, v, resample=RESAMPLE_MODE):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0),
+                         resample=resample)
+
+
+def TranslateYabs(img, v, resample=RESAMPLE_MODE):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v),
+                         resample=resample)
+
+
+def Rotate(img, v):  # [-30, 30]
+    assert -30 <= v <= 30
+    if RANDOM_MIRROR and random.random() > 0.5:
+        v = -v
+    return img.rotate(v)
+
+
+def AutoContrast(img, _):
+    return PIL.ImageOps.autocontrast(img)
+
+
+def Invert(img, _):
+    return PIL.ImageOps.invert(img)
+
+
+def Equalize(img, _):
+    return PIL.ImageOps.equalize(img)
+
+
+def Flip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+
+def Solarize(img, v):  # [0, 256]
+    assert 0 <= v <= 256
+    return PIL.ImageOps.solarize(img, v)
+
+
+def SolarizeAdd(img, addition=0, threshold=128):
+    img_np = np.array(img).astype(np.int)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = PIL.Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+
+
+def Posterize(img, v):  # [4, 8]
+    #assert 4 <= v <= 8
+    v = int(v)
+    return PIL.ImageOps.posterize(img, v)
+
+def Contrast(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+
+def Color(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+
+def Brightness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+
+def Sharpness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+
+def CutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+
+
+def Cutout(img, v):  # [0, 60] => percentage: [0, 0.2]
+    assert 0.0 <= v <= 0.2
+    if v <= 0.:
+        return img
+
+    v = v * img.size[0]
+    return CutoutAbs(img, v)
+
+def rand_augment_list():  # 16 oeprations and their ranges
+    l = [
+        (AutoContrast, 0, 1),
+        (Equalize, 0, 1),
+        (Invert, 0, 1),
+        (Rotate, 0, 30),
+        (Posterize, 0, 4),
+        (Solarize, 0, 256),
+        (SolarizeAdd, 0, 110),
+        (Color, 0.1, 1.9),
+        (Contrast, 0.1, 1.9),
+        (Brightness, 0.1, 1.9),
+        (Sharpness, 0.1, 1.9),
+        (ShearX, 0., 0.3),
+        (ShearY, 0., 0.3),
+        (CutoutAbs, 0, 40),
+        (TranslateXabs, 0., 100),
+        (TranslateYabs, 0., 100),
+    ]
+
+    return l
+
+class RandAugment(object):
+    def __init__(self, n, m):
+        self.n = n
+        self.m = m
+        self.augment_list = rand_augment_list()
+
+    def __call__(self, img):
+        ops = random.choices(self.augment_list, k=self.n)
+        for op, minval, maxval in ops:
+            if random.random() > random.uniform(0.2, 0.8):
+                continue
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            img = op(img, val)
+        return img
diff --git a/encoding/transforms/get_transform.py b/encoding/transforms/get_transform.py
new file mode 100644
index 00000000..34f05e78
--- /dev/null
+++ b/encoding/transforms/get_transform.py
@@ -0,0 +1,89 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+import torch
+from torchvision.transforms import *
+from .transforms import *
+
+def get_transform(dataset, base_size=None, crop_size=224, rand_aug=False, etrans=True, **kwargs):
+    normalize = Normalize(mean=[0.485, 0.456, 0.406],
+                          std=[0.229, 0.224, 0.225])
+    base_size = base_size if base_size is not None else int(1.0 * crop_size / 0.875)
+    if dataset == 'imagenet':
+        train_transforms = []
+        val_transforms = []
+        if rand_aug:
+            from .autoaug import RandAugment
+            train_transforms.append(RandAugment(2, 12))
+        if etrans:
+            train_transforms.extend([
+                ERandomCrop(crop_size),
+            ])
+            val_transforms.extend([
+                ECenterCrop(crop_size),
+            ])
+            
+        else:
+            train_transforms.extend([
+                RandomResizedCrop(crop_size),
+            ])
+            val_transforms.extend([
+                Resize(base_size),
+                CenterCrop(crop_size),
+            ])
+        train_transforms.extend([
+                RandomHorizontalFlip(),
+            ColorJitter(0.4, 0.4, 0.4),
+            ToTensor(),
+            Lighting(0.1, _imagenet_pca['eigval'], _imagenet_pca['eigvec']),
+            normalize,
+        ])
+        val_transforms.extend([
+            ToTensor(),
+            normalize,
+        ])
+        transform_train = Compose(train_transforms)
+        transform_val = Compose(val_transforms)
+    elif dataset == 'minc':
+        transform_train = Compose([
+            Resize(base_size),
+            RandomResizedCrop(crop_size),
+            RandomHorizontalFlip(),
+            ColorJitter(0.4, 0.4, 0.4),
+            ToTensor(),
+            Lighting(0.1, _imagenet_pca['eigval'], _imagenet_pca['eigvec']),
+            normalize,
+        ])
+        transform_val = Compose([
+            Resize(base_size),
+            CenterCrop(crop_size),
+            ToTensor(),
+            normalize,
+        ])
+    elif dataset == 'cifar10':
+        transform_train = transforms.Compose([
+            transforms.RandomCrop(32, padding=4),
+            transforms.RandomHorizontalFlip(),
+            transforms.ToTensor(),
+            transforms.Normalize((0.4914, 0.4822, 0.4465), 
+                                 (0.2023, 0.1994, 0.2010)),
+        ])
+        transform_val = transforms.Compose([
+            transforms.ToTensor(),
+            transforms.Normalize((0.4914, 0.4822, 0.4465), 
+                    (0.2023, 0.1994, 0.2010)),
+        ])
+    return transform_train, transform_val
+
+_imagenet_pca = {
+    'eigval': torch.Tensor([0.2175, 0.0188, 0.0045]),
+    'eigvec': torch.Tensor([
+        [-0.5675,  0.7192,  0.4009],
+        [-0.5808, -0.0045, -0.8140],
+        [-0.5836, -0.6948,  0.4203],
+    ])
+}
diff --git a/encoding/transforms/transforms.py b/encoding/transforms/transforms.py
new file mode 100644
index 00000000..dc5d11e4
--- /dev/null
+++ b/encoding/transforms/transforms.py
@@ -0,0 +1,120 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+import math
+import random
+
+from PIL import Image
+from torchvision.transforms import Resize
+
+__all__ = ['Lighting', 'ERandomCrop', 'ECenterCrop']
+
+class Lighting(object):
+    """Lighting noise(AlexNet - style PCA - based noise)"""
+
+    def __init__(self, alphastd, eigval, eigvec):
+        self.alphastd = alphastd
+        self.eigval = eigval
+        self.eigvec = eigvec
+
+    def __call__(self, img):
+        if self.alphastd == 0:
+            return img
+
+        alpha = img.new().resize_(3).normal_(0, self.alphastd)
+        rgb = self.eigvec.type_as(img).clone()\
+            .mul(alpha.view(1, 3).expand(3, 3))\
+            .mul(self.eigval.view(1, 3).expand(3, 3))\
+            .sum(1).squeeze()
+
+        return img.add(rgb.view(3, 1, 1).expand_as(img))
+
+
+#https://github.com/kakaobrain/fast-autoaugment/blob/master/FastAutoAugment/data.py
+class ERandomCrop:
+    def __init__(self, imgsize, min_covered=0.1, aspect_ratio_range=(3./4, 4./3),
+                 area_range=(0.1, 1.0), max_attempts=10):
+        assert 0.0 < min_covered
+        assert 0 < aspect_ratio_range[0] <= aspect_ratio_range[1]
+        assert 0 < area_range[0] <= area_range[1]
+        assert 1 <= max_attempts
+
+        self.imgsize = imgsize
+        self.min_covered = min_covered
+        self.aspect_ratio_range = aspect_ratio_range
+        self.area_range = area_range
+        self.max_attempts = max_attempts
+        self._fallback = ECenterCrop(imgsize)
+        self.resize_method = Resize((imgsize, imgsize), interpolation=Image.BICUBIC)
+
+    def __call__(self, img):
+        original_width, original_height = img.size
+        min_area = self.area_range[0] * (original_width * original_height)
+        max_area = self.area_range[1] * (original_width * original_height)
+
+        for _ in range(self.max_attempts):
+            aspect_ratio = random.uniform(*self.aspect_ratio_range)
+            height = int(round(math.sqrt(min_area / aspect_ratio)))
+            max_height = int(round(math.sqrt(max_area / aspect_ratio)))
+
+            if max_height * aspect_ratio > original_width:
+                max_height = (original_width + 0.5 - 1e-7) / aspect_ratio
+                max_height = int(max_height)
+                if max_height * aspect_ratio > original_width:
+                    max_height -= 1
+
+            if max_height > original_height:
+                max_height = original_height
+
+            if height >= max_height:
+                height = max_height
+
+            height = int(round(random.uniform(height, max_height)))
+            width = int(round(height * aspect_ratio))
+            area = width * height
+
+            if area < min_area or area > max_area:
+                continue
+            if width > original_width or height > original_height:
+                continue
+            if area < self.min_covered * (original_width * original_height):
+                continue
+            if width == original_width and height == original_height:
+                return self._fallback(img)
+
+            x = random.randint(0, original_width - width)
+            y = random.randint(0, original_height - height)
+            img = img.crop((x, y, x + width, y + height))
+            return self.resize_method(img)
+
+        return self._fallback(img)
+
+
+class ECenterCrop:
+    """Crop the given PIL Image and resize it to desired size.
+    Args:
+        img (PIL Image): Image to be cropped. (0,0) denotes the top left corner of the image.
+        output_size (sequence or int): (height, width) of the crop box. If int,
+            it is used for both directions
+    Returns:
+        PIL Image: Cropped image.
+    """
+    def __init__(self, imgsize):
+        self.imgsize = imgsize
+        self.resize_method = Resize((imgsize, imgsize), interpolation=Image.BICUBIC)
+
+    def __call__(self, img):
+        image_width, image_height = img.size
+        image_short = min(image_width, image_height)
+
+        crop_size = float(self.imgsize) / (self.imgsize + 32) * image_short
+
+        crop_height, crop_width = crop_size, crop_size
+        crop_top = int(round((image_height - crop_height) / 2.))
+        crop_left = int(round((image_width - crop_width) / 2.))
+        img = img.crop((crop_left, crop_top, crop_left + crop_width, crop_top + crop_height))
+        return self.resize_method(img)
diff --git a/encoding/utils/__init__.py b/encoding/utils/__init__.py
index 251276d9..ed2d643e 100644
--- a/encoding/utils/__init__.py
+++ b/encoding/utils/__init__.py
@@ -9,14 +9,10 @@
 ##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
 
 """Encoding Util Tools"""
-from .lr_scheduler import LR_Scheduler
-from .metrics import SegmentationMetric, batch_intersection_union, batch_pix_accuracy
+from .lr_scheduler import *
+from .metrics import *
 from .pallete import get_mask_pallete
 from .train_helper import *
 from .presets import load_image
 from .files import *
 from .misc import *
-
-__all__ = ['LR_Scheduler', 'batch_pix_accuracy', 'batch_intersection_union',
-           'save_checkpoint', 'download', 'mkdir', 'check_sha1', 'load_image',
-           'get_mask_pallete', 'get_selabel_vector', 'EMA']
diff --git a/encoding/utils/files.py b/encoding/utils/files.py
index 3679c89f..5e7599b2 100644
--- a/encoding/utils/files.py
+++ b/encoding/utils/files.py
@@ -10,7 +10,10 @@
 
 def save_checkpoint(state, args, is_best, filename='checkpoint.pth.tar'):
     """Saves checkpoint to disk"""
-    directory = "runs/%s/%s/%s/"%(args.dataset, args.model, args.checkname)
+    if hasattr(args, 'backbone'):
+        directory = "runs/%s/%s/%s/%s/"%(args.dataset, args.model, args.backbone, args.checkname)
+    else:
+        directory = "runs/%s/%s/%s/"%(args.dataset, args.model, args.checkname)
     if not os.path.exists(directory):
         os.makedirs(directory)
     filename = directory + filename
diff --git a/encoding/utils/lr_scheduler.py b/encoding/utils/lr_scheduler.py
index fa456e01..a7689eb5 100644
--- a/encoding/utils/lr_scheduler.py
+++ b/encoding/utils/lr_scheduler.py
@@ -10,6 +10,8 @@
 
 import math
 
+__all__ = ['LR_Scheduler', 'LR_Scheduler_Head']
+
 class LR_Scheduler(object):
     """Learning Rate Scheduler
 
@@ -29,36 +31,44 @@ class LR_Scheduler(object):
     def __init__(self, mode, base_lr, num_epochs, iters_per_epoch=0,
                  lr_step=0, warmup_epochs=0):
         self.mode = mode
-        print('Using {} LR Scheduler!'.format(self.mode))
-        self.lr = base_lr
+        print('Using {} LR scheduler with warm-up epochs of {}!'.format(self.mode, warmup_epochs))
         if mode == 'step':
             assert lr_step
+        self.base_lr = base_lr
         self.lr_step = lr_step
         self.iters_per_epoch = iters_per_epoch
-        self.N = num_epochs * iters_per_epoch
         self.epoch = -1
         self.warmup_iters = warmup_epochs * iters_per_epoch
+        self.total_iters = (num_epochs - warmup_epochs) * iters_per_epoch
 
     def __call__(self, optimizer, i, epoch, best_pred):
         T = epoch * self.iters_per_epoch + i
-        if self.mode == 'cos':
-            lr = 0.5 * self.lr * (1 + math.cos(1.0 * T / self.N * math.pi))
+        # warm up lr schedule
+        if self.warmup_iters > 0 and T < self.warmup_iters:
+            lr = self.base_lr * 1.0 * T / self.warmup_iters
+        elif self.mode == 'cos':
+            T = T - self.warmup_iters
+            lr = 0.5 * self.base_lr * (1 + math.cos(1.0 * T / self.total_iters * math.pi))
         elif self.mode == 'poly':
-            lr = self.lr * pow((1 - 1.0 * T / self.N), 0.9)
+            T = T - self.warmup_iters
+            lr = self.base_lr * pow((1 - 1.0 * T / self.total_iters), 0.9)
         elif self.mode == 'step':
-            lr = self.lr * (0.1 ** (epoch // self.lr_step))
+            lr = self.base_lr * (0.1 ** (epoch // self.lr_step))
         else:
             raise NotImplemented
-        # warm up lr schedule
-        if self.warmup_iters > 0 and T < self.warmup_iters:
-            lr = lr * 1.0 * T / self.warmup_iters
-        if epoch > self.epoch:
-            print('\n=>Epoches %i, learning rate = %.4f, \
+        if epoch > self.epoch and (epoch == 0 or best_pred > 0.0):
+            print('\n=>Epoch %i, learning rate = %.4f, \
                 previous best = %.4f' % (epoch, lr, best_pred))
             self.epoch = epoch
         assert lr >= 0
         self._adjust_learning_rate(optimizer, lr)
 
+    def _adjust_learning_rate(self, optimizer, lr):
+        for i in range(len(optimizer.param_groups)):
+            optimizer.param_groups[i]['lr'] = lr
+
+class LR_Scheduler_Head(LR_Scheduler):
+    """Incease the additional head LR to be 10 times"""
     def _adjust_learning_rate(self, optimizer, lr):
         if len(optimizer.param_groups) == 1:
             optimizer.param_groups[0]['lr'] = lr
diff --git a/encoding/utils/metrics.py b/encoding/utils/metrics.py
index 0ae87b88..69e284fd 100644
--- a/encoding/utils/metrics.py
+++ b/encoding/utils/metrics.py
@@ -12,6 +12,25 @@
 import numpy as np
 import torch
 
+__all__ = ['accuracy', 'SegmentationMetric', 'batch_intersection_union', 'batch_pix_accuracy',
+           'pixel_accuracy', 'intersection_and_union']
+
+def accuracy(output, target, topk=(1,)):
+    """Computes the accuracy over the k top predictions for the specified values of k"""
+    with torch.no_grad():
+        maxk = max(topk)
+        batch_size = target.size(0)
+
+        _, pred = output.topk(maxk, 1, True, True)
+        pred = pred.t()
+        correct = pred.eq(target.view(1, -1).expand_as(pred))
+
+        res = []
+        for k in topk:
+            correct_k = correct[:k].view(-1).float().sum(0, keepdim=True)
+            res.append(correct_k.mul_(100.0 / batch_size))
+        return res
+
 class SegmentationMetric(object):
     """Computes pixAcc and mIoU metric scroes
     """
diff --git a/encoding/utils/misc.py b/encoding/utils/misc.py
index 5cb56063..d0fd7fd1 100644
--- a/encoding/utils/misc.py
+++ b/encoding/utils/misc.py
@@ -1,6 +1,33 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
 import warnings
 
-__all__ = ['EncodingDeprecationWarning']
+__all__ = ['AverageMeter', 'EncodingDeprecationWarning']
+
+class AverageMeter(object):
+    """Computes and stores the average and current value"""
+    def __init__(self):
+        self.reset()
+
+    def reset(self):
+        #self.val = 0
+        self.sum = 0
+        self.count = 0
+
+    def update(self, val, n=1):
+        #self.val = val
+        self.sum += val * n
+        self.count += n
+
+    @property
+    def avg(self):
+        avg = 0 if self.count == 0 else self.sum / self.count
+        return avg
 
 class EncodingDeprecationWarning(DeprecationWarning):
     pass
diff --git a/encoding/utils/train_helper.py b/encoding/utils/train_helper.py
index 168550b2..ea7acd20 100644
--- a/encoding/utils/train_helper.py
+++ b/encoding/utils/train_helper.py
@@ -8,13 +8,45 @@
 ## LICENSE file in the root directory of this source tree
 ##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
 
+import numpy as np
 import torch
 import torch.nn as nn
 
 #from ..nn import SyncBatchNorm
 from torch.nn.modules.batchnorm import _BatchNorm
 
-__all__ = ['get_selabel_vector']
+__all__ = ['MixUpWrapper', 'get_selabel_vector']
+
+class MixUpWrapper(object):
+    def __init__(self, alpha, num_classes, dataloader, device):
+        self.alpha = alpha
+        self.dataloader = dataloader
+        self.num_classes = num_classes
+        self.device = device
+
+    def mixup_loader(self, loader):
+        def mixup(alpha, num_classes, data, target):
+            with torch.no_grad():
+                bs = data.size(0)
+                c = np.random.beta(alpha, alpha)
+                perm = torch.randperm(bs).cuda()
+
+                md = c * data + (1-c) * data[perm, :]
+                mt = c * target + (1-c) * target[perm, :]
+                return md, mt
+
+        for input, target in loader:
+            input, target = input.cuda(self.device), target.cuda(self.device)
+            target = torch.nn.functional.one_hot(target, self.num_classes)
+            i, t = mixup(self.alpha, self.num_classes, input, target)
+            yield i, t
+
+    def __len__(self):
+        return len(self.dataloader)
+
+    def __iter__(self):
+        return self.mixup_loader(self.dataloader)
+
 
 def get_selabel_vector(target, nclass):
     r"""Get SE-Loss Label in a batch
@@ -34,45 +66,3 @@ def get_selabel_vector(target, nclass):
         vect = hist>0
         tvect[i] = vect
     return tvect
-
-
-class EMA():
-    r""" Use moving avg for the models.
-    Examples:
-        >>> ema = EMA(0.999)
-        >>> for name, param in model.named_parameters():
-        >>>     if param.requires_grad:
-        >>>         ema.register(name, param.data)
-        >>> 
-        >>> # during training:
-        >>> # optimizer.step()
-        >>> for name, param in model.named_parameters():
-        >>>    # Sometime I also use the moving average of non-trainable parameters, just according to the model structure
-        >>>    if param.requires_grad:
-        >>>         ema(name, param.data)
-        >>> 
-        >>> # during eval or test
-        >>> import copy
-        >>> model_test = copy.deepcopy(model)
-        >>> for name, param in model_test.named_parameters():
-        >>>    # Sometime I also use the moving average of non-trainable parameters, just according to the model structure
-        >>>    if param.requires_grad:
-        >>>         param.data = ema.get(name)
-        >>> # Then use model_test for eval.
-    """
-    def __init__(self, momentum):
-        self.momentum = momentum
-        self.shadow = {}
-
-    def register(self, name, val):
-        self.shadow[name] = val.clone()
-
-    def __call__(self, name, x):
-        assert name in self.shadow
-        new_average = (1.0 - self.momentum) * x + self.momentum * self.shadow[name]
-        self.shadow[name] = new_average.clone()
-        return new_average
-
-    def get(self, name):
-        assert name in self.shadow
-        return self.shadow[name]
diff --git a/experiments/recognition/dataset/__init__.py b/experiments/recognition/dataset/__init__.py
deleted file mode 100644
index e69de29b..00000000
diff --git a/experiments/recognition/dataset/cifar10.py b/experiments/recognition/dataset/cifar10.py
deleted file mode 100644
index c763b58e..00000000
--- a/experiments/recognition/dataset/cifar10.py
+++ /dev/null
@@ -1,44 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-import torchvision
-import torchvision.transforms as transforms
-
-class Dataloader():
-    def __init__(self, args):
-        transform_train = transforms.Compose([
-        transforms.RandomCrop(32, padding=4),
-        transforms.RandomHorizontalFlip(),
-        transforms.ToTensor(),
-        transforms.Normalize((0.4914, 0.4822, 0.4465), 
-                (0.2023, 0.1994, 0.2010)),
-        ])
-        transform_test = transforms.Compose([
-        transforms.ToTensor(),
-        transforms.Normalize((0.4914, 0.4822, 0.4465), 
-                (0.2023, 0.1994, 0.2010)),
-        ])
-
-        trainset = torchvision.datasets.CIFAR10(root='./data', train=True, 
-            download=True, transform=transform_train)
-        testset = torchvision.datasets.CIFAR10(root='./data', train=False, 
-            download=True, transform=transform_test)
-    
-        kwargs = {'num_workers': 4, 'pin_memory': True} if args.cuda else {}
-        trainloader = torch.utils.data.DataLoader(trainset, batch_size=
-            args.batch_size, shuffle=True, **kwargs)
-        testloader = torch.utils.data.DataLoader(testset, batch_size=
-            args.batch_size, shuffle=False, **kwargs)
-        self.trainloader = trainloader 
-        self.testloader = testloader
-    
-    def getloader(self):
-        return self.trainloader, self.testloader
diff --git a/experiments/recognition/dataset/minc.py b/experiments/recognition/dataset/minc.py
deleted file mode 100644
index 3ac24431..00000000
--- a/experiments/recognition/dataset/minc.py
+++ /dev/null
@@ -1,139 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-import torch.utils.data as data
-import torchvision
-from torchvision import transforms
-
-from PIL import Image
-import os
-import os.path
-
-_imagenet_pca = {
-    'eigval': torch.Tensor([0.2175, 0.0188, 0.0045]),
-    'eigvec': torch.Tensor([
-        [-0.5675,  0.7192,  0.4009],
-        [-0.5808, -0.0045, -0.8140],
-        [-0.5836, -0.6948,  0.4203],
-    ])
-}
-
-
-def find_classes(dir):
-    classes = [d for d in os.listdir(dir) if os.path.isdir(os.path.join(dir, d))]
-    classes.sort()
-    class_to_idx = {classes[i]: i for i in range(len(classes))}
-    return classes, class_to_idx
-
-
-def make_dataset(filename, datadir, class_to_idx):
-    images = []
-    labels = []
-    with open(os.path.join(filename), "r") as lines:
-        for line in lines:
-            _image = os.path.join(datadir, line.rstrip('\n'))
-            _dirname = os.path.split(os.path.dirname(_image))[1]
-            assert os.path.isfile(_image)
-            label = class_to_idx[_dirname]
-            images.append(_image)
-            labels.append(label)
-
-    return images, labels
-
-
-class MINCDataset(data.Dataset):
-    def __init__(self, root, train=True, transform=None):
-        self.transform = transform
-        classes, class_to_idx = find_classes(root + '/images')
-        if train:
-            filename = os.path.join(root, 'labels/train1.txt')
-        else:
-            filename = os.path.join(root, 'labels/test1.txt')
-
-        self.images, self.labels = make_dataset(filename, root, 
-            class_to_idx)
-        assert (len(self.images) == len(self.labels))
-
-    def __getitem__(self, index):
-        _img = Image.open(self.images[index]).convert('RGB')
-        _label = self.labels[index]
-        if self.transform is not None:
-            _img = self.transform(_img)
-
-        return _img, _label
-
-    def __len__(self):
-        return len(self.images)
-
-
-class Dataloader():
-    def __init__(self, args):
-        normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],
-                                         std=[0.229, 0.224, 0.225])
-        transform_train = transforms.Compose([
-            transforms.Resize(256),
-            transforms.RandomResizedCrop(224),
-            transforms.RandomHorizontalFlip(),
-            transforms.ColorJitter(0.4,0.4,0.4),
-            transforms.ToTensor(),
-            Lighting(0.1, _imagenet_pca['eigval'], _imagenet_pca['eigvec']),
-            normalize,
-        ])
-        transform_test = transforms.Compose([
-            transforms.Resize(256),
-            transforms.CenterCrop(224),
-            transforms.ToTensor(),
-            normalize,
-        ])
-
-        trainset = MINCDataset(root=os.path.expanduser('~/.encoding/data/minc-2500/'), 
-            train=True, transform=transform_train)
-        testset = MINCDataset(root=os.path.expanduser('~/.encoding/data/minc-2500/'), 
-            train=False, transform=transform_test)
-    
-        kwargs = {'num_workers': 8, 'pin_memory': True} if args.cuda else {}
-        trainloader = torch.utils.data.DataLoader(trainset, batch_size=
-            args.batch_size, shuffle=True, **kwargs)
-        testloader = torch.utils.data.DataLoader(testset, batch_size=
-            args.test_batch_size, shuffle=False, **kwargs)
-        self.trainloader = trainloader 
-        self.testloader = testloader
-    
-    def getloader(self):
-        return self.trainloader, self.testloader
-
-
-class Lighting(object):
-    """Lighting noise(AlexNet - style PCA - based noise)"""
-
-    def __init__(self, alphastd, eigval, eigvec):
-        self.alphastd = alphastd
-        self.eigval = eigval
-        self.eigvec = eigvec
-
-    def __call__(self, img):
-        if self.alphastd == 0:
-            return img
-
-        alpha = img.new().resize_(3).normal_(0, self.alphastd)
-        rgb = self.eigvec.type_as(img).clone()\
-            .mul(alpha.view(1, 3).expand(3, 3))\
-            .mul(self.eigval.view(1, 3).expand(3, 3))\
-            .sum(1).squeeze()
-
-        return img.add(rgb.view(3, 1, 1).expand_as(img))
-
-
-if __name__ == "__main__":
-    trainset = MINCDataset(root=os.path.expanduser('~/.encoding/data/minc-2500/'), train=True)
-    testset = MINCDataset(root=os.path.expanduser('~/.encoding/data/minc-2500/'), train=False)
-    print(len(trainset))
-    print(len(testset))
diff --git a/experiments/recognition/main.py b/experiments/recognition/main.py
index d5a9f9b3..368dc28f 100644
--- a/experiments/recognition/main.py
+++ b/experiments/recognition/main.py
@@ -10,13 +10,94 @@
 
 from __future__ import print_function
 import os
+import argparse
 from tqdm import tqdm
 
 import torch
 import torch.nn as nn
 
 import encoding
-from option import Options
+from encoding.nn import LabelSmoothing, NLLMultiLabelSmooth
+from encoding.utils import (accuracy, AverageMeter, MixUpWrapper, LR_Scheduler)
+
+class Options():
+    def __init__(self):
+        # data settings
+        parser = argparse.ArgumentParser(description='Deep Encoding')
+        parser.add_argument('--dataset', type=str, default='cifar10',
+                            help='training dataset (default: cifar10)')
+        parser.add_argument('--base-size', type=int, default=None,
+                            help='base image size')
+        parser.add_argument('--crop-size', type=int, default=224,
+                            help='crop image size')
+        parser.add_argument('--label-smoothing', type=float, default=0.0,
+                            help='label-smoothing (default eta: 0.0)')
+        parser.add_argument('--mixup', type=float, default=0.0,
+                            help='mixup (default eta: 0.0)')
+        parser.add_argument('--rand-aug', action='store_true', 
+                            default=False, help='rectify convolution')
+        # model params 
+        parser.add_argument('--model', type=str, default='densenet',
+                            help='network model type (default: densenet)')
+        parser.add_argument('--pretrained', action='store_true', 
+                            default=False, help='load pretrianed mode')
+        parser.add_argument('--rectify', action='store_true', 
+                            default=False, help='rectify convolution')
+        parser.add_argument('--rectify-avg', action='store_true', 
+                            default=False, help='rectify convolution')
+        parser.add_argument('--last-gamma', action='store_true', default=False,
+                            help='whether to init gamma of the last BN layer in \
+                            each bottleneck to 0 (default: False)')
+        parser.add_argument('--dropblock-prob', type=float, default=0,
+                            help='DropBlock prob. default is 0.')
+        parser.add_argument('--final-drop', type=float, default=0,
+                            help='final dropout prob. default is 0.')
+        # training hyper params
+        parser.add_argument('--batch-size', type=int, default=128, metavar='N',
+                            help='batch size for training (default: 128)')
+        parser.add_argument('--test-batch-size', type=int, default=256, metavar='N',
+                            help='batch size for testing (default: 256)')
+        parser.add_argument('--epochs', type=int, default=120, metavar='N',
+                            help='number of epochs to train (default: 600)')
+        parser.add_argument('--start_epoch', type=int, default=0, 
+                            metavar='N', help='the epoch number to start (default: 1)')
+        parser.add_argument('--workers', type=int, default=32,
+                            metavar='N', help='dataloader threads')
+        # optimizer
+        parser.add_argument('--lr', type=float, default=0.1, metavar='LR',
+                            help='learning rate (default: 0.1)')
+        parser.add_argument('--lr-scheduler', type=str, default='cos', 
+                            help='learning rate scheduler (default: cos)')
+        parser.add_argument('--warmup-epochs', type=int, default=0,
+                            help='number of warmup epochs (default: 0)')
+        parser.add_argument('--lr-step', type=int, default=40, metavar='LR',
+                            help='learning rate step (default: 40)')
+        parser.add_argument('--momentum', type=float, default=0.9, 
+                            metavar='M', help='SGD momentum (default: 0.9)')
+        parser.add_argument('--weight-decay', type=float, default=1e-4, 
+                            metavar ='M', help='SGD weight decay (default: 1e-4)')
+        parser.add_argument('--no-bn-wd', action='store_true', 
+                            default=False, help='no bias decay')
+        # cuda, seed and logging
+        parser.add_argument('--no-cuda', action='store_true', 
+                            default=False, help='disables CUDA training')
+        parser.add_argument('--seed', type=int, default=1, metavar='S',
+                            help='random seed (default: 1)')
+        # checking point
+        parser.add_argument('--resume', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--checkname', type=str, default='default',
+                            help='set the checkpoint name')
+        # evaluation option
+        parser.add_argument('--eval', action='store_true', default= False,
+                            help='evaluating')
+        parser.add_argument('--export', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        self.parser = parser
+
+    def parse(self):
+        args = self.parser.parse_args()
+        return args
 
 # global variable
 best_pred = 0.0
@@ -33,38 +114,87 @@ def main():
     if args.cuda:
         torch.cuda.manual_seed(args.seed)
     # init dataloader
-    transform_train, transform_val = encoding.transforms.get_transform(args.dataset)
+    transform_train, transform_val = encoding.transforms.get_transform(
+            args.dataset, args.base_size, args.crop_size, args.rand_aug)
     trainset = encoding.datasets.get_dataset(args.dataset, root=os.path.expanduser('~/.encoding/data'),
                                              transform=transform_train, train=True, download=True)
     valset = encoding.datasets.get_dataset(args.dataset, root=os.path.expanduser('~/.encoding/data'),
                                            transform=transform_val, train=False, download=True)
     train_loader = torch.utils.data.DataLoader(
         trainset, batch_size=args.batch_size, shuffle=True,
-        num_workers=args.workers, pin_memory=True)
+        num_workers=args.workers, drop_last=True, pin_memory=True)
 
     val_loader = torch.utils.data.DataLoader(
         valset, batch_size=args.test_batch_size, shuffle=False,
         num_workers=args.workers, pin_memory=True)
     
     # init the model
-    model = encoding.models.get_model(args.model, pretrained=args.pretrained)
+    model_kwargs = {}
+    if args.pretrained:
+        model_kwargs['pretrained'] = True
+
+    if args.final_drop > 0.0:
+        model_kwargs['final_drop'] = args.final_drop
+
+    if args.dropblock_prob > 0.0:
+        model_kwargs['dropblock_prob'] = args.dropblock_prob
+
+    if args.last_gamma:
+        model_kwargs['last_gamma'] = True
+
+    if args.rectify:
+        model_kwargs['rectified_conv'] = True
+        model_kwargs['rectify_avg'] = args.rectify_avg
+
+    model = encoding.models.get_model(args.model, **model_kwargs)
+    if args.dropblock_prob > 0.0:
+        from functools import partial
+        from encoding.nn import reset_dropblock
+        nr_iters = (args.epochs - 2 * args.warmup_epochs) * len(train_loader)
+        apply_drop_prob = partial(reset_dropblock, args.warmup_epochs*len(train_loader),
+                                  nr_iters, 0.0, args.dropblock_prob)
+        model.apply(apply_drop_prob)
+
     print(model)
     # criterion and optimizer
-    criterion = nn.CrossEntropyLoss()
-    optimizer = torch.optim.SGD(model.parameters(), lr=args.lr,
-                                momentum=args.momentum,
-                                weight_decay=args.weight_decay)
+    if args.mixup > 0:
+        train_loader = MixUpWrapper(args.mixup, 1000, train_loader,
+                                    list(range(torch.cuda.device_count())))
+        criterion = NLLMultiLabelSmooth(args.label_smoothing)
+    elif args.label_smoothing > 0.0:
+        criterion = LabelSmoothing(args.label_smoothing)
+    else:
+        criterion = nn.CrossEntropyLoss()
+
+    if args.no_bn_wd:
+        parameters = model.named_parameters()
+        param_dict = {}
+        for k, v in parameters:
+            param_dict[k] = v
+        bn_params = [v for n, v in param_dict.items() if ('bn' in n or 'bias' in n)]
+        rest_params = [v for n, v in param_dict.items() if not ('bn' in n or 'bias' in n)]
+        print(" Weight decay NOT applied to BN parameters ")
+        print(f'len(parameters): {len(list(model.parameters()))} = {len(bn_params)} + {len(rest_params)}')
+        optimizer = torch.optim.SGD([{'params': bn_params, 'weight_decay': 0 },
+                                     {'params': rest_params, 'weight_decay': args.weight_decay}],
+                                    lr=args.lr,
+                                    momentum=args.momentum,
+                                    weight_decay=args.weight_decay)
+    else:
+        optimizer = torch.optim.SGD(model.parameters(),
+                                    lr=args.lr,
+                                    momentum=args.momentum,
+                                    weight_decay=args.weight_decay)
     if args.cuda:
         model.cuda()
         criterion.cuda()
         # Please use CUDA_VISIBLE_DEVICES to control the number of gpus
         model = nn.DataParallel(model)
-    # check point
     if args.resume is not None:
         if os.path.isfile(args.resume):
             print("=> loading checkpoint '{}'".format(args.resume))
             checkpoint = torch.load(args.resume)
-            args.start_epoch = checkpoint['epoch'] +1
+            args.start_epoch = checkpoint['epoch'] + 1 if args.start_epoch == 1 else args.start_epoch
             best_pred = checkpoint['best_pred']
             acclist_train = checkpoint['acclist_train']
             acclist_val = checkpoint['acclist_val']
@@ -75,8 +205,12 @@ def main():
         else:
             raise RuntimeError ("=> no resume checkpoint found at '{}'".\
                 format(args.resume))
-    scheduler = encoding.utils.LR_Scheduler(args.lr_scheduler, args.lr, args.epochs,
-                                            len(train_loader), args.lr_step)
+    scheduler = LR_Scheduler(args.lr_scheduler,
+                             base_lr=args.lr,
+                             num_epochs=args.epochs,
+                             iters_per_epoch=len(train_loader),
+                             warmup_epochs=args.warmup_epochs,
+                             lr_step=args.lr_step)
     def train(epoch):
         model.train()
         losses = AverageMeter()
@@ -85,6 +219,7 @@ def train(epoch):
         tbar = tqdm(train_loader, desc='\r')
         for batch_idx, (data, target) in enumerate(tbar):
             scheduler(optimizer, batch_idx, epoch, best_pred)
+            #criterion.update(batch_idx, epoch)
             if args.cuda:
                 data, target = data.cuda(), target.cuda()
             optimizer.zero_grad()
@@ -127,6 +262,7 @@ def validate(epoch):
             best_pred = top1.avg 
             is_best = True
         encoding.utils.save_checkpoint({
+            'args': args,
             'epoch': epoch,
             'state_dict': model.module.state_dict(),
             'optimizer': optimizer.state_dict(),
@@ -135,47 +271,19 @@ def validate(epoch):
             'acclist_val':acclist_val,
             }, args=args, is_best=is_best)
 
+    if args.export:
+        torch.save(model.module.state_dict(), args.export + '.pth')
+        return
+
     if args.eval:
         validate(args.start_epoch)
         return
 
-    for epoch in range(args.start_epoch, args.epochs + 1):
+    for epoch in range(args.start_epoch, args.epochs):
         train(epoch)
         validate(epoch)
 
-def accuracy(output, target, topk=(1,)):
-    """Computes the accuracy over the k top predictions for the specified values of k"""
-    with torch.no_grad():
-        maxk = max(topk)
-        batch_size = target.size(0)
-
-        _, pred = output.topk(maxk, 1, True, True)
-        pred = pred.t()
-        correct = pred.eq(target.view(1, -1).expand_as(pred))
-
-        res = []
-        for k in topk:
-            correct_k = correct[:k].view(-1).float().sum(0, keepdim=True)
-            res.append(correct_k.mul_(100.0 / batch_size))
-        return res
-
-
-class AverageMeter(object):
-    """Computes and stores the average and current value"""
-    def __init__(self):
-        self.reset()
-
-    def reset(self):
-        self.val = 0
-        self.avg = 0
-        self.sum = 0
-        self.count = 0
-
-    def update(self, val, n=1):
-        self.val = val
-        self.sum += val * n
-        self.count += n
-        self.avg = self.sum / self.count
+    validate(epoch)
 
 if __name__ == "__main__":
     main()
diff --git a/experiments/recognition/model/__init__.py b/experiments/recognition/model/__init__.py
deleted file mode 100644
index e69de29b..00000000
diff --git a/experiments/recognition/model/deepten.py b/experiments/recognition/model/deepten.py
deleted file mode 100644
index 82a5c8c3..00000000
--- a/experiments/recognition/model/deepten.py
+++ /dev/null
@@ -1,63 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-from torch.autograd import Variable
-import torch.nn as nn
-from torch.autograd import Variable
-
-import encoding
-import encoding.models.resnet as resnet
-
-class Net(nn.Module):
-    def __init__(self, args):
-        nclass=args.nclass
-        super(Net, self).__init__()
-        self.backbone = args.backbone
-        # copying modules from pretrained models
-        if self.backbone == 'resnet50':
-            self.pretrained = resnet.resnet50(pretrained=True, dilated=False)
-        elif self.backbone == 'resnet101':
-            self.pretrained = resnet.resnet101(pretrained=True, dilated=False)
-        elif self.backbone == 'resnet152':
-            self.pretrained = resnet.resnet152(pretrained=True, dilated=False)
-        else:
-            raise RuntimeError('unknown backbone: {}'.format(self.backbone))
-        n_codes = 32
-        self.head = nn.Sequential(
-            nn.Conv2d(2048, 128, 1),
-            nn.BatchNorm2d(128),
-            nn.ReLU(inplace=True),
-            encoding.nn.Encoding(D=128,K=n_codes),
-            encoding.nn.View(-1, 128*n_codes),
-            encoding.nn.Normalize(),
-            nn.Linear(128*n_codes, nclass),
-        )
-
-    def forward(self, x):
-        if isinstance(x, Variable):
-            _, _, h, w = x.size()
-        elif isinstance(x, tuple) or isinstance(x, list):
-            var_input = x 
-            while not isinstance(var_input, Variable):
-                var_input = var_input[0]
-            _, _, h, w = var_input.size()
-        else:
-            raise RuntimeError('unknown input type: ', type(x))
-        x = self.pretrained.conv1(x)
-        x = self.pretrained.bn1(x)
-        x = self.pretrained.relu(x)
-        x = self.pretrained.maxpool(x)
-        x = self.pretrained.layer1(x)
-        x = self.pretrained.layer2(x)
-        x = self.pretrained.layer3(x)
-        x = self.pretrained.layer4(x)
-        return self.head(x)
-
diff --git a/experiments/recognition/model/encnet.py b/experiments/recognition/model/encnet.py
deleted file mode 100644
index 17d7b0c6..00000000
--- a/experiments/recognition/model/encnet.py
+++ /dev/null
@@ -1,59 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-from torch.autograd import Variable
-import torch.nn as nn
-from .mynn import EncBasicBlock
-import encoding
-
-class Net(nn.Module):
-    def __init__(self, args):
-        super(Net, self).__init__()
-        num_blocks=[2,2,2]
-        block=EncBasicBlock
-        if block == EncBasicBlock:
-            self.expansion = 1
-        else:
-            self.expansion = 4
-
-        self.inplanes = args.widen * 16
-        strides = [1, 2, 2]
-        model = []
-        # Conv_1
-        model += [nn.Conv2d(3, self.inplanes, kernel_size=3, padding=1),
-                  nn.BatchNorm2d(self.inplanes),
-                  nn.ReLU(inplace=True)]
-        # Residual units
-        model += [self._residual_unit(block, self.inplanes, num_blocks[0],
-                                      strides[0], args.ncodes)]
-        for i in range(2):
-            model += [self._residual_unit(block, 
-                      int(2*self.inplanes/self.expansion), 
-                      num_blocks[i+1], strides[i+1], args.ncodes)]
-        # Last conv layer
-        model += [nn.BatchNorm2d(self.inplanes),
-                  nn.ReLU(inplace=True),
-                  nn.AvgPool2d(8),
-                  encoding.nn.View(-1, self.inplanes),
-                  nn.Linear(self.inplanes, args.nclass)]
-
-        self.model = nn.Sequential(*model)
-
-    def _residual_unit(self, block, planes, n_blocks, stride, ncodes):
-        strides = [stride] + [1]*(n_blocks-1)
-        layers = []
-        for i in range(n_blocks):
-            layers += [block(self.inplanes, planes, strides[i], ncodes)]
-            self.inplanes = self.expansion*planes
-        return nn.Sequential(*layers)
-
-    def forward(self, input):
-        return self.model(input)
diff --git a/experiments/recognition/model/encnetdrop.py b/experiments/recognition/model/encnetdrop.py
deleted file mode 100644
index b7963ceb..00000000
--- a/experiments/recognition/model/encnetdrop.py
+++ /dev/null
@@ -1,75 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-from torch.autograd import Variable
-import torch.nn as nn
-from .mynn import EncBasicBlock, EncDropLayer
-import encoding
-
-class Net(nn.Module):
-    def __init__(self, args):
-        super(Net, self).__init__()
-        num_blocks=[2,2,2]
-        block=EncBasicBlock
-        if block == EncBasicBlock:
-            self.expansion = 1
-        else:
-            self.expansion = 4
-
-        self.inplanes = args.widen * 16
-        strides = [1, 2, 2]
-        model = []
-        # Conv_1
-        model += [nn.Conv2d(3, self.inplanes, kernel_size=3, padding=1),
-                  nn.BatchNorm2d(self.inplanes),
-                  nn.ReLU(inplace=True)]
-        # Residual units
-        model += [self._residual_unit(block, self.inplanes, num_blocks[0],
-                                      strides[0], args.ncodes)]
-        for i in range(2):
-            model += [self._residual_unit(block, 
-                      int(2*self.inplanes/self.expansion), 
-                      num_blocks[i+1], strides[i+1], args.ncodes)]
-        # Last conv layer
-        model += [nn.BatchNorm2d(self.inplanes),
-                  nn.ReLU(inplace=True),
-                  nn.AvgPool2d(8),
-                  encoding.nn.View(-1, self.inplanes),
-                  nn.Linear(self.inplanes, args.nclass)]
-
-        self.model = nn.Sequential(*model)
-
-    def _residual_unit(self, block, planes, n_blocks, stride, ncodes):
-        strides = [stride] + [1]*(n_blocks-1)
-        layers = []
-        for i in range(n_blocks):
-            layers += [block(self.inplanes, planes, strides[i], ncodes, ELayer=EncDropLayer)]
-            self.inplanes = self.expansion*planes
-        return nn.Sequential(*layers)
-
-    def forward(self, input):
-        return self.model(input)
-
-def test():
-    net = Net().cuda()
-    print(net)
-    x = Variable(torch.randn(1,3,32,32)).cuda()
-    y = net(x)
-    print(y)
-    params = net.parameters()
-    sum = 0
-    for param in params:
-        sum  += param.nelement()
-    print('Total params:', sum)
-
-
-if __name__ == "__main__":
-    test()
diff --git a/experiments/recognition/model/mynn.py b/experiments/recognition/model/mynn.py
deleted file mode 100644
index cd68f36e..00000000
--- a/experiments/recognition/model/mynn.py
+++ /dev/null
@@ -1,250 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-import torch.nn as nn
-import torch.nn.functional as F
-from torch.autograd import Variable
-import encoding
-
-def conv3x3(in_planes, out_planes, stride=1):
-    return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False)
-
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-class Basicblock(nn.Module):
-    """ Pre-activation residual block
-    Identity Mapping in Deep Residual Networks
-    ref https://arxiv.org/abs/1603.05027
-    """
-    def __init__(self, inplanes, planes, stride=1, 
-                            norm_layer=nn.BatchNorm2d):
-        super(Basicblock, self).__init__()
-        if inplanes != planes or stride !=1 :
-            self.downsample = True
-            self.residual_layer = nn.Conv2d(inplanes, planes,
-                                            kernel_size=1, stride=stride)
-        else:
-            self.downsample = False
-        conv_block=[]
-        conv_block+=[norm_layer(inplanes),
-                     nn.ReLU(inplace=True),
-                     conv3x3(inplanes, planes,stride=stride),
-                     norm_layer(planes),
-                     nn.ReLU(inplace=True),
-                     conv3x3(planes, planes)]
-        self.conv_block = nn.Sequential(*conv_block)
-    
-    def forward(self, input):
-        if self.downsample:
-            residual = self.residual_layer(input)
-        else:
-            residual = input
-        return residual + self.conv_block(input)
-
-
-class Bottleneck(nn.Module):
-    """ Pre-activation residual block
-    Identity Mapping in Deep Residual Networks
-    ref https://arxiv.org/abs/1603.05027
-    """
-    def __init__(self, inplanes, planes, stride=1,norm_layer=nn.BatchNorm2d):
-        super(Bottleneck, self).__init__()
-        self.expansion = 4
-        if inplanes != planes*self.expansion or stride !=1 :
-            self.downsample = True
-            self.residual_layer = nn.Conv2d(inplanes, 
-                planes * self.expansion, kernel_size=1, stride=stride)
-        else:
-            self.downsample = False
-        conv_block = []
-        conv_block += [norm_layer(inplanes),
-                       nn.ReLU(inplace=True),
-                       nn.Conv2d(inplanes, planes, kernel_size=1,
-                                 stride=1, bias=False)]
-        conv_block += [norm_layer(planes),
-                       nn.ReLU(inplace=True),
-                       nn.Conv2d(planes, planes, kernel_size=3, 
-                                 stride=stride, padding=1, bias=False)]
-        conv_block += [norm_layer(planes),
-                       nn.ReLU(inplace=True),
-                       nn.Conv2d(planes, planes * self.expansion, 
-                                 kernel_size=1, stride=1, bias=False)]
-        self.conv_block = nn.Sequential(*conv_block)
-        
-    def forward(self, x):
-        if self.downsample:
-            residual = self.residual_layer(x)
-        else:
-            residual = x
-        return residual + self.conv_block(x)
-        
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-class EncLayerV2(nn.Module):
-    def __init__(self, channel, K=16, reduction=4):
-        super(EncLayerV2, self).__init__()
-        out_channel = int(channel / reduction)
-        self.fc = nn.Sequential(
-            nn.Conv2d(channel, out_channel, 1),
-            nn.BatchNorm2d(out_channel),
-            nn.ReLU(inplace=True),
-            encoding.nn.EncodingV2(D=out_channel,K=K),
-            encoding.nn.View(-1, out_channel*K),
-            encoding.nn.Normalize(),
-            nn.Linear(out_channel*K, channel),
-            nn.Sigmoid()
-        )
-
-    def forward(self, x):
-        b, c, _, _ = x.size()
-        y = self.fc(x).view(b, c, 1, 1)
-        return x * y
-
-class EncLayerV3(nn.Module):
-    def __init__(self, channel, K=16, reduction=4):
-        super(EncLayerV3, self).__init__()
-        out_channel = int(channel / reduction)
-        self.fc = nn.Sequential(
-            nn.Conv2d(channel, out_channel, 1),
-            nn.BatchNorm2d(out_channel),
-            nn.ReLU(inplace=True),
-            encoding.nn.EncodingV3(D=out_channel,K=K),
-            encoding.nn.View(-1, out_channel*K),
-            encoding.nn.Normalize(),
-            nn.Linear(out_channel*K, channel),
-            nn.Sigmoid()
-        )
-
-    def forward(self, x):
-        b, c, _, _ = x.size()
-        y = self.fc(x).view(b, c, 1, 1)
-        return x * y
-
-class EncLayer(nn.Module):
-    def __init__(self, channel, K=16, reduction=4):
-        super(EncLayer, self).__init__()
-        out_channel = int(channel / reduction)
-        self.fc = nn.Sequential(
-            nn.Conv2d(channel, out_channel, 1),
-            nn.BatchNorm2d(out_channel),
-            nn.ReLU(inplace=True),
-            encoding.nn.Encoding(D=out_channel,K=K),
-            encoding.nn.View(-1, out_channel*K),
-            encoding.nn.Normalize(),
-            nn.Linear(out_channel*K, channel),
-            nn.Sigmoid()
-        )
-
-    def forward(self, x):
-        b, c, _, _ = x.size()
-        y = self.fc(x).view(b, c, 1, 1)
-        return x * y
-
-
-class EncDropLayer(nn.Module):
-    def __init__(self, channel, K=16, reduction=4):
-        super(EncDropLayer, self).__init__()
-        out_channel = int(channel / reduction)
-        self.fc = nn.Sequential(
-            nn.Conv2d(channel, out_channel, 1),
-            nn.BatchNorm2d(out_channel),
-            nn.ReLU(inplace=True),
-            encoding.nn.EncodingDrop(D=out_channel,K=K),
-            encoding.nn.View(-1, out_channel*K),
-            encoding.nn.Normalize(),
-            nn.Linear(out_channel*K, channel),
-            nn.Sigmoid()
-        )
-
-    def forward(self, x):
-        b, c, _, _ = x.size()
-        y = self.fc(x).view(b, c, 1, 1)
-        return x * y
-
-
-class EncBasicBlock(nn.Module):
-    expansion = 1
-    def __init__(self, inplanes, planes, stride=1, K=16, ELayer=EncLayer):
-        super(EncBasicBlock, self).__init__()
-        self.conv1 = conv3x3(inplanes, planes, stride)
-        self.bn1 = nn.BatchNorm2d(planes)
-        self.relu = nn.ReLU(inplace=True)
-        self.conv2 = conv3x3(planes, planes, 1)
-        self.bn2 = nn.BatchNorm2d(planes)
-        self.se = ELayer(planes, K, self.expansion*4)
-        self.stride = stride
-        if inplanes != planes or stride !=1 :
-            self.downsample = True
-            self.residual_layer = nn.Conv2d(inplanes, planes,
-                                            kernel_size=1, stride=stride)
-        else:
-            self.downsample = False
-
-    def forward(self, x):
-        residual = x
-        out = self.conv1(x)
-        out = self.bn1(out)
-        out = self.relu(out)
-
-        out = self.conv2(out)
-        out = self.bn2(out)
-        out = self.se(out)
-
-        if self.downsample:
-            residual = self.residual_layer(x)
-
-        out += residual
-        out = self.relu(out)
-
-        return out
-
-
-class EncBottleneck(nn.Module):
-    expansion = 4
-    def __init__(self, inplanes, planes, stride=1, downsample=None, K=16, ELayer=EncLayer):
-        super(EncBottleneck, self).__init__()
-        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
-        self.bn1 = nn.BatchNorm2d(planes)
-        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, 
-                               stride=stride, padding=1, bias=False)
-        self.bn2 = nn.BatchNorm2d(planes)
-        self.conv3 = nn.Conv2d(planes, planes * self.expansion, 
-            kernel_size=1, bias=False)
-        self.bn3 = nn.BatchNorm2d(planes * self.expansion)
-        self.relu = nn.ReLU(inplace=True)
-        self.se = ELayer(planes * self.expansion, K, self.expansion*4)
-        self.stride = stride
-        if inplanes != planes * self.expansion or stride !=1 :
-            self.downsample = True
-            self.residual_layer = nn.Conv2d(inplanes, 
-                planes* self.expansion, kernel_size=1, stride=stride)
-        else:
-            self.downsample = False
-
-    def forward(self, x):
-        residual = x
-
-        out = self.conv1(x)
-        out = self.bn1(out)
-        out = self.relu(out)
-
-        out = self.conv2(out)
-        out = self.bn2(out)
-        out = self.relu(out)
-
-        out = self.conv3(out)
-        out = self.bn3(out)
-        out = self.se(out)
-
-        if self.downsample:
-            residual = self.residual_layer(x)
-        out += residual
-        out = self.relu(out)
-
-        return out
diff --git a/experiments/recognition/model/resnet.py b/experiments/recognition/model/resnet.py
deleted file mode 100644
index ae4d275a..00000000
--- a/experiments/recognition/model/resnet.py
+++ /dev/null
@@ -1,58 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import torch
-import torch.nn as nn
-from torch.autograd import Variable
-import model.mynn as nn2
-import encoding
-
-class Net(nn.Module):
-    def __init__(self, args):
-        super(Net, self).__init__()
-        num_blocks=[2,2,2]
-        block=nn2.Basicblock
-        if block == nn2.Basicblock:
-            self.expansion = 1
-        else:
-            self.expansion = 4
-
-        self.inplanes = args.widen * 16
-        strides = [1, 2, 2]
-        model = []
-        # Conv_1
-        model += [nn.Conv2d(3, self.inplanes, kernel_size=3, padding=1),
-                  nn.BatchNorm2d(self.inplanes),
-                  nn.ReLU(inplace=True)]
-        # Residual units
-        model += [self._residual_unit(block, self.inplanes, num_blocks[0],
-                                      strides[0])]
-        for i in range(2):
-            model += [self._residual_unit(block, 
-                int(2*self.inplanes/self.expansion), num_blocks[i+1],
-                strides[i+1])]
-        # Last conv layer
-        model += [nn.BatchNorm2d(self.inplanes),
-                  nn.ReLU(inplace=True),
-                  nn.AvgPool2d(8),
-                  encoding.nn.View(-1, self.inplanes),
-                  nn.Linear(self.inplanes, args.nclass)]
-        self.model = nn.Sequential(*model)
-
-    def _residual_unit(self, block, planes, n_blocks, stride):
-        strides = [stride] + [1]*(n_blocks-1)
-        layers = []
-        for i in range(n_blocks):
-            layers += [block(self.inplanes, planes, strides[i])]
-            self.inplanes = self.expansion*planes
-        return nn.Sequential(*layers)
-
-    def forward(self, input):
-        return self.model(input)
diff --git a/experiments/recognition/option.py b/experiments/recognition/option.py
deleted file mode 100644
index b588d1be..00000000
--- a/experiments/recognition/option.py
+++ /dev/null
@@ -1,77 +0,0 @@
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-## Created by: Hang Zhang
-## ECE Department, Rutgers University
-## Email: zhang.hang@rutgers.edu
-## Copyright (c) 2017
-##
-## This source code is licensed under the MIT-style license found in the
-## LICENSE file in the root directory of this source tree 
-##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-import argparse
-import os
-
-class Options():
-    def __init__(self):
-        # Training settings
-        parser = argparse.ArgumentParser(description='Deep Encoding')
-        parser.add_argument('--dataset', type=str, default='cifar10',
-            help='training dataset (default: cifar10)')
-        # model params 
-        parser.add_argument('--model', type=str, default='densenet',
-            help='network model type (default: densenet)')
-        parser.add_argument('--pretrained', action='store_true', 
-            default=False, help='load pretrianed mode')
-        parser.add_argument('--nclass', type=int, default=10, metavar='N',
-            help='number of classes (default: 10)')
-        parser.add_argument('--widen', type=int, default=4, metavar='N',
-            help='widen factor of the network (default: 4)')
-        parser.add_argument('--ncodes', type=int, default=32, metavar='N',
-            help='number of codewords in Encoding Layer (default: 32)')
-        parser.add_argument('--backbone', type=str, default='resnet50',
-            help='backbone name (default: resnet50)')
-        # training hyper params
-        parser.add_argument('--batch-size', type=int, default=128,
-            metavar='N', help='batch size for training (default: 128)')
-        parser.add_argument('--test-batch-size', type=int, default=256, 
-            metavar='N', help='batch size for testing (default: 256)')
-        parser.add_argument('--epochs', type=int, default=600, metavar='N',
-            help='number of epochs to train (default: 600)')
-        parser.add_argument('--start_epoch', type=int, default=1, 
-            metavar='N', help='the epoch number to start (default: 1)')
-        parser.add_argument('--workers', type=int, default=16,
-            metavar='N', help='dataloader threads')
-        # lr setting
-        parser.add_argument('--lr', type=float, default=0.1, metavar='LR',
-            help='learning rate (default: 0.1)')
-        parser.add_argument('--lr-scheduler', type=str, default='cos', 
-            help='learning rate scheduler (default: cos)')
-        parser.add_argument('--lr-step', type=int, default=40, metavar='LR',
-            help='learning rate step (default: 40)')
-        # optimizer
-        parser.add_argument('--momentum', type=float, default=0.9, 
-            metavar='M', help='SGD momentum (default: 0.9)')
-        parser.add_argument('--weight-decay', type=float, default=1e-4, 
-            metavar ='M', help='SGD weight decay (default: 1e-4)')
-        # cuda, seed and logging
-        parser.add_argument('--no-cuda', action='store_true', 
-            default=False, help='disables CUDA training')
-        parser.add_argument('--plot', action='store_true', default=False,
-            help='matplotlib')
-        parser.add_argument('--seed', type=int, default=1, metavar='S',
-            help='random seed (default: 1)')
-        # checking point
-        parser.add_argument('--resume', type=str, default=None,
-            help='put the path to resuming file if needed')
-        parser.add_argument('--checkname', type=str, default='default',
-            help='set the checkpoint name')
-        # evaluation option
-        parser.add_argument('--eval', action='store_true', default= False,
-            help='evaluating')
-        self.parser = parser
-
-    def parse(self):
-        args = self.parser.parse_args()
-        if args.dataset == 'minc':
-            args.nclass = 23
-        return args
diff --git a/experiments/recognition/train_dist.py b/experiments/recognition/train_dist.py
new file mode 100644
index 00000000..25b0ea5f
--- /dev/null
+++ b/experiments/recognition/train_dist.py
@@ -0,0 +1,325 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+
+import os
+import time
+import argparse
+import numpy as np
+from tqdm import tqdm
+from mpi4py import MPI
+
+import torch
+import torch.nn as nn
+import torch.distributed as dist
+import torch.multiprocessing as mp
+from torch.nn.parallel import DistributedDataParallel
+
+import encoding
+from encoding.nn import LabelSmoothing, NLLMultiLabelSmooth
+from encoding.utils import (accuracy, AverageMeter, MixUpWrapper, LR_Scheduler)
+
+class Options():
+    def __init__(self):
+        # data settings
+        parser = argparse.ArgumentParser(description='Deep Encoding')
+        parser.add_argument('--dataset', type=str, default='cifar10',
+                            help='training dataset (default: cifar10)')
+        parser.add_argument('--base-size', type=int, default=None,
+                            help='base image size')
+        parser.add_argument('--crop-size', type=int, default=224,
+                            help='crop image size')
+        parser.add_argument('--label-smoothing', type=float, default=0.0,
+                            help='label-smoothing (default eta: 0.0)')
+        parser.add_argument('--mixup', type=float, default=0.0,
+                            help='mixup (default eta: 0.0)')
+        parser.add_argument('--rand-aug', action='store_true', 
+                            default=False, help='random augment')
+        # model params 
+        parser.add_argument('--model', type=str, default='densenet',
+                            help='network model type (default: densenet)')
+        parser.add_argument('--rectify', action='store_true', 
+                            default=False, help='rectify convolution')
+        parser.add_argument('--rectify-avg', action='store_true', 
+                            default=False, help='rectify convolution')
+        parser.add_argument('--pretrained', action='store_true', 
+                            default=False, help='load pretrianed mode')
+        parser.add_argument('--last-gamma', action='store_true', default=False,
+                            help='whether to init gamma of the last BN layer in \
+                            each bottleneck to 0 (default: False)')
+        parser.add_argument('--dropblock-prob', type=float, default=0,
+                            help='DropBlock prob. default is 0.')
+        parser.add_argument('--final-drop', type=float, default=0,
+                            help='final dropout prob. default is 0.')
+        # training params
+        parser.add_argument('--batch-size', type=int, default=128, metavar='N',
+                            help='batch size for training (default: 128)')
+        parser.add_argument('--test-batch-size', type=int, default=256, metavar='N',
+                            help='batch size for testing (default: 256)')
+        parser.add_argument('--epochs', type=int, default=120, metavar='N',
+                            help='number of epochs to train (default: 600)')
+        parser.add_argument('--start_epoch', type=int, default=0, 
+                            metavar='N', help='the epoch number to start (default: 1)')
+        parser.add_argument('--workers', type=int, default=8,
+                            metavar='N', help='dataloader threads')
+        # optimizer
+        parser.add_argument('--lr', type=float, default=0.1, metavar='LR',
+                            help='learning rate (default: 0.1)')
+        parser.add_argument('--lr-scheduler', type=str, default='cos', 
+                            help='learning rate scheduler (default: cos)')
+        parser.add_argument('--warmup-epochs', type=int, default=0,
+                            help='number of warmup epochs (default: 0)')
+        parser.add_argument('--momentum', type=float, default=0.9, 
+                            metavar='M', help='SGD momentum (default: 0.9)')
+        parser.add_argument('--weight-decay', type=float, default=1e-4, 
+                            metavar ='M', help='SGD weight decay (default: 1e-4)')
+        parser.add_argument('--no-bn-wd', action='store_true', 
+                            default=False, help='no bias decay')
+        # seed
+        parser.add_argument('--seed', type=int, default=1, metavar='S',
+                            help='random seed (default: 1)')
+        # checking point
+        parser.add_argument('--resume', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--checkname', type=str, default='default',
+                            help='set the checkpoint name')
+        # distributed
+        parser.add_argument('--world-size', default=1, type=int,
+                            help='number of nodes for distributed training')
+        parser.add_argument('--rank', default=0, type=int,
+                            help='node rank for distributed training')
+        parser.add_argument('--dist-url', default='tcp://localhost:23456', type=str,
+                            help='url used to set up distributed training')
+        parser.add_argument('--dist-backend', default='nccl', type=str,
+                            help='distributed backend')
+        self.parser = parser
+
+    def parse(self):
+        args = self.parser.parse_args()
+        return args
+
+def main():
+    args = Options().parse()
+    ngpus_per_node = torch.cuda.device_count()
+    args.world_size = ngpus_per_node * args.world_size
+    args.lr = args.lr * args.world_size
+    mp.spawn(main_worker, nprocs=ngpus_per_node, args=(ngpus_per_node, args))
+
+# global variable
+best_pred = 0.0
+acclist_train = []
+acclist_val = []
+
+def main_worker(gpu, ngpus_per_node, args):
+    args.gpu = gpu
+    args.rank = args.rank * ngpus_per_node + gpu
+    print('rank: {} / {}'.format(args.rank, args.world_size))
+    dist.init_process_group(backend=args.dist_backend,
+                            init_method=args.dist_url,
+                            world_size=args.world_size,
+                            rank=args.rank)
+    torch.cuda.set_device(args.gpu)
+    # init the args
+    global best_pred, acclist_train, acclist_val
+
+    if args.gpu == 0:
+        print(args)
+    torch.manual_seed(args.seed)
+    torch.cuda.manual_seed(args.seed)
+    # init dataloader
+    transform_train, transform_val = encoding.transforms.get_transform(
+            args.dataset, args.base_size, args.crop_size, args.rand_aug)
+    trainset = encoding.datasets.get_dataset(args.dataset, root=os.path.expanduser('~/.encoding/data'),
+                                             transform=transform_train, train=True, download=True)
+    valset = encoding.datasets.get_dataset(args.dataset, root=os.path.expanduser('~/.encoding/data'),
+                                           transform=transform_val, train=False, download=True)
+
+    train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)
+    train_loader = torch.utils.data.DataLoader(
+        trainset, batch_size=args.batch_size, shuffle=False,
+        num_workers=args.workers, pin_memory=True,
+        sampler=train_sampler)
+
+    val_sampler = torch.utils.data.distributed.DistributedSampler(valset, shuffle=False)
+    val_loader = torch.utils.data.DataLoader(
+        valset, batch_size=args.test_batch_size, shuffle=False,
+        num_workers=args.workers, pin_memory=True,
+        sampler=val_sampler)
+    
+    # init the model
+    model_kwargs = {}
+    if args.pretrained:
+        model_kwargs['pretrained'] = True
+
+    if args.final_drop > 0.0:
+        model_kwargs['final_drop'] = args.final_drop
+
+    if args.dropblock_prob > 0.0:
+        model_kwargs['dropblock_prob'] = args.dropblock_prob
+
+    if args.last_gamma:
+        model_kwargs['last_gamma'] = True
+
+    if args.rectify:
+        model_kwargs['rectified_conv'] = True
+        model_kwargs['rectify_avg'] = args.rectify_avg
+    
+    model = encoding.models.get_model(args.model, **model_kwargs)
+
+    if args.dropblock_prob > 0.0:
+        from functools import partial
+        from encoding.nn import reset_dropblock
+        nr_iters = (args.epochs - args.warmup_epochs) * len(train_loader)
+        apply_drop_prob = partial(reset_dropblock, args.warmup_epochs*len(train_loader),
+                                  nr_iters, 0.0, args.dropblock_prob)
+        model.apply(apply_drop_prob)
+
+    if args.gpu == 0:
+        print(model)
+
+    if args.mixup > 0:
+        train_loader = MixUpWrapper(args.mixup, 1000, train_loader, args.gpu)
+        criterion = NLLMultiLabelSmooth(args.label_smoothing)
+    elif args.label_smoothing > 0.0:
+        criterion = LabelSmoothing(args.label_smoothing)
+    else:
+        criterion = nn.CrossEntropyLoss()
+
+    model.cuda(args.gpu)
+    criterion.cuda(args.gpu)
+    model = DistributedDataParallel(model, device_ids=[args.gpu])
+
+    # criterion and optimizer
+    if args.no_bn_wd:
+        parameters = model.named_parameters()
+        param_dict = {}
+        for k, v in parameters:
+            param_dict[k] = v
+        bn_params = [v for n, v in param_dict.items() if ('bn' in n or 'bias' in n)]
+        rest_params = [v for n, v in param_dict.items() if not ('bn' in n or 'bias' in n)]
+        if args.gpu == 0:
+            print(" Weight decay NOT applied to BN parameters ")
+            print(f'len(parameters): {len(list(model.parameters()))} = {len(bn_params)} + {len(rest_params)}')
+        optimizer = torch.optim.SGD([{'params': bn_params, 'weight_decay': 0 },
+                                     {'params': rest_params, 'weight_decay': args.weight_decay}],
+                                    lr=args.lr,
+                                    momentum=args.momentum,
+                                    weight_decay=args.weight_decay)
+    else:
+        optimizer = torch.optim.SGD(model.parameters(),
+                                    lr=args.lr,
+                                    momentum=args.momentum,
+                                    weight_decay=args.weight_decay)
+    # check point
+    if args.resume is not None:
+        if os.path.isfile(args.resume):
+            if args.gpu == 0:
+                print("=> loading checkpoint '{}'".format(args.resume))
+            checkpoint = torch.load(args.resume)
+            args.start_epoch = checkpoint['epoch'] + 1 if args.start_epoch == 0 else args.start_epoch
+            best_pred = checkpoint['best_pred']
+            acclist_train = checkpoint['acclist_train']
+            acclist_val = checkpoint['acclist_val']
+            model.module.load_state_dict(checkpoint['state_dict'])
+            optimizer.load_state_dict(checkpoint['optimizer'])
+            if args.gpu == 0:
+                print("=> loaded checkpoint '{}' (epoch {})"
+                .format(args.resume, checkpoint['epoch']))
+        else:
+            raise RuntimeError ("=> no resume checkpoint found at '{}'".\
+                format(args.resume))
+    scheduler = LR_Scheduler(args.lr_scheduler,
+                             base_lr=args.lr,
+                             num_epochs=args.epochs,
+                             iters_per_epoch=len(train_loader),
+                             warmup_epochs=args.warmup_epochs)
+    def train(epoch):
+        train_sampler.set_epoch(epoch)
+        model.train()
+        losses = AverageMeter()
+        top1 = AverageMeter()
+        global best_pred, acclist_train
+        for batch_idx, (data, target) in enumerate(train_loader):
+            scheduler(optimizer, batch_idx, epoch, best_pred)
+            if not args.mixup:
+                data, target = data.cuda(args.gpu), target.cuda(args.gpu)
+            optimizer.zero_grad()
+            output = model(data)
+            loss = criterion(output, target)
+            loss.backward()
+            optimizer.step()
+
+            if not args.mixup:
+                acc1 = accuracy(output, target, topk=(1,))
+                top1.update(acc1[0], data.size(0))
+
+            losses.update(loss.item(), data.size(0))
+            if batch_idx % 100 == 0 and args.gpu == 0:
+                if args.mixup:
+                    print('Batch: %d| Loss: %.3f'%(batch_idx, losses.avg))
+                else:
+                    print('Batch: %d| Loss: %.3f | Top1: %.3f'%(batch_idx, losses.avg, top1.avg))
+
+        acclist_train += [top1.avg]
+
+    def validate(epoch):
+        model.eval()
+        top1 = AverageMeter()
+        top5 = AverageMeter()
+        global best_pred, acclist_train, acclist_val
+        is_best = False
+        for batch_idx, (data, target) in enumerate(val_loader):
+            data, target = data.cuda(args.gpu), target.cuda(args.gpu)
+            with torch.no_grad():
+                output = model(data)
+                acc1, acc5 = accuracy(output, target, topk=(1, 5))
+                top1.update(acc1[0], data.size(0))
+                top5.update(acc5[0], data.size(0))
+
+        comm = MPI.COMM_WORLD
+        # send to master
+        sum1 = comm.gather(top1.sum, root=0)
+        cnt1 = comm.gather(top1.count, root=0)
+        sum5 = comm.gather(top5.sum, root=0)
+        cnt5 = comm.gather(top5.count, root=0)
+        # get back from master
+        sum1 = comm.bcast(sum1, root=0)
+        cnt1 = comm.bcast(cnt1, root=0)
+        sum5 = comm.bcast(sum5, root=0)
+        cnt5 = comm.bcast(cnt5, root=0)
+        if args.gpu == 0:
+            top1_acc = sum(sum1) / sum(cnt1)
+            top5_acc = sum(sum5) / len(cnt5)
+            print('Validation: Top1: %.3f | Top5: %.3f'%(top1_acc, top5_acc))
+
+            # save checkpoint
+            acclist_val += [top1_acc]
+            if top1_acc > best_pred:
+                best_pred = top1_acc 
+                is_best = True
+            encoding.utils.save_checkpoint({
+                'epoch': epoch,
+                'state_dict': model.module.state_dict(),
+                'optimizer': optimizer.state_dict(),
+                'best_pred': best_pred,
+                'acclist_train':acclist_train,
+                'acclist_val':acclist_val,
+                }, args=args, is_best=is_best)
+
+    for epoch in range(args.start_epoch, args.epochs):
+        tic = time.time()
+        train(epoch)
+        if epoch % 10 == 0:
+            validate(epoch)
+        elapsed = time.time() - tic
+        if args.gpu == 0:
+            print(f'Epoch: {epoch}, Time cost: {elapsed}')
+
+    validate(epoch)
+
+if __name__ == "__main__":
+    main()
diff --git a/experiments/recognition/verify.py b/experiments/recognition/verify.py
new file mode 100644
index 00000000..770897d2
--- /dev/null
+++ b/experiments/recognition/verify.py
@@ -0,0 +1,134 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## This source code is licensed under the MIT-style license found in the
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+
+from __future__ import print_function
+import os
+import argparse
+from tqdm import tqdm
+
+import torch
+import torch.nn as nn
+
+import encoding
+from encoding.utils import (accuracy, AverageMeter, MixUpWrapper, LR_Scheduler)
+
+class Options():
+    def __init__(self):
+        # data settings
+        parser = argparse.ArgumentParser(description='Deep Encoding')
+        parser.add_argument('--dataset', type=str, default='cifar10',
+                            help='training dataset (default: cifar10)')
+        parser.add_argument('--base-size', type=int, default=None,
+                            help='base image size')
+        parser.add_argument('--crop-size', type=int, default=224,
+                            help='crop image size')
+        # model params 
+        parser.add_argument('--model', type=str, default='densenet',
+                            help='network model type (default: densenet)')
+        parser.add_argument('--rectify', action='store_true', 
+                            default=False, help='rectify convolution')
+        parser.add_argument('--rectify-avg', action='store_true', 
+                            default=False, help='rectify convolution')
+        # training hyper params
+        parser.add_argument('--batch-size', type=int, default=128, metavar='N',
+                            help='batch size for training (default: 128)')
+        parser.add_argument('--workers', type=int, default=32,
+                            metavar='N', help='dataloader threads')
+        # cuda, seed and logging
+        parser.add_argument('--no-cuda', action='store_true', 
+                            default=False, help='disables CUDA training')
+        parser.add_argument('--seed', type=int, default=1, metavar='S',
+                            help='random seed (default: 1)')
+        # checking point
+        parser.add_argument('--resume', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--verify', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--export', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        self.parser = parser
+
+    def parse(self):
+        args = self.parser.parse_args()
+        return args
+
+
+def main():
+    # init the args
+    args = Options().parse()
+    args.cuda = not args.no_cuda and torch.cuda.is_available()
+    print(args)
+    torch.manual_seed(args.seed)
+    if args.cuda:
+        torch.cuda.manual_seed(args.seed)
+    # init dataloader
+    _, transform_val = encoding.transforms.get_transform(args.dataset, args.base_size, args.crop_size)
+    valset = encoding.datasets.get_dataset(args.dataset, root=os.path.expanduser('~/.encoding/data'),
+                                           transform=transform_val, train=False, download=True)
+    val_loader = torch.utils.data.DataLoader(
+        valset, batch_size=args.batch_size, shuffle=False,
+        num_workers=args.workers, pin_memory=True if args.cuda else False)
+    
+    # init the model
+    model_kwargs = {'pretrained': True}
+
+    if args.rectify:
+        model_kwargs['rectified_conv'] = True
+        model_kwargs['rectify_avg'] = args.rectify_avg
+
+    model = encoding.models.get_model(args.model, **model_kwargs)
+    print(model)
+
+    if args.cuda:
+        model.cuda()
+        # Please use CUDA_VISIBLE_DEVICES to control the number of gpus
+        model = nn.DataParallel(model)
+
+    # checkpoint
+    if args.verify:
+        if os.path.isfile(args.verify):
+            print("=> loading checkpoint '{}'".format(args.verify))
+            model.module.load_state_dict(torch.load(args.verify))
+        else:
+            raise RuntimeError ("=> no verify checkpoint found at '{}'".\
+                format(args.verify))
+    elif args.resume is not None:
+        if os.path.isfile(args.resume):
+            print("=> loading checkpoint '{}'".format(args.resume))
+            checkpoint = torch.load(args.resume)
+            model.module.load_state_dict(checkpoint['state_dict'])
+        else:
+            raise RuntimeError ("=> no resume checkpoint found at '{}'".\
+                format(args.resume))
+
+    model.eval()
+    top1 = AverageMeter()
+    top5 = AverageMeter()
+    is_best = False
+    tbar = tqdm(val_loader, desc='\r')
+    for batch_idx, (data, target) in enumerate(tbar):
+        if args.cuda:
+            data, target = data.cuda(), target.cuda()
+        with torch.no_grad():
+            output = model(data)
+            acc1, acc5 = accuracy(output, target, topk=(1, 5))
+            top1.update(acc1[0], data.size(0))
+            top5.update(acc5[0], data.size(0))
+
+        tbar.set_description('Top1: %.3f | Top5: %.3f'%(top1.avg, top5.avg))
+
+    print('Top1 Acc: %.3f | Top5 Acc: %.3f '%(top1.avg, top5.avg))
+
+    if args.export:
+        torch.save(model.module.state_dict(), args.export + '.pth')
+
+
+if __name__ == "__main__":
+    main()
+
diff --git a/experiments/segmentation/option.py b/experiments/segmentation/option.py
deleted file mode 100644
index 9fc5c326..00000000
--- a/experiments/segmentation/option.py
+++ /dev/null
@@ -1,115 +0,0 @@
-###########################################################################
-# Created by: Hang Zhang 
-# Email: zhang.hang@rutgers.edu 
-# Copyright (c) 2017
-###########################################################################
-
-import os
-import argparse
-import torch
-
-class Options():
-    def __init__(self):
-        parser = argparse.ArgumentParser(description='PyTorch \
-            Segmentation')
-        # model and dataset 
-        parser.add_argument('--model', type=str, default='encnet',
-                            help='model name (default: encnet)')
-        parser.add_argument('--backbone', type=str, default='resnet50',
-                            help='backbone name (default: resnet50)')
-        parser.add_argument('--dataset', type=str, default='ade20k',
-                            help='dataset name (default: pascal12)')
-        parser.add_argument('--data-folder', type=str,
-                            default=os.path.join(os.environ['HOME'], 'data'),
-                            help='training dataset folder (default: \
-                            $(HOME)/data)')
-        parser.add_argument('--workers', type=int, default=16,
-                            metavar='N', help='dataloader threads')
-        parser.add_argument('--base-size', type=int, default=520,
-                            help='base image size')
-        parser.add_argument('--crop-size', type=int, default=480,
-                            help='crop image size')
-        parser.add_argument('--train-split', type=str, default='train',
-                            help='dataset train split (default: train)')
-        # training hyper params
-        parser.add_argument('--aux', action='store_true', default= False,
-                            help='Auxilary Loss')
-        parser.add_argument('--aux-weight', type=float, default=0.2,
-                            help='Auxilary loss weight (default: 0.2)')
-        parser.add_argument('--se-loss', action='store_true', default= False,
-                            help='Semantic Encoding Loss SE-loss')
-        parser.add_argument('--se-weight', type=float, default=0.2,
-                            help='SE-loss weight (default: 0.2)')
-        parser.add_argument('--epochs', type=int, default=None, metavar='N',
-                            help='number of epochs to train (default: auto)')
-        parser.add_argument('--start_epoch', type=int, default=0,
-                            metavar='N', help='start epochs (default:0)')
-        parser.add_argument('--batch-size', type=int, default=16,
-                            metavar='N', help='input batch size for \
-                            training (default: auto)')
-        parser.add_argument('--test-batch-size', type=int, default=16,
-                            metavar='N', help='input batch size for \
-                            testing (default: same as batch size)')
-        # optimizer params
-        parser.add_argument('--lr', type=float, default=None, metavar='LR',
-                            help='learning rate (default: auto)')
-        parser.add_argument('--lr-scheduler', type=str, default='poly',
-                            help='learning rate scheduler (default: poly)')
-        parser.add_argument('--momentum', type=float, default=0.9,
-                            metavar='M', help='momentum (default: 0.9)')
-        parser.add_argument('--weight-decay', type=float, default=1e-4,
-                            metavar='M', help='w-decay (default: 1e-4)')
-        # cuda, seed and logging
-        parser.add_argument('--no-cuda', action='store_true', default=
-                            False, help='disables CUDA training')
-        parser.add_argument('--seed', type=int, default=1, metavar='S',
-                            help='random seed (default: 1)')
-        # checking point
-        parser.add_argument('--resume', type=str, default=None,
-                            help='put the path to resuming file if needed')
-        parser.add_argument('--checkname', type=str, default='default',
-                            help='set the checkpoint name')
-        parser.add_argument('--model-zoo', type=str, default=None,
-                            help='evaluating on model zoo model')
-        # finetuning pre-trained models
-        parser.add_argument('--ft', action='store_true', default= False,
-                            help='finetuning on a different dataset')
-        # evaluation option
-        parser.add_argument('--eval', action='store_true', default= False,
-                            help='evaluating mIoU')
-        parser.add_argument('--test-val', action='store_true', default= False,
-                            help='generate masks on val set')
-        parser.add_argument('--no-val', action='store_true', default= False,
-                            help='skip validation during training')
-        # test option
-        parser.add_argument('--test-folder', type=str, default=None,
-                            help='path to test image folder')
-        # the parser
-        self.parser = parser
-
-    def parse(self):
-        args = self.parser.parse_args()
-        args.cuda = not args.no_cuda and torch.cuda.is_available()
-        # default settings for epochs, batch_size and lr
-        if args.epochs is None:
-            epoches = {
-                'coco': 30,
-                'pascal_aug': 80,
-                'pascal_voc': 50,
-                'pcontext': 80,
-                'ade20k': 180,
-                'citys': 240,
-            }
-            args.epochs = epoches[args.dataset.lower()]
-        if args.lr is None:
-            lrs = {
-                'coco': 0.004,
-                'pascal_aug': 0.001,
-                'pascal_voc': 0.0001,
-                'pcontext': 0.001,
-                'ade20k': 0.004,
-                'citys': 0.004,
-            }
-            args.lr = lrs[args.dataset.lower()] / 16 * args.batch_size
-        print(args)
-        return args
diff --git a/experiments/segmentation/test.py b/experiments/segmentation/test.py
index 2772946f..d8fd028e 100644
--- a/experiments/segmentation/test.py
+++ b/experiments/segmentation/test.py
@@ -5,6 +5,7 @@
 ###########################################################################
 
 import os
+import argparse
 import numpy as np
 from tqdm import tqdm
 
@@ -16,10 +17,82 @@
 import encoding.utils as utils
 from encoding.nn import SegmentationLosses, SyncBatchNorm
 from encoding.parallel import DataParallelModel, DataParallelCriterion
-from encoding.datasets import get_segmentation_dataset, test_batchify_fn
+from encoding.datasets import get_dataset, test_batchify_fn
 from encoding.models import get_model, get_segmentation_model, MultiEvalModule
 
-from option import Options
+
+class Options():
+    def __init__(self):
+        parser = argparse.ArgumentParser(description='PyTorch Segmentation')
+        # model and dataset 
+        parser.add_argument('--model', type=str, default='encnet',
+                            help='model name (default: encnet)')
+        parser.add_argument('--backbone', type=str, default='resnet50',
+                            help='backbone name (default: resnet50)')
+        parser.add_argument('--dataset', type=str, default='ade20k',
+                            help='dataset name (default: pascal12)')
+        parser.add_argument('--workers', type=int, default=16,
+                            metavar='N', help='dataloader threads')
+        parser.add_argument('--base-size', type=int, default=520,
+                            help='base image size')
+        parser.add_argument('--crop-size', type=int, default=480,
+                            help='crop image size')
+        parser.add_argument('--train-split', type=str, default='train',
+                            help='dataset train split (default: train)')
+        # training hyper params
+        parser.add_argument('--aux', action='store_true', default= False,
+                            help='Auxilary Loss')
+        parser.add_argument('--se-loss', action='store_true', default= False,
+                            help='Semantic Encoding Loss SE-loss')
+        parser.add_argument('--se-weight', type=float, default=0.2,
+                            help='SE-loss weight (default: 0.2)')
+        parser.add_argument('--batch-size', type=int, default=16,
+                            metavar='N', help='input batch size for \
+                            training (default: auto)')
+        parser.add_argument('--test-batch-size', type=int, default=16,
+                            metavar='N', help='input batch size for \
+                            testing (default: same as batch size)')
+        # cuda, seed and logging
+        parser.add_argument('--no-cuda', action='store_true', default=
+                            False, help='disables CUDA training')
+        parser.add_argument('--seed', type=int, default=1, metavar='S',
+                            help='random seed (default: 1)')
+        # checking point
+        parser.add_argument('--resume', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--verify', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--model-zoo', type=str, default=None,
+                            help='evaluating on model zoo model')
+        # evaluation option
+        parser.add_argument('--eval', action='store_true', default= False,
+                            help='evaluating mIoU')
+        parser.add_argument('--export', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--acc-bn', action='store_true', default= False,
+                            help='Re-accumulate BN statistics')
+        parser.add_argument('--test-val', action='store_true', default= False,
+                            help='generate masks on val set')
+        parser.add_argument('--no-val', action='store_true', default= False,
+                            help='skip validation during training')
+        # test option
+        parser.add_argument('--test-folder', type=str, default=None,
+                            help='path to test image folder')
+        # the parser
+        self.parser = parser
+
+    def parse(self):
+        args = self.parser.parse_args()
+        args.cuda = not args.no_cuda and torch.cuda.is_available()
+        print(args)
+        return args
+
+@torch.no_grad()
+def reset_bn_statistics(m):
+    if isinstance(m, torch.nn.BatchNorm2d):
+        #print(m)
+        m.momentum = 0.0
+        m.reset_running_stats()
 
 def test(args):
     # output folder
@@ -32,14 +105,14 @@ def test(args):
         transform.Normalize([.485, .456, .406], [.229, .224, .225])])
     # dataset
     if args.eval:
-        testset = get_segmentation_dataset(args.dataset, split='val', mode='testval',
-                                           transform=input_transform)
+        testset = get_dataset(args.dataset, split='val', mode='testval',
+                              transform=input_transform)
     elif args.test_val:
-        testset = get_segmentation_dataset(args.dataset, split='val', mode='test',
-                                           transform=input_transform)
+        testset = get_dataset(args.dataset, split='val', mode='test',
+                              transform=input_transform)
     else:
-        testset = get_segmentation_dataset(args.dataset, split='test', mode='test',
-                                           transform=input_transform)
+        testset = get_dataset(args.dataset, split='test', mode='test',
+                              transform=input_transform)
     # dataloader
     loader_kwargs = {'num_workers': args.workers, 'pin_memory': True} \
         if args.cuda else {}
@@ -53,20 +126,47 @@ def test(args):
         #model.crop_size = args.crop_size
     else:
         model = get_segmentation_model(args.model, dataset=args.dataset,
-                                       backbone = args.backbone, aux = args.aux,
-                                       se_loss = args.se_loss, norm_layer = SyncBatchNorm,
+                                       backbone=args.backbone, aux = args.aux,
+                                       se_loss=args.se_loss,
+                                       norm_layer=torch.nn.BatchNorm2d if args.acc_bn else SyncBatchNorm,
                                        base_size=args.base_size, crop_size=args.crop_size)
         # resuming checkpoint
-        if args.resume is None or not os.path.isfile(args.resume):
-            raise RuntimeError("=> no checkpoint found at '{}'" .format(args.resume))
-        checkpoint = torch.load(args.resume)
-        # strict=False, so that it is compatible with old pytorch saved models
-        model.load_state_dict(checkpoint['state_dict'])
-        print("=> loaded checkpoint '{}' (epoch {})".format(args.resume, checkpoint['epoch']))
+        if args.verify is not None and os.path.isfile(args.verify):
+            print("=> loading checkpoint '{}'".format(args.verify))
+            model.load_state_dict(torch.load(args.verify))
+        elif args.resume is not None and os.path.isfile(args.resume):
+            checkpoint = torch.load(args.resume)
+            # strict=False, so that it is compatible with old pytorch saved models
+            model.load_state_dict(checkpoint['state_dict'])
+            print("=> loaded checkpoint '{}' (epoch {})".format(args.resume, checkpoint['epoch']))
+        else:
+            raise RuntimeError ("=> no checkpoint found")
 
     print(model)
+    # accumulate bn statistics
+    if args.acc_bn:
+        print('Reseting BN statistics')
+        model.apply(reset_bn_statistics)
+        data_kwargs = {'transform': input_transform, 'base_size': args.base_size,
+                       'crop_size': args.crop_size}
+        trainset = get_dataset(args.dataset, split=args.train_split, mode='train', **data_kwargs)
+        trainloader = data.DataLoader(trainset, batch_size=args.batch_size,
+                                      drop_last=True, shuffle=True, **loader_kwargs)
+        tbar = tqdm(trainloader)
+        model.train()
+        model.cuda()
+        for i, (image, dst) in enumerate(tbar):
+            image = image.cuda()
+            with torch.no_grad():
+                outputs = model(image)
+            if i > 1000: break
+
+    if args.export:
+        torch.save(model.state_dict(), args.export + '.pth')
+        return
+
     scales = [0.75, 1.0, 1.25, 1.5, 1.75, 2.0, 2.25] if args.dataset == 'citys' else \
-        [0.5, 0.75, 1.0, 1.25, 1.5, 1.75, 2.0]
+            [0.5, 0.75, 1.0, 1.25, 1.5, 1.75]#, 2.0
     evaluator = MultiEvalModule(model, testset.num_class, scales=scales).cuda()
     evaluator.eval()
     metric = utils.SegmentationMetric(testset.num_class)
@@ -89,6 +189,8 @@ def test(args):
                 outname = os.path.splitext(impath)[0] + '.png'
                 mask.save(os.path.join(outdir, outname))
 
+    print( 'pixAcc: %.4f, mIoU: %.4f' % (pixAcc, mIoU))
+
 if __name__ == "__main__":
     args = Options().parse()
     torch.manual_seed(args.seed)
diff --git a/experiments/segmentation/train.py b/experiments/segmentation/train.py
index 135c4f38..63a8fed7 100644
--- a/experiments/segmentation/train.py
+++ b/experiments/segmentation/train.py
@@ -6,6 +6,7 @@
 
 import os
 import copy
+import argparse
 import numpy as np
 from tqdm import tqdm
 
@@ -15,16 +16,113 @@
 from torch.nn.parallel.scatter_gather import gather
 
 import encoding.utils as utils
-from encoding.nn import SegmentationLosses, SyncBatchNorm, OHEMSegmentationLosses
+from encoding.nn import SegmentationLosses, SyncBatchNorm
 from encoding.parallel import DataParallelModel, DataParallelCriterion
 from encoding.datasets import get_dataset
 from encoding.models import get_segmentation_model
 
-from option import Options
+class Options():
+    def __init__(self):
+        parser = argparse.ArgumentParser(description='PyTorch \
+            Segmentation')
+        # model and dataset 
+        parser.add_argument('--model', type=str, default='encnet',
+                            help='model name (default: encnet)')
+        parser.add_argument('--backbone', type=str, default='resnet50',
+                            help='backbone name (default: resnet50)')
+        parser.add_argument('--dataset', type=str, default='ade20k',
+                            help='dataset name (default: pascal12)')
+        parser.add_argument('--workers', type=int, default=16,
+                            metavar='N', help='dataloader threads')
+        parser.add_argument('--base-size', type=int, default=520,
+                            help='base image size')
+        parser.add_argument('--crop-size', type=int, default=480,
+                            help='crop image size')
+        parser.add_argument('--train-split', type=str, default='train',
+                            help='dataset train split (default: train)')
+        # training hyper params
+        parser.add_argument('--aux', action='store_true', default= False,
+                            help='Auxilary Loss')
+        parser.add_argument('--aux-weight', type=float, default=0.2,
+                            help='Auxilary loss weight (default: 0.2)')
+        parser.add_argument('--se-loss', action='store_true', default= False,
+                            help='Semantic Encoding Loss SE-loss')
+        parser.add_argument('--se-weight', type=float, default=0.2,
+                            help='SE-loss weight (default: 0.2)')
+        parser.add_argument('--epochs', type=int, default=None, metavar='N',
+                            help='number of epochs to train (default: auto)')
+        parser.add_argument('--start_epoch', type=int, default=0,
+                            metavar='N', help='start epochs (default:0)')
+        parser.add_argument('--batch-size', type=int, default=16,
+                            metavar='N', help='input batch size for \
+                            training (default: auto)')
+        parser.add_argument('--test-batch-size', type=int, default=16,
+                            metavar='N', help='input batch size for \
+                            testing (default: same as batch size)')
+        # optimizer params
+        parser.add_argument('--lr', type=float, default=None, metavar='LR',
+                            help='learning rate (default: auto)')
+        parser.add_argument('--lr-scheduler', type=str, default='poly',
+                            help='learning rate scheduler (default: poly)')
+        parser.add_argument('--momentum', type=float, default=0.9,
+                            metavar='M', help='momentum (default: 0.9)')
+        parser.add_argument('--weight-decay', type=float, default=1e-4,
+                            metavar='M', help='w-decay (default: 1e-4)')
+        # cuda, seed and logging
+        parser.add_argument('--no-cuda', action='store_true', default=
+                            False, help='disables CUDA training')
+        parser.add_argument('--seed', type=int, default=1, metavar='S',
+                            help='random seed (default: 1)')
+        # checking point
+        parser.add_argument('--resume', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--checkname', type=str, default='default',
+                            help='set the checkpoint name')
+        parser.add_argument('--model-zoo', type=str, default=None,
+                            help='evaluating on model zoo model')
+        # finetuning pre-trained models
+        parser.add_argument('--ft', action='store_true', default= False,
+                            help='finetuning on a different dataset')
+        # evaluation option
+        parser.add_argument('--eval', action='store_true', default= False,
+                            help='evaluating mIoU')
+        parser.add_argument('--test-val', action='store_true', default= False,
+                            help='generate masks on val set')
+        parser.add_argument('--no-val', action='store_true', default= False,
+                            help='skip validation during training')
+        # test option
+        parser.add_argument('--test-folder', type=str, default=None,
+                            help='path to test image folder')
+        # the parser
+        self.parser = parser
+
+    def parse(self):
+        args = self.parser.parse_args()
+        args.cuda = not args.no_cuda and torch.cuda.is_available()
+        # default settings for epochs, batch_size and lr
+        if args.epochs is None:
+            epoches = {
+                'coco': 30,
+                'pascal_aug': 80,
+                'pascal_voc': 50,
+                'pcontext': 80,
+                'ade20k': 180,
+                'citys': 240,
+            }
+            args.epochs = epoches[args.dataset.lower()]
+        if args.lr is None:
+            lrs = {
+                'coco': 0.004,
+                'pascal_aug': 0.001,
+                'pascal_voc': 0.0001,
+                'pcontext': 0.001,
+                'ade20k': 0.004,
+                'citys': 0.004,
+            }
+            args.lr = lrs[args.dataset.lower()] / 16 * args.batch_size
+        print(args)
+        return args
 
-torch_ver = torch.__version__[:3]
-if torch_ver == '0.3':
-    from torch.autograd import Variable
 
 class Trainer():
     def __init__(self, args):
@@ -36,10 +134,8 @@ def __init__(self, args):
         # dataset
         data_kwargs = {'transform': input_transform, 'base_size': args.base_size,
                        'crop_size': args.crop_size}
-        trainset = get_dataset(args.dataset, split=args.train_split, mode='train',
-                                           **data_kwargs)
-        testset = get_dataset(args.dataset, split='val', mode ='val',
-                                           **data_kwargs)
+        trainset = get_dataset(args.dataset, split=args.train_split, mode='train', **data_kwargs)
+        testset = get_dataset(args.dataset, split='val', mode ='val', **data_kwargs)
         # dataloader
         kwargs = {'num_workers': args.workers, 'pin_memory': True} \
             if args.cuda else {}
@@ -92,8 +188,8 @@ def __init__(self, args):
         if args.ft:
             args.start_epoch = 0
         # lr scheduler
-        self.scheduler = utils.LR_Scheduler(args.lr_scheduler, args.lr,
-                                            args.epochs, len(self.trainloader))
+        self.scheduler = utils.LR_Scheduler_Head(args.lr_scheduler, args.lr,
+                                                 args.epochs, len(self.trainloader))
         self.best_pred = 0.0
 
     def training(self, epoch):
@@ -103,9 +199,6 @@ def training(self, epoch):
         for i, (image, target) in enumerate(tbar):
             self.scheduler(self.optimizer, i, epoch, self.best_pred)
             self.optimizer.zero_grad()
-            if torch_ver == "0.3":
-                image = Variable(image)
-                target = Variable(target)
             outputs = self.model(image)
             loss = self.criterion(outputs, target)
             loss.backward()
@@ -140,12 +233,8 @@ def eval_batch(model, image, target):
         total_inter, total_union, total_correct, total_label = 0, 0, 0, 0
         tbar = tqdm(self.valloader, desc='\r')
         for i, (image, target) in enumerate(tbar):
-            if torch_ver == "0.3":
-                image = Variable(image, volatile=True)
+            with torch.no_grad():
                 correct, labeled, inter, union = eval_batch(self.model, image, target)
-            else:
-                with torch.no_grad():
-                    correct, labeled, inter, union = eval_batch(self.model, image, target)
 
             total_correct += correct
             total_label += labeled
diff --git a/experiments/segmentation/train_dist.py b/experiments/segmentation/train_dist.py
new file mode 100644
index 00000000..5a6c9d5b
--- /dev/null
+++ b/experiments/segmentation/train_dist.py
@@ -0,0 +1,326 @@
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+## Created by: Hang Zhang
+## Email: zhanghang0704@gmail.com
+## Copyright (c) 2020
+##
+## LICENSE file in the root directory of this source tree 
+##+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+
+import os
+import time
+import argparse
+import numpy as np
+from tqdm import tqdm
+#from mpi4py import MPI
+
+import torch
+from torch.utils import data
+import torch.distributed as dist
+import torch.multiprocessing as mp
+import torch.backends.cudnn as cudnn
+import torchvision.transforms as transform
+from torch.nn.parallel.scatter_gather import gather
+from torch.nn.parallel import DistributedDataParallel
+
+import encoding.utils as utils
+from encoding.nn import SegmentationLosses, DistSyncBatchNorm
+
+from encoding.datasets import get_dataset
+from encoding.models import get_segmentation_model
+
+
+class Options():
+    def __init__(self):
+        parser = argparse.ArgumentParser(description='PyTorch \
+            Segmentation')
+        # model and dataset 
+        parser.add_argument('--model', type=str, default='encnet',
+                            help='model name (default: encnet)')
+        parser.add_argument('--backbone', type=str, default='resnet50',
+                            help='backbone name (default: resnet50)')
+        parser.add_argument('--rectify', action='store_true', 
+                            default=False, help='rectify convolution')
+        parser.add_argument('--rectify-avg', action='store_true', 
+                            default=False, help='rectify convolution')
+        parser.add_argument('--dataset', type=str, default='ade20k',
+                            help='dataset name (default: pascal12)')
+        parser.add_argument('--workers', type=int, default=8,
+                            metavar='N', help='dataloader threads')
+        parser.add_argument('--base-size', type=int, default=520,
+                            help='base image size')
+        parser.add_argument('--crop-size', type=int, default=480,
+                            help='crop image size')
+        parser.add_argument('--train-split', type=str, default='train',
+                            help='dataset train split (default: train)')
+        # training hyper params
+        parser.add_argument('--aux', action='store_true', default= False,
+                            help='Auxilary Loss')
+        parser.add_argument('--aux-weight', type=float, default=0.2,
+                            help='Auxilary loss weight (default: 0.2)')
+        parser.add_argument('--se-loss', action='store_true', default= False,
+                            help='Semantic Encoding Loss SE-loss')
+        parser.add_argument('--se-weight', type=float, default=0.2,
+                            help='SE-loss weight (default: 0.2)')
+        parser.add_argument('--epochs', type=int, default=None, metavar='N',
+                            help='number of epochs to train (default: auto)')
+        parser.add_argument('--start_epoch', type=int, default=0,
+                            metavar='N', help='start epochs (default:0)')
+        parser.add_argument('--batch-size', type=int, default=2,
+                            metavar='N', help='input batch size for \
+                            training (default: auto)')
+        parser.add_argument('--test-batch-size', type=int, default=16,
+                            metavar='N', help='input batch size for \
+                            testing (default: same as batch size)')
+        # optimizer params
+        parser.add_argument('--lr', type=float, default=None, metavar='LR',
+                            help='learning rate (default: auto)')
+        parser.add_argument('--lr-scheduler', type=str, default='poly',
+                            help='learning rate scheduler (default: poly)')
+        parser.add_argument('--momentum', type=float, default=0.9,
+                            metavar='M', help='momentum (default: 0.9)')
+        parser.add_argument('--weight-decay', type=float, default=1e-4,
+                            metavar='M', help='w-decay (default: 1e-4)')
+        # cuda, seed and logging
+        parser.add_argument('--seed', type=int, default=1, metavar='S',
+                            help='random seed (default: 1)')
+        # checking point
+        parser.add_argument('--resume', type=str, default=None,
+                            help='put the path to resuming file if needed')
+        parser.add_argument('--checkname', type=str, default='default',
+                            help='set the checkpoint name')
+        parser.add_argument('--model-zoo', type=str, default=None,
+                            help='evaluating on model zoo model')
+        # finetuning pre-trained models
+        parser.add_argument('--ft', action='store_true', default= False,
+                            help='finetuning on a different dataset')
+        # evaluation option
+        parser.add_argument('--eval', action='store_true', default= False,
+                            help='evaluating mIoU')
+        parser.add_argument('--test-val', action='store_true', default= False,
+                            help='generate masks on val set')
+        # test option
+        parser.add_argument('--test-folder', type=str, default=None,
+                            help='path to test image folder')
+        # distributed
+        parser.add_argument('--world-size', default=1, type=int,
+                            help='number of nodes for distributed training')
+        parser.add_argument('--rank', default=0, type=int,
+                            help='node rank for distributed training')
+        parser.add_argument('--dist-url', default='tcp://localhost:23456', type=str,
+                            help='url used to set up distributed training')
+        parser.add_argument('--dist-backend', default='nccl', type=str,
+                            help='distributed backend')
+        # the parser
+        self.parser = parser
+
+    def parse(self):
+        args = self.parser.parse_args()
+        # default settings for epochs, batch_size and lr
+        if args.epochs is None:
+            epoches = {
+                'coco': 30,
+                'pascal_aug': 80,
+                'pascal_voc': 50,
+                'pcontext': 80,
+                'ade20k': 120,
+                'citys': 240,
+            }
+            args.epochs = epoches[args.dataset.lower()]
+        if args.lr is None:
+            lrs = {
+                'coco': 0.004,
+                'pascal_aug': 0.001,
+                'pascal_voc': 0.0001,
+                'pcontext': 0.001,
+                'ade20k': 0.01,
+                'citys': 0.01,
+            }
+            args.lr = lrs[args.dataset.lower()] / 16 * args.batch_size
+        print(args)
+        return args
+
+#def mpi_avg_all(*args):
+#    comm = MPI.COMM_WORLD
+#    # send to master
+#    sum_args = []
+#    for arg in args:
+#        sum_args.append(sum(comm.gather(arg, root=0)))
+#    sum_args = [item / len(args) for item in sum_args]
+#    return tuple(sum_args)
+
+def torch_dist_avg(*args):
+    process_group = torch.distributed.group.WORLD
+    tensor_args = []
+    pending_res = []
+    for arg in args:
+        tensor_arg = torch.tensor(arg)
+        tensor_args.append(tensor_arg)
+        pending_res.append(torch.distributed.all_reduce(tensor_arg, group=process_group, async_op=True))
+    for res in pending_res:
+        res.wait()
+    ret = [x.item()/len(tensor_args) for x in tensor_args]
+    return ret
+
+def main():
+    args = Options().parse()
+    ngpus_per_node = torch.cuda.device_count()
+    args.world_size = ngpus_per_node * args.world_size
+    args.lr = args.lr * args.world_size
+    mp.spawn(main_worker, nprocs=ngpus_per_node, args=(ngpus_per_node, args))
+
+best_pred = 0.0
+
+def main_worker(gpu, ngpus_per_node, args):
+    global best_pred
+    args.gpu = gpu
+    args.rank = args.rank * ngpus_per_node + gpu
+    print('rank: {} / {}'.format(args.rank, args.world_size))
+    dist.init_process_group(backend=args.dist_backend,
+                            init_method=args.dist_url,
+                            world_size=args.world_size,
+                            rank=args.rank)
+    torch.cuda.set_device(args.gpu)
+    torch.manual_seed(args.seed)
+    torch.cuda.manual_seed(args.seed)
+    cudnn.benchmark = True
+    # data transforms
+    input_transform = transform.Compose([
+        transform.ToTensor(),
+        transform.Normalize([.485, .456, .406], [.229, .224, .225])])
+    # dataset
+    data_kwargs = {'transform': input_transform, 'base_size': args.base_size,
+                   'crop_size': args.crop_size}
+    trainset = get_dataset(args.dataset, split=args.train_split, mode='train', **data_kwargs)
+    valset = get_dataset(args.dataset, split='val', mode ='val', **data_kwargs)
+    train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)
+    val_sampler = torch.utils.data.distributed.DistributedSampler(valset, shuffle=False)
+    # dataloader
+    loader_kwargs = {'batch_size': args.batch_size, 'num_workers': args.workers, 'pin_memory': True}
+    trainloader = data.DataLoader(trainset, sampler=train_sampler, drop_last=True, **loader_kwargs)
+    valloader = data.DataLoader(valset, sampler=val_sampler, **loader_kwargs)
+    nclass = trainset.num_class
+    # model
+    model_kwargs = {}
+    if args.rectify:
+        model_kwargs['rectified_conv'] = True
+        model_kwargs['rectify_avg'] = args.rectify_avg
+    model = get_segmentation_model(args.model, dataset=args.dataset,
+                                   backbone=args.backbone, aux=args.aux,
+                                   se_loss=args.se_loss, norm_layer=DistSyncBatchNorm,
+                                   base_size=args.base_size, crop_size=args.crop_size,
+                                   **model_kwargs)
+    if args.gpu == 0:
+        print(model)
+    # optimizer using different LR
+    params_list = [{'params': model.pretrained.parameters(), 'lr': args.lr},]
+    if hasattr(model, 'head'):
+        params_list.append({'params': model.head.parameters(), 'lr': args.lr*10})
+    if hasattr(model, 'auxlayer'):
+        params_list.append({'params': model.auxlayer.parameters(), 'lr': args.lr*10})
+    optimizer = torch.optim.SGD(params_list,
+                                lr=args.lr,
+                                momentum=args.momentum,
+                                weight_decay=args.weight_decay)
+    # criterions
+    criterion = SegmentationLosses(se_loss=args.se_loss,
+                                   aux=args.aux,
+                                   nclass=nclass, 
+                                   se_weight=args.se_weight,
+                                   aux_weight=args.aux_weight)
+    # distributed data parallel
+    model.cuda(args.gpu)
+    criterion.cuda(args.gpu)
+    model = DistributedDataParallel(model, device_ids=[args.gpu])
+    metric = utils.SegmentationMetric(nclass=nclass)
+
+    # resuming checkpoint
+    if args.resume is not None:
+        if not os.path.isfile(args.resume):
+            raise RuntimeError("=> no checkpoint found at '{}'" .format(args.resume))
+        checkpoint = torch.load(args.resume)
+        args.start_epoch = checkpoint['epoch']
+        model.module.load_state_dict(checkpoint['state_dict'])
+        if not args.ft:
+            optimizer.load_state_dict(checkpoint['optimizer'])
+        best_pred = checkpoint['best_pred']
+        print("=> loaded checkpoint '{}' (epoch {})"
+              .format(args.resume, checkpoint['epoch']))
+    # clear start epoch if fine-tuning
+    if args.ft:
+        args.start_epoch = 0
+
+    # lr scheduler
+    scheduler = utils.LR_Scheduler_Head(args.lr_scheduler, args.lr,
+                                        args.epochs, len(trainloader))
+
+    def training(epoch):
+        global best_pred
+        train_loss = 0.0
+        model.train()
+        tic = time.time()
+        for i, (image, target) in enumerate(trainloader):
+            scheduler(optimizer, i, epoch, best_pred)
+            optimizer.zero_grad()
+            outputs = model(image)
+            target = target.cuda(args.gpu)
+            loss = criterion(*outputs, target)
+            loss.backward()
+            optimizer.step()
+            train_loss += loss.item()
+            if i % 100 == 0 and args.gpu == 0:
+                iter_per_sec = 100.0 / (time.time() - tic) if i != 0 else 1.0/ (time.time() - tic)
+                tic = time.time()
+                print('Epoch: {}, Iter: {}, Speed: {:.3f} iter/sec, Train loss: {:.3f}'. \
+                      format(epoch, i, iter_per_sec, train_loss / (i + 1)))
+
+    def validation(epoch):
+        # Fast test during the training using single-crop only
+        global best_pred
+        is_best = False
+        model.eval()
+        metric.reset()
+
+        for i, (image, target) in enumerate(valloader):
+            with torch.no_grad():
+                #correct, labeled, inter, union = eval_batch(model, image, target)
+                pred = model(image)[0]
+                target = target.cuda(args.gpu)
+                metric.update(target, pred)
+
+            pixAcc, mIoU = metric.get()
+            if i % 100 == 0 and args.gpu == 0:
+                print('pixAcc: %.3f, mIoU: %.3f' % (pixAcc, mIoU))
+
+        if args.gpu == 0:
+            pixAcc, mIoU = torch_dist_avg(pixAcc, mIoU)
+            print('pixAcc: %.3f, mIoU: %.3f' % (pixAcc, mIoU))
+
+            new_pred = (pixAcc + mIoU)/2
+            if new_pred > best_pred:
+                is_best = True
+                best_pred = new_pred
+            utils.save_checkpoint({
+                'epoch': epoch + 1,
+                'state_dict': model.module.state_dict(),
+                'optimizer': optimizer.state_dict(),
+                'best_pred': best_pred,
+            }, args, is_best)
+
+    if args.gpu == 0:
+        print('Starting Epoch:', args.start_epoch)
+        print('Total Epoches:', args.epochs)
+
+    for epoch in range(args.start_epoch, args.epochs):
+        tic = time.time()
+        training(epoch)
+        if epoch % 10 == 0:
+            validation(epoch)
+        elapsed = time.time() - tic
+        if args.gpu == 0:
+            print(f'Epoch: {epoch}, Time cost: {elapsed}')
+
+    validation(epoch)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/scripts/prepare_citys.py b/scripts/prepare_citys.py
new file mode 100644
index 00000000..68c0aa62
--- /dev/null
+++ b/scripts/prepare_citys.py
@@ -0,0 +1,45 @@
+"""Prepare Cityscapes dataset"""
+import os
+import shutil
+import argparse
+import zipfile
+from encoding.utils import check_sha1, download, mkdir
+
+_TARGET_DIR = os.path.expanduser('~/.encoding/data')
+
+def parse_args():
+    parser = argparse.ArgumentParser(
+        description='Initialize ADE20K dataset.',
+        epilog='Example: python prepare_cityscapes.py',
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
+    parser.add_argument('--download-dir', default=None, help='dataset directory on disk')
+    args = parser.parse_args()
+    return args
+
+def download_city(path, overwrite=False):
+    _CITY_DOWNLOAD_URLS = [
+        ('gtFine_trainvaltest.zip', '99f532cb1af174f5fcc4c5bc8feea8c66246ddbc'),
+        ('leftImg8bit_trainvaltest.zip', '2c0b77ce9933cc635adda307fbba5566f5d9d404')]
+    download_dir = os.path.join(path, 'downloads')
+    mkdir(download_dir)
+    for filename, checksum in _CITY_DOWNLOAD_URLS:
+        if not check_sha1(filename, checksum):
+            raise UserWarning('File {} is downloaded but the content hash does not match. ' \
+                              'The repo may be outdated or download may be incomplete. ' \
+                              'If the "repo_url" is overridden, consider switching to ' \
+                              'the default repo.'.format(filename))
+        # extract
+        with zipfile.ZipFile(filename,"r") as zip_ref:
+            zip_ref.extractall(path=path)
+        print("Extracted", filename)
+
+if __name__ == '__main__':
+    args = parse_args()
+    mkdir(os.path.expanduser('~/.encoding/data'))
+    if args.download_dir is not None:
+        if os.path.isdir(_TARGET_DIR):
+            os.remove(_TARGET_DIR)
+        # make symlink
+        os.symlink(args.download_dir, _TARGET_DIR)
+    else:
+        download_city(_TARGET_DIR, overwrite=False)
diff --git a/scripts/prepare_imagenet.py b/scripts/prepare_imagenet.py
index e51df53e..904fdf25 100644
--- a/scripts/prepare_imagenet.py
+++ b/scripts/prepare_imagenet.py
@@ -6,9 +6,10 @@
 import gzip
 import subprocess
 from tqdm import tqdm
+import subprocess
 from encoding.utils import check_sha1, download, mkdir
 
-_TARGET_DIR = os.path.expanduser('~/.encoding/datasets/imagenet')
+_TARGET_DIR = os.path.expanduser('~/.encoding/data/ILSVRC2012')
 _TRAIN_TAR = 'ILSVRC2012_img_train.tar'
 _TRAIN_TAR_SHA1 = '43eda4fe35c1705d6606a6a7a633bc965d194284'
 _VAL_TAR = 'ILSVRC2012_img_val.tar'
@@ -37,42 +38,8 @@ def check_file(filename, checksum, sha1):
     if checksum and not check_sha1(filename, sha1):
         raise ValueError('Corrupted file: '+filename)
 
-def build_rec_process(img_dir, train=False, num_thread=1):
-    rec_dir = os.path.abspath(os.path.join(img_dir, '../rec'))
-    mkdir(rec_dir)
-    prefix = 'train' if train else 'val'
-    print('Building ImageRecord file for ' + prefix + ' ...')
-    to_path = rec_dir
-
-    # download lst file and im2rec script
-    script_path = os.path.join(rec_dir, 'im2rec.py')
-    script_url = 'https://raw.githubusercontent.com/apache/incubator-encoding/master/tools/im2rec.py'
-    download(script_url, script_path)
-
-    lst_path = os.path.join(rec_dir, prefix + '.lst')
-    lst_url = 'http://data.encoding.io/models/imagenet/resnet/' + prefix + '.lst'
-    download(lst_url, lst_path)
-
-    # execution
-    import sys
-    cmd = [
-        sys.executable,
-        script_path,
-        rec_dir,
-        img_dir,
-        '--recursive',
-        '--pass-through',
-        '--pack-label',
-        '--num-thread',
-        str(num_thread)
-    ]
-    subprocess.call(cmd)
-    os.remove(script_path)
-    os.remove(lst_path)
-    print('ImageRecord file for ' + prefix + ' has been built!')
-
 def extract_train(tar_fname, target_dir, with_rec=False, num_thread=1):
-    os.makedirs(target_dir)
+    mkdir(target_dir)
     with tarfile.open(tar_fname) as tar:
         print("Extracting "+tar_fname+"...")
         # extract each class one-by-one
@@ -88,32 +55,24 @@ def extract_train(tar_fname, target_dir, with_rec=False, num_thread=1):
             os.remove(class_fname)
             pbar.update(1)
         pbar.close()
-    if with_rec:
-        build_rec_process(target_dir, True, num_thread)
 
 def extract_val(tar_fname, target_dir, with_rec=False, num_thread=1):
-    os.makedirs(target_dir)
+    mkdir(target_dir)
     print('Extracting ' + tar_fname)
     with tarfile.open(tar_fname) as tar:
         tar.extractall(target_dir)
     # build rec file before images are moved into subfolders
-    if with_rec:
-        build_rec_process(target_dir, False, num_thread)
     # move images to proper subfolders
-    val_maps_file = os.path.join(os.path.dirname(__file__), 'imagenet_val_maps.pklz')
-    with gzip.open(val_maps_file, 'rb') as f:
-        dirs, mappings = pickle.load(f)
-    for d in dirs:
-        os.makedirs(os.path.join(target_dir, d))
-    for m in mappings:
-        os.rename(os.path.join(target_dir, m[0]), os.path.join(target_dir, m[1], m[0]))
+    subprocess.call(["wget -qO- https://raw.githubusercontent.com/soumith/imagenetloader.torch/master/valprep.sh | bash"],
+                    cwd=target_dir, shell=True)
+    
 
 def main():
     args = parse_args()
 
     target_dir = os.path.expanduser(args.target_dir)
-    if os.path.exists(target_dir):
-        raise ValueError('Target dir ['+target_dir+'] exists. Remove it first')
+    #if os.path.exists(target_dir):
+    #    raise ValueError('Target dir ['+target_dir+'] exists. Remove it first')
 
     download_dir = os.path.expanduser(args.download_dir)
     train_tar_fname = os.path.join(download_dir, _TRAIN_TAR)
diff --git a/setup.py b/setup.py
index 5c7ca35f..c8157d50 100644
--- a/setup.py
+++ b/setup.py
@@ -18,7 +18,7 @@
 
 cwd = os.path.dirname(os.path.abspath(__file__))
 
-version = '1.1.2'
+version = '1.2.0'
 try:
     from datetime import date
     today = date.today()
@@ -52,14 +52,7 @@ def run(self):
     'numpy',
     'tqdm',
     'nose',
-    'torch>=0.5.0',
-    'cffi>=1.0.0',
-]
-
-requirements = [
-    'numpy',
-    'tqdm',
-    'nose',
+    'portalocker',
     'torch>=1.4.0',
     'torchvision>=0.5.0',
     'Pillow',
diff --git a/tests/unit_test/test_dataset.py b/tests/unit_test/test_dataset.py
new file mode 100644
index 00000000..556b63b2
--- /dev/null
+++ b/tests/unit_test/test_dataset.py
@@ -0,0 +1,32 @@
+import argparse
+from tqdm import tqdm
+from torch.utils import data
+import torchvision.transforms as transform
+from encoding.datasets import get_segmentation_dataset
+
+def main():
+    parser = argparse.ArgumentParser(description='Test Dataset.')
+    parser.add_argument('--dataset', type=str, default='ade20k',
+                        help='dataset name (default: pascal12)')
+    args = parser.parse_args()
+
+    input_transform = transform.Compose([
+            transform.ToTensor(),
+            transform.Normalize([.485, .456, .406], [.229, .224, .225])])
+    trainset = get_segmentation_dataset(args.dataset, split='val', mode='train',
+                                        transform=input_transform)
+    trainloader = data.DataLoader(trainset, batch_size=16,
+                                  drop_last=True, shuffle=True)
+    tbar = tqdm(trainloader)
+    max_label = -10
+    for i, (image, target) in enumerate(tbar):
+        tmax = target.max().item()
+        tmin = target.min().item()
+        assert(tmin >= -1)
+        if tmax > max_label:
+            max_label = tmax
+        assert(max_label < trainset.NUM_CLASS)
+        tbar.set_description("Batch %d, max label %d"%(i, max_label))
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/unit_test/test_function.py b/tests/unit_test/test_function.py
index 826b4a25..6e0bf741 100644
--- a/tests/unit_test/test_function.py
+++ b/tests/unit_test/test_function.py
@@ -46,132 +46,6 @@ def test_scaled_l2():
     test = gradcheck(encoding.functions.scaled_l2, input, eps=EPS, atol=ATOL)
     print('Testing scaled_l2(): {}'.format(test))
 
-def test_aggregate_v2():
-    def py_aggregate_v2(A, X, C, STD, S):
-        B, N, D = X.size()
-        K = C.size(0)
-        #e_{k} = \sum_{i=1}^{N} a_{ik} (x_i - d_k) / \sigma_k
-        R = (X.view(B, N, 1, D).expand(B, N, K, D) - \
-             C.view(1, 1, K, D).expand(B, N, K, D)) / STD.view(1, 1, K, D)
-        #E = 1.0 / torch.sqrt(S + 1e-5).unsqueeze(0).unsqueeze(2) * (A.unsqueeze(3) * R).sum(1)
-        E2 = (A.unsqueeze(3) * R).sum(1)
-        return E2
-
-    B,N,K,D = 2,3,4,5
-    A = Variable(torch.cuda.DoubleTensor(B,N,K).uniform_(-0.5,0.5), 
-                 requires_grad=True)
-    X = Variable(torch.cuda.DoubleTensor(B,N,D).uniform_(-0.5,0.5), 
-                 requires_grad=True)
-    C = Variable(torch.cuda.DoubleTensor(K,D).uniform_(-0.5,0.5), 
-                 requires_grad=True)
-    STD = Variable(torch.cuda.DoubleTensor(K,D).uniform_(-0.5,0.5), 
-                   requires_grad=True)
-    S = Variable(torch.cuda.DoubleTensor(K).uniform_(-0.5,0.5), 
-                 requires_grad=True)
-
-    A2 = torch.from_numpy(A.detach().cpu().numpy()).cuda()
-    X2 = torch.from_numpy(X.detach().cpu().numpy()).cuda()
-    C2 = torch.from_numpy(C.detach().cpu().numpy()).cuda()
-    STD2 = torch.from_numpy(STD.detach().cpu().numpy()).cuda()
-    S2 = torch.from_numpy(S.detach().cpu().numpy()).cuda()
-    A2.requires_grad_()
-    X2.requires_grad_()
-    C2.requires_grad_()
-    STD2.requires_grad_()
-    S2.requires_grad_()
-
-    E = encoding.functions.aggregate_v2(A, X, C, STD)
-    E2 = py_aggregate_v2(A2, X2, C2, STD2, S2)
-    _assert_tensor_close(E.detach(), E2.detach())
-
-    input = (A, X, C, STD)
-    test = gradcheck(encoding.functions.aggregate_v2, input, eps=EPS, atol=ATOL)
-    print('Testing aggregate_v2(): {}'.format(test))
-
-def test_encoding_dist():
-    def mahalanobis_dist(X, C):
-        B, N, D = X.size()
-        K = C.size(0)
-        # X \in BxNxD, C \in KxD
-        R = X.view(B, N, 1, D).expand(B, N, K, D) - \
-            C.view(1, 1, K, D).expand(B, N, K, D)
-        STD = torch.sqrt(R.pow(2).mean(0).mean(0) + 1e-6)
-        KD = (R / STD.view(1,1,K,D)).pow(2).sum(3)
-        return KD, STD
-
-    B,N,K,D = 2,3,4,5
-    RVar = torch.cuda.DoubleTensor(K,D).zero_()
-    X = torch.cuda.DoubleTensor(B,N,D).uniform_(-0.5,0.5)
-    C = torch.cuda.DoubleTensor(K,D).uniform_(-0.5,0.5)
-    X.requires_grad_()
-    C.requires_grad_()
-
-    X2 = torch.from_numpy(X.detach().cpu().numpy()).cuda()
-    C2 = torch.from_numpy(C.detach().cpu().numpy()).cuda()
-    X2.requires_grad_()
-    C2.requires_grad_()
-    # assert numeric correctness
-    KD, STD, Var_ = encoding.functions.encoding_dist(X, C, 1e-6)
-    KD2, STD2 = mahalanobis_dist(X2, C2)
-    _assert_tensor_close(STD.detach(), STD2.detach())
-    _assert_tensor_close(KD.detach(), KD2.detach())
-    # check backward
-    loss1 = KD.pow(2).sum() + STD.sum()
-    loss1.backward()
-    loss2 = KD2.pow(2).sum() + STD2.sum()
-    loss2.backward()
-    _assert_tensor_close(X.grad.detach(), X2.grad.detach())
-    _assert_tensor_close(C.grad.detach(), C2.grad.detach())
-
-    input = (X, C, 1e-6)
-    test = gradcheck(encoding.functions.encoding_dist, input, eps=EPS, atol=ATOL)
-    print('Testing encoding_dist(): {}'.format(test))
-
-def test_encoding_dist_inference():
-    def mahalanobis_dist(X, C, STD):
-        B, N, D = X.size()
-        K = C.size(0)
-        # X \in BxNxD, C \in KxD
-        R = X.view(B, N, 1, D).expand(B, N, K, D) - \
-            C.view(1, 1, K, D).expand(B, N, K, D)
-        #STD = torch.sqrt(R.pow(2).mean(0).mean(0) + 1e-6)
-        KD = (R / STD.view(1,1,K,D)).pow(2).sum(3)
-        return KD
-
-    B,N,K,D = 2,3,4,5
-    X = Variable(torch.cuda.DoubleTensor(B,N,D).uniform_(-0.5,0.5), 
-                 requires_grad=True)
-    C = Variable(torch.cuda.DoubleTensor(K,D).uniform_(-0.5,0.5), 
-                 requires_grad=True)
-    STD = Variable(torch.cuda.DoubleTensor(K,D).uniform_(-0.5,0.5), 
-                   requires_grad=True)
-    
-    X2 = torch.from_numpy(X.detach().cpu().numpy()).cuda()
-    C2 = torch.from_numpy(C.detach().cpu().numpy()).cuda()
-    STD2 = torch.from_numpy(STD.detach().cpu().numpy()).cuda()
-    X2.requires_grad_()
-    C2.requires_grad_()
-    STD2.requires_grad_()
-
-    E = encoding.functions.encoding_dist_inference(X, C, STD)
-    E2 = mahalanobis_dist(X2, C2, STD2)
-
-    loss1 = E.pow(2).sum()
-    loss2 = E2.pow(2).sum()
-    loss1.backward()
-    loss2.backward()
-
-    print('X.grad', X.grad)
-    print('X2.grad', X2.grad)
-
-    _assert_tensor_close(E.detach(), E2.detach())
-    _assert_tensor_close(X.grad.detach(), X2.grad.detach())
-    _assert_tensor_close(C.grad.detach(), C2.grad.detach())
-    _assert_tensor_close(STD.grad.detach(), STD2.grad.detach())
-
-    input = (X, C, STD)
-    test = gradcheck(encoding.functions.encoding_dist_inference, input, eps=EPS, atol=ATOL)
-    print('Testing encoding_dist_inference(): {}'.format(test))
 
 def test_moments():
     B,C,H = 2,3,4
diff --git a/tests/unit_test/test_module.py b/tests/unit_test/test_module.py
index 77d1bc8b..ab85335a 100644
--- a/tests/unit_test/test_module.py
+++ b/tests/unit_test/test_module.py
@@ -102,95 +102,14 @@ def _syncParameters(bn1, bn2):
     for i in range(10):
         print(i)
         _check_batchnorm_result(bn, sync_bn, torch.rand(16, 10, 16, 16).double(), True, cuda=True)
-        #_check_batchnorm_result(bn, sync_bn, torch.rand(16, 10, 16, 16).double(), False, cuda=True)
-
-
-def testABN():
-    class NormAct(torch.nn.BatchNorm2d):
-        def __init__(self, num_features, eps=1e-5, momentum=0.1, sync=True, activation="none",
-                     slope=0.01):
-            super(NormAct, self).__init__(num_features, eps=eps, momentum=momentum, affine=True)
-            self.slope = slope
-
-        def forward(self, x):
-            exponential_average_factor = 0.0
-            if self.training and self.track_running_stats:
-                self.num_batches_tracked += 1
-                if self.momentum is None:  # use cumulative moving average
-                    exponential_average_factor = 1.0 / self.num_batches_tracked.item()
-                else:  # use exponential moving average
-                    exponential_average_factor = self.momentum
-
-            y = torch.nn.functional.batch_norm(
-                x, self.running_mean, self.running_var, self.weight, self.bias,
-                self.training or not self.track_running_stats,
-                exponential_average_factor, self.eps)
-            return torch.nn.functional.leaky_relu_(y, self.slope)
-     
-    def _check_batchnorm_result(bn1, bn2, input, is_train, cuda=False):
-        def _find_bn(module):
-            for m in module.modules():
-                if isinstance(m, (torch.nn.BatchNorm1d, torch.nn.BatchNorm2d,
-                                  encoding.nn.SyncBatchNorm)):
-                    return m
-        def _syncParameters(bn1, bn2):
-            bn1.reset_parameters()
-            bn2.reset_parameters()
-            if bn1.affine and bn2.affine:
-                bn2.weight.data.copy_(bn1.weight.data)
-                bn2.bias.data.copy_(bn1.bias.data)
-                bn2.running_mean.copy_(bn1.running_mean)
-                bn2.running_var.copy_(bn1.running_var)
-
-        bn1.train(mode=is_train)
-        bn2.train(mode=is_train)
-
-        if cuda:
-            input = input.cuda()
-        # using the same values for gamma and beta
-        _syncParameters(_find_bn(bn1), _find_bn(bn2))
-
-        input1 = Variable(input.clone().detach(), requires_grad=True)
-        input2 = Variable(input.clone().detach(), requires_grad=True)
-        if is_train:
-            bn1.train()
-            bn2.train()
-            output1 = bn1(input1)
-            output2 = bn2(input2)
-        else:
-            bn1.eval()
-            bn2.eval()
-            with torch.no_grad():
-                output1 = bn1(input1)
-                output2 = bn2(input2)
-        # assert forwarding
-        _assert_tensor_close(output1.data, output2.data)
-        if not is_train:
-            return
-        loss1 = (output1 ** 2).sum()
-        loss2 = (output2 ** 2).sum()
-        loss1.backward()
-        loss2.backward()
-        _assert_tensor_close(_find_bn(bn1).bias.grad.data, _find_bn(bn2).bias.grad.data)
-        _assert_tensor_close(_find_bn(bn1).weight.grad.data, _find_bn(bn2).weight.grad.data)
-        _assert_tensor_close(input1.grad.data, input2.grad.data)
-        _assert_tensor_close(_find_bn(bn1).running_mean, _find_bn(bn2).running_mean)
-
-    bn = NormAct(10).cuda().double()
-    inp_abn = encoding.nn.SyncBatchNorm(10, sync=False, activation='leaky_relu', inplace=True).cuda().double()
-    inp_abn = torch.nn.DataParallel(inp_abn).cuda()
-    # check with unsync version
-    for i in range(10):
-        print(i)
-        _check_batchnorm_result(bn, inp_abn, torch.rand(16, 10, 16, 16).double(), True, cuda=True)
-        #_check_batchnorm_result(bn, inp_abn, torch.rand(16, 10, 16, 16).double(), False, cuda=True)
+        _check_batchnorm_result(bn, sync_bn, torch.rand(16, 10, 16, 16).double(), False, cuda=True)
 
 
 def test_Atten_Module():
     B, C, H, W = 8, 24, 10, 10
     X = Variable(torch.cuda.DoubleTensor(B,C,H,W).uniform_(-0.5,0.5), 
                  requires_grad=True)
-    layer1 = encoding.nn.MultiHeadAttention(4, 24, 24, 24).double().cuda()
+    layer1 = encoding.nn.ACFModule(4, 2, 24, 24, 24).double().cuda()
     Y = layer1(X)
 
 if __name__ == '__main__':