Topkv2op optimize #30403

thisjiang · 2021-01-13T11:20:11Z

PR types

Performance optimization

PR changes

OPs

Describe

问题起因：
maskrcnn模型在topk处耗时特别高，cub库的DeviceSegmentedRadixSortKernel这个kernel耗时占比超过35.8%。

问题分析：
在top_k_v2_op.cu#L112处有个判断：当axis不等于最后一个维度时需要对矩阵进行转置操作，这是为了保证kernel在读取数据时保持global memory coalesce。但这存在一个问题，当input_shape = (20, 242991), axis = 0时，转置后的矩阵大小就变成了trans_dim = (242991, 24)，而在top_k_v2_op.cu#L153处又有一个判断，当input_width <= 1024时会走cub的SortTopk函数，很不巧的是，SortTopk对于处理这种行数非常大的矩阵很不在行，因此导致了速度非常慢。

优化方案：
修改top_k_v2_op.cu#L153处的条件来严格限制SortTopk的进入条件：

将原有的input_width <= 1024条件增加限制为(input_width <= 1024 && input_height <= 2048)

优化成果：
测试基于mask_rcnn_r50_fpn_1x_coco模型 + coco17数据集 + 取前18条ips平均值：

修改	ips
原始版本	4.847311765
去掉`SortTopk`逻辑	6.308770588
(input_width <= 1024 && input_height <= 2048)	6.1157

修改	profile时间占比
原始版本	35.8%
(input_width <= 1024 && input_height <= 2048)	5.8%

update Paddle to newest version

… develop

Merge newest Paddle code

merge newest Paddle code

… develop

paddle-bot-old · 2021-01-13T11:20:19Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

… topkv2op-optimize

Xreki

LGTM for op benchmark CI.

op benchmark CI的错误为：

2021-02-26 20:08:43 [/workspace/Paddle/tools/test_op_benchmark.sh:126] [INFO] Load op: "top_k_v2".
2021-02-26 20:08:43 [/workspace/Paddle/tools/test_op_benchmark.sh:261] [ERROR] Missing test script of "top_k_v2"(paddle/fluid/operators/top_k_v2_op.cu) in benchmark.
2021-02-26 20:08:43 [/workspace/Paddle/tools/test_op_benchmark.sh:265] [INFO] See https://github.com/PaddlePaddle/Paddle/wiki/PR-CI-OP-benchmark-Manual for details.

是top_k_v2到topk测试脚本的映射规则匹配失败，后续@Avin0323 来跟进和解决一下这个问题吧。

…PaddlePaddle#30403)

thisjiang added 7 commits December 18, 2020 11:39

Merge pull request #1 from PaddlePaddle/develop

ff9053a

update Paddle to newest version

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

d78104e

… develop

Merge pull request #2 from PaddlePaddle/develop

a4c55cd

Merge newest Paddle code

Merge pull request #3 from PaddlePaddle/develop

84eb899

merge newest Paddle code

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

a469df7

… develop

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

cb355e7

… develop

optimize topk op through limit SortTopK kernel entrance, test=develop

75df93d

wzzju approved these changes Feb 26, 2021

View reviewed changes

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

1fa2ec5

… topkv2op-optimize

Xreki approved these changes Mar 1, 2021

View reviewed changes

wzzju merged commit 8f4ac6b into PaddlePaddle:develop Mar 1, 2021

thisjiang deleted the topkv2op-optimize branch March 1, 2021 08:54

thisjiang added a commit to thisjiang/Paddle that referenced this pull request Apr 13, 2021

optimize topk op through limit SortTopK kernel entrance, test=develop (…

2b9080e

…PaddlePaddle#30403)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Topkv2op optimize #30403

Topkv2op optimize #30403

thisjiang commented Jan 13, 2021 •

edited

Loading

paddle-bot-old bot commented Jan 13, 2021

Xreki left a comment

Topkv2op optimize #30403

Topkv2op optimize #30403

Conversation

thisjiang commented Jan 13, 2021 • edited Loading

PR types

PR changes

Describe

paddle-bot-old bot commented Jan 13, 2021

Xreki left a comment

Choose a reason for hiding this comment

thisjiang commented Jan 13, 2021 •

edited

Loading