[OPT] Tail Loop Optimization #1567

briannwu · 2025-01-17T14:43:46Z

details:

Separate tailLoopOpt for A / B: tailLoopOptA / tailLoopOptB.
Not supported: DTV, SparseGemm.
Reorder load instructions with more vgprs.

Compare:

globalReadMode = 3 -> use more vgpr to reorder GR, waitcnt, v_or_b32 instructions

Before:
/* g2l=0, load component 0 /
buffer_load_ubyte_d16 v[vgprG2LA+0+0], ..., 0 offen offset:0 // load one buffer value
/ g2l=0, load component 1 /
buffer_load_ubyte_d16 v0, ..., 0 offen offset:1 // load one buffer value
s_waitcnt vmcnt(0)
v_lshlrev_b32 v0, 0x8, v0 // shift left to higher 8 bits
v_or_b32 v[vgprG2LA+0+0], v[vgprG2LA+0+0], v0 // pack a sub 8-bit with dest
/ g2l=0, load component 0 /
buffer_load_ubyte_d16 v[vgprG2LA+0+4], ... offen offset:0 // load one buffer value
/ g2l=0, load component 1 */
buffer_load_ubyte_d16 v0, ... offen offset:1 // load one buffer value
s_waitcnt vmcnt(0)
v_lshlrev_b32 v0, 0x8, v0 // shift left to higher 8 bits
v_or_b32 v[vgprG2LA+0+4], v[vgprG2LA+0+4], v0 // pack a sub 8-bit with dest
...

After:
buffer_load_ubyte_d16 v[vgprG2LA+0+0], ... offen offset:0 // load one buffer value
buffer_load_ubyte_d16 v0, ..., 0 offen offset:1 // load one buffer value
buffer_load_ubyte_d16 v[vgprG2LA+0+4], ... offen offset:0 // load one buffer value
buffer_load_ubyte_d16 v1, ... offen offset:1 // load one buffer value
buffer_load_ubyte_d16 v[vgprG2LA+1+0], offen offset:0 // load one buffer value
...
s_waitcnt vmcnt(10)
v_lshlrev_b32 v0, 0x8, v0 // shift left to higher 8 bits
v_or_b32 v[vgprG2LA+0+0], v[vgprG2LA+0+0], v0 // pack a sub 8-bit with dest
s_waitcnt vmcnt(8)
v_lshlrev_b32 v1, 0x8, v1 // shift left to higher 8 bits
v_or_b32 v[vgprG2LA+0+4], v[vgprG2LA+0+4], v1 // pack a sub 8-bit with dest
...

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////
globalReadMode = 2 -> use wider global load instructions
Before:
/* g2l=0, load component 0 /
buffer_load_ubyte_d16 v[vgprG2LB+0+0], ..., 0 offen offset:0 // load one buffer value
/ g2l=0, load component 1 /
buffer_load_ubyte_d16 v51, ..., 0 offen offset:1 // load one buffer value
/ g2l=0, load component 2 /
buffer_load_ubyte_d16_hi v52, ..., 0 offen offset:2 // load one buffer value
/ g2l=0, load component 3 */
buffer_load_ubyte_d16_hi v53, ..., 0 offen offset:3 // load one buffer value
...
s_waitcnt vmcnt(14)
v_lshlrev_b32 v51, 0x8, v51 // shift left to higher 8 bits
v_or_b32 v[vgprG2LB+0+0], v[vgprG2LB+0+0], v51 // pack a sub 8-bit with dest
s_waitcnt vmcnt(13)
v_or_b32 v[vgprG2LB+0+0], v[vgprG2LB+0+0], v52 // pack a sub 8-bit with dest
s_waitcnt vmcnt(12)
v_lshlrev_b32 v53, 0x8, v53 // shift left to higher 8 bits
v_or_b32 v[vgprG2LB+0+0], v[vgprG2LB+0+0], v53 // pack a sub 8-bit with dest
...

After:
buffer_load_dwordx4 v[vgprG2LB+0:vgprG2LB+0+3], v[vgprGlobalReadOffsetB+0], s[sgprSrdB:sgprSrdB+3], 0 offen offset:0 // G -> Reg 0_0_0_0
... (calculate some data to determine how to load the last data)
label_LoadB:
... (jump to specified load tile)
label_LOAD_B0:
label_LOAD_B0_K1:
s_cmp_ge_u32 s11, 1
s_cbranch_scc0 label_MergeB
/* g2l=0, load component 0 */
buffer_load_ubyte_d16 v54, ... 0 offen offset:0 // load one buffer value
label_LOAD_B0_K2
...
label_LOAD_B0_K15:
... (load code)
s_branch label_MergeB
label_MergeB:
... (jump to specified load tile)
label_MERGE_B0:
label_MERGE_B0_K1:
s_cmp_ge_u32 s11, 1
s_cbranch_scc0 label_CheckB_OOB
s_waitcnt vmcnt(0)
v_or_b32 v[vgprG2LB+0+0], v[vgprG2LB+0+0], v54 // pack a sub 8-bit with dest
label_MERGE_B0_K2:
...
label_MERGE_B0_K15:
... (pack code)
s_branch label_CheckB_OOB
label_CheckB_OOB:
...
label_CheckLoopBeginB:
... (calculate size to be loaded and size can be loaded)
label_B0:
... (check if there's other tile should be loaded again due to OOB)
s_cbranch_scc1 label_LoadB // Reload
s_branch label_CheckLoopBeginB // Re check
label_TailGlobalLoadEnd:
s_waitcnt vmcnt(0)

hcman2 · 2025-01-20T01:41:56Z

Any brief before/after comparison of the tail loop asm code?

briannwu · 2025-01-20T07:17:09Z

hcman2

Good Opt. If you can share the performance gain for sensitive sizes, it will be much better.

details: 1. Separate tailLoopOpt for A / B: tailLoopOptA / tailLoopOptB. 2. Not supported: DTV, SparseGemm. 3. Reorder load instructions with more vgprs.

briannwu requested review from jichangjichang, KKyang, vin-huang, imcarsonliao, hcman2, Serge45, Jinp800125, TonyYHsieh and solaslin as code owners January 17, 2025 14:43

briannwu force-pushed the tail_opt branch from 38f62d5 to 0cab91f Compare January 17, 2025 14:45

briannwu force-pushed the tail_opt branch 4 times, most recently from ef4242e to 4b4f883 Compare January 20, 2025 07:58

hcman2 previously approved these changes Jan 20, 2025

View reviewed changes

briannwu dismissed hcman2’s stale review via 05902a0 January 20, 2025 13:04

briannwu force-pushed the tail_opt branch from 4b4f883 to 05902a0 Compare January 20, 2025 13:04

[OPT] Tail Loop Optimization

62c84ce

details: 1. Separate tailLoopOpt for A / B: tailLoopOptA / tailLoopOptB. 2. Not supported: DTV, SparseGemm. 3. Reorder load instructions with more vgprs.

briannwu force-pushed the tail_opt branch from 05902a0 to 62c84ce Compare January 21, 2025 06:22

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[OPT] Tail Loop Optimization #1567

[OPT] Tail Loop Optimization #1567

briannwu commented Jan 17, 2025 •

edited

Loading

hcman2 commented Jan 20, 2025

briannwu commented Jan 20, 2025

hcman2 left a comment

[OPT] Tail Loop Optimization #1567

Are you sure you want to change the base?

[OPT] Tail Loop Optimization #1567

Conversation

briannwu commented Jan 17, 2025 • edited Loading

Compare:

hcman2 commented Jan 20, 2025

briannwu commented Jan 20, 2025

hcman2 left a comment

Choose a reason for hiding this comment

briannwu commented Jan 17, 2025 •

edited

Loading