O(n) Embedding #80

hikettei · 2024-09-13T08:56:19Z

hikettei · 2024-09-13T10:32:00Z

Optimal Kernel for Embeding should looks like:

// val_36 for result
// val_31 for weight
// val_8 for input sequence
void main6598825_e26_k0(float* val_36, float* val_31, float* val_8) {
  for(int _gid0=0;(_gid0<=7);_gid0+=1) {
    for(int _gid1=0;(_gid1<=29);_gid1+=1) {
      val_36[240*0+30*_gid0+30*0+_gid1] = 0.0;
      for(int _gid2=0;(_gid2<=29);_gid2+=1) {
        val_36[240*0+30*_gid0+0+_gid1] += (!((30*0+30*0+1*_gid2+1*0)!=val_8[8*0+_gid0+0+0]) ? 1.0 : 0.0) * val_31[900*0+0+30*_gid2+_gid1];
      }
    }
  }
}

… not going to render broadcast?

hikettei · 2024-09-13T11:59:43Z

void main9860200_e24_k0(boolean* val_12, float* val_30, float* val_17, float* val_8, float* val_3) {
  for(int _gid0=0;(_gid0<=7);_gid0+=1) {
    for(int _gid1=0;(_gid1<=29);_gid1+=1) {
      val_30[240*0+30*_gid0+30*0+_gid1] = 0.0;
      for(int _gid2=0;(_gid2<=29);_gid2+=1) {
        if ((_gid0==0)&(_gid1==0)) {
          val_3[30*0+30*0+_gid2+0] = (30*0+30*0+1*_gid2+1*0);
        }
        if (_gid1==0) {
          float val_2 = val_3[30*0+0+_gid2+0];
          boolean val_1 = (val_2!=val_8[8*0+_gid0+0+0]);
          val_12[240*0+30*_gid0+_gid2+0] = !val_1;
        }
        float val_16 = (val_12[240*0+30*_gid0+_gid2+0] ? val_17[900*0+0+30*_gid2+_gid1] : 0.0);
        val_30[240*0+30*_gid0+0+_gid1] = (val_30[240*0+30*_gid0+0+_gid1]+val_16);
      }
    }
  }
}

no need to consider loop permutation
Infer val_3=_gid2
原因: index-componentsのbroadcasting (bound=1でfuseして欲しいんだけどISLはFuseしない)

hikettei · 2024-09-13T13:45:10Z

最適化は後回しにして，一旦テストと速度検証のためのPipelineを作成する。(llama3をCompileするのが優先，その次に最適化) Don't guess, measure!

hikettei added 4 commits September 13, 2024 17:48

Fix for embedding

94533dd

Opt: use index-components instead of linspace

13efbbc

1p

d8c4b05

some cleanup

d0ca3e6

hikettei added 4 commits September 13, 2024 19:39

fuse wmma

acccf50

isl-renderer-aref is a function to render the time-series dependency,…

539a64c

… not going to render broadcast?

revert

f51044c

reverse maphash1 and get better result?

8afb961

hikettei changed the title ~~Embedding/Norm/ConvND~~ O(n) Embedding Sep 13, 2024

hikettei added 2 commits September 14, 2024 11:30

Embedding test

c1f58e2

remove cmt

588d749

hikettei marked this pull request as ready for review September 14, 2024 02:34

hikettei merged commit 26265a6 into main Sep 14, 2024
1 of 2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

O(n) Embedding #80

O(n) Embedding #80

hikettei commented Sep 13, 2024 •

edited

Loading

hikettei commented Sep 13, 2024

hikettei commented Sep 13, 2024 •

edited

Loading

hikettei commented Sep 13, 2024 •

edited

Loading

O(n) Embedding #80

O(n) Embedding #80

Conversation

hikettei commented Sep 13, 2024 • edited Loading

hikettei commented Sep 13, 2024

hikettei commented Sep 13, 2024 • edited Loading

hikettei commented Sep 13, 2024 • edited Loading

hikettei commented Sep 13, 2024 •

edited

Loading

hikettei commented Sep 13, 2024 •

edited

Loading

hikettei commented Sep 13, 2024 •

edited

Loading