记录本人的cuda加速实现

在一次面试后，深感自己对cuda的理解和使用还是不够深入，故开此新坑 ----20241218

使用方法

curl -fsSL https://xmake.io/shget.text | bash

git clone https://github.com/zhaosiyuan1098/my_cuda_speedup_solutions.git

cd ./my_cuda_speedup_solutions

xmake

gemm

v1:最原始的实现
v2:使用分块矩阵+共享内存
v3:减少寄存器使用
v4:对B矩阵转置（效果较差，虽然避免了bankconflict，但改变了原有的内存访问顺序，可能导致内存访问不连续+的转置访问模式可能导致缓存命中率降低+内存访问模式不再符合 GPU 的合并访问模式）
v5:使用padding避免bank conflict

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
include		include
src		src
tools		tools
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
benchmark.sh		benchmark.sh
result.txt		result.txt
xmake.lua		xmake.lua

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

记录本人的cuda加速实现

使用方法

gemm

todolist

gemm

reduce

softmax

About

Releases

Packages

Languages

License

zhaosiyuan1098/my_cuda_speedup_solutions

Folders and files

Latest commit

History

Repository files navigation

记录本人的cuda加速实现

使用方法

gemm

todolist

gemm

reduce

softmax

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages