JuliaGPU · maleadt · Jan 8, 2025 · Dec 20, 2024 · Dec 20, 2024 · Jan 7, 2025
diff --git a/lib/cublas/wrappers.jl b/lib/cublas/wrappers.jl
@@ -1215,8 +1215,20 @@ end
 @inline function unsafe_strided_batch(strided::DenseCuArray{T}) where {T}
     batchsize = last(size(strided))
     stride = prod(size(strided)[1:end-1])
-    ptrs = [pointer(strided, (i-1)*stride + 1) for i in 1:batchsize]
-    return CuArray(ptrs)
+
+    ptrs = CuArray{CuPtr{T}}(undef, batchsize)
+    nblocks = cld(batchsize, 256)
+    @cuda threads = 256 blocks = nblocks create_ptrs_kernel!(ptrs, strided, stride)
+    return ptrs
+end
+
+function create_ptrs_kernel!(ptrs::CuDeviceArray{T}, A, batch_stride) where {T}
+    index = (blockIdx().x - 1i32) * blockDim().x + threadIdx().x
+    stride = gridDim().x * blockDim().x
+    for i in index:stride:length(ptrs)
+        ptrs[i] = reinterpret(CuPtr{T}, pointer(A, (i - 1i32) * batch_stride + 1i32))
+    end
+    return nothing
 end
 
 ## (GE) general matrix-matrix multiplication grouped batched