Rust Get Started
0 Rust
Rust 最早是 Mozilla 雇员 Graydon Hoare 的个人项目。从 2009 年开始,得到了 Mozilla 研究院的资助,2010 年项目对外公布,2010 ~ 2011 年间实现自举。自此以后,Rust 在部分重...
Rust 最早是 Mozilla 雇员 Graydon Hoare 的个人项目。从 2009 年开始,得到了 Mozilla 研究院的资助,2010 年项目对外公布,2010 ~ 2011 年间实现自举。自此以后,Rust 在部分重...
传统编译器通常依赖于中间表征 (intermediate representations)。例如 LLVM-IR,它使用(无)条件分支来编码控制流信息。这种相对低阶的格式在静态分析输入程序的运行时行为(例如缓存未命中),通过使用 flatten,fus...
fused softmax 在可以适应 GPU 静态随机存取存储器 (SRAM) 的行的情况下,比 PyTorch 的原生操作快得多。
对于读写频繁,带宽受限的操作,数据读写在整个 kernel 耗时比例较大,通过自定义内核融合,尽可能减少数据读取的次数和量,能够有效提高 kernel 性能。
这里以 softmax 进行实验,比对 设置环境变量 在CUDA中,将计算分解为两个层次:首先是块,然后每个块进一步分解为线程。一个块中的所有线程运行在同一个SM上,并共享相同的共享内存。每个线程计算标量。 在Tr...
Read More
1 一些用于调试的实用函数
TRITON_INTERPRET = 1
,可以像调试任何CPU程序一样调试Triton kernel。然后Triton在CPU上运行,但模拟它在GPU上运行。triton编程模型
1 不带 mask