2025-06-16

    1 Triton 算子代码组成

    一个 Triton 算子的实现代码通常分为两个部分:

    • 计算准备阶段:涉及输入张量的预处理(如转换为连续布局张量),计算输出张量的形状并分配内存,以及设置运行参数(如 grid 和 BLOCK_SIZE)。
    • ...
    Read More
    2025-06-15

    Low Memory Dropout

    Dropout 是一种用于改善低数据条件下深度神经网络性能的技术,通常用于正则化。它接受一个向量作为输入,并生成相同 shape 的输出向量。输出中的每个标量都有概率 $p$ 被设为零,否则直接从输入复制。这使得网络在仅有输入的 $1-p$ 标量时也能表现良好。在评估阶段,为了充分...

    Read More
    2025-06-14

    1 conda 环境 version `GLIBCXX_3.4.30‘ not found

    在 conda 虚拟环境中安装好 triton 后,跑 triton/pytho...

    Read More
    2025-06-13

    1 一些用于调试的实用函数

    设置环境变量 TRITON_INTERPRET = 1,可以像调试任何CPU程序一样调试Triton kernel。然后Triton在CPU上运行,但模拟它在GPU上运行。

    <...
    Read More
    2025-06-12

    triton get started

    Triton 基于 python 的 DSL,面向 GPU 体系特点,自动分析和实施神经网路计算的分块,triton 既是语言,也是编译器。

    0 Triton 理解

    TVM、XLA 等框架能实现从模型到硬件的端到...

    Read More
    2025-06-10

    Keyboard Stats

    0 整体设计

    0.1 数据流

    graph TD
    A[键盘事件捕获] --> B{实时处理}
    B --> C[计算击键频率]
    B --...
          
    Read More
    2025-06-06

    Richer printf

    日志打印在调试定位问题的时候非常有用,常规的printf只打印日志信息...

    Read More
    2025-01-07

    香橙派 Kunpengpro NPU 超频提升AI算力

    香橙派 Kunpengpro 的 CPU 频率为 1GHz,NPU 频率为 500MHz,NPU 的 INT8 AI 算力为 8TOPS。

    香橙派官方为香橙派 AIPRO 提供了将 CPU 超频至 1.6GHz 的固件;另外还提供...

    Read More