Taot's Blog – 精诚所至，金石为开 | 不赌天意，不猜人心

2025-06-16

triton

1 Triton 算子代码组成

一个 Triton 算子的实现代码通常分为两个部分：

计算准备阶段：涉及输入张量的预处理（如转换为连续布局张量），计算输出张量的形状并分配内存，以及设置运行参数（如 grid 和 BLOCK_SIZE）。
...

2025-06-15

triton

Low Memory Dropout

Dropout 是一种用于改善低数据条件下深度神经网络性能的技术，通常用于正则化。它接受一个向量作为输入，并生成相同 shape 的输出向量。输出中的每个标量都有概率 $p$ 被设为零，否则直接从输入复制。这使得网络在仅有输入的 $1-p$ 标量时也能表现良好。在评估阶段，为了充分...

2025-06-14

triton

1 conda 环境 version `GLIBCXX_3.4.30‘ not found

在 conda 虚拟环境中安装好 triton 后，跑 triton/pytho...



      Read More


  
  
  
    
      

      
        
          2025-06-13
        

        
          
          
            
              triton
            
          
          
        
      

      
        1 一些用于调试的实用函数

设置环境变量 TRITON_INTERPRET = 1，可以像调试任何CPU程序一样调试Triton kernel。然后Triton在CPU上运行，但模拟它在GPU上运行。

<...
      

      Read More
    
  
  
  
    
      

      
        
          2025-06-12
        

        
          
          
            
              triton
            
          
          
        
      

      
        triton get started

Triton 基于 python 的 DSL，面向 GPU 体系特点，自动分析和实施神经网路计算的分块，triton 既是语言，也是编译器。

0 Triton 理解

TVM、XLA 等框架能实现从模型到硬件的端到...
      

      Read More
    
  
  
  
    
      

      
        
          2025-06-10
        

        
          
          
            
              tools
            
          
          
        
      

      
        Keyboard Stats

0 整体设计

0.1 数据流

graph TD
A[键盘事件捕获] --> B{实时处理}
B --> C[计算击键频率]
B --...
      


      Read More
    

  
  
  
    
      

      
        
          2025-06-06
        

        
          
          
            
              tools
            
          
          
        
      

      
        Richer printf

日志打印在调试定位问题的时候非常有用，常规的printf只打印日志信息...
      

      Read More
    
  
  
  
    
      

      
        
          2025-01-07
        

        
          
          
            
              board
            
          
          
        
      

      
        香橙派 Kunpengpro NPU 超频提升AI算力

香橙派 Kunpengpro 的 CPU 频率为 1GHz，NPU 频率为 500MHz，NPU 的 INT8 AI 算力为 8TOPS。

香橙派官方为香橙派 AIPRO 提供了将 CPU 超频至 1.6GHz 的固件；另外还提供...
      

      Read More



    

  

  

  
  
  
  
    
      View:
    
    
    
      User:
        
      
    
  

  
    
      


  
  
  

  

  
  
  

  

  

  
  
  
  
  

  

  

  

  

  

  

  

  





Copyright (c) 2025 Taot