BP_Neural_Network_Principles
2024-03-02
BP 神经网络原理
BP (Back Propagation) 神经网络是1986年由 Rumelhart 和 McClelland 为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络。
1 BP 神经网络的结构和传播规则
Read More
Disk_I-O_performance_optimization
2024-03-01
关于all_reduce
分布式训练一般分为同步训练和异步训练:
- 同步训练中所有的worker读取mini-batch的不同部分,同步计算损失函数的gradient,最后将每个worker的gradient整合之后更新模型。
- 异步训练中每个worker独立读取训练数据,异步更新模...
Read More
Disk_I-O_performance_optimization
2024-03-01
磁盘IO性能优化
1 IO基准测试
优化之前,先确定IO性能优化的目标。换句话说,要先知道这些IO性能指标(比如IOPS、吞吐量、延迟等),要达到多少才合适。IO性能指标是没有具体标准的,根据应用场景、使用的文件系统和物理磁盘等不同,这些性能指标和需求都会有差异。
为了更客观...
Read More
PyTorch-multi-card_training_related_concepts
2024-02-29
pytorch 多卡训练相关概念
1、World,Rank,Local Rank
1.1 world
World可以认为是一个集合,由一组能够互相发消息的进程组成。
world size就表示这组能够互相...
Read More
DDP(DistributedDataParallel)_3
2024-02-29
DDP(DistributedDataParallel) 分布式训练3——实践与技巧
1 在 DDP 中引入 syncBN
1.1 syncBN
SyncBN就是...
Read More
DDP(DistributedDataParallel)_2
2024-02-28
DDP(DistributedDataParallel) 分布式训练2——原理与实践
1 分布式编程
一个分布式系统,相对于单机系统,其最大的特征就是,其数据、处理是分布在不同地方的。与此相伴的是,各节点间有交换数据的需求,为此需要定...
Read More
DDP(DistributedDataParallel)_1
2024-02-28
DDP(DistributedDataParallel) 分布式训练1——入门上手
DistributedDataParallel(DDP)是一个支持多机多卡、分布式训练的深度学习工程方法。
- 在分类上,DDP属于Data Parallel。简单来讲,就...
Read More
simple_understanding-CPU_physical_core_number,number_of_cores,number_of_threads,process,threads,coroutines,concurrency,parallelism
2024-02-22
简单理解:CPU物理核心数,核心数,线程数,进程,线程,协程,并发,并行的概念
1 物理 CPU 数量
电脑拥有的物理CPU数量,普通电脑一般只有一个CPU插槽,也就是只有一个物理CPU。我们日常说的CPU,就是指封装好的一个物理CPU,作...
Read More
Disk_I-O_performance_optimization
2024-03-01
关于all_reduce
分布式训练一般分为同步训练和异步训练:
- 同步训练中所有的worker读取mini-batch的不同部分,同步计算损失函数的gradient,最后将每个worker的gradient整合之后更新模型。
- 异步训练中每个worker独立读取训练数据,异步更新模...
Disk_I-O_performance_optimization
2024-03-01
磁盘IO性能优化
1 IO基准测试
优化之前,先确定IO性能优化的目标。换句话说,要先知道这些IO性能指标(比如IOPS、吞吐量、延迟等),要达到多少才合适。IO性能指标是没有具体标准的,根据应用场景、使用的文件系统和物理磁盘等不同,这些性能指标和需求都会有差异。
为了更客观...
PyTorch-multi-card_training_related_concepts
2024-02-29
pytorch 多卡训练相关概念
1、World,Rank,Local Rank
1.1 world
World可以认为是一个集合,由一组能够互相发消息的进程组成。 world size就表示这组能够互相...
DDP(DistributedDataParallel)_3
2024-02-29
DDP(DistributedDataParallel) 分布式训练3——实践与技巧
1 在 DDP 中引入 syncBN
1.1 syncBN
SyncBN就是...
DDP(DistributedDataParallel)_2
2024-02-28
DDP(DistributedDataParallel) 分布式训练2——原理与实践
1 分布式编程
一个分布式系统,相对于单机系统,其最大的特征就是,其数据、处理是分布在不同地方的。与此相伴的是,各节点间有交换数据的需求,为此需要定...
DDP(DistributedDataParallel)_1
2024-02-28
DDP(DistributedDataParallel) 分布式训练1——入门上手
DistributedDataParallel(DDP)是一个支持多机多卡、分布式训练的深度学习工程方法。
- 在分类上,DDP属于Data Parallel。简单来讲,就...
simple_understanding-CPU_physical_core_number,number_of_cores,number_of_threads,process,threads,coroutines,concurrency,parallelism
2024-02-22
简单理解:CPU物理核心数,核心数,线程数,进程,线程,协程,并发,并行的概念
1 物理 CPU 数量
电脑拥有的物理CPU数量,普通电脑一般只有一个CPU插槽,也就是只有一个物理CPU。我们日常说的CPU,就是指封装好的一个物理CPU,作...
View:
User: