BP_Neural_Network_Principles

    2024-03-02

    BP 神经网络原理

    BP (Back Propagation) 神经网络是1986年由 Rumelhart 和 McClelland 为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络。

    1 BP 神经网络的结构和传播规则 Read More

    Disk_I-O_performance_optimization

    2024-03-01

    关于all_reduce

    分布式训练一般分为同步训练和异步训练:

    • 同步训练中所有的worker读取mini-batch的不同部分,同步计算损失函数的gradient,最后将每个worker的gradient整合之后更新模型。
    • 异步训练中每个worker独立读取训练数据,异步更新模...
    Read More

    Disk_I-O_performance_optimization

    2024-03-01

    磁盘IO性能优化

    1 IO基准测试

    优化之前,先确定IO性能优化的目标。换句话说,要先知道这些IO性能指标(比如IOPS、吞吐量、延迟等),要达到多少才合适。IO性能指标是没有具体标准的,根据应用场景、使用的文件系统和物理磁盘等不同,这些性能指标和需求都会有差异。

    为了更客观...

    Read More

    DDP(DistributedDataParallel)_2

    2024-02-28

    DDP(DistributedDataParallel) 分布式训练2——原理与实践

    1 分布式编程

    一个分布式系统,相对于单机系统,其最大的特征就是,其数据、处理是分布在不同地方的。与此相伴的是,各节点间有交换数据的需求,为此需要定...

    Read More

    DDP(DistributedDataParallel)_1

    2024-02-28

    DDP(DistributedDataParallel) 分布式训练1——入门上手

    DistributedDataParallel(DDP)是一个支持多机多卡、分布式训练的深度学习工程方法。

    • 在分类上,DDP属于Data Parallel。简单来讲,就...
    Read More
    View: User: