基于Analytics Zoo大数据平台的分布式TensorFlow的设计与实现

 2022-04-19 06:04

论文总字数:28583字

摘 要

深度学习是近年来计算机人工智能领域的一大热点。分布式训练也广受关注。两者结合后的分布式深度学习成为极富探索潜能的领域。本论文的研究内容是如何在Analytics Zoo大数据平台上设计并实现分布式TensorFlow。本文的主要工作如下:

一、在Analytics Zoo平台中设计并实现分布式TensorFlow。

通过分析TensorFlow的逻辑框架,结合Analytics Zoo与BigDL已实现的加载与运行TensorFlow模型功能,本论文将设计并实现一个层构建类——TFNet类。TFNet类通过在Analytcis Zoo平台中加载并参数化TensorFlow模型作为层,支持用户使用TFOptimizer以及TFPredictor等对其进行Fine Tune微调训练。基于对TensorFlow的参考,TFNet的具体实现包含:基本组件及其配置,前向、后向传播与损失函数等。

二、TFNet类的性能验证对比实验。

本文在分布式环境中,分别使用TFNet与TensorFlow构建ResNet-50模型训练ImageNet数据集。结果显示,在训练结果相差不大的情况下,TFNet比TensorFlow具有更简洁的优势。

本论文通过TFNet实现了Analytics Zoo平台对分布式TensorFlow的支持,丰富了数据工程师对于分布式深度学习算法的使用。并通过对比试验验证了这个扩展类的有效性与优势。

关键词:Analytics Zoo, 分布式,TensorFlow,TFNet,ResNet-50

ABSTRACT

Deep learning is a hot spot in the field of computer artificial intelligence in recent years. Distributed training is also receiving much attention. Distributed deep learning combined with the two becomes an area of ​​great potential for exploration. The research content of this thesis is how to design and implement distributed TensorFlow on the Analytics Zoo big data platform. The main work of this paper is as follows:

1. Design and implement distributed TensorFlow in the Analytics Zoo platform.

By analyzing the logical framework of TensorFlow and combining the functions of loading and running TensorFlow model that Analytics Zoo and BigDL have implemented, this paper will design and implement a layer construction class - TFNet class. The TFNet class supports the user to perform Fine Tune fine-tuning training using TFOptimizer and TFPredictor by loading and parameterizing the TensorFlow model as a layer in the Analytcis Zoo platform. Based on the reference to TensorFlow, the specific implementation of TFNet includes: basic components and their configuration, forward and backward propagation and loss functions.

Second, the performance verification comparison experiment of TFNet class.

In the distributed environment, the NETNet and TensorFlow are used to construct the ResNet-50 model to train the ImageNet dataset. The results show that TFNet has a more concise advantage than TensorFlow when the training results are not much different.

This paper implements the support of Distributed TensorFlow by the Analytics Zoo platform through TFNet, which enriches the use of distributed deep learning algorithms by data engineers. The effectiveness and advantages of this extension class are verified by comparative experiments.

KEY WORDS: Analytics Zoo, Distributed, TensorFlow, TFNet, ResNet-50

目 录

摘 要 I

ABSTRACT II

第一章 绪论 1

1.1论文来源与背景 1

1.2分布式深度学习相关技术的发展 1

1.2.1基本数据流模型 2

1.2.2参数服务器模型 2

1.2.3高级数据流模型 3

1.3基于Analytics Zoo大数据平台的分布式TensorFlow 3

1.3.1Analytics Zoo的介绍 3

1.3.2分布式TensorFlow的介绍 3

1.3.3基于Analytics Zoo大数据平台的分布式TensorFlow 4

1.3.4TFNet的介绍 5

1.4论文组织结构 5

第二章 TFNet的设计框架 6

2.1基于Analytics Zoo的分布式TensorFlow的设计目标 6

2.2TFNet的设计框架 6

2.2.1基本组件与概念 6

2.2.2前向传播和后向传播 7

2.2.3损失函数 8

2.2.4其它需求 8

2.3TFNet对BigDL和Analytics Zoo的调用 8

2.3.1BigDL中的分布式TensorFlow 8

2.3.2TFNet对BigDL的调用 9

2.3.3TFNet对Analytics Zoo的调用 9

2.4小结 9

第三章 TFNet的具体实现 11

3.1基本组件的配套函数 11

3.2前向传播与反向传播 15

3.2.1梯度计算是如何实现的 15

3.2.2前向传播 16

3.2.3前向传播的程序实现 16

3.2.4反向传播 17

3.2.5反向传播的程序实现 18

3.2.6更新weights值 20

3.3继承AbstractModule类 20

3.4引用Folat类型数据的数学处理库处理数学计算 21

3.5小结 21

第四章 对比实验测试 22

4.1测试实验背景 22

4.1.1ResNet-50 22

4.1.2ImageNet数据集 22

4.2测试过程 22

4.2.1测试的分布式集群 22

4.2.2测试环境选择/搭建以及分布运行过程 23

4.3测试对比结果 23

4.4小结 23

第五章 总结与展望 24

参考文献 25

致 谢 27

第一章 绪论

1.1论文来源与背景

数据量急剧增长的当下,计算机行业迅速发展。大数据环境下,基于计算机基础技术的拓展,提出了分布式运算的概念。分布式运算实现了聚集分散运算资源,集中处理大型数据集的目标。目前行业认可度较高的分布式计算框架有Hadoop和Spark。其中Spark是基于Hadoop构建,解决了Hadoop中MapReduce的低效性问题,被用户广为使用。

与此同时,计算机行业人工智能领域的研究成果与实际应用也吸引了各界关注。其中机器学习是人工智能领域的一大热点。而深度学习是模拟人脑,抽取深度信息的一项机器学习技术,帮助解决了许多复杂难解的问题。将众多深度学习算法整合封装后的框架,被称为深度学习框架。用户可以直接通过调用框架提供的高级API训练深度学习模型。这些框架节约了学习成本,帮助推动了深层研究。其中著名的TensorFlow框架以其特有的便捷性与高效性成为用户的热门选择。

剩余内容已隐藏,请支付后下载全文,论文总字数:28583字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;