阿里云集群管理中的实时调试系统设计与实现

 2022-01-30 10:01

论文总字数:22836字

摘 要

互联网时代,Linux集群技术是提高计算机计算能力以及应用系统稳定性,可用性的重要方法。随着Linux集群技术的发展,集群规模不断的增大,集群节点管理的自动化,集群内节点状态监控的及时性以及问题排查的简易性成为提升集群易用性和稳定性的关键因素。本文通过分析现有的集群管理技术以及阿里云现有的集群管理技术,针对现有集群管理技术中的不足:排查问题简易性差的问题,基于B/S架构,以Golang为开发语言,设计了一套包含三个组件的实时调试系统:机器管理的程序,机器节点代理程序,提供Web服务的转发程序。实时调试系统通过对外提供Web Terminal和文件传输功能,替代传统的跳板机操作方式,解决因跳板机导致的机器登录和文件传输繁琐问题,统一用户登录入口,方便对用户进行管理,提升问题排查的速度;对内增加信息审计功能,解决跳板机方式下难以对用户操作进行审计的问题,并以PKI认证体系为基础设计了组件间的访问控制,增强系统自身安全性。

关键词:Linux,Web Terminal,实时调试,集群管理 ,PKI认证体系Real-time debugging system design and implementation in Ali cloud cluster management

Abstract

In the Internet age, Linux cluster technology is an important means to improve the computer computing ability and the stability of the application system. With the increasing size of Linux cluster, the automation of cluster node management, the timeliness of node status monitoring and the simplicity to troubleshoot problems has become the key factors to enhance the cluster's ease of use and stability. Through the analysis of the existing cluster management technology and Ali cloud existing cluster management technology, aiming at the deficiency of existing cluster management technology:it is difficult to investigate and solve problems, based on B/S architecture, golang as the development of language, design a real-time debugging system which contains three components: machine manage procedures, the machine node agent, proxy with a web server. Real-time debugging system provide Web Terminal and file transfer function for user as a substitute of the traditional springboard machine operation, streamline login and file transger operations, unified user login entrance, convenient to carry on the management to the user, enhance speed of the troubleshooting. Within the system, increase the information audit function for user operation audit, design components acccess control based on PKI authentication system to make it safer.

Key words: Linux, Web Terminal, real-time debugging, cluster management, PKI authentication system

目录

摘 要 2

Abstract 3

第一章 绪论 5

1.1研究背景 5

1.2集群管理技术的发展与现状 5

1.3现有集群管理技术的不足 6

1.4研究内容和意义 6

1.5论文结构 7

第二章 实时调试系统中的关键问题以及解决方案 8

2.1 集群与办公网的网络隔离问题解决 8

2.2 集群中的大量机器的集中管理问题解决 9

2.3 调试系统的实时性问题解决 9

第三章 系统功能与结构 12

3.1 系统功能 12

3.2 实时调试系统的系统结构和使用场景流程图 12

3.3实时调试系统的编程语言 15

第四章 内部安全体系设计 15

4.1PKI认证体系设计 15

4.2审计功能设计 19

第五章 实时调试系统各个模块的设计与实现 20

5.1公有模块设计 20

5.2 Manager的设计 21

5.3 Proxy的设计 24

5.4 Agent的设计与实现 26

第六章 总结 29

6.1主要研究成果 29

6.2待优化的问题 29

致谢 30

参考文献 30

附录1 卓工班企业实习相关材料 31

第一章 绪论

1.1研究背景

随着社会与科学的高速发展,人们不断被许多复杂的高性能科学计算、海量数据处理、超大型的工程设计等问题所困扰,这些课题都对计算机的运算速度、存储容量及数据传输速率有很高的要求,传统的单处理器计算机显然已不能胜任这些工作。20世纪80年代,有人开始提出以并行处理概念来提高计算机性能,并行计算的本质是将多台机器关联起来,共同解决一些问题。从20世纪90年代以来,由专用而昂贵的巨型超级并行计算机向工作站集群网络转换的趋势越来越强。高性能工作站和网络部件的商品化成为促成这种转换的主力因素。现代高科技的发展使基于网络技术的集群系统(由PC机或工作站组成)成为并行处理的理想工具。

随着集群系统的广泛运用以及日益增加的计算能力需求,集群的规模越来越大,当一个集群中的节点数量达到成千上万时,很难对集群内的机器进行手动管理,机器的使用效率非常低。

1.2集群管理技术的发展与现状

剩余内容已隐藏,请支付后下载全文,论文总字数:22836字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;