CN106254162B - 基于网络的linux集群计算节点操作系统恢复方法 - Google Patents
基于网络的linux集群计算节点操作系统恢复方法 Download PDFInfo
- Publication number
- CN106254162B CN106254162B CN201610862483.5A CN201610862483A CN106254162B CN 106254162 B CN106254162 B CN 106254162B CN 201610862483 A CN201610862483 A CN 201610862483A CN 106254162 B CN106254162 B CN 106254162B
- Authority
- CN
- China
- Prior art keywords
- operating system
- cluster
- network
- configuration
- computing node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000011084 recovery Methods 0.000 title claims abstract description 14
- 238000011900 installation process Methods 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 4
- KKIMDKMETPPURN-UHFFFAOYSA-N 1-(3-(trifluoromethyl)phenyl)piperazine Chemical compound FC(F)(F)C1=CC=CC(N2CCNCC2)=C1 KKIMDKMETPPURN-UHFFFAOYSA-N 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种基于网络的linux集群计算节点操作系统恢复方法,属于高性能集群运维技术领域。本发明的基于网络的linux集群计算节点操作系统恢复方法通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置。该发明的基于网络的linux集群计算节点操作系统恢复方法能大幅度提高集群维护效率,节省人力成本,具有很好的推广应用价值。
Description
技术领域
本发明涉及高性能集群运维技术领域,具体提供一种基于网络的linux集群计算节点操作系统恢复方法。
背景技术
计算机在人们的生活和工作中扮演着重要的角色,特别是近年来随着经济及社会的进一步发展,计算机的应用更加的普遍,同时,使用者对计算机的各项性能的要求也逐渐提高,特别是对计算机的计算能力要求越来越高,云计算、大数据技术飞速发展开来。大数据必然无法用单台的计算机进行处理,一台计算机的配置已经远远不能满足使用者对计算机计算能力的需求。
服务器集群是很多服务器集中起来一起进行同一种服务,可以利用多个计算机进行计算从而获得很高的计算速度,能够满足使用者对计算机的计算能力的需求。服务器集群从诞生起应用范围越来越广泛,也越来越受到人们的关注。但是由于服务器集群是很多服务器集中在一起同时进行同一种服务的,故高性能服务器集群中的单个服务器进行稳定的运行才能保证服务器集群顺利完成服务,因而需要对高性能服务器集群系统的运行系统进行维护。在高性能集群系统运维过程中,安装操作系统及系统安装完成后的配置工作是一项不可或缺同时又费时费力的工作。特别是在大规模集群中,计算节点上千规模,这种配置工作更显得繁琐。一旦操作系统出现故障无法正常运行,或者硬盘出现故障,需要更换硬盘时,就需要维护人员对系统重新配置。不仅增加了维护人员的工作量,并且维护效率较低,有待进一步改进。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能大幅度提高集群维护效率,节省人力成本的基于网络的linux集群计算节点操作系统恢复方法。
为实现上述目的,本发明提供了如下技术方案:
一种基于网络的linux集群计算节点操作系统恢复方法,通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置,该linux集群计算节点操作系统恢复方法的具体步骤为:
S1:集群管理节点的环境配置;
S2:集群管理节点的服务配置,包括HTTP服务、TFTP服务、TFTPBOOT服务、DHCP服务和Kickstart脚本;
S3:启动PXE网络灌装系统的相关服务,恢复计算节点操作系统。
步骤S2中,通过配置Kickstart脚本文件,在操作系统安装过程中,自动加载设备驱动,自动配置系统服务,自动配置集群作业调度系统和集群管理软件客户端。
步骤S2中,TFTPBOOT服务配置时,创建/tftpboot文件目录,把启动引导文件、启动菜单配置文件、系统引导内核文件拷入/tftpboot文件目录并配置完全。
步骤S3中,有计算节点需要恢复操作系统时,在管理节点上启动HTTP服务和DHCP服务后,该计算节点在启动BIOS自检过程按F12强制从网络引导后即可自动恢复操作系统,若机器能进系统需要重新恢复,可以用ipmitool chassis bootdev pxe命令使下次系统从pxe网络启动,或者用dd if=/dev/zero of=/dev/sda bs=1M count=1000抹掉sda磁盘的分区,下次重启直接从网络引导恢复系统。
作为优选,步骤S1所述集群管理节点的环境配置包括配置主机名、内网IP地址、关闭防火墙和关闭selinux。
作为优选,步骤S2中DHCP服务配置时,提取所有计算节点的mac地址,实现计算节点通过DHCP服务获取一个预设的IP地址。
提取所有计算节点的mac地址,并在配置文件中对应mac地址和IP地址关系,保证计算节点通过DHCP服务不是随机获取到一个IP地址,而是通过mac地址的对应,获取一个预设的IP地址。
作为优选,步骤S2中通过Kickstart脚本文件配置,在操作系统安装过程中,自动设置节点主机名、IP地址、硬件驱动、服务配置、集群作业调度配置、集群管理软件配置和集群用户配置,实现操作系统安装完毕后,计算节点即恢复正常,自动加入到集群中。
Kickstart脚本软件包的配置一直到%post符号结束,后面内容就是shell脚本命令,自由发挥,系统安装完毕后会执行%post后面的命令,进而进行恢复计算节点操作系统。
与现有技术相比,本发明的基于网络的linux集群计算节点操作系统恢复方法具有以下突出的有益效果:本发明所述基于网络的linux集群计算节点操作系统恢复方法对计算节点的数量无限制,特别是在大规模的集群维护中,遇到计算节点操作系统问题或者硬盘问题导致需要重新部署系统时,可以实现计算节点操作系统的快速恢复,大幅度提高集群维护效率,节省人力成本。
附图说明
图1是本发明所述基于网络的linux集群计算节点操作系统恢复方法的过程示意图。
具体实施方式
下面将结合附图和实施例,对本发明的基于网络的linux集群计算节点操作系统恢复方法作进一步详细说明。
实施例
如图1所示,本发明的基于网络的linux集群计算节点操作系统恢复方法通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置。
该linux集群计算节点操作系统恢复方法的具体步骤为:
S1:集群管理节点的环境配置,包括配置主机名、内网IP地址、关闭防火墙和关闭selinux。
S2:集群管理节点的服务配置,包括HTTP服务、TFTP服务、TFTPBOOT服务、DHCP服务和Kickstart脚本。
DHCP服务配置时,提取所有计算节点的mac地址,并在配置文件中对应mac地址和IP地址关系,保证计算节点通过DHCP服务不是随机获取到一个IP地址,而是通过mac地址的对应,获取一个预设的IP地址。
Kickstart脚本软件包的配置一直到%post符号结束,后面内容就是shell脚本命令,自由发挥,系统安装完毕后会执行%post后面的命令,通过配置该Kickstart脚本,在操作系统安装过程中,自动设置节点主机名、IP地址、硬件驱动、服务配置、集群作业调度配置、集群管理软件配置和集群用户配置,实现操作系统安装完毕后,计算节点即恢复正常,自动加入到集群中。
S3:启动PXE网络灌装系统的相关服务,恢复计算节点操作系统。
当有计算节点需要恢复操作系统时,在管理节点上启动HTTP服务和DHCP服务后,该计算节点在启动BIOS自检过程按F12强制从网络引导后即可自动恢复操作系统,若机器能进系统需要重新恢复,可以用ipmitool chassis bootdev pxe命令使下次系统从pxe网络启动,或者用dd if=/dev/zero of=/dev/sda bs=1M count=1000抹掉sda磁盘的分区,下次重启直接从网络引导恢复系统。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (3)
1.基于网络的linux集群计算节点操作系统恢复方法,其特征在于:通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置,该linux集群计算节点操作系统恢复方法的具体步骤为:
S1:集群管理节点的环境配置,所述集群管理节点的环境配置包括配置主机名、内网IP地址、关闭防火墙和关闭selinux;
S2:集群管理节点的服务配置,包括HTTP服务、TFTP服务、TFTPBOOT服务、DHCP服务和Kickstart脚本;
S3:启动PXE网络灌装系统的相关服务,恢复计算节点操作系统。
2.根据权利要求1所述的基于网络的linux集群计算节点操作系统恢复方法,其特征在于:步骤S2中DHCP服务配置时,提取所有计算节点的mac地址,实现计算节点通过DHCP服务获取一个预设的IP地址。
3.根据权利要求2所述的基于网络的linux集群计算节点操作系统恢复方法,其特征在于:步骤S2中通过Kickstart脚本文件配置,在操作系统安装过程中,自动设置节点主机名、IP地址、硬件驱动、服务配置、集群作业调度配置、集群管理软件配置和集群用户配置,实现操作系统安装完毕后,计算节点即恢复正常,自动加入到集群中。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610862483.5A CN106254162B (zh) | 2016-09-29 | 2016-09-29 | 基于网络的linux集群计算节点操作系统恢复方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610862483.5A CN106254162B (zh) | 2016-09-29 | 2016-09-29 | 基于网络的linux集群计算节点操作系统恢复方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN106254162A CN106254162A (zh) | 2016-12-21 |
| CN106254162B true CN106254162B (zh) | 2019-09-10 |
Family
ID=57612036
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201610862483.5A Active CN106254162B (zh) | 2016-09-29 | 2016-09-29 | 基于网络的linux集群计算节点操作系统恢复方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106254162B (zh) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107329769A (zh) * | 2017-07-07 | 2017-11-07 | 郑州云海信息技术有限公司 | 一种配置裸机服务器的方法和装置 |
| CN108959097A (zh) * | 2018-07-19 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种快速测试服务器os的方法 |
| CN111061503B (zh) * | 2018-10-16 | 2023-08-18 | 航天信息股份有限公司 | 集群系统的配置方法和集群系统 |
| CN111176749B (zh) * | 2019-12-17 | 2022-07-08 | 苏州浪潮智能科技有限公司 | 一种高性能计算集群关闭方法与装置 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103744695A (zh) * | 2013-12-25 | 2014-04-23 | 新浪网技术(中国)有限公司 | 基于pxe的操作系统远程安装方法和系统 |
| CN104468199A (zh) * | 2014-11-23 | 2015-03-25 | 国云科技股份有限公司 | 适于Linux的分布式系统部署和管理框架及运行方法 |
| CN105959134A (zh) * | 2016-04-22 | 2016-09-21 | 汉柏科技有限公司 | 基于pxe的自动安装部署方法、pxe服务器 |
-
2016
- 2016-09-29 CN CN201610862483.5A patent/CN106254162B/zh active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103744695A (zh) * | 2013-12-25 | 2014-04-23 | 新浪网技术(中国)有限公司 | 基于pxe的操作系统远程安装方法和系统 |
| CN104468199A (zh) * | 2014-11-23 | 2015-03-25 | 国云科技股份有限公司 | 适于Linux的分布式系统部署和管理框架及运行方法 |
| CN105959134A (zh) * | 2016-04-22 | 2016-09-21 | 汉柏科技有限公司 | 基于pxe的自动安装部署方法、pxe服务器 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN106254162A (zh) | 2016-12-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10216531B2 (en) | Techniques for virtual machine shifting | |
| CN104956332B (zh) | 一种用于管理计算资源的方法、存储媒体和计算系统 | |
| CN106790467B (zh) | 一种云主机自动发现和自动部署的方法 | |
| US11030047B2 (en) | Information handling system and method to restore system firmware to a selected restore point | |
| US11086662B2 (en) | Method and system of migrating applications to a cloud-computing environment | |
| US8909912B2 (en) | Apparatus and method for configuring a target machine with captured operational state comprising a static machine profile and a dynamic machine state to continue operations of a source machine | |
| CN106557355A (zh) | 虚拟机镜像的生成方法及生成装置 | |
| CN104394223A (zh) | 大规模计算机集群系统节点的自动化快速部署方法 | |
| CN106254162B (zh) | 基于网络的linux集群计算节点操作系统恢复方法 | |
| CN103841179A (zh) | 云桌面系统 | |
| CN102999362A (zh) | 一种修改bios启动项顺序的方法 | |
| CN108984272A (zh) | OpenStack云计算管理平台的控制方法和装置 | |
| CN108306969A (zh) | 一种idv云桌面的智能接入系统及智能接入方法 | |
| CN104572269A (zh) | 一种基于Linux操作系统的集群快速部署方法 | |
| US10846120B2 (en) | Configuration tracking in virtualized computing environments | |
| CN106155745A (zh) | 基本输入输出系统的升级方法、装置和系统 | |
| CN104572227A (zh) | 一种基于安腾平台通过bmc刷新cpld fw方法 | |
| CN107943496A (zh) | 一种整机柜服务器批量更新固件的装置及方法 | |
| CN104657200A (zh) | 一种在虚拟机中创建共享磁盘的方法 | |
| US10503492B2 (en) | Live kernel updating using progressive checkpointing and network tunnels | |
| CN104834546A (zh) | 一种网络升级集群系统的方法 | |
| CN111552540A (zh) | 基于VMware云平台的资源同步方法及超融合云平台 | |
| CN104699570B (zh) | 一种虚拟桌面与物理桌面共用镜像的智能网络流桌面方法 | |
| US20150244569A1 (en) | Unified and persistent network configuration | |
| WO2012054023A1 (en) | Computer system with computers that perform network boots |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |