[go: up one dir, main page]

CN106254162B - 基于网络的linux集群计算节点操作系统恢复方法 - Google Patents

基于网络的linux集群计算节点操作系统恢复方法 Download PDF

Info

Publication number
CN106254162B
CN106254162B CN201610862483.5A CN201610862483A CN106254162B CN 106254162 B CN106254162 B CN 106254162B CN 201610862483 A CN201610862483 A CN 201610862483A CN 106254162 B CN106254162 B CN 106254162B
Authority
CN
China
Prior art keywords
operating system
cluster
network
configuration
computing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610862483.5A
Other languages
English (en)
Other versions
CN106254162A (zh
Inventor
孙玉超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201610862483.5A priority Critical patent/CN106254162B/zh
Publication of CN106254162A publication Critical patent/CN106254162A/zh
Application granted granted Critical
Publication of CN106254162B publication Critical patent/CN106254162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种基于网络的linux集群计算节点操作系统恢复方法,属于高性能集群运维技术领域。本发明的基于网络的linux集群计算节点操作系统恢复方法通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置。该发明的基于网络的linux集群计算节点操作系统恢复方法能大幅度提高集群维护效率,节省人力成本,具有很好的推广应用价值。

Description

基于网络的linux集群计算节点操作系统恢复方法
技术领域
本发明涉及高性能集群运维技术领域,具体提供一种基于网络的linux集群计算节点操作系统恢复方法。
背景技术
计算机在人们的生活和工作中扮演着重要的角色,特别是近年来随着经济及社会的进一步发展,计算机的应用更加的普遍,同时,使用者对计算机的各项性能的要求也逐渐提高,特别是对计算机的计算能力要求越来越高,云计算、大数据技术飞速发展开来。大数据必然无法用单台的计算机进行处理,一台计算机的配置已经远远不能满足使用者对计算机计算能力的需求。
服务器集群是很多服务器集中起来一起进行同一种服务,可以利用多个计算机进行计算从而获得很高的计算速度,能够满足使用者对计算机的计算能力的需求。服务器集群从诞生起应用范围越来越广泛,也越来越受到人们的关注。但是由于服务器集群是很多服务器集中在一起同时进行同一种服务的,故高性能服务器集群中的单个服务器进行稳定的运行才能保证服务器集群顺利完成服务,因而需要对高性能服务器集群系统的运行系统进行维护。在高性能集群系统运维过程中,安装操作系统及系统安装完成后的配置工作是一项不可或缺同时又费时费力的工作。特别是在大规模集群中,计算节点上千规模,这种配置工作更显得繁琐。一旦操作系统出现故障无法正常运行,或者硬盘出现故障,需要更换硬盘时,就需要维护人员对系统重新配置。不仅增加了维护人员的工作量,并且维护效率较低,有待进一步改进。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能大幅度提高集群维护效率,节省人力成本的基于网络的linux集群计算节点操作系统恢复方法。
为实现上述目的,本发明提供了如下技术方案:
一种基于网络的linux集群计算节点操作系统恢复方法,通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置,该linux集群计算节点操作系统恢复方法的具体步骤为:
S1:集群管理节点的环境配置;
S2:集群管理节点的服务配置,包括HTTP服务、TFTP服务、TFTPBOOT服务、DHCP服务和Kickstart脚本;
S3:启动PXE网络灌装系统的相关服务,恢复计算节点操作系统。
步骤S2中,通过配置Kickstart脚本文件,在操作系统安装过程中,自动加载设备驱动,自动配置系统服务,自动配置集群作业调度系统和集群管理软件客户端。
步骤S2中,TFTPBOOT服务配置时,创建/tftpboot文件目录,把启动引导文件、启动菜单配置文件、系统引导内核文件拷入/tftpboot文件目录并配置完全。
步骤S3中,有计算节点需要恢复操作系统时,在管理节点上启动HTTP服务和DHCP服务后,该计算节点在启动BIOS自检过程按F12强制从网络引导后即可自动恢复操作系统,若机器能进系统需要重新恢复,可以用ipmitool chassis bootdev pxe命令使下次系统从pxe网络启动,或者用dd if=/dev/zero of=/dev/sda bs=1M count=1000抹掉sda磁盘的分区,下次重启直接从网络引导恢复系统。
作为优选,步骤S1所述集群管理节点的环境配置包括配置主机名、内网IP地址、关闭防火墙和关闭selinux。
作为优选,步骤S2中DHCP服务配置时,提取所有计算节点的mac地址,实现计算节点通过DHCP服务获取一个预设的IP地址。
提取所有计算节点的mac地址,并在配置文件中对应mac地址和IP地址关系,保证计算节点通过DHCP服务不是随机获取到一个IP地址,而是通过mac地址的对应,获取一个预设的IP地址。
作为优选,步骤S2中通过Kickstart脚本文件配置,在操作系统安装过程中,自动设置节点主机名、IP地址、硬件驱动、服务配置、集群作业调度配置、集群管理软件配置和集群用户配置,实现操作系统安装完毕后,计算节点即恢复正常,自动加入到集群中。
Kickstart脚本软件包的配置一直到%post符号结束,后面内容就是shell脚本命令,自由发挥,系统安装完毕后会执行%post后面的命令,进而进行恢复计算节点操作系统。
与现有技术相比,本发明的基于网络的linux集群计算节点操作系统恢复方法具有以下突出的有益效果:本发明所述基于网络的linux集群计算节点操作系统恢复方法对计算节点的数量无限制,特别是在大规模的集群维护中,遇到计算节点操作系统问题或者硬盘问题导致需要重新部署系统时,可以实现计算节点操作系统的快速恢复,大幅度提高集群维护效率,节省人力成本。
附图说明
图1是本发明所述基于网络的linux集群计算节点操作系统恢复方法的过程示意图。
具体实施方式
下面将结合附图和实施例,对本发明的基于网络的linux集群计算节点操作系统恢复方法作进一步详细说明。
实施例
如图1所示,本发明的基于网络的linux集群计算节点操作系统恢复方法通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置。
该linux集群计算节点操作系统恢复方法的具体步骤为:
S1:集群管理节点的环境配置,包括配置主机名、内网IP地址、关闭防火墙和关闭selinux。
S2:集群管理节点的服务配置,包括HTTP服务、TFTP服务、TFTPBOOT服务、DHCP服务和Kickstart脚本。
DHCP服务配置时,提取所有计算节点的mac地址,并在配置文件中对应mac地址和IP地址关系,保证计算节点通过DHCP服务不是随机获取到一个IP地址,而是通过mac地址的对应,获取一个预设的IP地址。
Kickstart脚本软件包的配置一直到%post符号结束,后面内容就是shell脚本命令,自由发挥,系统安装完毕后会执行%post后面的命令,通过配置该Kickstart脚本,在操作系统安装过程中,自动设置节点主机名、IP地址、硬件驱动、服务配置、集群作业调度配置、集群管理软件配置和集群用户配置,实现操作系统安装完毕后,计算节点即恢复正常,自动加入到集群中。
S3:启动PXE网络灌装系统的相关服务,恢复计算节点操作系统。
当有计算节点需要恢复操作系统时,在管理节点上启动HTTP服务和DHCP服务后,该计算节点在启动BIOS自检过程按F12强制从网络引导后即可自动恢复操作系统,若机器能进系统需要重新恢复,可以用ipmitool chassis bootdev pxe命令使下次系统从pxe网络启动,或者用dd if=/dev/zero of=/dev/sda bs=1M count=1000抹掉sda磁盘的分区,下次重启直接从网络引导恢复系统。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (3)

1.基于网络的linux集群计算节点操作系统恢复方法,其特征在于:通过配置集群管理节点的PXE网络灌装系统,提取集群计算节点的mac地址,通过集群的配置内容,修改PXE网络灌装系统的ks文件,在操作系统安装过程中即可配置好操作系统的各种服务,能一键修复操作系统,无需更改任何操作系统配置,该linux集群计算节点操作系统恢复方法的具体步骤为:
S1:集群管理节点的环境配置,所述集群管理节点的环境配置包括配置主机名、内网IP地址、关闭防火墙和关闭selinux;
S2:集群管理节点的服务配置,包括HTTP服务、TFTP服务、TFTPBOOT服务、DHCP服务和Kickstart脚本;
S3:启动PXE网络灌装系统的相关服务,恢复计算节点操作系统。
2.根据权利要求1所述的基于网络的linux集群计算节点操作系统恢复方法,其特征在于:步骤S2中DHCP服务配置时,提取所有计算节点的mac地址,实现计算节点通过DHCP服务获取一个预设的IP地址。
3.根据权利要求2所述的基于网络的linux集群计算节点操作系统恢复方法,其特征在于:步骤S2中通过Kickstart脚本文件配置,在操作系统安装过程中,自动设置节点主机名、IP地址、硬件驱动、服务配置、集群作业调度配置、集群管理软件配置和集群用户配置,实现操作系统安装完毕后,计算节点即恢复正常,自动加入到集群中。
CN201610862483.5A 2016-09-29 2016-09-29 基于网络的linux集群计算节点操作系统恢复方法 Active CN106254162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610862483.5A CN106254162B (zh) 2016-09-29 2016-09-29 基于网络的linux集群计算节点操作系统恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610862483.5A CN106254162B (zh) 2016-09-29 2016-09-29 基于网络的linux集群计算节点操作系统恢复方法

Publications (2)

Publication Number Publication Date
CN106254162A CN106254162A (zh) 2016-12-21
CN106254162B true CN106254162B (zh) 2019-09-10

Family

ID=57612036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610862483.5A Active CN106254162B (zh) 2016-09-29 2016-09-29 基于网络的linux集群计算节点操作系统恢复方法

Country Status (1)

Country Link
CN (1) CN106254162B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329769A (zh) * 2017-07-07 2017-11-07 郑州云海信息技术有限公司 一种配置裸机服务器的方法和装置
CN108959097A (zh) * 2018-07-19 2018-12-07 郑州云海信息技术有限公司 一种快速测试服务器os的方法
CN111061503B (zh) * 2018-10-16 2023-08-18 航天信息股份有限公司 集群系统的配置方法和集群系统
CN111176749B (zh) * 2019-12-17 2022-07-08 苏州浪潮智能科技有限公司 一种高性能计算集群关闭方法与装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744695A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 基于pxe的操作系统远程安装方法和系统
CN104468199A (zh) * 2014-11-23 2015-03-25 国云科技股份有限公司 适于Linux的分布式系统部署和管理框架及运行方法
CN105959134A (zh) * 2016-04-22 2016-09-21 汉柏科技有限公司 基于pxe的自动安装部署方法、pxe服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744695A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 基于pxe的操作系统远程安装方法和系统
CN104468199A (zh) * 2014-11-23 2015-03-25 国云科技股份有限公司 适于Linux的分布式系统部署和管理框架及运行方法
CN105959134A (zh) * 2016-04-22 2016-09-21 汉柏科技有限公司 基于pxe的自动安装部署方法、pxe服务器

Also Published As

Publication number Publication date
CN106254162A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
US10216531B2 (en) Techniques for virtual machine shifting
CN104956332B (zh) 一种用于管理计算资源的方法、存储媒体和计算系统
CN106790467B (zh) 一种云主机自动发现和自动部署的方法
US11030047B2 (en) Information handling system and method to restore system firmware to a selected restore point
US11086662B2 (en) Method and system of migrating applications to a cloud-computing environment
US8909912B2 (en) Apparatus and method for configuring a target machine with captured operational state comprising a static machine profile and a dynamic machine state to continue operations of a source machine
CN106557355A (zh) 虚拟机镜像的生成方法及生成装置
CN104394223A (zh) 大规模计算机集群系统节点的自动化快速部署方法
CN106254162B (zh) 基于网络的linux集群计算节点操作系统恢复方法
CN103841179A (zh) 云桌面系统
CN102999362A (zh) 一种修改bios启动项顺序的方法
CN108984272A (zh) OpenStack云计算管理平台的控制方法和装置
CN108306969A (zh) 一种idv云桌面的智能接入系统及智能接入方法
CN104572269A (zh) 一种基于Linux操作系统的集群快速部署方法
US10846120B2 (en) Configuration tracking in virtualized computing environments
CN106155745A (zh) 基本输入输出系统的升级方法、装置和系统
CN104572227A (zh) 一种基于安腾平台通过bmc刷新cpld fw方法
CN107943496A (zh) 一种整机柜服务器批量更新固件的装置及方法
CN104657200A (zh) 一种在虚拟机中创建共享磁盘的方法
US10503492B2 (en) Live kernel updating using progressive checkpointing and network tunnels
CN104834546A (zh) 一种网络升级集群系统的方法
CN111552540A (zh) 基于VMware云平台的资源同步方法及超融合云平台
CN104699570B (zh) 一种虚拟桌面与物理桌面共用镜像的智能网络流桌面方法
US20150244569A1 (en) Unified and persistent network configuration
WO2012054023A1 (en) Computer system with computers that perform network boots

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant