CN107832219B

CN107832219B - 基于静态分析和神经网络的软件故障预测技术的构建方法

Info

Publication number: CN107832219B
Application number: CN201711113909.8A
Authority: CN
Inventors: 杨顺昆; 苟晓冬; 黄婷婷; 郑征; 于海斌; 徐皑冬; 王锴; 吴玉美; 李国旗; 路云峰; 姜博; 李大庆
Original assignee: Beihang University; Shenyang Institute of Automation of CAS
Current assignee: Beihang University; Shenyang Institute of Automation of CAS
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2020-08-25
Anticipated expiration: 2037-11-13
Also published as: CN107832219A

Abstract

本发明提供一种基于静态分析和神经网络的软件故障预测技术的构建方法,步骤如下：1、搜集被诊断软件的有效故障，加入到创建的故障案例库；2、统计软件各历史版本的有效故障的次数；3、使用静态分析工具扫描软件源代码，输出复杂度度量值；4、进行相关性分析，计算故障次数与度量值的显著性水平；5、选出与故障次数具有显著相关性的复杂度度量值；6、构建网络训练输入输出矩阵和预测输入矩阵；7、构建BP神经网络；8、完成网络训练，构建故障预测系统；9、神经网络预测，预测新版本的故障数量。通过上述步骤，可以完成对基于静态分析和BP神经网络的软件故障预测技术的构建。本发明能帮助开发者预测可能发生的软件故障，具有实用价值。

Description

基于静态分析和神经网络的软件故障预测技术的构建方法

技术领域

本发明提供一种基于静态分析和神经网络的软件故障预测技术的构建方法，它涉及一种基于静态分析和BP神经网络的软件故障预测技术的实现，属于软件可信性、软件故障预测领域。

背景技术

随着计算机技术的飞速发展，软件的功能越来越强大，软件的复杂度和规模也急剧增大，因软件造成的损失的比例也越来越大。据国外的有关统计，1955年软件占系统总成本仅为20％，到1985年软件占系统总成本已超过80％。为减小软件故障造成的损失，在软件正式发布之前进行软件测试，以确保软件的可用性和可靠性变得异常重要，软件测试可分为静态测试与动态测试。

静态分析(Static Analysis)是指在不运行代码的方式下，通过语法分析、控制流、数据流分析等技术对程序代码进行扫描，度量程序复杂度，验证代码是否满足规范性、可靠性、可维护性等指标的一种代码分析技术。对于程序复杂度的度量有许多的度量值，比如代码总行数、分支语句所占百分比、函数个数、最大复杂度、平均复杂度、模块最大深度及模块深度等。目前静态分析一般使用自动化静态分析辅助工具软件对程序源代码进行检查，以分析程序行为，输出程序的复杂度度量值。

神经网络是由具有适应性的神经元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。它具有大规模并行处理和分布式存储各类图像信息的功能，有很强的容错性、联想和记忆能力，因而被广泛地应用于故障诊断、故障预测、模式识别及图像处理等领域。BP神经网络是当前使用最多也最成功的一种多层前馈神经网络，其主要特点是信号前向传递，误差反向传递。在前向传递中，输入信号从输入层经隐含层逐层处理，直至输出层，每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出，则转入反向传播，根据预测误差调整网络权值和阈值，从而使网络的预测输出不断逼近期望输出。

由于软件规模的日益庞大，软件发生故障的次数也变得越来越难以预测。但是软件的开发方在发布新软件或者软件新版本前，总是希望能预知其可能的故障次数，以便做出准确的决策，因而对软件故障次数的预测是十分有必要的。现有的软件故障次数预测多是基于机器学习和时间序列分析，使用历史故障数据进行故障次数的预测。同时，静态分析可以得到软件的复杂度度量，能在程序开方人员编程时提供帮助，但这些度量值数据并没有得到进一步的利用。针对这一状况，我们将提出一种基于静态分析和神经网络的软件故障预测技术的构建方法，在这项技术中，收集已有的软件各历史版本的源代码及其对应的故障数据，然后使用静态分析工具，对软件各历史版本和新版本的源代码进行扫描，得到各版本的软件复杂度度量值，然后使用统计工具计算历史版本的故障次数和各度量值的相关性，选出和故障次数具有明显相关性的度量值。将选出来的各历史版本的强相关性度量值作为BP神经网络的输入，对应的故障次数作为神经网络的输出，以此训练网络，再使用训练好的网络来预测新版本软件的故障次数。使用这一技术可以结合静态分析得到的复杂度度量值和BP神经网络的强大非线性处理能力，得出较为准确的预测值。

该故障预测技术结合静态分析和BP神经网络进行构建，形成较为准确的基于静态分析和神经网络的软件故障预测技术，在提高软件故障次数预测精度的同时，达到提高软件可信性、安全性、可用性的目的。

发明内容

(一)本发明目的：现有的软件故障预测技术多是基于神经网络和时间序列分析，使用历史故障数据进行网络的训练和预测，这些预测技术在某些情况下有着良好的预测效果。与此同时，静态分析技术已经逐渐推广，但通过静态分析得出的软件复杂度度量值并没有得到进一步的使用。因此本发明将结合静态分析和人工神经网络的优点，提供一种基于静态分析和神经网络的软件故障预测技术的构建方法。本发明的核心思想是认为软件静态分析的复杂度度量值决定了软件的故障次数，即软件的复杂度度量值和故障次数有着某种程度上的对应关系。在这项技术中，首先收集已有的软件历史版本的各版本的源代码以及各版本的故障数据，然后使用静态分析工具，对软件各历史版本和新版本的源代码进行扫描，得到其软件复杂度度量值，然后计算历史版本的故障次数和各静态分析度量值的相关性，选出其中具有明显相关性的度量值。将选出来的各历史版本的强相关性度量值作为BP神经网络的输入，对应的故障次数作为神经网络的输出，以此训练网络，再以新版本软件的复杂度度量值作为输入，使用训练好的网络来预测新版本软件的故障次数。该技术可以为将要发布新版本软件的开发方提供服务，用以预测新版本软件的故障数量。可以看出该技术的构建对现有的静态分析技术和神经网络方法进行了整合与创新，形成了基于静态分析和神经网络的软件故障预测技术。

(二)技术方案

本发明技术方案：基于静态分析和神经网络的软件故障预测技术的构建方法过程如下：

本发明所述方法中，引用SABP来表述基于静态分析(即“Static Analysis”)与BP神经网络(即“Back Propagation Neural Network”)相结合的技术。

本发明提供一种基于静态分析和神经网络的软件故障预测技术的构建方法，其步骤如下：

步骤1、搜集被测软件的各历史版本的故障案例，依据故障信息相关、完整、非重复、非人为错误操作四原则，筛选有效故障案例，加入到创建的故障案例库；

步骤2、统计软件各历史版本的有效故障的次数；

步骤3、使用静态分析工具扫描软件的各历史版本和新版本的源代码，输出程序的复杂度度量值；

步骤4、使用统计工具进行相关性分析，计算各历史版本的软件故障次数与各个度量值的相关性；

步骤5、依据统计规则选出与软件故障次数具有显著相关性的静态分析的度量值；

步骤6、使用各历史版本的显著相关复杂度度量值和软件故障数量，构建BP神经网络的训练输入输出矩阵，使用新版本软件的强相关性复杂度度量值构建预测输入矩阵；

步骤7、构建基于BP神经网络的故障预测算法；主要是确定神经网络的结构和网络参数的配置；

步骤8、结合构建好的网络训练输入输出矩阵，完成BP神经网络的训练过程，构建基于静态分析和BP神经网络的软件故障预测系统；

步骤9、在软件故障预测系统中输入预测输入矩阵，预测软件新版本的故障数量；

其中，在步骤1中所述的“筛选有效故障案例”的做法，主要包含以下四个步骤：

(1)判断故障报告信息是否相关；

(2)判断故障报告信息是否完整；

(3)判断故障报告是否重复；

(4)判断故障是否是由使用者的错误操作造成。

其中故障报告信息相关表示故障报告不是因为新的功能需求而提出，也不是为了寻求帮助而提出，而是因为软件固有的缺陷引发软件故障而提出；故障报告信息完整是指在报告信息相关的提前下，报告的内容完整，可以提供足够的信息让开发者确定是否是有效故障；故障报告重复则是指用户新报告的软件故障早已经有其他使用者提出了，只有不重复的故障报告才有意义；使用者的错误操作也会造成软件发生故障的假象，因而需要判断是否是由使用者的错误操作造成了软件的故障；

总而言之，若软件使用者报告的故障信息相关、完整、不重复、不是使用者的错误操作造成，即可认为故障是由软件代码本身固有的缺陷被触发而导致的软件故障，即有效故障；按照这一原则收集由软件使用者报告的被测软件各历史版本的有效故障，加入故障案例库。

其中，在步骤2中所述的“统计软件各历史版本的有效故障的次数”的做法如下：在创建故障案例库后，统计案例库中各版本的有效故障的次数；假定被测软件共有k个历史版本，有效故障用F表示，则可将每个版本的有效故障数量记为F_i(i＝1,2,k)；

其中，在步骤3中所述的“使用静态分析工具扫描软件的各历史版本和将要发布的新版本的源代码，输出程序的复杂度度量值”，其做法如下：静态分析工具是指现有的静态分析软件，比如美国的免费软件度量工具SourceMonitor，本发明中使用SourceMonitor说明静态分析工具的用法及输出结果。使用SourceMonitor进行静态分析时，将程序文件直接导入软件，即可输出检测文件数、代码总行数、文件中的语句数、带注释行所占百分比、分支语句所占百分比、函数个数、最大复杂度、平均复杂度、模块最大深度及模块深度等度量值；假定所使用的静态分析工具给出了m个度量值，记这m个度量值分别为Q¹，Q²，…，Qⁱ，…，Q^m。对应于软件的k个历史版本和一个新版本，每个度量值都有k+1个具体的数字度量值信息；

若将新版本的故障次数的预测值记为F_k+1，则可将k+1个版本的有效故障和静态分析度量值表示为：

其中，前k行是各历史版本的m个度量值的度量值信息和故障次数，Q¹ _k+1,Q² _k+1,...,Q^m _k+1为新版本的静态分析度量值信息，F_k+1是我们期望得到的新版本的故障次数预测值。

其中，在步骤4中所述的“计算各历史版本的软件故障次数与各个度量值的相关性”的做法如下：使用统计分析软件工具，如美国的SPSS和Minitab等软件，对步骤3中的软件k个历史版本的故障次数和m个静态分析度量值依次做相关性分析，输出故障次数F_i(i＝1,2,k)和每一个静态分析度量值Qⁱ的显著性水平(即P值)。

其中，在步骤5中所述的“依据统计规则选出与软件故障次数具有显著相关性的静态分析的度量值”的做法如下：在计算出故障次数和每一个静态分析度量值的显著性水平(即P值)后，依据具体的需求给定一个置信水平α，当故障次数和某个静态分析度量值的显著性p＜α时，即可认为该度量值与故障次数有显著的相关性，即该度量值和故障次数存在某种意义上的对应关系；选出显著相关的静态分析复杂度度量值的意义在于减小后续神经网络的输入的复杂性，加快网络学习速度；

假定按照这一规则得出m个静态分析度量值中与故障次数具有显著的相关性的度量值有n个，记为Q¹，Q²，…，Qⁿ；第k个历史版本的n个相关静态分析度量值信息为Q¹ _k,Q² _k,...,Qⁿ _k，第k+1个版本为新版本，其相关的静态分析度量值为Q¹ _k+1,Q² _k+1,...,Qⁿ _k+1，则可将这k+1个版本的故障次数和与其显著相关的静态分析度量值信息记为：

其中，F_k+1是我们期望得到的新版本的故障次数预测值。

其中，在步骤6中所述的“使用各历史版本的显著相关复杂度度量值和软件故障数量，构建BP神经网络的训练输入输出矩阵，使用新版本软件的强相关性复杂度度量值构建预测输入矩阵”，其做法如下：通过前述步骤已经得到k+1个版本软件的n个与故障数量显著相关的复杂度度量值，以及软件k个历史版本的故障数量数据；本发明的核心思想是软件的复杂度度量值决定了软件的故障数量，即第i个版本软件的n个复杂度度量值{Q¹ _i,Q² _i,...,Qⁿ _i}必然对应着该版本的故障数量F_i；因此，使用第i个版本软件的复杂度度量值{Q¹ _i,Q² _i,...,Qⁿ _i}去预测该版本的故障数量F_i(i＝1,2,,k)，同理使用{Q¹ _i+1,Q² _i+1,...,Qⁿ _i+1}去预测F_i+1，直到预测到最后一个历史版本的故障数量F_k为止；如此即可形成网络训练的输入矩阵input和预期输出矩阵output，可表示为：

第k+1个版本为软件的新版本，通过静态分析得到的和故障数量显著相关的复杂度度量值为Q¹ _k+1,Q² _k+1,...,Qⁿ _k+1，其故障数量的预测值表示为F_k+1。在网络训练好后，即可使用复杂度度量值去预测其故障数量，预测输入矩阵可表示为：

input_prediction＝(Q¹ _k+1Q² _k+1...Qⁿ _k+1)

其中，在步骤7中所述的“构建基于BP神经网络的故障预测算法”，其做法如下：

1)网络初始化；根据输入输出矩阵确定网络输入层节点数n、隐含层节点数l和输出层节点数m，初始化输入层、隐含层和输出层神经元之间的连接权值ω_ij和ω_jk，初始化隐含层阈值a，输出层阈值b，给定学习速率和神经元激励函数；

2)隐含层输出计算；根据输入矩阵、输入层和隐含层连接权值ω_ij以及隐含层阈值a，计算隐含层输出；

3)输出层输出计算；根据隐含层输出、隐含层和输出层连接权值ω_jk以及输出层阈值b，计算BP神经网络的预测输出；

4)误差计算；根据预测输出和预期输出矩阵计算网络预测误差；

5)权值更新；根据网络预测误差更新网络连接权值ω_ij和ω_jk；

6)阈值更新；根据网络预测误差更新网络节点阈值a和b；

7)判断是否结束，若没有结束返回步骤2；

8)结束后，使用训练好的网络进行预测。

其中，在步骤8中所述的“结合构建好的网络训练输入输出矩阵，完成BP神经网络的训练过程，构建基于静态分析和BP神经网络的软件故障预测系统”，其做法如下：将已经构建好的的训练输入矩阵input和预期输出矩阵output导入BP神经网络，根据预测误差自动调整网络权值ω_ij、ω_jk以及阈值a、b，直至预测误差或者训练次数满足要求，使得故障预测系统具有良好的预测精度。

其中，在步骤9中所述的“在软件故障预测系统中输入预测输入矩阵，预测软件新版本的故障数量”，其作法如下：将已经构建好的预测输入矩阵input_prediction＝(Q¹ _k+ ₁Q² _k+1...Qⁿ _k+1)输入故障预测系统，系统会输出新版本软件的故障数量预测值F_k+1。

通过上述步骤，可以完成对基于静态分析和神经网络的软件故障预测技术的构建，使用静态分析软件扫描历史版本和新版本的软件代码得到软件的复杂度度量值，结合历史版本的故障数据，即可通过BP神经网络进行软件故障数量的预测；本发明适用于解决实际问题中的软件故障数量预测问题，可以帮助软件开发者利用已知的软件故障数量信息和软件源代码，而不需要其他数据，即可预知未来可能发生的故障数量，以便在新的软件发布前做出应对，减小损失，具有较高的实际应用价值。

(三)优点

本发明与现有技术相比的优点在于：现有的软件故障预测技术多是基于神经网络和时间序列分析，使用历史故障数据进行故障预测，这些预测技术在某些情况下有着良好的预测效果。与此同时，静态分析技术已经逐渐推广，但通过静态分析得出的软件复杂度度量值并没有得到进一步的使用。因此本发明将结合静态分析和人工神经网络的优点，对现有的静态分析技术和BP神经网络方法进行了整合与创新，提供一种基于静态分析和神经网络的软件故障预测方法。

附图说明

图1为本发明所述方法的总体步骤流程图。

图2为本发明的有效故障判断流程图。

图3为本发明的相关性分析选择显著相关度量值流程图。

图4为本发明的BP神经网络拓扑结构图。

图5为本发明的BP神经网络流程图。

图中序号、符号、代号说明如下：

图1中的“步骤1～9”即技术方案中对应的步骤；

图1中的input、output和input_prediction即训练输入矩阵、训练预期输出矩阵和预测输入矩阵；

图3中的Qⁱ即通过静态分析工具扫描得到的静态分析度量值；

图3中的p即故障次数和静态分析度量值在相关性分析中的显著性水平；

图3中的α即给定的置信水平；

图4中的X₁,X₂,…,X_n和Y₁,Y₂,…,Y_m即神经网络的输入值和预测值；

图4中的ω_ij即神经网络输入层和隐含层的连接权值；

图4中的ω_jk即神经网络隐含层和输出层的连接权值；

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图进行详细描述。

本发明提供了一种基于静态分析和神经网络的软件故障预测技术的构建方法。利用该方法构建的技术可以对即将发布的新版本软件的故障次数进行较为准确的预测。在这项技术中，首先收集已有的软件历史版本的各版本的源代码以及各版本的故障数据，然后使用静态分析工具，对软件各历史版本和新版本的源代码进行扫描，得到其软件复杂度度量值，然后计算历史版本的故障次数和各静态分析度量值的相关性，选出其中具有明显相关性的度量值。将选出来的各历史版本的强相关性度量值作为BP神经网络的输入，对应的故障次数作为神经网络的输出，以此训练网络，再以新版本软件的复杂度度量值作为输入，使用训练好的网络来预测新版本软件的故障次数。

本发明一种基于静态分析和神经网络的软件故障预测技术的构建方法，如图1所示，其具体构建步骤如下：

步骤一：构建软件故障案例库。其构建方法是：

有效软件故障案例的筛选。用户在使用软件的过程中会向软件提供者报告在使用中遇到的故障，但这些故障报告并不一定是真正的软件故障，只有真正的软件故障才会对故障预测有所帮助。因而在收到故障报告后，应采取某种方法判断报告的故障是否是有效故障。软件提供者在收集软件使用者提供的大量被诊断软件的故障案例后，针对被诊断软件的特点，依据故障信息相关、完整、非重复、非人为操作错误四原则，筛选出有效的故障案例。筛选有效故障案例主要包括四大步骤：判断故障报告信息是否相关；判断故障报告信息是否完整；判断故障报告是否重复；判断故障是否是由人员的错误操作造成，有效故障判断准则如图2所示。其中故障报告信息相关表示故障报告不是因为需求新的功能而提出，也不是为了寻求帮助而提出，而是因为软件本身的缺陷引发故障而提出。故障报告信息完整是指报告的内容完整，可以为开发者提供足够的信息确定是否是有效故障。故障报告非重复则是指该种故障没有其他使用者在以前提出，即不与以前的故障报告重复。使用者的错误操作也会造成软件发生故障的假象，因而需要判断是否是由使用者的错误操作造成了软件的故障。若故障信息相关、完整、不重复、不是人员的错误操作造成，那么可以认为故障是由软件代码本身固有的缺陷被触发而导致的故障，即有效故障。按照这一原则收集被测软件各历史版本的有效故障，加入故障案例库。

步骤二：统计被测软件各历史版本的有效故障次数。其构建方法是：

在创建故障案例库后，统计案例库中各版本的有效故障的次数。假定被测软件共有k个历史版本，有效故障用F表示，则可将每个版本的有效故障的次数记为F_i(i＝1,2,…k)。F₁为软件最早版本的有效故障次数，F_k则为新版本软件的上一版本的故障次数。本发明中的“故障次数”指的有效故障的数量。

步骤三：使用静态分析工具获取程序的复杂度度量值。其构建方法是：

使用静态分析工具扫描软件的各历史版本和将要发布的新版本的源代码，输出程序的复杂度度量值。比如使用软件度量工具SourceMonitor进行静态分析时，将程序文件直接导入软件，即可输出检测文件数、代码总行数、文件中的语句数、带注释行所占百分比、分支语句所占百分比、函数个数、最大复杂度、平均复杂度、模块最大深度及模块深度等软件复杂度度量值。不同的静态分析工具输出的复杂度度量值可能略有不同，但是大部分的度量值是共有的。

假定所使用的静态分析工具给出了m个度量值，将这m个度量值分别表示为Q¹，Q²，…，Qⁱ，…，Q^m。同时，对应于被测软件的k个历史版本和一个新版本，每个度量值都有k+1个具体的数字度量值信息，表示不同版本软件的复杂度。

将新版本的故障次数的预测值记为F_k+1，则可将k+1个版本的有效故障次数和静态分析度量值表示为：

步骤四：计算故障次数和静态分析度量值的相关性。其构建方法是：

使用统计分析软件工具，如SPSS和Minitab等，对步骤3中的软件k个历史版本的故障次数和m个静态分析度量值依次做相关性分析，输出故障次数F_i(i＝1,2,…k)和每一个静态分析度量值Qⁱ的显著性水平(即P值)。

步骤五：选择与故障次数显著相关的静态分析度量值。其构建方法是：

在计算出故障次数和每一个静态分析度量值的显著性水平(即P值)后，依据具体的需求给定一个置信水平α，当故障次数和某个静态分析度量值的显著性p＜α时，即可认为该度量值与故障次数有显著的相关性，即该度量值和故障次数存在某种意义上的对应关系，如图3所示。BP神经网络的学习收敛过程较慢，当网络训练数据集较大时会显著降低网络的学习速度。而静态分析得到的复杂度度量值往往较多，一方面较多的度量值输入会减慢学习速度，另一方面，不是所有的复杂度度量值都对网络故障次数有贡献。因而需对数据进行压缩，通过相关性分析，选出和软件故障次数显著相关的静态分析复杂度度量值，即可减小后续神经网络的输入的复杂性，加快网络学习速度。

假定按照这一规则得出m个静态分析度量值中与故障次数具有显著的相关性的度量值有n个，记为Q¹，Q²，…，Qⁿ。第k个历史版本的n个相关静态分析度量值信息为Q¹ _k,Q² _k,...,Qⁿ _k，第k+1个版本为新版本，其相关的静态分析度量值为Q¹ _k+1,Q² _k+1,...,Qⁿ _k+1，则可将这k+1个版本的故障次数和与其显著相关的静态分析度量值信息记为：

其中，F_k+1是我们期望得到的新版本的故障次数预测值。

步骤六：构建网络训练输入输出矩阵和预测输入矩阵，其构建方法是：

通过前述步骤已经得到k+1个版本软件的n个与故障数量显著相关的复杂度度量值，以及软件k个历史版本的故障数量数据。本发明的核心思想是软件的复杂度度量值决定了软件的故障数量，即第i个版本软件的n个复杂度度量值{Q¹ _i,Q² _i,...,Qⁿ _i}必然对应着该版本的故障数量F_i。因此，可以使用第i个版本软件的复杂度度量值{Q¹ _i,Q² _i,...,Qⁿ _i}去预测该版本的故障数量F_i(i＝1,2,…,k)，同理使用{Q¹ _i+1,Q² _i+1,...,Qⁿ _i+1}去预测F_i+1，直到预测到最后一个历史版本的故障数量F_k为止。如此即可形成BP神经网络训练的输入矩阵input和预期输出矩阵output，可表示为：

第k+1个版本为软件的新版本，通过静态分析得到的新版本软件和故障数量显著相关的复杂度度量值为Q¹ _k+1,Q² _k+1,...,Qⁿ _k+1，其故障数量的预测值表示为F_k+1。在网络训练好后，即可使用复杂度度量值去预测其故障数量，预测输入矩阵可表示为：

input_prediction＝(Q¹ _k+1 Q² _k+1 ... Qⁿ _k+1)

步骤七：构建基于BP神经网络的故障预测方法。其构建方法如下：

首先是网络的初始化，根据输入输出矩阵确定网络输入层节点数n、隐含层节点数l和输出层节点数m，初始化输入层、隐含层和输出层神经元之间的连接权值ω_ij和ω_jk，初始化隐含层阈值a，输出层阈值b，给定学习速率η和神经元激励函数，BP神经网络的拓扑结构如图4所示。完成了网络函数初始化的工作，接下来使用训练样本进行网络训练，计算网络预测输出并计算网络输出和期望输出的误差ε。接下来进行权值阈值修正，根据误差修正网络权值和阈值，使网络预测值逼近期望值，实现神经网络的自动学习。最后的工作就是根据输出的误差ε和给定的训练次数判断训练是否结束，若未结束，即返回网络训练，使用新的权值和阈值计算网络输出，并结合预期输出值计算输出误差ε；若训练结束，即意味着网络训练结束，就可以使用训练好的网络进行新版本软件故障数量的预测。具体实现如下所示：

本算法流程图如图5所示。

步骤八：构建基于静态分析和BP神经网络的软件故障预测系统。其构建方法如下：

将已经构建好的的训练输入矩阵input和预期输出矩阵output导入BP神经网络，根据预测误差自动调整网络权值ω_ij、ω_jk以及阈值a、b，直至预测误差或者训练次数满足要求，使得故障预测系统具有良好的预测精度。

步骤九：使用软件故障预测系统预测新版本的故障数量。其构建方法如下：

将已经构建好的预测输入矩阵input_prediction＝(Q¹ _k+1 Q² _k+1 ... Qⁿ _k+1)输入故障预测系统，系统会输出新版本软件的故障数量预测值F_k+1。

通过上述步骤，可以完成对基于静态分析和神经网络的软件故障预测技术的构建。在这项技术中，首先收集已有的软件历史版本的各版本的源代码以及各版本的故障数据，然后使用静态分析工具，对软件各历史版本和新版本的源代码进行扫描，得到其软件复杂度度量值，然后计算历史版本的故障次数和各静态分析度量值的相关性，选出其中具有明显相关性的度量值。将选出来的各历史版本的强相关性度量值作为BP神经网络的输入，对应的故障次数作为神经网络的输出，以此训练网络，再以新版本软件的复杂度度量值作为输入，使用训练好的网络来预测新版本软件的故障次数。使用这一技术可以综合静态分析和BP神经网络的优点，对其进行整合与创新，得出准确的故障次数的预测值。

该故障预测技术结合静态分析和BP神经网络进行构建，形成较为准确的基于静态分析和神经网络的软件故障预测技术。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：其步骤如下：

步骤2、统计软件各历史版本的有效故障的次数；

步骤3、使用静态分析工具扫描软件的各历史版本和新版本的源代码，输出程序的静态分析复杂度度量值；

步骤4、使用统计工具进行相关性分析，计算各历史版本的软件故障次数与各个复杂度度量值的相关性；

步骤5、依据统计规则选出与软件故障次数具有显著相关性的静态分析复杂度度量值；

步骤7、构建基于BP神经网络的故障预测算法；确定神经网络的结构和网络参数的配置；

其中，在步骤5中所述的依据统计规则选出与软件故障次数具有显著相关性的静态分析复杂度度量值的做法如下：在计算出故障次数和每一个静态分析复杂度度量值的显著性水平即P值后，依据具体的需求给定一个置信水平α，当故障次数和静态分析复杂度度量值的显著性p＜α时，即能认为该静态分析复杂度度量值与故障次数有显著的相关性，即该静态分析复杂度度量值和故障次数存在一意义上的对应关系；选出显著相关的静态分析复杂度度量值的意义在于减小后续神经网络的输入的复杂性，加快网络学习速度；

假定按照这一规则得出m个静态分析复杂度度量值中与故障次数具有显著的相关性的静态分析复杂度度量值有n个，记为Q¹，Q²，…，Qⁿ；第k个历史版本的n个相关静态分析复杂度度量值信息为Q¹ _k,Q² _k,...,Qⁿ _k，第k+1个版本为新版本，其相关的静态分析复杂度度量值为Q¹ _k+1,Q² _k+1,...,Qⁿ _k+1，则能将这k+1个版本的故障次数和与其显著相关的静态分析复杂度度量值信息记为：

其中，F_k+1是期望得到的新版本的故障次数预测值；

通过上述步骤，能完成对基于静态分析和BP神经网络的软件故障预测技术的构建，使用静态分析软件扫描历史版本和新版本的软件代码得到软件的复杂度度量值，结合历史版本的故障数据，即能通过BP神经网络进行软件故障数量的预测。

2.根据权利要求1所述的一种基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：

在步骤1中所述的筛选有效故障案例的做法，包含以下四个步骤：

(1)判断故障报告信息是否相关；

(2)判断故障报告信息是否完整；

(3)判断故障报告是否重复；

(4)判断故障是否是由使用者的错误操作造成；

其中故障报告信息相关表示故障报告不是因为新的功能需求而提出，也不是为了寻求帮助而提出，而是因为软件固有的缺陷引发软件故障而提出；故障报告信息完整是指在报告信息相关的提前下，报告的内容完整，能提供足够的信息让开发者确定是否是有效故障；故障报告重复则是指用户新报告的软件故障早已经有其他使用者提出了，只有不重复的故障报告才有意义；使用者的错误操作也会造成软件发生故障的假象，因而需要判断是否是由使用者的错误操作造成了软件的故障；

总而言之，若软件使用者报告的故障信息相关、完整、不重复、不是使用者的错误操作造成，即能认为故障是由软件代码本身固有的缺陷被触发而导致的软件故障，即有效故障；按照这一原则收集由软件使用者报告的被测软件各历史版本的有效故障，加入故障案例库。

3.根据权利要求1所述的基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：在步骤2中所述的统计软件各历史版本的有效故障的次数的做法如下：在创建故障案例库后，统计案例库中各版本的有效故障的次数；假定被测软件共有k个历史版本，有效故障用F表示，则能将每个版本的有效故障数量记为F_i，其中i＝1,2,…k。

4.根据权利要求3所述的基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：在步骤3中所述的使用静态分析工具扫描软件的各历史版本和将要发布的新版本的源代码，输出程序的静态分析复杂度度量值，其做法如下：静态分析工具是指现有的静态分析软件，选用美国的免费软件度量工具SourceMonitor；使用SourceMonitor说明静态分析工具的用法及输出结果；使用SourceMonitor进行静态分析时，将程序文件直接导入软件，即能输出检测文件数、代码总行数、文件中的语句数、带注释行所占百分比、分支语句所占百分比、函数个数、最大复杂度、平均复杂度、模块最大深度及模块深度的静态分析度量值；假定所使用的静态分析工具给出了m个静态分析复杂度度量值，记这m个静态分析复杂度度量值分别为Q¹，Q²，…，Qⁱ，…，Q^m；对应于软件的k个历史版本和一个新版本，每个静态分析复杂度度量值都有k+1个具体的数字静态分析复杂度度量值信息；

若将新版本的故障次数的预测值记为F_k+1，则能将k+1个版本的有效故障和静态分析复杂度度量值表示为：

其中，前k行是各历史版本的m个静态分析复杂度度量值的信息和故障次数，Q¹ _k+1,Q² _k+1,...,Q^m _k+1为新版本的静态分析复杂度度量值信息，F_k+1是期望得到的新版本的故障次数预测值。

5.根据权利要求1所述的基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：在步骤4中所述的计算各历史版本的软件故障次数与各个复杂度度量值的相关性的做法如下：使用统计分析软件工具，选用美国的SPSS和Minitab软件，对步骤3中的软件k个历史版本的故障次数和m个静态分析复杂度度量值依次做相关性分析，输出故障次数F_i和每一个静态分析复杂度度量值Qⁱ的显著性水平，即P值，其中i＝1,2,…k。

6.根据权利要求1所述的基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：在步骤6中所述的使用各历史版本的显著相关复杂度度量值和软件故障数量，构建BP神经网络的训练输入输出矩阵，使用新版本软件的强相关性复杂度度量值构建预测输入矩阵，其做法如下：通过前述步骤已经得到k+1个版本软件的n个与故障数量显著相关的复杂度度量值，以及软件k个历史版本的故障数量数据；核心思想是软件的复杂度度量值决定了软件的故障数量，即第i个版本软件的n个复杂度度量值{Q¹ _i,Q² _i,...,Qⁿ _i}必然对应着该版本的故障数量F_i，其中i＝1,2,…k；因此，使用第i个版本软件的复杂度度量值{Q¹ _i,Q² _i,...,Qⁿ _i}去预测该版本的故障数量F_i，同理使用{Q¹ _i+1,Q² _i+1,...,Qⁿ _i+1}去预测F_i+1，直到预测到最后一个历史版本的故障数量F_k为止；如此即能形成网络训练的输入矩阵input和预期输出矩阵output，能表示为：

第k+1个版本为软件的新版本，通过静态分析得到的和故障数量显著相关的复杂度度量值为Q¹ _k+1,Q² _k+1,...,Qⁿ _k+1，其故障数量的预测值表示为F_k+1；在网络训练好后，即能使用复杂度度量值去预测其故障数量，预测输入矩阵能表示为：

input_prediction＝(Q¹ _k+1Q² _k+1...Qⁿ _k+1)。

7.根据权利要求1所述的基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：

在步骤7中所述的构建基于BP神经网络的故障预测算法，其做法如下：

6)阈值更新；根据网络预测误差更新网络节点阈值a和b；

7)判断是否结束，若没有结束返回步骤2；

8)结束后，使用训练好的网络进行预测。

8.根据权利要求1所述的基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：在步骤8中所述的结合构建好的网络训练输入输出矩阵，完成BP神经网络的训练过程，构建基于静态分析和BP神经网络的软件故障预测系统，其做法如下：将已经构建好的的训练输入矩阵input和预期输出矩阵output导入BP神经网络，根据预测误差自动调整网络权值ω_ij、ω_jk以及阈值a、b，直至预测误差或者训练次数满足要求，使得故障预测系统具有良好的预测精度。

9.根据权利要求6所述的基于静态分析和神经网络的软件故障预测技术的构建方法，其特征在于：在步骤9中所述的在软件故障预测系统中输入预测输入矩阵，预测软件新版本的故障数量，其作法如下：将已经构建好的预测输入矩阵input_prediction＝(Q¹ _k+1 Q² _k+1... Qⁿ _k+1)输入故障预测系统，系统会输出新版本软件的故障数量预测值F_k+1。