CN111816298B

CN111816298B - 事件预测方法及其装置、存储介质、终端、云服务系统

Info

Publication number: CN111816298B
Application number: CN202010505314.2A
Authority: CN
Inventors: 宋军华; 王洪超; 王晓琴; 吴远星; 薄云峰; 宋春芳
Original assignee: Beijing Sino Canbridge Med Tech Co ltd
Current assignee: Beijing Sino Canbridge Med Tech Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2024-08-13
Anticipated expiration: 2040-06-05
Also published as: CN111816298A

Abstract

本申请公开了一种用于计算机在配置下预测事件发生的概率的事件预测方法及其装置、存储介质、终端和云服务系统。其中所述方法包括：获取事件预测对象的相关变量，将所述相关变量划分为不同的子集，得到基础变量子集和至少一个特征变量子集；根据所述基础变量子集，选择基础预测模型，确定所述事件发生的基础概率值；针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数；根据所述基础概率值和所述概率影响系数，确定所述事件发生的概率；根据所述事件发生的概率，生成事件预测结果。通过对基础变量和特征变量的综合计算，进一步提高了事件预测的精度。

Description

事件预测方法及其装置、存储介质、终端、云服务系统

技术领域

本申请涉及基于计算机技术的事件预测技术领域，尤其涉及一种用于计算机在配置下预测事件发生的概率的事件预测方法及其装置、存储介质、终端和云服务系统。

背景技术

随着计算机技术，特别是大数据和人工智能技术的不断发展，通过建立数学模型来研究不同变量之间的关系，从而为判断、决策提供依据的方法，得到了越来越广泛的应用。数学模型，可以帮助解释一个系统，研究不同组成部分的影响，对行为做出预测。概率模型是一种用来描述不同随机变量之间关系的数学模型，通常情况下刻画了一个或多个随机变量之间的相互非确定性的几率关系。有些过程无法用理论分析导出其模型，但可通过试验测定数据，经过数理统计法求得各变量之间的函数关系，称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型等。随着医学信息学的发展，通过探究海量异构的电子病历数据中的关联信息，搭建疾病预测模型，利用多因素模型估算患有某种疾病的概率或者将来某结局发生的概率，也在医学研究与实践中得到了广泛的应用。针对广泛人群的疾病预测模型，也可以为政府部门与卫生管理者制定有关政策提供参考和依据。

基于现有的研究成果和既有的预测模型，针对不同的计算机系统、网络环境、社会行为、临床疾病，可以选择不同的基础预测模型，计算出特定事件发生的基础概率值。然而既有的预测模型，并不能完全考量到所有因素，总有一些相关变量无法纳入，从而影响到预测精度。针对特定人群或者个体的预测模型，由于在社会心理、文化传统、行为习惯和生理基础等方面的不同，也会产生一定的偏差。因此，需要在选择基础预测模型的基础上，挖掘有价值的其他变量，根据不同预测对象的特征，构建特征预测模型和算法，对基础概率值进行修正和调整，进一步提高预测精度。

发明内容

本申请实施例提供一种事件预测的技术方案，用于计算机在配置下预测事件发生的概率，以解决传统预测方法精度不高、操作不便的问题。

本申请实施例提供的一种预测方法，用于计算机在配置下预测事件发生的概率，包括：

获取事件预测对象的相关变量，根据相关变量的来源和/或对事件预测结果的影响程度不同，将所述相关变量划分为不同的子集，得到基础变量子集和至少一个特征变量子集；

根据所述基础变量子集，选择基础预测模型，确定所述事件发生的基础概率值，所述基础预测模型表示所述基础变量与所述事件发生的概率值之间的映射关系，其中，所述基础变量子集包括N个基础变量，每个基础变量对应一个属性特征值，所述属性特征值根据所述基础预测模型确定，N为大于或等于1的正整数；

针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，所述概率影响系数用以根据所述特征变量对所述基础概率进行修正计算，其中，所述特征变量子集包括M个特征变量，每个特征变量对应一个属性特征值，所述属性特征值根据所述特征预测算法确定，M为大于或等于1的正整数；

根据所述基础概率值和所述概率影响系数，确定所述事件发生的概率；

根据所述事件发生的概率，确定所述事件发生的风险度，生成事件预测结果。

进一步的，在本申请提供的一种优选实施方式中，针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，具体包括：

确定第一特征变量子集，所述第一特征变量子集包括M1个特征变量，每个特征变量对应一个属性特征值，所述属性特征值为布尔值，若所述特征变量存在，所述属性特征值为1；若所述特征变量不存在，所述属性特征值为0，M1为大于或等于1的正整数；

根据每个特征变量对事件发生的影响程度值，赋予其不同权重，确定所述每个特征变量对事件发生的概率影响因子Xi；

根据每个特征变量对事件发生的概率影响因子Xi，确定所述事件发生的概率影响系数；

其中，所述概率影响系数X初始值为X＝1，M1个特征变量中，每个特征变量对事件发生的概率影响因子为Xi；

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目。

进一步的，在本申请提供的一种优选实施方式中，还可以包括：

将所述第一特征变量子集分为风险性特征变量和保护性特征变量，当所述特征变量会增加所述事件发生概率时，为风险性特征变量，当所述特征变量会减小所述事件发生概率时，为保护性特征变量；

根据每个特征变量对事件发生的影响程度值，赋予其不同权重，确定所述每个特征变量对事件发生的概率影响因子Xi，当所述特征变量为风险性特征变量时，Xi为大于1的正实数，当所述特征变量为保护性特征变量时，Xi为大于0小于1的正实数；

根据每个特征变量对事件发生的概率影响因子Xi，确定所述事件发生的概率影响系数X。所述概率影响系数为所述概率影响因子Xi的累乘，即：

其中，n为属性特征值为1的特征变量的数目。

根据每个特征变量对事件发生的影响程度值，赋予其不同权重，确定所述每个特征变量对事件发生的概率影响因子Xi，当所述特征变量为风险性特征变量时，Xi为大于0的实数，当所述特征变量为保护性特征变量时，Xi为小于0的实数；

根据每个特征变量对事件发生的概率影响因子Xi，确定所述事件发生的概率影响系数。所述概率影响系数X通过以下算法确定：

其中，n为属性特征值为1的特征变量的数目。

进一步的，在本申请提供的一种优选实施方式中，针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，还可以包括：

确定第二特征变量子集，所述第二特征变量子集包括M2个特征变量，每个特征变量对应一个属性特征值Ti，所述属性特征值Ti为大于或等于1的正整数，表示不同的程度等级，根据每一个特征变量的测量结果范围确定，M2为大于或等于1的正整数；

确定所述第二特征变量子集的概率影响系数Y，所述概率影响系数Y通过以下算法确定：

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，

或者，根据特定预测对象群体的第二特征变量测量结果的统计结果中位数对应的程度等级。

进一步的，在本申请提供的一种优选实施方式中，所述方法还包括：

使用机器学习方法和/或最大类间方差法对事件预测结果进行优化。

使用最大类间方差法对事件预测结果进行优化。

进一步的，在本申请提供的一种优选实施方式中，所述方法用于计算受检者未来一段时间内罹患乳腺癌的概率；

所述基础变量子集至少包括受检者的乳腺癌病史、年龄、初潮年龄、初产年龄、一级家属中患乳腺癌的人数、乳腺活检情况；所述基础预测模型至少包括Gail模型、Claus模型、Clause表格、BOADICEA、Jonker模型、Clause Extended Formula、Tyrer-Cuzick模型和Manchester评分系统模型中的一种；

所述特征变量子集至少包括视诊特征子集和触诊特征子集，所述视诊特征子集主要包括通过视觉观察获取的特征；所述触诊特征子集主要包括通过触诊检查设备获取的特征。

本申请还提供一种事件预测装置，包括：

数据获取模块，用于获取事件预测对象的相关变量，根据相关变量的来源和/或对事件预测结果的影响程度不同，将所述相关变量划分为不同的子集，得到基础变量子集和至少一个特征变量子集；

基础分析模块，用于根据所述基础变量子集，选择基础预测模型，确定所述事件发生的基础概率值；

特征分析模块，用于针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数；

修正计算模块，用于根据所述基础概率值和所述概率影响系数，确定所述事件发生的概率；

结果评估和输出模块，根据所述事件发生的概率，确定所述事件发生的风险度，生成事件预测结果。

本申请还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被加载后，可以执行上述的方法。

本申请还提供一种终端，所述终端被配置为可以执行上述的方法。

本申请还提供一种云服务系统，用于为终端提供网络云服务，其特征在于，所述云服务系统开设有访问端口；

所述终端可以通过访问端口接受云服务系统的网络云服务，执行上述的方法；

其中，所述终端可以直接或间接执行上述方法。

本申请提供的实施例，至少具有以下技术效果：

通过对基础变量和特征变量的综合计算，进一步提高事件预测的精度，通过多元化的信息获取装置和计算终端、云服务平台，进一步提高事件预测的操作便利性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的事件预测方法的流程图；

图2为本申请实施例提供的事件预测装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例技术方案涉及基于计算机系统的事件预测方法

请参照图1，本申请实施例提供的终端的工作量计算方法，具体包括以下步骤：

S100：获获取事件预测对象的相关变量，根据相关变量的来源和/或对事件预测结果的影响程度不同，将所述相关变量划分为不同的子集，得到基础变量子集和至少一个特征变量子集。

事件预测对象可以是任何特定事件发生的主体，包括计算机系统、网络环境、终端，也可以是人群或者个体。相关变量是与特定事件发生具有关联性的变量。可以表现为事件预测对象自身具有的某些属性，也可以表现为某些外部相关属性。

本申请实施例中的基础变量根据选取的基础预测模型确定。特征变量是除基础变量之外，其他与特定事件发生具有关联性的变量。

大数据和互联网时代，信息和数据越来越多，为了进行事件预测所能用到的数据也越来越广泛，有些数据相关性强，有些数据相关性弱。本发明实施例中，首先根据选取的基础预测模型，将基础预测模型下的变量划分为基础变量子集。对于基础变量以外的其他变量，通常将来源相同的变量划分为一个变量子集。可以根据事件预测对象的特点，采取各种手段、工具和方法来获取相关变量。对于计算机系统和终端，可以通过定期发送的检测指令来查询系统运行状态，获取相关变量；对于网络环境，可以通过网管系统、安全监察系统，实时监测网络环境状态，获取相关变量；对于广泛人群，可以通过社会调查的方法，获取相关变量；对于个体，可以通过询问、观察、仪器检测等方法，获取相关变量。此外，还可根据变量对事件预测结果的影响程度，将相关性强的变量划分为一个子集，相关性弱的变量划分为一个子集。

需要说明的是，变量子集的划分并不是绝对按照获取来源或者相关性强弱进行划分，选择的基础预测模型中的基础变量，可能有不同的获取来源。不同的变量子集，可能全部由强相关性的变量组成，也可能全部由弱相关性的变量组成，还可能由部分强相关性变量和部分弱相关性组成。相关性强弱的定义是相对的概念。如何划分变量子集，取决于建构怎样的预测算法和模型，每一个变量子集下的所有变量，综合作用而影响到事件预测的结果。

S200：根据所述基础变量子集，选择基础预测模型，确定所述事件发生的基础概率值，所述基础预测模型表示所述基础变量与所述事件发生的概率值之间的映射关系，其中，所述基础变量子集包括N个基础变量，每个基础变量对应一个属性特征值，所述属性特征值根据所述基础预测模型确定，N为大于或等于1的正整数。

目前，通过建立预测模型来进行事件预测、风险评估，已经得到了十分广泛的应用。例如，马尔可夫模型可以广泛应用在语音识别、词性自动标注、音字转换、概率文法等自然语言处理应用领域，ARIMA模型作为时间序列预测分析方法的一种，可以应用在网络流量预测领域。此外，疾病预测模型也得到了广泛的应用，例如SCORE、PROCAM、Reynolds、QRISK等模型，建立了针对世界上不同国家和区域人群的心脑血管发病风险预测模型；ParkS等(2013年)利用Cox回归模型建立个人肺癌预测模型，AWang等(2015年)将Logistic回归与人工神经网络结合起来选择危险因素和预测慢性病发病风险。各种经典模型都有其自身的特点，单独使用往往存在一些缺陷。因此需要根据事件预测对象的特点，来选择合适的基础预测模型。不同的基础预测模型，涉及到不同的基础变量，每个基础变量，根据不同的算法和模型，赋予一定的属性特征值。

对特定事件发生概率的预测，可以是预测特定事件在基础变量下发生的概率，也可以是预测特定事件在基础变量下，未来一段事件内发生的概率。不同的基础预测模型，可以得到不同的预测结果。

S300：针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，所述概率影响系数用以根据所述特征变量对所述基础概率进行修正计算，其中，所述特征变量子集包括M个特征变量，每个特征变量对应一个属性特征值，所述属性特征值根据所述特征预测算法确定，M为大于或等于1的正整数。

在根据步骤S200确定出基础概率值的情况下，如何合理选取基础模型之外的特征变量，构建特征预测算法，是本发明的关键。本发明实施例中，构建特征预测算法的方法包括但不限于以下几种：首先是模型法。模型法是指利用逻辑学回归、决策树、人工神经网络、支持向量机、随机森林算法等方法构建事件预测模型，基于模型结果进行事件预测的方法。其次是专家法。专家法是指根据专家意见，确定考量因素，进行事件预测的方法。专家法可以解决弱相关性变量无法入选模型的问题。尽管专家法可能具有较大主观性，但是在计算机技术和大数据支持下，可以随机调查到大量专家意见，从而一定程度上排除主观干扰，特别是在疾病预测方面，可以在专家意见的基础上，基于电子病历的数据，进行验证和优化，从而得到更加精确的预测结果。以上方法亦可结合使用，在专家法的基础上，通过建立模型，进一步优化预测结果。

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目。

特征变量是指与事件发生具有相关性的特定影响因素，对于特定的预测对象而言，若其具有特征预测算法中的某一特征变量，则该变量对应的属性特征值为布尔值1；若其不具有特征预测算法中的某一特征变量，则该变量对应的属性特征值为布尔值0。不同的特征变量，对事件发生的影响程度不同，对于不同的特征变量，赋予不同的影响因子。影响因子的确定，可以通过模型法或者专家法确定。不同的特征变量的影响因子Xi，可以是平均分布，也可以是每一特征变量有不同的权值。

例如，对某一特定事件，其第一特征变量子集包括M1＝5个特征变量，分别为变量1、变量2、变量3、变量4、变量5，每个特征变量的概率影响因子Xi分别为X1、X2、X3、X4、X5，若当前预测对象具有变量1、变量3，不具有变量2、变量4和变量5，则概率影响系数为：

X＝1×(1+X1)×(1+X3)。

其中，n为属性特征值为1的特征变量的数目。

例如，对某一特定事件，其第一特征变量子集包括M1＝5个特征变量，分别为变量1、变量2、变量3、变量4、变量5。其中M1为保护性特征变量，其概率影响因子为X1(1＞X1＞0)，M2、M3、M4、M5为风险性特征变量，其概率影响因子分别为X2、X3、X4、X5(X2、X3、X4、X5均大于1)，若当前预测对象具有变量1、变量3和变量5，不具有变量2和变量4，则概率影响系数为：

X＝X1×X3×X5。

其中，n为属性特征值为1的特征变量的数目。

例如，对某一特定事件，其第一特征变量子集包括M1＝5个特征变量，分别为变量1、变量2、变量3、变量4、变量5。其中M1为保护性特征变量，其概率影响因子为X1(X1＜0)，M2、M3、M4、M5为风险性特征变量，其概率影响因子分别为X2、X3、X4、X5(X2、X3、X4、X5均大于0)，若当前预测对象具有变量1、变量3和变量5，不具有变量2和变量4，则概率影响系数为：

X＝1+(X1+X3+X5)。

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，

可以根据按照获取来源、相关性强弱以及特征预测算法的确定，将特征变量子集划分为多个子集。本申请实施例中，至少还包括第二特征变量子集。第二特征变量预测算法的构建，采取等级评定加权的算法。例如，对某一特定事件，其第二特征变量子集包括M2＝2个特征变量，分别为变量1、变量2。每一个变量都是特定预测对象自身固有的属性。对于变量1，存在3个等级，对应的特征值T1分别为1、3、4；对于变量2，同样存在3个等级，对应的特征值T2分别为1、2、4；若取L为T1和T2取值的算术平均值，即：

L＝[(1+3+4)/3+(1+2+4)/3]/2＝15/6。

若对于特定预测对象，T1＝3，T2＝4，则其概率影响系数为：

Y＝1+[(3+4)-(15/6)]/(15/6)＝2.8。

S400：根据所述基础概率值和所述概率影响系数，确定所述事件发生的概率。

所述基础概率值和所述概率影响系数的乘积，为所述事件发生的概率。若存在多个特征变量子集，则所述事件发生的概率影响系数为每一个特征变量子集的概率影响系数的乘积。基础概率值和概率影响系数的乘积为所述事件发生的概率。所述事件发生的概率，也可以是所述基础概率值和所述概率影响系数的相加、加权平均，或者根据统计模型进行查表计算。

S500：根据所述事件发生的概率，确定所述事件发生的风险度，生成事件预测结果。

通常情况下，当所述事件发生的概率大于一定数值，则可认为该事件发生的风险度较高，并需要采取一定的积极干预手段。根据事件发生的概率范围确定不同的风险度，不同的风险度，对应不同的干预等级，采取不同的干预措施。

事件预测结果通常为某一事件发生的风险度提示，也可以直接关联生成相应的干预等级或者干预策略。

进一步的，在本申请提供的一种优选的实施例中，所述方法还包括：

机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。机器学习方法在相关的文献中有详细阐释。

下面就以乳腺癌疾病预测为例，对传统机器学习方法在本申请实施例中的应用做原理性说明。

首先，收集原始训练数据。收集目标样本中的所有基础变量值与基础概率值，所有特征变量的特征值，以及目标样本最终的事件结果信息。数据的收集以如下表一参数和格式进行。

表一乳腺疾病风险预测参数

其次，根据上述格式，对结构化特征参数变量采用机器学习的基分类器模型进行参数设置，并采用基分类器对收集到的原始训练数据进行处理，利用处理后的数据集进行训练，得到机器学习训练后的模型。基分类器可以采用神经网络(Neural Network)、逻辑回归(Logistic Regression)、贝叶斯网络(Bayesian Network)、决策树(Decision Tree)和支持向量机(Support Vector Machine)等模型中的任意一种。本技术方案也可以是上述中的数种基分类器的组合使用，组合使用方式为基于同样的训练数据分别采用不同的基分类器进行训练，然后基于各基分类器测试的结果对每种输出值进行组合采纳，这种组合采纳可以是求平均、加权求平均、取最优基分类器等方式生成模型。

最后，在上述训练的基础上可以得到各特征变量与事件结果之间的关系模型，为了避免模型被误用，当输出结果是1时，算法提示存在高风险；当输出结果是0时，算法提示存在低风险。

使用最大类间方差法对事件预测结果进行优化。

最大类间方差法最早应用于计算机视觉和图像处理领域，是一种自适应阈值分割方法，减少灰阶图像等级成为一个二值图像。该算法假定图像分为两类(符合双峰直方图分布，两类分别称为前景/目标像素和背景像素)，然后计算出一个最优的阈值将将此图像分为两类使得其类间方差最大。它是在判决分析或最小二乘原理的基础上推导出来的。下面就最大类间方差法在本申请实施例中的应用做原理性说明。

下面就以乳腺癌疾病预测为例，对最大类间方差法在本申请实施例中的应用做原理性说明。

首先，收集原始训练数据。收集目标样本中，所有基础变量值与基础概率值，以及所有特征变量的特征值，这些数据不包括目标样本最终的事件结果信息。具体数据格式参照表一。

第一特征变量子集包括特征5、特征6、特征7、特征8和特征9。第二特征变量子集包括特征3和特征4。

其计算过程如下：

对于序号为i的目标样本，基于基础概率模型的基础概率为P1i；

根据第一特征变量子集确定的影响系数为：

X1i＝(1+a)zsi

其中，zsi＝(SYi+CLi+RTi+HSi+YWi)，a为待定系数。

根据第二特征变量子集确定的影响系数为：

X2i＝1+(HAi+MOi-b)/b，b为待定系数。

可以得到序号为i的病例其10年内罹患乳腺癌的概率，

Pi＝P1i*X1i*X2i＝Pi(a，b)

假设一共有n条数据，现在假设我们通过一个概率值为P0的门限将这些样本划分为两类:C0和C1(高风险和低风险)；C0表示高风险组，对应的是Pi大于P0的病例数据；C1表示低风险组，对应的是Pi小于P0的病例数据。

为了评价P0这个门限“好”的程度，我们需要引入判别式分析中使用的判别式标准来测量(类的分离性测量)，在本实施例中，我们采用类间方差最大的思路。n条数据的概率平均值为Pna，则：

高风险组C0组的平均值为：

低风险组C1组的平均值为：

测C0组与C1组类间方差为：

σ2B(a，b)＝(Pna-Pc0a)²+(Pna-Pc1a)²

最优值a*、b*为

σ2B(a*，b*)＝maxσ2B(a，b)

通过上述方法求得a、b，计算可以得到特定对象的事件概率，与P0比较得出高风险或者低风险。

以上实施例将样本划分为高风险和低风险两类，根据需要，也可以根据不同的概率范围，将样本划分为高、中、低三级风险等级，或者更多等级。具体算法可以类推得到，此不赘述。

进一步的，在本申请提供的一种优选的实施例中，所述方法用于计算受检者未来一段时间内罹患乳腺癌的概率；

可以理解的是，随着医疗信息电子化的发展，医务人员或者相关研究工作人员可以通过电子病历数据，利用计算机系统，构建疾病预测模型。以乳腺癌为例，当前国内尤其是广大农村地区，受限于医疗设备以及医疗专业人员的不足，女性进行普遍的早筛比较困难。根据一定的措施识别出乳腺癌患病高风险人群，进而有针对性进行乳腺癌的进一步筛查显得更加实际。

我们认为，上述所谓的措施可以辅以简单的检查手段，这要求检查设备价格低廉、操作简单、判读容易、无副作用，然后通过简单的乳房表面改变(即视诊，既然已经敞开乳房进行触诊成像检查，那么简单记录乳房表面改变并非难事)以及结合其他客观风险要素进行实施。

目前用于乳腺癌风险评估的模型有很多，其中Gail模型在国内外应用比较普遍，但据国内文献报道，其准确性仍存在一些不足。我们在Gail模型的基础上，结合乳腺触诊成像应用技术的优势，构建更适合于国内女性乳腺癌预测模型。根据Gail模型，基础变量至少包括受检者乳腺癌病史、年龄、初潮年龄、初产年龄、一级家属中患乳腺癌的人数、乳腺活检情况。通过受检者的具体情况，查询模型量表，可以计算出相对风险系数和一定时期内罹患乳腺癌的基础概率。Gail模型的具体量表，相关文献有详细介绍，此不赘述。假设受检者初潮年龄为12-13岁，年龄为40岁，乳腺活检次数为1次，初产年龄为27岁，一级家属中患乳腺癌的人数为0，则可计算得到其相对风险系数PX1＝1.099*1.698*1.548＝2.89；10年内罹患乳腺癌的基础概率P1＝2.5+(2.89-2)(6.1-2.5)/(5-2)＝3.6％。

本发明实施例中，特征变量子集包括视诊特征变量子集和触诊特征变量子集。视诊特征主要通过视觉观察获得，包括以下情况：①乳头双侧不对称、位置偏移、内陷、乳头溢液、乳晕区溃疡；②乳房局部皮肤颜色变化、红肿、溃疡、静脉曲张；③局部皮肤“橘皮”征；④局部皮肤“酒窝”征；⑤腋窝和锁骨上窝异常。

视诊影响系数X计算过程如下：X首先等于1，以上存在一项，则X取值增加20％。例如，假设某受检者存在乳房局部皮肤颜色变化与“橘皮”征，则X的取值为1*(1+20％)²＝1.44。

触诊特征根据触诊成像检查获得，软件自动算出硬度和活动度的情况。

根据下表对触诊进行评分：

触诊影响系数Y计算过程如下：首先计算硬度和活动度的评分总和T，触诊影响系数X2＝1+(T-4)/4。例如，假设某受检者触诊检查硬度评分3，活动度评分4，则触诊影响系数X2＝1+(3+4-4)/4＝1.75。

根据基础概率值、视诊影响系数和触诊影响系数，计算最终的疾病罹患概率值。前述受检者10年内罹患乳腺癌的概率为：

P＝P1*X*Y＝3.6％*1.44*1.75＝9.07％。

根据病例对照研究的预实验结果，该预测算法从临床收集的1000条数据中(每条数据均包含触诊评分、视诊评分、gail模型需要的客观数据及病理信息的良恶性区分结果)，采用本技术方案所述模型进行测算，结果表明，如果以10年内罹患乳腺癌的概率等于10％来区分高风险和低风险，其准确性大于80％，对于指导女性进行进一步干预手段具有良好的现实指导意义。以下是部分数据。

关于风险度的区分，亦可选择与相同年龄人群的中位风险概率相比，如同龄人中的中位风险概率为5％，则风险概率大于等于10％为高风险，风险概率小于等于5％为低风险，风险概率在5％与10％之间为中风险。

以上视诊影响系数X的计算方法还可以包括以下计算方法：

方法1：将视诊要素分为保护因素和危险因素，假定X初始值为1；出现保护因素时，X再乘以一个小于1的系数；出现危险因素时，X再乘以一个大于1的系数，根据罗列的因素进行累乘，得到最终的视诊影响系数X。

保护因素有：①两侧乳房对称，大小匀称，皮肤表面细腻，出现这些情况时，X1再乘以0.9；

危险因素有：①两侧乳房明显不对称，X再乘以1.1；②乳房有溢液，X再乘以1.1；③乳房皮肤颜色改变，皮下浅表静脉，皮肤有红肿，X再乘以1.1；④出现“橘皮”征，X再乘以3；⑤“酒窝”征，X再乘以3；⑥溃疡，X再乘以2；⑦乳头位置不对对称，内陷等，X再乘以1.1；⑧皮肤回缩，X再乘以2；⑨腋窝和锁骨上窝异样，X再乘以3。

方法2：视诊要素分为保护因素和危险因素，假定X初始值为1；出现保护因素时，X再加上一个小于0的系数；出现危险因素时，X再加上一个大于0的系数，根据罗列的因素进行累加，得到最终的视诊影响系数X。

保护因素有：①两侧乳房对称，大小匀称，皮肤表面细腻，出现这些情况时，X再加上-0.2；

危险因素有：①两侧乳房明显不对称，X再加上0.1；②乳房有溢液，X再加上0.1；③乳房皮肤颜色改变，皮下浅表静脉，皮肤有红肿，X再加上0.1；④出现“橘皮”征，X再加上2；⑤“酒窝”征，X再加上3；⑥溃疡，X再加上2；⑦乳头位置不对对称，内陷等，X再加上0.1；⑧皮肤回缩，X再加上2；⑨腋窝和锁骨上窝异样，X再加上2。

以上为本申请实施例提供的事件预测方法，基于同样的思路，本申请实施例还提供一种事件预测装置100，如图2所示。

一种事件预测装置100，包括：

数据获取模块11，用于获取事件预测对象的相关变量，根据相关变量的来源和/或对事件预测结果的影响程度不同，将所述相关变量划分为不同的子集，得到基础变量子集和至少一个特征变量子集；

基础分析模块12，用于根据所述基础变量子集，选择基础预测模型，确定所述事件发生的基础概率值；

特征分析模块13，用于针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数；

修正计算模块14，用于根据所述基础概率值和所述概率影响系数，确定所述事件发生的概率；

结果评估和输出模块15，用于根据所述事件发生的概率，确定所述事件发生的风险度，生成事件预测结果。

这里的事件预测装置的一种具体应用可以理解为一种虚拟的装置，例如与浏览器相类似的软件产品。数据获取模块11、基础分析模块12、特征分析模块13、修正计算模块14、结果评估和输出模块15的一种具体应用可以理解为可以独立封装的功能函数。

进一步的，在本申请提供的一种实施例中，特征分析模块13，用于针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，具体用于：

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目。

进一步的，在本申请提供的一种实施例中，特征分析模块13，用于针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，还可以用于：

其中，n为属性特征值为1的特征变量的数目。

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，

进一步的，在本申请提供的一种实施例中，所述装置还包括优化模块，用于使用机器学习方法对事件预测结果进行优化。

进一步的，在本申请提供的一种实施例中，所述装置还包括优化模块，用于使用机器学习方法和/或最大类间方差法对事件预测结果进行优化。

进一步的，在本申请提供的一种实施例中，所述装置用于计算受检者未来一段时间内罹患乳腺癌的概率；

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被加载后，可以执行以下步骤：

进一步的，在本申请提供的一种实施例中，所述存储介质存储有计算机程序，所述计算机程序被加载后，可以执行以下步骤：

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目。

进一步的，在本申请提供的一种实施例中，所述存储介质存储有计算机程序，所述计算机程序被加载后，还可以执行以下步骤：

其中，n为属性特征值为1的特征变量的数目。

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，

计算受检者未来一段时间内罹患乳腺癌的概率；

本申请还提供一种终端，所述终端被配置为可以执行以下方法：

进一步的，在本申请提供的一种实施例中，所述终端被配置为可以执行以下方法：

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目。

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，

使用最大类间方差法对事件预测结果进行优化。

计算受检者未来一段时间内罹患乳腺癌的概率；

本申请实施例还提供一种云服务系统，用于为终端提供网络云服务，所述云服务系统开设有访问端口；

其中，所述终端可以直接或间接执行上述方法。

对于终端直接执行上述方法，可以理解为终端在本地执行上述方法。对于终端间接执行上述方法，可以理解为终端与云服务系统进行消息交互，将其中至少一个步骤交由云服务系统执行，并接收云服务系统的处理结果。

进一步的，在本申请提供的一种实施例中，所述终端可以通过访问端口接受云服务系统的网络云服务，执行以下方法：

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目。

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，

计算受检者未来一段时间罹患乳腺癌的概率；

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种事件预测方法，用于计算机在配置下预测事件的发生，其特征在于，所述方法用于计算受检者未来10年内罹患乳腺癌的概率；包括：

根据所述基础变量子集，选择基础预测模型，确定所述事件发生的基础概率值，所述基础预测模型表示所述基础变量与所述事件发生的概率值之间的映射关系，其中，所述基础变量子集包括N个基础变量，所述基础变量子集至少包括：受检者的乳腺癌病史、年龄、初潮年龄、初产年龄、一级家属中患乳腺癌的人数、乳腺活检情况；每个基础变量对应一个属性特征值，所述属性特征值根据所述基础预测模型确定，N为大于或等于1的正整数；

针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，所述概率影响系数用以根据所述特征变量对所述基础概率进行修正计算，其中，所述特征变量子集包括M个特征变量，所述特征变量子集至少包括：视诊特征子集和触诊特征子集；所述视诊特征子集主要包括通过视觉观察获取的特征；所述触诊特征子集主要包括通过触诊检查设备获取的特征，包括：硬度、活动度；每个特征变量对应一个属性特征值，所述属性特征值根据所述特征预测算法确定，M为大于或等于1的正整数；所述概率影响系数包括：视诊影响系数、触诊影响系数；

根据所述事件发生的概率，确定所述事件发生的风险度，生成事件预测结果；

针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，具体包括：确定第一特征变量子集，所述第一特征变量子集包括M1个特征变量，每个特征变量对应一个属性特征值，所述属性特征值为布尔值，若所述特征变量存在，所述属性特征值为1；

若所述特征变量不存在，所述属性特征值为0，M1为大于或等于1的正整数；

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目；

根据每个特征变量对事件发生的概率影响因子Xi，确定所述事件发生的概率影响系数X，所述概率影响系数为所述概率影响因子Xi的累乘，即：

其中，n为属性特征值为1的特征变量的数目；

根据每个特征变量对事件发生的概率影响因子Xi，确定所述事件发生的概率影响系数，所述概率影响系数X通过以下算法确定：

其中，n为属性特征值为1的特征变量的数目；

针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，还包括：

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，或者，

根据预测对象群体的第二特征变量测量结果的统计结果中位数对应的程度等级。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：使用机器学习方法和/或最大类间方差法对事件预测结果进行优化。

3.根据权利要求1所述的方法，其特征在于，所述基础预测模型至少包括Gail模型、Claus模型、Clause表格、BOADICEA、Jonker模型、ClauseExtendedFormula、Tyrer-Cuzick模型和Manchester评分系统模型中的一种。

4.一种事件预测装置，其特征在于，包括：

基础分析模块，用于根据所述基础变量子集，选择基础预测模型，确定所述事件发生的基础概率值，所述基础预测模型表示所述基础变量与所述事件发生的概率值之间的映射关系，其中，所述基础变量子集包括N个基础变量，所述基础变量子集至少包括：受检者的乳腺癌病史、年龄、初潮年龄、初产年龄、一级家属中患乳腺癌的人数、乳腺活检情况；每个基础变量对应一个属性特征值，所述属性特征值根据所述基础预测模型确定，N为大于或等于1的正整数；

特征分析模块，用于针对所述至少一个特征变量子集分别构建特征预测算法，确定所述事件发生的概率影响系数，所述概率影响系数用以根据所述特征变量对所述基础概率进行修正计算，其中，所述特征变量子集包括M个特征变量，所述特征变量子集至少包括：视诊特征子集和触诊特征子集；所述视诊特征子集主要包括通过视觉观察获取的特征；所述触诊特征子集主要包括通过触诊检查设备获取的特征，包括：硬度、活动度；每个特征变量对应一个属性特征值，所述属性特征值根据所述特征预测算法确定，M为大于或等于1的正整数；所述概率影响系数包括：视诊影响系数、触诊影响系数；

结果评估和输出模块，根据所述事件发生的概率，确定所述事件发生的风险度，生成事件预测结果；

所述特征分析模块进一步配置用于确定第一特征变量子集，所述第一特征变量子集包括M1个特征变量，每个特征变量对应一个属性特征值，所述属性特征值为布尔值，若所述特征变量存在，所述属性特征值为1；

每存在一个属性特征值为1的特征变量，X取值增加Xi，即：

其中，n为属性特征值为1的特征变量的数目；

Y＝1+[(∑Ti)-L]÷L

其中，L为Ti取值的算术平均值，或者，

5.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被加载后，执行权利要求1至3中任一项所述的方法。

6.一种终端，其特征在于，所述终端被配置为执行权利要求1至3中任一项所述的方法。

7.一种云服务系统，用于为终端提供网络云服务，其特征在于，所述云服务系统开设有访问端口；

所述终端通过访问端口接受云服务系统的网络云服务，执行权利要求1至3中任一项所述的方法；

其中，所述终端直接或间接执行上述方法。