CN109034568B - 一种企业上报数据可信度评估系统及其实现方法 - Google Patents
一种企业上报数据可信度评估系统及其实现方法 Download PDFInfo
- Publication number
- CN109034568B CN109034568B CN201810759582.XA CN201810759582A CN109034568B CN 109034568 B CN109034568 B CN 109034568B CN 201810759582 A CN201810759582 A CN 201810759582A CN 109034568 B CN109034568 B CN 109034568B
- Authority
- CN
- China
- Prior art keywords
- data
- credibility
- score
- enterprise
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算机应用技术领域,特别是一种企业上报数据可信度评估系统及其实现方法。本发明的系统由数据规则分析组件、数据可信度评价组件和数据鉴别组件组成。数据规则分析组件计算每个指标上报耗时可信区间、生成指标数据可信规则库和指标数据逻辑可信规则库。数据可信度评价组件计算出单个指标可信度得分,然后按企业汇总计算出上报可信度总分。数据鉴别组件基于数据可信度评价组件计算的单个指标可信度得分及企业上报可信度总分,按照限定可信度分值过滤不可信数据,分组汇总出可信指标集和可信企业上报数据集。本发明提供了一种评估计算企业上报数据可信度并生成可信指标集和可信企业上报数据集的方法,可以适用于政府部门筛选可信企业指标数据,为工作建议和决策的制定提供可靠的数据依据。
Description
技术领域
本发明涉及计算机应用技术领域,特别是一种企业上报数据可信度评估系统及其实现方法。
背景技术
政府部门通过收集企业上报的各类指标数据,了解企业经营情况,制定指导性工作建议及决策。由于企业上报数据过程无法实时监督,不排除存在随意上报数据的情况;不可信的数据容易让工作建议和决策偏离正确的方向。这时候需要一种通过分析企业上报数据时间、指标数值和指标数据逻辑来鉴别上报数据可信度的系统,筛选可信指标数据集,为工作建议和决策的制定提供可靠的数据依据。
发明内容
本发明解决的技术问题之一在于提供一种企业上报数据可信度评估系统,通过计算上报耗时可信度、逻辑可信度和数值可信度,汇总计算出综合可信度得分;然后过滤掉低于限定可信度得分的企业指标值,最终形成可指导性企业指标数据。
本发明解决的技术问题之二在于提供一种企业上报数据可信度评估系统的实现方法。
本发明解决上述技术问题之一的技术方案是:
所述的系统包括数据规则分析组件、数据可信度评价组件和数据鉴别组件;
所述的数据规则实现:分析组件通过收集所有企业指标上报耗时分布情况计算每个指标上报耗时可信区间;将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;将指标与指标之间关联组合生成指标数据逻辑可信规则库;
所述的数据可信度评价组件实现:计算指标的上报耗时可信度、数值可信度和逻辑可信度,分别赋予权重计算出单个指标可信度得分,然后按企业汇总计算出上报可信度总分;
所述的数据鉴别组件实现:基于数据可信度评价组件计算的单个指标可信度得分及企业上报可信度总分,按照限定可信度分值过滤不可信数据,分组汇总出可信指标集和可信企业上报数据集。
本发明解决上述技术问题之二的技术方案是:
所述的方法具体步骤如下:
第一步,收集所有企业指标上报耗时分布情况,计算每个指标上报耗时可信区间;
将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;
将指标与指标之间关联组合生成指标数据逻辑可信规则库;
第二步,根据企业上报指标数据耗时和指标上报耗时可信区间,计算所有企业指标耗时可信度;
根据指标正则表达式检测、指标数据连续范围和指标数据离散范围规则库,计算指标数据可信度;
根据数据逻辑可信规则库计算指标逻辑可信度;
第三步,根据指标耗时可信度、指标逻辑可信度和指标数据可信度计算指标可信度得分;
第四步,根据企业指标可信度得分计算企业上报可信度总分;
第五步,基于指标可信度得分,过滤掉低于限定可信度得分的企业指标值;
基于企业上报可信度总分,过滤掉低于限定可信度得分的企业上报数据,生成可信企业上报数据集。
所述的指标上报耗时可信区间计算步骤为:
第一步,按指标上报耗时分组计算企业数并降序排列,上报耗时序列为T1…Tn,对应企业数为Q1...Qn,其中n为指标上报耗时分组数;
第二步,计算Q1占总企业数比重,如果占比达到60%,则可信区间为[T1,T1];如果未达到60%,则企业数累加Q2,当占比达到60%,如果T1<T2则可信区间为[T1,T2],反之可信区间为[T2,T1];如果未达到60%,继续第三步;
第三步,累加Qi并计算企业数占比,当占比达到60%,如果Ti处于可信区间中,则可信区间无需修改,如果Ti比可信区间大则替换可信区间最大值,反之替换可信区间最小值,其中i为上报耗时序号3...n。
所述的正则表达式检测是定义指标取值类型,数据连续范围检测定义指标取值区间,数据离散范围检测定义指标取值离散范围。
所述的逻辑可信规则库定义具有某个或某几个相同指标值的企业,其指标n具有特定取值类型、取值区间或取值离散范围。
所述的上报耗时可信度计算方法为:如果企业上报指标耗时大于或等于耗时可信区间最小值,则耗时可信度为1;如果企业上报指标耗时小于耗时可信区间最小值,分别计算企业上报耗时与可信区间最小值的距离D1、可信区间最小值与可信区间平均值的距离D2,若D1>D2,则耗时可信度为0.2,否则耗时可信度为0.5。
所述的数值可信度和逻辑可信度计算方法为:S=(S1+S2+S3)/3,其中S为数值可信度和逻辑可信度得分、S1为正则表达式检测得分、S2为连续范围得分、S3为离散范围得分;
S1计算方法为:如果企业上报指标数据类型匹配,则得分为1,不匹配则得分为0;
S2计算方法为:如果企业上报指标值在连续范围之间,则得分为1;否则分别计算企业上报指标值与连续范围最小值或最大值的距离D1、连续范围最小值与连续范围平均值的距离D2,若D1>D2,则得分为0.2,否则得分为0.5;
S3计算方法为:如果企业上报指标数据满足离散范围匹配,则得分为1,不匹配则得分为0。
所述的指标可信度得分计算方法为:Q=0.2*Q1+0.4*Q2+0.4*Q3,其中Q为指标可信度得分、Q1为上报耗时可信度得分、Q2为数值可信度得分、Q3为逻辑可信度得分,对应权重分别为0.2、0.4和0.4。
本发明的有益效果是:
通过分析企业上报数据时间、上报指标数据值和数据逻辑,自动生成可信规则库,无需人工制定校验规则;通过计算单个指标可信度得分和企业上报可信度总分,鉴别上报数据的可信度,筛选可信指标数据集,为工作建议和决策的制定提供可靠的数据依据。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的架构示意图。
具体实施方式
如图1所示,本发明的企业上报数据可信度评估系统由数据规则分析组件、数据可信度评价组件和数据鉴别组件组成。
数据规则分析组件通过收集所有企业指标上报耗时分布情况计算每个指标上报耗时可信区间,通过将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库,通过将指标与指标之间关联组合生成指标数据逻辑可信规则库;
数据可信度评价组件分别计算指标的上报耗时可信度、数值可信度和逻辑可信度,分别赋予权重计算出单个指标可信度得分,然后按企业汇总计算出上报可信度总分;
数据鉴别组件基于数据可信度评价组件计算的单个指标可信度得分及企业上报可信度总分,按照限定可信度分值过滤不可信数据,分组汇总出可信指标集和可信企业上报数据集。
企业上报数据可信度评估系统的实现方法详细实施流程为:
第一步,收集所有企业指标上报耗时分布情况,计算每个指标上报耗时可信区间;
第二步,将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;
第三步,将指标与指标之间关联组合并进行正则表达式检测、数据连续范围检测和数据离散范围检测,生成指标数据逻辑可信规则库;
第四步,根据企业上报指标数据耗时和指标上报耗时可信区间,计算所有企业指标耗时可信度;
第五步,根据指标正则表达式检测、指标数据连续范围和指标数据离散范围规则库,计算指标数据可信度;
第六步,根据数据逻辑可信规则库计算指标逻辑可信度;
第七步,根据指标耗时可信度、指标逻辑可信度和指标数据可信度计算指标可信度得分;
第八步,根据企业指标可信度得分计算企业上报可信度总分;
第九步,基于指标可信度得分,过滤掉低于限定可信度得分的企业指标值,生成可信指标集;
第十步,基于企业上报可信度总分,过滤掉低于限定可信度得分的企业上报数据,生成可信企业上报数据集。
其中,指标上报耗时可信区间计算步骤为:
第一步,按指标上报耗时分组计算企业数并降序排列,上报耗时序列为T1…Tn,对应企业数为Q1…Qn,其中n为指标上报耗时分组数;
第二步,计算Q1占总企业数比重,如果占比达到60%,则可信区间为[T1,T1];如果未达到60%,则企业数累加Q2,当占比达到60%,如果T1<T2则可信区间为[T1,T2],反之可信区间为[T2,T1];如果未达到60%,继续第三步;
第三步,累加Qi并计算企业数占比,当占比达到60%,如果Ti处于可信区间中,则可信区间无需修改,如果Ti比可信区间大则替换可信区间最大值,反之替换可信区间最小值,其中i为上报耗时序号3…n。
正则表达式检测定义指标取值类型,数据连续范围定义指标取值区间,数据离散范围定义指标取值离散范围。
逻辑可信规则库定义具有某个或某几个相同指标值的企业,其指标n具有特定取值类型、取值区间或取值离散范围。
上报耗时可信度计算方法为:如果企业上报指标耗时大于或等于耗时可信区间最小值,则耗时可信度为1;如果企业上报指标耗时小于耗时可信区间最小值,分别计算企业上报耗时与可信区间最小值的距离D1、可信区间最小值与可信区间平均值的距离D2,若D1>D2,则耗时可信度为0.2,否则耗时可信度为0.5;
数值可信度和逻辑可信度计算方法为:S=(S1+S2+S3)/3,其中S为数值可信度和逻辑可信度得分、S1为正则表达式检测得分、S2为连续范围得分、S3为离散范围得分;
S1计算方法为:如果企业上报指标数据类型匹配,则得分为1,不匹配则得分为0;
S2计算方法为:如果企业上报指标值在连续范围之间,则得分为1;否则分别计算企业上报指标值与连续范围最小值或最大值的距离D1、连续范围最小值与连续范围平均值的距离D2,若D1>D2,则得分为0.2,否则得分为0.5;
S3计算方法为:如果企业上报指标数据满足离散范围匹配,则得分为1,不匹配则得分为0。
指标可信度得分计算方法为:Q=0.2*Q1+0.4*Q2+0.4*Q3,其中Q为指标可信度得分、Q1为上报耗时可信度得分、Q2为数值可信度得分、Q3为逻辑可信度得分,对应权重分别为0.2、0.4和0.4;
Claims (3)
1.一种企业上报数据可信度评估系统的实现方法,其特征在于:所述系统包括数据规则分析组件、数据可信度评价组件和数据鉴别组件;
所述的数据规则分析组件实现:通过收集所有企业指标上报耗时分布情况计算每个指标上报耗时可信区间;将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;将指标与指标之间关联组合生成指标数据逻辑可信规则库;
所述的数据可信度评价组件实现:计算指标的上报耗时可信度、指标数据可信度和逻辑可信度,分别赋予权重计算出单个指标可信度得分,然后按企业汇总计算出上报可信度总分;
所述的数据鉴别组件实现:基于数据可信度评价组件计算的单个指标可信度得分及企业上报可信度总分,按照限定可信度分值过滤不可信数据,分组汇总出可信指标集和可信企业上报数据集;
所述的方法具体步骤如下:
第一步,收集所有企业指标上报耗时分布情况,计算每个指标上报耗时可信区间;
将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;
将指标与指标之间关联组合生成指标数据逻辑可信规则库;
第二步,根据企业上报指标数据耗时和指标上报耗时可信区间,计算所有企业指标耗时可信度;
根据指标正则表达式检测、指标数据连续范围和指标数据离散范围规则库,计算指标数据可信度;
根据指标数据逻辑可信规则库计算指标逻辑可信度;
第三步,根据指标耗时可信度、指标逻辑可信度和指标数据可信度计算指标可信度得分;
第四步,根据企业指标可信度得分计算企业上报可信度总分;
第五步,基于指标可信度得分,过滤掉低于限定可信度得分的企业指标值;
基于企业上报可信度总分,过滤掉低于限定可信度得分的企业上报数据,生成可信企业上报数据集;
所述的指标上报耗时可信区间计算步骤为:
第一步,按指标上报耗时分组计算企业数并降序排列,上报耗时序列为T1…Tn,对应企业数为Q1…Qn,其中n为指标上报耗时分组数;
第二步,计算Q1占总企业数比重,如果占比达到60%,则指标上报耗时可信区间为[T1,T1];如果未达到60%,则企业数累加Q2,当占比达到60%,如果T1<T2则指标上报耗时可信区间为[T1,T2],反之指标上报耗时可信区间为[T2,T1];如果未达到60%,继续第三步;
第三步,累加Qi并计算企业数占比,当占比达到60%,如果Ti处于指标上报耗时可信区间中,则指标上报耗时可信区间无需修改,如果Ti比指标上报耗时可信区间大则替换指标上报耗时可信区间最大值,反之替换指标上报耗时可信区间最小值,其中i为上报耗时序号3…n;
所述的指标耗时可信度计算方法为:如果企业上报指标耗时大于或等于指标上报耗时可信区间最小值,则耗时可信度为1;如果企业上报指标耗时小于指标上报耗时可信区间最小值,分别计算企业上报耗时与指标上报耗时可信区间最小值的距离D1、指标上报耗时可信区间最小值与指标上报耗时可信区间平均值的距离D2,若D1>D2,则耗时可信度为0.2,否则耗时可信度为0.5;
所述的指标数据可信度和指标逻辑可信度计算方法为:S=(S1+S2+S3)/3,其中S为指标数据可信度和指标逻辑可信度得分、S1为正则表达式检测得分、S2为连续范围得分、S3为离散范围得分;
S1计算方法为:如果企业上报指标数据类型匹配,则得分为1,不匹配则得分为0;
S2计算方法为:如果企业上报指标值在连续范围之间,则得分为1;否则分别计算企业上报指标值与连续范围最小值或最大值的距离D1、连续范围最小值与连续范围平均值的距离D2,若D1>D2,则得分为0.2,否则得分为0.5;
S3计算方法为:如果企业上报指标数据满足离散范围匹配,则得分为1,不匹配则得分为0;
所述的指标可信度得分计算方法为:Q=0.2*Q1+0.4*Q2+0.4*Q3,其中Q为指标可信度得分、Q1为指标耗时可信度得分、Q2为指标数据可信度得分、Q3为指标逻辑可信度得分,对应权重分别为0.2、0.4和0.4;
2.根据权利要求1所述的方法,其特征在于:所述的正则表达式检测是定义指标取值类型,数据连续范围检测定义指标取值区间,数据离散范围检测定义指标取值离散范围。
3.根据权利要求1所述的方法,其特征在于:所述的指标数据逻辑可信规则库定义具有某个或某几个相同指标值的企业,其指标n具有特定取值类型、取值区间或取值离散范围。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810759582.XA CN109034568B (zh) | 2018-07-11 | 2018-07-11 | 一种企业上报数据可信度评估系统及其实现方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810759582.XA CN109034568B (zh) | 2018-07-11 | 2018-07-11 | 一种企业上报数据可信度评估系统及其实现方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN109034568A CN109034568A (zh) | 2018-12-18 |
| CN109034568B true CN109034568B (zh) | 2022-06-10 |
Family
ID=64641284
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201810759582.XA Active CN109034568B (zh) | 2018-07-11 | 2018-07-11 | 一种企业上报数据可信度评估系统及其实现方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN109034568B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114297199A (zh) * | 2021-12-29 | 2022-04-08 | 厦门市美亚柏科信息股份有限公司 | 一种基于关联可信度计算的数据筛选方法、系统和存储介质 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105023119A (zh) * | 2015-08-19 | 2015-11-04 | 安徽继远软件有限公司 | 一种数据资产可信度的评估方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105631593A (zh) * | 2015-12-24 | 2016-06-01 | 安徽融信金模信息技术有限公司 | 一种基于数据真实度的企业评估系统 |
| US9679254B1 (en) * | 2016-02-29 | 2017-06-13 | Www.Trustscience.Com Inc. | Extrapolating trends in trust scores |
| CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
| CN107527212A (zh) * | 2017-08-16 | 2017-12-29 | 无锡企业征信有限公司 | 企业信用动态评分系统及方法 |
-
2018
- 2018-07-11 CN CN201810759582.XA patent/CN109034568B/zh active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105023119A (zh) * | 2015-08-19 | 2015-11-04 | 安徽继远软件有限公司 | 一种数据资产可信度的评估方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN109034568A (zh) | 2018-12-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107133343B (zh) | 基于时间序列近似匹配的大数据异常状态检测方法及装置 | |
| CN104321794B (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
| CN102457411B (zh) | 基于不确定数据的网络安全态势模糊评估方法 | |
| CN105516130B (zh) | 一种数据处理方法和装置 | |
| WO2021217865A1 (zh) | 告警根因的定位方法、装置、计算机设备和存储介质 | |
| CN108596678A (zh) | 一种航空公司旅客价值计算方法 | |
| CN107679734A (zh) | 一种用于无标签数据分类预测的方法和系统 | |
| CN102521496A (zh) | 评估指标的重要性级别的获取方法和系统 | |
| CN114519524A (zh) | 基于知识图谱的企业风险预警方法、装置及存储介质 | |
| CN103268279B (zh) | 基于复合泊松过程的软件可靠性预测方法 | |
| CN111638988A (zh) | 一种基于深度学习的云主机故障智能预测方法 | |
| CN109034568B (zh) | 一种企业上报数据可信度评估系统及其实现方法 | |
| CN109190886A (zh) | 企业内部客户风险评定的方法及装置 | |
| CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
| CN112949697A (zh) | 一种管道异常的确认方法、装置及计算机可读存储介质 | |
| CN110376982B (zh) | 一种基于改进fmea的控制分析方法 | |
| CN104715027A (zh) | 一种分布数据异动判断定位方法及系统 | |
| CN119990780B (zh) | 一种基于复杂网络的机场机坪运行风险评估方法 | |
| CN109977131A (zh) | 一种房型匹配系统 | |
| CN104731639A (zh) | 仿真模型安全指标的可信度复核方法 | |
| Sintiya et al. | SARIMA and holt-winters seasonal methods for time series forecasting in tuberculosis case | |
| CN108280019A (zh) | 一种评估服务器健康状态的方法 | |
| Imro'ah et al. | The implementation of control charts as a verification tool in a time series model for COVID-19 vaccine participants in Pontianak | |
| World Health Organization | Pandemic influenza severity assessment (PISA): a WHO guide to assess the severity of influenza in seasonal epidemics and pandemics | |
| CN115099586A (zh) | 用于作业风险识别的方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| CB02 | Change of applicant information | ||
| CB02 | Change of applicant information |
Address after: 19 / F, Cloud Computing Center, Chinese Academy of Sciences, No.1 Kehui Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province, 523000 Applicant after: G-CLOUD TECHNOLOGY Co.,Ltd. Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province Applicant before: G-CLOUD TECHNOLOGY Co.,Ltd. |
|
| GR01 | Patent grant | ||
| GR01 | Patent grant |