CN105824811A - 一种大数据分析方法及其装置 - Google Patents
一种大数据分析方法及其装置 Download PDFInfo
- Publication number
- CN105824811A CN105824811A CN201510001942.6A CN201510001942A CN105824811A CN 105824811 A CN105824811 A CN 105824811A CN 201510001942 A CN201510001942 A CN 201510001942A CN 105824811 A CN105824811 A CN 105824811A
- Authority
- CN
- China
- Prior art keywords
- data
- type
- rules
- rule
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007405 data analysis Methods 0.000 title claims abstract description 19
- 238000004891 communication Methods 0.000 claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 238000003066 decision tree Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000007477 logistic regression Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例公开了一种大数据分析方法,包括:基于输入的第一组数据和第二组数据,获取满足预设条件的至少两个特征信息;所述第一组数据和第二组数据均为第一通信网络中的数据;所述第一组数据满足第一预设规则;所述第二组数据满足第二预设规则;依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则;依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据;所述第三组数据为除所述第一通信网络以外的其他通信网络中的数据。本发明实施例还公开了一种大数据分析装置。
Description
技术领域
本发明涉及通信技术,尤其涉及一种大数据分析方法及其装置。
背景技术
随着第四代移动通信技术(4G,the4Generationmobilecommunicationtechnology)的商用,各大运营商竞争益发激烈;异网高价值用户的回流工作和4G终端的渗透工作对于移动运营商的发展起着重要作用;所以异网高价值用户的识别显得至关重要。
目前业界已有对用户行为进行分析并建模以确定用户属性的方法,但是,现有方法中,普遍侧重于统计异网用户的数量,并不侧重于异网用户的识别,以及异网用户的终端类型的识别。
发明内容
为解决现有存在的技术问题,本发明实施例提供了一种大数据分析方法及其装置,能够依据本网数据规则,在异网数据中确定出满足预设规则的目标数据。
本发明实施例的技术方案是这样实现的:本发明实施例提供了一种大数据分析方法,所述方法包括:
基于输入的第一组数据和第二组数据,获取满足预设条件的至少两个特征信息;所述第一组数据和第二组数据均为第一通信网络中的数据;所述第一组数据满足第一预设规则;所述第二组数据满足第二预设规则;
依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则;
依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据;所述第三组数据为除所述第一通信网络以外的其他通信网络中的数据。
上述方案中,所述依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则,包括:
采用逻辑回归算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第一类规则;
采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则。
上述方案中,所述采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则,包括:
采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出N个规则;所述N为大于等于2的正整数;
在所述N个规则中,确定出满足第三预设规则的第二类规则。
上述方案中,所述依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据,包括:
分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据;
基于所述第一疑似目标数据和第二疑似目标数据确定出满足所述第一预设规则的目标数据。
上述方案中,所述第二类规则包括:第一类子规则;所述第一类子规则满足所述第一预设规则;
对应地,所述分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据,包括:
依据所述第一类规则,对输入的第三组数据进行分析,得到第一疑似目标数据;
依据所述第一类子规则,对输入的第三组数据进行分析,得到第二疑似目标数据。
上述方案中,所述第二类规则还包括:第二类子规则;所述第二类子规则满足第二预设规则;所述方法还包括:
依据所述第二类子规则,对所述第一疑似目标数据和所述第二疑似目标数据进行分析,得到疑似非目标数据;
对应地,所述基于所述第一疑似目标数据和第二疑似目标数据确定出目标数据,包括:
基于所述第一疑似目标数据、第二疑似目标数据和疑似非目标数据,确定出目标数据。
本发明实施例还提供了一种大数据分析装置,所述装置包括:
获取单元,用于基于输入的第一组数据和第二组数据,获取满足预设条件的至少两个特征信息;所述第一组数据和第二组数据均为第一通信网络中的数据;所述第一组数据满足第一预设规则;所述第二组数据满足第二预设规则;
分析单元,用于依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则;
确定单元,用于依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据;所述第三组数据为除所述第一通信网络以外的其他通信网络中的数据。
上述方案中,所述分析单元包括:
第一分析子单元,用于采用逻辑回归算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第一类规则;
第二分析子单元,用于采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则。
上述方案中,所述第二分析子单元,还用于采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出N个规则;所述N为大于等于2的正整数;
还用于在所述N个规则中,确定出满足第三预设规则的第二类规则。
上述方案中,所述确定单元,包括:
第一确定子单元,用于分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据;
第二确定子单元,用于基于所述第一疑似目标数据和第二疑似目标数据确定出满足所述第一预设规则的目标数据。
上述方案中,所述第二类规则包括:第一类子规则;所述第一类子规则满足所述第一预设规则;对应地,
所述第一确定子单元,还用于依据所述第一类规则,对输入的第三组数据进行分析,得到第一疑似目标数据;
还用于依据所述第一类子规则,对输入的第三组数据进行分析,得到第二疑似目标数据。
上述方案中,所述第二类规则还包括:第二类子规则;所述第二类子规则满足第二预设规则;
所述第一确定子单元,还用于依据所述第二类子规则,对所述第一疑似目标数据和所述第二疑似目标数据进行分析,得到疑似非目标数据;
对应地,所述第二确定子单元,还用于基于所述第一疑似目标数据、第二疑似目标数据和疑似非目标数据,确定出目标数据。
本发明实施例所提供的大数据分析方法及其装置,能够在第一通信网络的第一组数据和第二组数据中确定出至少两个特征信息,并采用两种不同算法,基于所述至少两个特征信息确定出针对于不同算法的第一类规则和第二类规则,如此,通过所述第一类规则和第二类规则,对除所述第一通信网络以外的其他通信网络中的第三组数据进行分析,以在所述第三组数据中确定出满足预设规则的目标数据,因此,本发明实施例能够实现依据本网数据规则,在异网数据中确定出满足预设规则的目标数据的目的。
附图说明
图1为本发明实施例大数据分析方法的实现流程示意图;
图2为本发明实施例大数据分析装置的具体结构示意图;
图3为本发明实施例分析单元的具体结构示意图;
图4为本发明实施例确定单元的具体结构示意图;
图5为本发明实施例大数据分析方法的具体实现的流程示意图。
具体实施方式
为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
实施例一
图1为本发明实施例大数据分析方法的实现流程示意图;如图1所示,所述方法包括:
步骤101:基于输入的第一组数据和第二组数据,获取满足预设条件的至少两个特征信息;所述第一组数据和第二组数据均为第一通信网络中的数据;所述第一组数据满足第一预设规则;所述第二组数据满足第二预设规则;
本实施例中,所述第一预设规则可以为在第一通信网络中数据对应的用户的通信设备类型属于第一类型的规则;所述第二预设规则可以为在第一通信网络中数据对应的用户的通信设备类型不属于第一类型的规则;如此,在所述第一通信网络中,所述第一组数据所对应的通信设备类型均为第一类型;所述第二组数据对应的通信设备类型均不为第一类型;由于不同通信设备类型所对应的数据的特征规则不同,因此,通过对第一组数据和第二组数据各自的特征规则进行分析,能够确定出满足预设条件的M个特征信息;基于所述M个特征信息对数据进行分析,能够估算出数据对应的通信设备类型等特征;基于上述过程,本发明实施例能够依据所述第一通信网络中的特征信息,从异网的大量数据中确定出通信设备类型属于第一类型的数据,为大数据分析奠定基础;这里,所述M为大于等于2的正整数。
本实施例中,所述特征信息具体为符合预设条件的关键变量指标,采用不同的算法,通过关键变量指标对第一通信网络中的大数据进行分析,也即对第一组数据和第二组数据进行分析,如此,为在第一通信网络的大数据中确定出规则奠定基础。
本实施例中,所述预设条件包括但不限于:大于等于第一用户数量的条件、通信对象的通信设备类型为第一类型的条件等。
步骤102:依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则;
本实施例中,依据第一通信网络中确定出的至少两个特征信息,采用不同算法,对所述第一组数据和第二组数据进行分析,进而确定出基于所述第一通信网络的第一类规则和第二类规则。
在实际应用中,对大数据进行数据分析时,通常选用不同的算法,如此,以提高分析结果的准确性;因此,本实施例也选用两种不同的算法对输入的第一组数据和第二组数据进行分析。
上述方案中,所述依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则,包括:
采用逻辑回归算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第一类规则;
采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则。
上述方案中,所述采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则,包括:
采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出N个规则;所述N为大于等于2的正整数;
在所述N个规则中,确定出满足第三预设规则的第二类规则。
本实施例中,由于步骤101中确定出的特征信息的个数不同,使得采用决策树算法确定出的规则的个数不同,即N不同;因此,N的取值受限于所述特征信息的个数。
本实施例中,所述第二类规则为一统称,是所述N个规则中、所有满足第三预设规则的规则统称,因此,并未指一特定规则。
步骤103:依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据;所述第三组数据为除所述第一通信网络以外的其他通信网络中的数据。
本实施例中,能够通过在第一通信网络中确定出的第一类规则和第二类规则,在除所述第一通信网络之外的其他通信网络中的大量数据中、确定出满足第一预设规则的目标数据,即在其他通信网络的数据中,确定出用户的通信设备类型属于第一类型的目标数据,如此,实现基于本网中数据规则,在异网数据中确定出满足预设规则的目标数据的目的。
上述方案中,所述依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据,包括:
分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据;
基于所述第一疑似目标数据和第二疑似目标数据确定出满足所述第一预设规则的目标数据。
本实施例中,所述第一疑似目标数据为与第一类规则对应的数据,即通过第一类规则,在除所述第一通信网络之外的其他通信网络中确定出的满足第一预设规则的疑似目标数据;所述第二疑似目标数据为与第二类规则对应的数据,即通过第二类规则,在除所述第一通信网络之外的其他通信网络中确定出的满足第一预设规则的疑似目标数据。
上述方案中,所述第二类规则包括:第一类子规则;所述第一类子规则满足所述第一预设规则;
对应地,所述分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据,包括:
依据所述第一类规则,对输入的第三组数据进行分析,得到第一疑似目标数据;
依据所述第一类子规则,对输入的第三组数据进行分析,得到第二疑似目标数据。
本实施例中,由于所述第二类规则为采用决策树算法确定出的规则,因此,通过第二类规则能够确定出满足第一预设规则的第二疑似目标数据,和满足第二预设规则的疑似非目标数据;即,所述第二类规则包括:第一类子规则和第二类子规则;通过所述第一类子规则,能够确定出满足第一预设规则的第二疑似目标数据;通过所述第二类子规则,能够确定出满足第二预设规则的疑似非目标数据;因此,本实施例还需要从第一疑似目标数据和第二疑似目标数据中剔除疑似非目标数据,以确定出最终目标数据。
本实施例中,所述第一类子规则为满足第一预设规则的规则;所述第二类子规则为不满足所述第一预设规则的规则;也即为满足所述第二预设规则的规则;当所述第二类子规则为不满足所述第一预设规则的规则时,所述疑似非目标数据为一类干扰数据;因此,所述疑似非目标数据也可以称为干扰数据。
上述方案中,所述第二类规则还包括:第二类子规则;所述第二类子规则满足第二预设规则;所述方法还包括:
依据所述第二类子规则,对所述第一疑似目标数据和所述第二疑似目标数据进行分析,得到疑似非目标数据;
对应地,所述基于所述第一疑似目标数据和第二疑似目标数据确定出目标数据,包括:
基于所述第一疑似目标数据、第二疑似目标数据和疑似非目标数据,确定出目标数据。
为实现上述方法,本发明实施例还提供了一种大数据分析装置,如图2所示,所述装置包括:
获取单元21,用于基于输入的第一组数据和第二组数据,获取满足预设条件的至少两个特征信息;所述第一组数据和第二组数据均为第一通信网络中的数据;所述第一组数据满足第一预设规则;所述第二组数据满足第二预设规则;
分析单元22,用于依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则;
确定单元23,用于依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据;所述第三组数据为除所述第一通信网络以外的其他通信网络中的数据。
上述方案中,如图3所示,所述分析单元22包括:
第一分析子单元221,用于采用逻辑回归算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第一类规则;
第二分析子单元222,用于采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则。
上述方案中,所述第二分析子单元222,还用于采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出N个规则;所述N为大于等于2的正整数;
还用于在所述N个规则中,确定出满足第三预设规则的第二类规则。
上述方案中,如图4所示,所述确定单元23,包括:
第一确定子单元231,用于分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据;
第二确定子单元232,用于基于所述第一疑似目标数据和第二疑似目标数据确定出满足所述第一预设规则的目标数据。
上述方案中,所述第二类规则包括:第一类子规则;所述第一类子规则满足所述第一预设规则;对应地,
所述第一确定子单元231,还用于依据所述第一类规则,对输入的第三组数据进行分析,得到第一疑似目标数据;
还用于依据所述第一类子规则,对输入的第三组数据进行分析,得到第二疑似目标数据。
上述方案中,所述第二类规则还包括:第二类子规则;所述第二类子规则满足第二预设规则;
所述第一确定子单元231,还用于依据所述第二类子规则,所述第一疑似目标数据和所述第二疑似目标数据进行分析,得到疑似非目标数据;
对应地,所述第二确定子单元232,还用于基于所述第一疑似目标数据、第二疑似目标数据和疑似非目标数据,确定出目标数据。
所述获取单元21、分析单元22及确定单元23均可以运行于计算机上,可由位于计算机上的中央处理器(CPU)、或微处理器(MPU)、或数字信号处理器(DSP)、或可编程门阵列(FPGA)实现。
实施例二
第一软件,例如IMESSAGE软件是指第一类型终端内置的用户间发送短信的软件,该软件可以使短信直接从GPRS端发送,节省了使用第一类型终端的用户的短信费用;因此,使用第一软件的第一类型终端用户可能会大大减少短信的使用量,形成了短信黑洞现象,本实施例正是基于上述短信黑洞现象,在异网中确定出终端类型为第一类型的用户。
本实施例主要利用现有经分系统的通信数据,分析本网使用第一软件的第一类型终端用户的交往行为、以及其交往圈的人群的特点,识别出异网具备上述交往行为、以及其交往圈人群符合上述特点的数据,也即用户,以最终在异网中确定出终端类型为第一类型的用户,以助力于运营商的异网高价值客户的回流工作及营销策略。
具体地,本实施例主要以用户交往圈模型为基础,通过分析本网第一类型终端中使用第一软件的客户语音交往圈和短信交往圈等习惯特征,在异网大量用户中,分析出第一类型终端用户的用户群,进而分析出异网某一用户是否为第一类型终端用户的概率,以为运营商提供具有参考价值的数据信息。
图5为本发明实施例大数据分析方法的具体实现的流程示意图;在进行大数据分析之前,需要确定出第一组数据和第二组数据;具体地,在第一通信网络中确定出具有第一数据量的第一组数据、以及具有第一数据量的第二组数据;其中,所述第一组数据中各数据对应的用户设备类型为第一类型;所述第二组数据对应的用户设备类型为非第一类型;如图5所示,所述方法包括:
步骤501:在第一组数据和第二组数据中,结合第一组数据和第二组数据各自对应的用户的交往圈的特征规则、交往圈中语音和短信的特征规则、交往对象是否使用第一类型终端的特征规则等选取出M个特征信息;其中,M为大于等于2的正整数;
这里,所述特征信息也称为关键变量指标。
步骤502:采用逻辑回归算法,依据所述M个特征信息,对所述第一组数据和第二组数据进行分析,模拟出满足第一预设规则的第一类规则;
这里,所述第一类规则可以为逻辑回归公式;所述第一预设规则为用户终端类型为第一类型的规则。
本实施例中,所述对所述第一组数据和第二组数据进行分析,模拟出满足第一预设规则的第一类规则,包括:
基于所述M个特征信息,采用逻辑回归算法,对所述第一组数据和第二组数据进行分析,模拟出满足第一预设规则的第一类规则。
步骤503:确定第三组数据,依据所述第一类规则,计算所述第三组数据中的各数据的概率,以确定出第一疑似目标数据;所述第三组数据为与所述第一通信网络中的用户进行通信的、其他通信网络中的用户所对应的数据;
这里,所述依据所述第一类规则,计算所述第三组数据中的各数据的概率,以确定出第一疑似目标数据,进一步包括:
依据所述第一类规则,计算所述第三组数据中的各数据的概率;
依据数据业务需求、逻辑回归算法的逻辑回归等级对应的预设用户数,在所述第三组数据中的各数据对应的概率中,确定出概率大于等于预设阈值的数据,并将概率大于等于预设阈值的数据作为第一疑似目标数据。
步骤504:采用C5决策树算法,依据所述M个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出m1个规则A和m2个规则B;
步骤505:根据规则A和规则B对应的用户数和置信度,对规则A和规则B进行筛选,以在所述规则A中确定出第一类子规则,在所述规则B中确定第二类子规则;
这里,所述第一类子规则满足所述第一预设规则;所述第二类子规则满足所述第二预设规则;所述m1、m2为大于等于1的正整数。
具体地,当第一组数据和第二组数据的用户数均为10W时,从规则A中筛选出置信度大于85%、用户数大于2W的规则,确定为第一类子规则;从规则B中筛选出置信度大于90%、用户数大于1.8W的规则,确定为第二类子规则;
本实施例中,所述第一类子规则和第二类子规则均归属于第二类规则。
步骤506:依据所述第一类子规则,对所述第三组数据进行分析,确定出第二疑似目标数据;
步骤507:确定所述第一疑似目标数据和第二疑似目标数据的交集数据,作为第三疑似目标数据;
步骤508:剔除所述第三疑似目标数据中符合第二类子规则的数据,将剩余第三疑似目标数据作为目标数据。
本发明实施例,能够在第一通信网络中的第一组数据和第二组数据中确定出关键变量指标,即特征信息;并分别采用逻辑回归算法和决策树算法对所述第一组数据和第二组数据进行分析,确定出与所述逻辑回归算法对应的第一类规则,和与所述决策树算法对应的第二类规则;其中,所述第二类规则包括第一类子规则和第二类子规则;随后,分别依据所述第一类规则和第一类子规则对异网中的第三组数据进行分析,确定出第一疑似目标数据和第二疑似目标数据;由于所述第一类规则满足第一预设规则;所述第一类子规则也满足所述第一预设规则;而第二类子规则满足所述第二预设规则,因此,取所述第一疑似目标数据和第二疑似目标数据的交集确定出第三疑似目标数据后,在所述第三疑似目标数据中剔除满足第二类子规则的数据,即在所述第三疑似目标数据中剔除疑似非目标数据以最终得到目标数据,所述目标数据即为依据本网数据规则,在异网数据中确定出满足第一预设规则的目标数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明实施例的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明实施例原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明实施例的保护范围。
Claims (12)
1.一种大数据分析方法,其特征在于,所述方法包括:
基于输入的第一组数据和第二组数据,获取满足预设条件的至少两个特征信息;所述第一组数据和第二组数据均为第一通信网络中的数据;所述第一组数据满足第一预设规则;所述第二组数据满足第二预设规则;
依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则;
依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据;所述第三组数据为除所述第一通信网络以外的其他通信网络中的数据。
2.根据权利要求1所述的方法,其特征在于,所述依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则,包括:
采用逻辑回归算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第一类规则;
采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则。
3.根据权利要求2所述的方法,其特征在于,所述采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则,包括:
采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出N个规则;所述N为大于等于2的正整数;
在所述N个规则中,确定出满足第三预设规则的第二类规则。
4.根据权利要求1或3任一项所述的方法,其特征在于,所述依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据,包括:
分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据;
基于所述第一疑似目标数据和第二疑似目标数据确定出满足所述第一预设规则的目标数据。
5.根据权利要求4所述的方法,其特征在于,所述第二类规则包括:第一类子规则;所述第一类子规则满足所述第一预设规则;
对应地,所述分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据,包括:
依据所述第一类规则,对输入的第三组数据进行分析,得到第一疑似目标数据;
依据所述第一类子规则,对输入的第三组数据进行分析,得到第二疑似目标数据。
6.根据权利要求5所述的方法,其特征在于,所述第二类规则还包括:第二类子规则;所述第二类子规则满足第二预设规则;所述方法还包括:
依据所述第二类子规则,对所述第一疑似目标数据和所述第二疑似目标数据进行分析,得到疑似非目标数据;
对应地,所述基于所述第一疑似目标数据和第二疑似目标数据确定出目标数据,包括:
基于所述第一疑似目标数据、第二疑似目标数据和疑似非目标数据,确定出目标数据。
7.一种大数据分析装置,其特征在于,所述装置包括:
获取单元,用于基于输入的第一组数据和第二组数据,获取满足预设条件的至少两个特征信息;所述第一组数据和第二组数据均为第一通信网络中的数据;所述第一组数据满足第一预设规则;所述第二组数据满足第二预设规则;
分析单元,用于依据所述至少两个特征信息,对所述第一组数据和第二组数据进行分析,确定出第一类规则和第二类规则;
确定单元,用于依据所述第一类规则和第二类规则,在输入的第三组数据中确定出满足所述第一预设规则的目标数据;所述第三组数据为除所述第一通信网络以外的其他通信网络中的数据。
8.根据权利要求7所述的装置,其特征在于,所述分析单元包括:
第一分析子单元,用于采用逻辑回归算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第一类规则;
第二分析子单元,用于采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出第二类规则。
9.根据权利要求8所述的装置,其特征在于,所述第二分析子单元,还用于采用决策树算法,依据所述至少两个特征信息,对所述第一组数据和所述第二组数据进行分析,确定出N个规则;所述N为大于等于2的正整数;
还用于在所述N个规则中,确定出满足第三预设规则的第二类规则。
10.根据权利要求7至9任一项所述的装置,其特征在于,所述确定单元,包括:
第一确定子单元,用于分别依据所述第一类规则和第二类规则,对输入的第三组数据进行分析,得到第一疑似目标数据和第二疑似目标数据;
第二确定子单元,用于基于所述第一疑似目标数据和第二疑似目标数据确定出满足所述第一预设规则的目标数据。
11.根据权利要求10所述的装置,其特征在于,所述第二类规则包括:第一类子规则;所述第一类子规则满足所述第一预设规则;对应地,
所述第一确定子单元,还用于依据所述第一类规则,对输入的第三组数据进行分析,得到第一疑似目标数据;
还用于依据所述第一类子规则,对输入的第三组数据进行分析,得到第二疑似目标数据。
12.根据权利要求11所述的方法,其特征在于,所述第二类规则还包括:第二类子规则;所述第二类子规则满足第二预设规则;
所述第一确定子单元,还用于依据所述第二类子规则,对所述第一疑似目标数据和所述第二疑似目标数据进行分析,得到疑似非目标数据;
对应地,所述第二确定子单元,还用于基于所述第一疑似目标数据、第二疑似目标数据和疑似非目标数据,确定出目标数据。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510001942.6A CN105824811B (zh) | 2015-01-04 | 2015-01-04 | 一种大数据分析方法及其装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510001942.6A CN105824811B (zh) | 2015-01-04 | 2015-01-04 | 一种大数据分析方法及其装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN105824811A true CN105824811A (zh) | 2016-08-03 |
| CN105824811B CN105824811B (zh) | 2019-07-02 |
Family
ID=56513287
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510001942.6A Active CN105824811B (zh) | 2015-01-04 | 2015-01-04 | 一种大数据分析方法及其装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN105824811B (zh) |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20010049821A1 (en) * | 2000-06-02 | 2001-12-06 | Yasushi Ochi | Network-utilizing content broadcast system and contest execution system |
| CN1333612A (zh) * | 2000-06-19 | 2002-01-30 | 阿尔卡塔尔公司 | 重新启动与局域网相连的终端的方法和实现该方法的设备 |
| CN1647052A (zh) * | 2002-04-12 | 2005-07-27 | 沃达方集团有限公司 | 用于在移动网络中分发加密数据的方法和系统 |
| CN1698311A (zh) * | 2003-01-16 | 2005-11-16 | 索尼英国有限公司 | 视频/音频网络 |
| US20060225141A1 (en) * | 2005-03-30 | 2006-10-05 | Fujitsu Limited | Unauthorized access searching method and device |
| US20080091532A1 (en) * | 2006-10-17 | 2008-04-17 | Silverbrook Research Pty Ltd | Method of delivering an advertisement from a computer system |
| US20090282023A1 (en) * | 2008-05-12 | 2009-11-12 | Bennett James D | Search engine using prior search terms, results and prior interaction to construct current search term results |
| CN103327063A (zh) * | 2012-02-14 | 2013-09-25 | 谷歌公司 | 用户存在检测和事件发现 |
-
2015
- 2015-01-04 CN CN201510001942.6A patent/CN105824811B/zh active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20010049821A1 (en) * | 2000-06-02 | 2001-12-06 | Yasushi Ochi | Network-utilizing content broadcast system and contest execution system |
| CN1333612A (zh) * | 2000-06-19 | 2002-01-30 | 阿尔卡塔尔公司 | 重新启动与局域网相连的终端的方法和实现该方法的设备 |
| CN1647052A (zh) * | 2002-04-12 | 2005-07-27 | 沃达方集团有限公司 | 用于在移动网络中分发加密数据的方法和系统 |
| CN1698311A (zh) * | 2003-01-16 | 2005-11-16 | 索尼英国有限公司 | 视频/音频网络 |
| US20060225141A1 (en) * | 2005-03-30 | 2006-10-05 | Fujitsu Limited | Unauthorized access searching method and device |
| US20080091532A1 (en) * | 2006-10-17 | 2008-04-17 | Silverbrook Research Pty Ltd | Method of delivering an advertisement from a computer system |
| US20090282023A1 (en) * | 2008-05-12 | 2009-11-12 | Bennett James D | Search engine using prior search terms, results and prior interaction to construct current search term results |
| CN103327063A (zh) * | 2012-02-14 | 2013-09-25 | 谷歌公司 | 用户存在检测和事件发现 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN105824811B (zh) | 2019-07-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI804575B (zh) | 確定高風險用戶的方法及裝置、電腦可讀儲存媒體、和計算設備 | |
| CN112711705B (zh) | 舆情数据处理方法、设备及存储介质 | |
| CN108038130A (zh) | 虚假用户的自动清理方法、装置、设备及存储介质 | |
| CN108090567A (zh) | 电力通信系统故障诊断方法及装置 | |
| CN111754241B (zh) | 一种用户行为感知方法、装置、设备及介质 | |
| CN110033302B (zh) | 恶意账户识别方法及装置 | |
| CN113298121B (zh) | 基于多数据源建模的消息发送方法、装置和电子设备 | |
| CN104866296B (zh) | 数据处理方法和装置 | |
| CN113904943B (zh) | 账号检测方法、装置、电子设备和存储介质 | |
| CN110781514A (zh) | 一种数据隐私保护方法 | |
| CN104750760A (zh) | 一种推荐应用软件的实现方法及装置 | |
| CN111814064A (zh) | 基于Neo4j的异常用户处理方法、装置、计算机设备和介质 | |
| CN107015993B (zh) | 一种用户类型识别方法及装置 | |
| CN104320266A (zh) | 一种云计算操作系统下的计费方法及装置 | |
| CN104954360A (zh) | 分享内容屏蔽方法及装置 | |
| CN103294833A (zh) | 基于用户的关注关系的垃圾用户发现方法 | |
| US20190220924A1 (en) | Method and device for determining key variable in model | |
| CN114726565B (zh) | 威胁情报共享方法、威胁情报评级方法、系统及存储介质 | |
| CN110222484A (zh) | 一种用户身份识别方法、装置、电子设备及存储介质 | |
| CN111242658A (zh) | 信息分享奖励方法、装置及计算机可读存储介质 | |
| CN111125193B (zh) | 多媒体非正常评论的识别方法、装置、设备及存储介质 | |
| CN105808580A (zh) | 一种基于先验模型的信息判定方法及设备 | |
| CN113779336A (zh) | 用户行为数据的处理方法及装置、电子设备 | |
| CN105824811A (zh) | 一种大数据分析方法及其装置 | |
| CN105260467B (zh) | 一种短信分类的方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |