[go: up one dir, main page]

CN105824855A - 一种对数据对象筛选分类的方法、装置以及电子设备 - Google Patents

一种对数据对象筛选分类的方法、装置以及电子设备 Download PDF

Info

Publication number
CN105824855A
CN105824855A CN201510011902.XA CN201510011902A CN105824855A CN 105824855 A CN105824855 A CN 105824855A CN 201510011902 A CN201510011902 A CN 201510011902A CN 105824855 A CN105824855 A CN 105824855A
Authority
CN
China
Prior art keywords
description
attribute
path
screening
screened
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510011902.XA
Other languages
English (en)
Other versions
CN105824855B (zh
Inventor
黄益聪
付登坡
王超
甘云锋
李俊良
强琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510011902.XA priority Critical patent/CN105824855B/zh
Priority to TW104128413A priority patent/TW201636877A/zh
Priority to US14/991,797 priority patent/US10394907B2/en
Priority to PCT/US2016/012741 priority patent/WO2016112348A1/en
Publication of CN105824855A publication Critical patent/CN105824855A/zh
Application granted granted Critical
Publication of CN105824855B publication Critical patent/CN105824855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种对数据对象筛选分类的方法,包括:读取筛选需求,根据其描述值建立分层的属性描述网络;从待筛选数据对象的描述信息中提取出其中包含的所述属性描述网络中的描述值;建立所述筛选需求与所述属性描述网络间的映射关系,生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各描述值遍历比较;若一个描述路径的所有描述值均包含在待筛选数据对象的描述信息中,则该描述路径记为该待筛选数据对象的匹配路径;根据待筛选数据对象的各匹配路径,确定所述待筛选数据对象符合的筛选需求。该对数据对象筛选分类的方法,基于路径依赖图,合并了公共描述值与公共子描述路径,减少了筛选过程中的判断,节省了计算时间。

Description

一种对数据对象筛选分类的方法、装置以及电子设备
技术领域
本申请涉及数据筛选技术,具体涉及一种对数据对象筛选分类的方法。本申请同时涉及一种对数据对象筛选分类的装置,以及一种电子设备。
背景技术
伴随着云计算和大数据的发展,在大数据计算领域涌现出了各种各样的计算模型,用于在各种各样的数据计算场景中进行处理和计算;其中,从海量数据中筛选出部分有用数据这一数据计算场景的应用范围变得越来越广,尤其表现为根据一次性输入的大批量筛选需求,从海量用户数据中筛选出满足大批量筛选需求中各个筛选需求的目标用户群。
现有的解决方案是通过Map-Reduce框架程序实现,Map-Reduce是一种用于大批量数据并行计算的软件架构,可以在数小时内处理十亿级的数据输入。Map-Reduce的基本步骤分为Map和Reduce两个阶段,Map阶段的主要流程包括:1)读入大批量筛选需求,解析其中包含的表达式,建立表达式与Map表之间的对应关系,获得与Map表相关的原子表达式并去重;2)逐条读入Map表中记录的海量用户数据,针对每一条用户数据循环执行上述原子表达式计算;3)通过Map表输出的用户数据中的用户ID,以列表的形式输出该用户在上述原子表达式中满足的至少一个原子表达式;Reduce阶段的主要流程包括:1)读入大批量筛选需求,解析其中包含的表达式,建立表达式与Map表之间的对应关系,获得各个筛选需求需要满足的原子表达式,构成原子表达式列表;2)读入Map表中的用户数据,对每个用户在各个Map表中的用户数据进行合并,合并之后得到用户在各个Map表中满足的多个原子表达式,构成原子表达式列表;3)合并上述1)和2)两步获得的结果,得到用户和筛选需求之间的对应关系,并将用户和筛选需求之间的对应关系输出。
上述现有技术提供的对数据对象筛选分类的方法存在明显的缺陷。
现有技术提供的基于Map-Reduce框架程序实现,当一次性输入大批量的筛选需求之后,所需的数据计算量非常大,假设筛选需求数目为R,每个筛选需求平均的表达式数目为E,用户数为N,则实现对用户的筛选分类的数据计算总量为R*E*N,计算总量非常大,导致计算耗时较长;此外,随着筛选需求数目的增加,完成大批量数据的筛选分类所需的数据计算时间急剧增长,无法满足对大批量数据筛选分类的业务需求。
发明内容
本申请提供一种对数据对象筛选分类的方法,以解决现有的对数据对象筛选分类的方法存在的耗时长和无法满足大批量数据对象筛选分类的业务需求的问题。本申请同时涉及一种对数据对象筛选分类的装置,以及一种电子设备。
本申请提供的一种对数据对象筛选分类的方法,包括:
读取筛选需求;
将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;
根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
可选的,所述将各个筛选需求的描述值列出,建立属性描述网络,包括:
获取各个筛选需求中包含的描述信息;
对所述描述信息按照属性进行分类;每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;
将上述各个属性字段按照从高到低的层级关系分层排布;每层对应一个属性字段,构成所述属性描述网络。
可选的,所述将上述各个属性字段按照从高到低的层级关系分层排布,包括:
获取所述各个属性字段下描述值的个数;
根据所述各个属性字段下描述值的个数从大到小的顺序,依次将所述各个属性字段按照从高到低的层级关系分层排布。
可选的,所述将上述各个属性字段按照从高到低的层级关系分层排布,包括:
根据所述属性字段的性质,获取描述值为单一选择的属性字段;
将所述描述值为单一选择的属性字段置于其他属性字段之上;
其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
可选的,所述属性描述网络中,对于同一层的不同描述值按照预定的排序标准顺序排列。
可选的,所述建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图,包括:
将每个筛选需求转换为描述路径表达形式;
分别生成每个描述路径表达式的至少一个描述路径;
获取所述筛选需求的互不重复的描述路径构成描述路径组;
将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图。
可选的,所述描述路径为包括至少一个描述值或者包括多个相与关系的描述值;一个描述路径的不同描述值位于属性描述网络中的不同层级,并且不同描述值按照所在层级从高到低排列。
可选的,所述将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图,包括:
以层级高优先和同层的描述值在前优先的排序规则,对所述描述路径排序;
按照上述排序,依次将所述描述路径映射到所述属性描述网络中;
合并描述路径中具有完全相同的高层描述值的部分,生成所述路径依赖图。
可选的,所述路径依赖图中的高层描述值完全相同,包括:从描述路径包含的最高层描述值向下,每一层都相同。
可选的,所述将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较,在遍历比较过程中,若所述待筛选对象的描述信息中不包含某个描述值,则舍弃对路径依赖图中通过该描述值向下的描述路径的遍历。
可选的,所述将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较的步骤中,所述遍历采用深度优先遍历。
可选的,所述根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求的步骤,采用如下方式实现:
根据每个筛选需求的描述路径表达形式,确定每个筛选需求包含的描述路径;
若一个筛选需求包含的任意一个描述路径包含在所述待筛选数据对象的匹配路径中,则所述待筛选数据对象符合该筛选需求。
可选的,所述根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求的步骤中,确定所述待筛选数据对象符合的所有筛选需求。
可选的,包括根据待筛选数据对象的符合的各个筛选需求,将所述待筛选数据对象归入不同的分类。
本发明同时提供一种对数据对象筛选分类的装置,包括:
筛选需求读取单元,用于读取筛选需求;
属性描述网络建立单元,用于将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
待筛选数据对象读取单元,用于读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
路径依赖图生成单元,用于建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;
遍历比较单元,用于将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若所述路径依赖图中的一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求;
筛选需求确定单元,用于根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
可选的,所述属性描述网络建立单元,包括:
描述信息获取子单元,用于获取各个筛选需求中包含的描述信息;
描述信息分类子单元,用于对所述描述信息按照属性进行分类;每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;
属性描述网络生成子单元,用于将上述各个属性字段按照从高到低的层级关系分层排布;每层对应一个属性字段,构成所述属性描述网络。
可选的,所述属性描述网络生成子单元,包括:
描述值个数获取子单元,用于获取所述各个属性字段下描述值的个数;
属性字段分层排布子单元,用于根据所述各个属性字段下描述值的个数从大到小的顺序,依次将所述各个属性字段按照从高到低的层级关系分层排布。
可选的,所述属性描述网络生成子单元,包括:
单一选择属性字段获取子单元,用于根据所述属性字段的性质,获取描述值为单一选择的属性字段;
属性字段置换获取子单元,用于将所述描述值为单一选择的属性字段置于其他属性字段之上;
其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
可选的,所述属性描述网络生成子单元,包括:
描述值排序子单元,用于将同一层的不同描述值按照预定的排序标准顺序排列。
可选的,所述路径依赖图生成单元,包括:
筛选需求转换子单元,用于将每个筛选需求转换为描述路径表达形式;
描述路径生成子单元,用于分别生成每个描述路径表达式的至少一个描述路径;
描述路径组获取子单元,用于获取所述筛选需求的互不重复的描述路径构成描述路径组;
路径依赖图生成子单元,用于将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图。
可选的,所述路径依赖图生成子单元,包括:
描述路径排序子单元,用于以层级高优先和同层的描述值在前优先的排序规则,对所述描述路径排序;
描述路径映射子单元,用于按照上述排序,依次将所述描述路径映射到所述属性描述网络中;
描述路径合并子单元,用于合并描述路径中具有完全相同的高层描述值的部分,生成所述路径依赖图。
本发明同时提供一种电子设备,包括:
显示器;
处理器;
输入设备;
存储器,用于存储程序,该程序用于控制该电子设备执行下述步骤:
通过所述输入设备读取筛选需求;
将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;
将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若所述路径依赖图中的一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;
根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
可选的,所述筛选需求中包含有描述信息,所述描述信息按照属性进行分类,每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;所述属性描述网络中,每层对应一个属性字段,各个属性字段按照从高到低的层级关系分层排布。
可选的,所述属性描述网络中,各个属性字段根据各自的描述值个数从大到小的顺序,按照从高到低的层级关系分层排布。
可选的,所述属性描述网络中,描述值为单一选择的属性字段置于其他属性字段之上;其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
可选的,所述属性描述网络中,对于同一层的不同描述值按照预定的排序标准顺序排列。
可选的,所述筛选需求用于转换为描述路径表达形式,所述描述路径表达式用于生成描述路径,这些筛选需求的互不重复的描述路径构成描述路径组;每个筛选需求转换的描述路径表达形式包括至少一个描述路径。
可选的,所述描述路径为包括至少一个描述值或者包括多个相与关系的描述值;一个描述路径的不同描述值位于属性描述网络中的不同层级,并且不同描述值按照所在层级从高到低排列。
可选的,所述路径依赖图中,高层描述值完全相同的描述路径,其相同部分被合并,形成向低层分叉的分支路径;所述高层描述值完全相同,是指从描述路径包含的最高层描述值向下,每一层都相同。
可选的,所述遍历采用深度优先遍历。
可选的,所述待筛选数据对象符合的筛选需求存在一个或者多个,或者不存在。
可选的,所述待筛选数据对象根据符合的各个筛选需求,归入不同的分类。
与现有技术相比,本申请具有以下优点:
本申请提供的一种对数据对象筛选分类的方法,包括:读取筛选需求;将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若所述路径依赖图中的一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
本申请提供的所述对数据对象筛选分类的方法中,根据读取的筛选需求建立属性描述网络,并根据输入的所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图,将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较,获得所述待筛选数据对象的匹配路径,从而得出所述待筛选数据对象符合的筛选需求;该对数据对象筛选分类的方法,基于路径依赖图,合并了公共描述值与公共子描述路径,减少了筛选过程中的判断过程,节省了数据计算时间,在进行大批量的数据筛选时,可以节省大量时间,满足进行大批量数据筛选分类的业务需求。在本发明的优选实施例中,结合分层过滤剪枝方式,可进一步节省计算时间。
附图说明;
图1是本申请第一实施例提供的一种对数据对象筛选分类的方法处理流程图;
图2是本申请第一实施例提供的一种属性描述网络的示意图;
图3是本申请第一实施例提供的一种路径依赖图的示意图;
图4是本申请第二实施例提供的一种对数据对象筛选分类的装置示意图;
图5是本申请第三实施例提供的一种电子设备示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供一种对数据对象筛选分类的方法,本申请第二实施例提供一种对数据对象筛选分类的装置,本申请第三实施例提供一种电子设备。
本申请第一实施例提供的对数据对象筛选分类的方法的实施例请参照图1至图3,其示出了该对数据对象筛选分类的方法的处理流程图。
以下结合图1对本实施例提供的一种对数据对象筛选分类的方法进行说明,并且对该方法的各个步骤进行说明;此外,本实施例提供的一种对数据对象筛选分类的方法的具体步骤之间的顺序关系请根据图1确定。
本实施例假设的应用场景为电子商务平台中,一次性读取商家的大批量的筛选需求,从海量用户中筛选出符合各个筛选需求的目标用户。本申请提供的对数据对象筛选分类的方法当然还可以用于其它场合,在此不作限定。
步骤S101,读取筛选需求。
本实施例中,所述筛选需求,是指在电子商务平台中商家用于从海量用户中筛选目标用户输入的筛选条件;
例如:在电子商务平台中,商家想要根据用户信息从海量用户中筛选出性别为男、年龄小于18、兴趣为运动,并且在该商家的店铺内购买商品的月成交额小于1000的所有用户,则上述性别为男、年龄小于18、兴趣为运动,并且店铺月成交额小于1000为该商家输入的筛选条件,即:筛选需求;并且该商家想要获取的目标用户的用户信息必须同时满足下述四个条件:性别为男、年龄小于18、兴趣为运动,并且店铺月成交额小于1000,缺一不可。
需要说明的是,本实施例中,读取筛选需求是指一次性读取大批量筛选需求,这些筛选需求中包含描述目标对象的种种描述信息。
步骤S102,将各个筛选需求的描述值列出,建立属性描述网络。
所述属性描述网络,是指一种用于表达用户的用户信息的方式。
所述属性描述网络的建立步骤如下:
1)获取各个筛选需求中包含的描述信息;
所述筛选需求中包含的描述信息,是指用于描述筛选需求的文字或者图像信息。
例如:上述商家的筛选需求为:性别为男、年龄小于18、兴趣为运动、店铺月成交额小于1000为,则该筛选需求中包含的描述信息可以用“性别=男and年龄<18and兴趣=运动and店铺月成交额<1000”来表示。
本步骤中,获取上述步骤S101中读取的大批量筛选需求中各个筛选需求包含的描述信息,为下述步骤2)和3)根据各个筛选需求中包含的描述信息建立所述属性描述网络做数据准备。
需要说明的是,本步骤还包括对所述筛选需求中包含的描述信息进行解析和优化;
本实施例中,对所述描述信息进行解析,是指对所述描述信息进行语法分析,检查是否合法;此外,还包括对所述描述信息中包含的运算进行运算顺序的优化;
对所述描述信息进行优化,包括对所述描述信息中包含的运算进行运算顺序的优化,具体是指将所述描述信息中包含的“或(or)”运算全部等价转换为一组或者多组“与(and)”运算。
例如:包含“or”运算的描述信息“(AorB)andC”可以等价转换成两组仅包含“and”运算的“AandC”、“BandC”。
此外,对所述描述信息进行优化,还包括对所述描述信息进行语义分析优化,包括:对所述描述信息进行语义分析优化包含描述信息的去重,将多个重复的描述信息进行去重,保留其中任意一个即可;以及,分析描述信息之间的包含关系。
例如:描述信息“(AorB)andC”和描述信息“AandBandC”,前者包含后者,即:根据包含描述信息“(AorB)andC”的筛选需求筛选出的目标用户中包含有根据包含描述信息“AandBandC”的筛选需求筛选出的全部目标用户。
除此之外,上述的对所述筛选需求中包含的描述信息进行解析和优化还可以采用其他方式实现,在此不作限定。
2)对所述描述信息按照属性进行分类;每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;
将上述步骤1)获取到的各个筛选需求中包含的描述信息,按照所述描述信息的属性进行分类,分为多个分类,针对每一个属性设置一个对应的属性字段,并将上述归属于每一个属性下的至少一个描述信息进行规范化,所述描述信息规范化之后分别作为该属性对应的属性字段下的描述值。
例如:上述筛选需求中包含的描述信息:“性别=男and年龄<18and兴趣=运动and店铺月成交额<1000”,将该选需求中包含的描述信息按照属性分为性别、年龄、兴趣和店铺月成交额4类,则性别属性下的描述信息为“性别=男”,年龄属性下的描述信息为“年龄<18”,兴趣属性下的描述信息为“兴趣=运动”,店铺月成交额属性下的描述信息为“店铺月成交额<1000”;
并且,将上述性别属性下的描述信息“性别=男”规范化为“男”,作为性别属性字段下的描述值;将上述年龄属性下的描述信息“年龄<18”规范化为“<18”,作为年龄属性字段下的描述值;将上述兴趣属性下的描述信息“兴趣=运动”规范化为“运动”,作为兴趣属性字段下的描述值;以及将上述店铺月成交额属性下的描述信息“店铺月成交额<1000”规范化为“<1000”,作为店铺月成交额属性字段下的描述值。
3)将上述各个属性字段按照从高到低的层级关系分层排布;每层对应一个属性字段,构成所述属性描述网络。
属性描述网络可以抽象为一种分层过滤模型,并且只有通过上一层级的过滤之后,才会到下一层级进行过滤,因此,将具有强过滤描述值对应的属性字段放在层级位置比较高的层级,以减少数据计算量,从而加快计算。
本实施例中,获取上述步骤2)得到的各个属性字段中每一个属性字段下描述值的个数,根据所述每一个属性字段下描述值的个数从大到小的顺序,将上述步骤2)得到的各个属性字段,依次按照从高到低的层级关系分层排布,每层对应一个属性字段,构成所述属性描述网络。
需要说明的是,在对上述步骤2)得到的各个属性字段按照从高到低的层级关系分层排布时,按照下述规则:
根据上述各个属性字段的性质,获取所述属性字段中描述值为单一选择的属性字段;
将所述描述值为单一选择的属性字段置于其他属性字段之上;
其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥,例如:性别属性字段下的描述值,“男、女、未知”之间是相互互斥的,对于任意一个用户,性别属性是确定的,因此,用户的用户信息中,只能包含“男、女、未知”中的任意一个,不能同时包含两个或者两个以上。
对于单一选择的属性字段,该属性字段包含的所有描述值中,有且仅有一个描述值成立;但是对于不是单一选择的属性字段,可能有一个或者多个描述值成立,在进行数据计算时往往要遍历该属性字段包含的所有描述值,计算耗时远大于单一选择的属性字段遍历的计算耗时,因此,将单一选择的属性字段置于其他属性字段(即:不是单一选择的属性字段)之上,可以有效的减小经过单一选择的属性字段的过滤之后还需进行的其他属性字段过滤所需的数据计算量,减少计算耗时,提高性能。
此外,需要说明的是,所述属性描述网络中,同一层对应的一个属性字段下的不同描述值按照预定的排序标准顺序排列。
综上所述,所述属性描述网络具有如下特性:
每层对应一个属性字段,每个属性字段具有至少一个描述值,各层具有从上到下的层级关系;
各个属性字段按照描述值的个数从大到小依次按照从上到下的层级关系分层排布,并且描述值为单一选择的属性字段置于其他属性字段之上;
并且,各层分别对应的属性字段下的不同描述值按照预定的排序标准顺序排列。
例:如图2所示,其示出了所述属性描述网络的示意图。
除此之外,上述将各个属性字段按照从上到下的层级关系分层排布,构成所述属性描述网络的步骤,还可以用本实施例之外的其他方法实现,在此不作限定。
步骤S103,读取待筛选数据对象的描述信息。
所述待筛选数据对象的描述信息,是指电子商务平台中海量用户的用户信息。
本步骤中,读取海量的待筛选数据对象的描述信息,并从各个待筛选数据对象的描述信息中提取出所述描述信息中包含的至少一个所述属性描述网络中的描述值。
例如:用户A的用户信息为:“性别=男、年龄<18、兴趣=运动、在某商家的店铺中店铺月成交额>1000”,则提取出该用户A在上述的附图2所示的属性描述网络中的描述值为:“男、<18、运动、<1000”。
步骤S104,建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图。
具体实现如下:
1)将每个筛选需求转换为描述路径表达形式;
本步骤中,根据上述步骤S101中读取的大批量筛选需求,见该大批量筛选需求中各个筛选需求转换为描述路径表达形式;其中,筛选需求与描述路径表达式一一对应。
2)分别生成每个描述路径表达式的至少一个描述路径;
根据上述步骤1)获得的所述描述路径表达形式,根据所述描述路径表达式,分别生成每个描述路径表达式的至少一个描述路径。
3)获取所述筛选需求的互不重复的描述路径构成描述路径组;
根据上述步骤2)获得各个筛选需求的描述路径之后,去除各个筛选需求的描述路径的集合中重复的描述路径,构成各个筛选需求(即:大批量筛选需求)的描述路径组;
其中,所述描述路径为包括至少一个描述值或者包括多个相与关系的描述值,一个描述路径的不同描述值位于所述属性描述网络中的不同层级,并且不同描述值按照所在层级从高到低排列。
4)将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图。
根据上述步骤3)获得各个筛选需求(即:大批量筛选需求)的描述路径组,本步骤中,将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成所述路径依赖图。
步骤如下:
a、根据上述步骤3)获得的各个筛选需求(即:大批量筛选需求)的描述路径组,以层级高优先和同层的描述值在前优先的排序规则,对所述描述路径组中的所有描述路径进行排序;
b、根据上述步骤a中的所述描述路径组中的所有描述路径进行排序,依次将所述描述路径组中的所有描述路径映射到所述属性描述网络中;
c、合并描述路径中具有完全相同的高层描述值的部分,组成所述路径依赖图。
所述高层描述值完全相同,是指从描述路径包含的最高层描述值向下,每一层都相同。
例如:描述路径组包括:描述路径A和描述路径B;其中,描述路径A为:“男and<18and运动and<1000”,描述路径B为:“男and<18and运动and>1000and<10000”;
描述路径A和描述路径B的高层描述值(男、<18、运动)相同;
则合并描述路径A和描述路径B的高层描述值(男、<18、运动),组成的所述路径依赖图,如图3所示,其示出了所述路径依赖图的示意图。
除此之外,上述路径依赖图还可以采用其他方法实现,在此不做限定。
步骤S105,将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较。
根据上述步骤S103读取的海量待筛选数据对象的描述信息,以及上述步骤S104获得的所述路径依赖图,本步骤中,将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较,若一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径,从而获得海量待筛选数据对象中每个待筛选数据对象的匹配路径。
其中,每个待筛选数据对象的匹配路径可能为一个或者多个,也可能不存在。
需要说明的是,本实施例采用深度优先遍历将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较。
以下,通过举例说明所述深度优先遍历的实现过程,如图3所示的路径依赖图,以下结合图3所示的路径依赖图,对本实施例提供的深度优先遍历进行说明;
图3所示的路径依赖图中,根据从上到下的层级关系,以及从左到右的描述值排列顺序,路径依赖图中包含的描述路径依次包括:
描述路径1:“男and<18and运动and<1000”;
描述路径2:“男and<18and运动and>1000and<10000”;
描述路径3:“男and<18and运动and>10000”;
描述路径4:“男and<18and手机and<1000”;
描述路径5:“男and<18and手机and>1000and<10000”;
描述路径6:“男and<18and手机and>10000”;
描述路径7:“男and>20and<30and运动and<1000”;
描述路径8:“男and>20and<30and运动and>1000and<10000”;
描述路径9:“男and>20and<30and运动and>10000”;
描述路径10:“男and>20and<30and手机and<1000”;
描述路径11:“男and>20and<30and手机and>1000and<10000”;
描述路径12:“男and>20and<30and手机and>10000”;
按照深度优先遍历的规则与所述路径依赖图中的各个描述值进行遍历比较时:
待筛选数据对象的描述信息为x,在假设筛选数据对象的描述信息为x中包含有图3所示的路径依赖图中的所有描述值的情况下,则按照深度优先遍历的规则的比较顺序为:
“男”->“<18”->“运动”->“<1000”->“>1000and<10000”->“>10000”->“手机”->“<1000”->“>1000and<10000”->“>10000”->“20and<30”“运动”->“<1000”->“>1000and<10000”->“>10000”->“手机”->“<1000”->“>1000and<10000”->“>10000”。
上述的深度优先遍历的规则的比较顺序是一种基于假设下的情况,目的是为了充分说明按照深度优先遍历进行遍历时的顺序规则。
一般而言,则在遍历比较过程中,若所述待筛选对象的描述信息中不包含某个描述值,则舍弃对路径依赖图中通过该描述值向下的描述路径的遍历。
例如:上述图3所示的路径依赖图中,待筛选数据对象的描述信息x中不包含“年龄”属性字段的描述值“<18”,则将经过该描述值“<18”的所有描述路径(包括:描述路径1至描述路径6)舍弃,即:无需对描述路径1至描述路径6进行遍历,只需对描述路径7至描述路径12按照深度优先遍历进行遍历即可。
若一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径,即:给所述待筛选数据对象打上标签,该标签即为包含所述匹配路径的标签。
若所述待筛选数据对象的匹配路径为一个,则给所述待筛选数据对象打上包含该匹配路径的标签;
若所述待筛选数据对象的匹配路径为多个(大于或等于2个),则给所述待筛选数据对象分别打上包含各个匹配路径的标签;
若所述待筛选数据对象不存在匹配路径,则表明该待筛选数据对象为无效数据,不作处理即可。
步骤S106,根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
上述步骤S105中根据深度优先遍历算法进行比较,获得了海量待筛选数据对象中每个待筛选数据对象的匹配路径,本步骤中,根据上述步骤S105获得的每个待筛选数据对象的各个匹配路径,确定海量待筛选数据对象中每个待筛选数据对象符合的筛选需求。
具体实现如下:
1)根据每个筛选需求的描述路径表达形式,确定每个筛选需求包含的描述路径;
根据上述步骤S104获得的大批量筛选需求中每个筛选需求的描述路径表达形式,确定大批量筛选需求中每个筛选需求包含的至少一个描述路径,并且,每个描述路径归属于至少一个筛选需求。
2)若一个筛选需求包含的任意一个描述路径包含在所述待筛选数据对象的匹配路径中,则所述待筛选数据对象符合该筛选需求。
根据上述步骤S105获得的所述待筛选数据对象的匹配路径,以及根据上述步骤1)确定的每个筛选需求包含的描述路径,将所述待筛选数据对象分别归入所述匹配路径归属的各个筛选需求对应的分类下,即:得到了每个待筛选数据对象满足的筛选需求,每个待筛选数据对象满足的筛选需求个数可能为一个或者多个,也可能不存在。
重复上述过程,直至将上述步骤S103读取的海量待筛选数据对象全部归属到筛选需求对应的分类下;
从而得到步骤S101中读取的大批量筛选需求中每个筛选需求的分类下的待筛选数据对象的集合。
除此之外,上述实现还可以采用本实施例之外的其他方法实现,在此不做限定。
本申请第二实施例提供的所述对数据对象筛选分类的装置实施例如下:
在上述的实施例中,提供了一种对数据对象筛选分类的方法,与之相对应的,本申请还提供了一种对数据对象筛选分类的装置。
参照图4,其示出了根据本实施例提供的一种对数据对象筛选分类的装置示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的部分请参见方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本申请所述的一种对数据对象筛选分类的装置,包括:
筛选需求读取单元401,用于读取筛选需求;
属性描述网络建立单元402,用于将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
待筛选数据对象读取单元403,用于读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
路径依赖图生成单元404,用于建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;
遍历比较单元405,用于将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若所述路径依赖图中的一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求;
筛选需求确定单元406,用于根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
可选的,所述属性描述网络建立单元402,包括:
描述信息获取子单元,用于获取各个筛选需求中包含的描述信息;
描述信息分类子单元,用于对所述描述信息按照属性进行分类;每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;
属性描述网络生成子单元,用于将上述各个属性字段按照从高到低的层级关系分层排布;每层对应一个属性字段,构成所述属性描述网络。
可选的,所述属性描述网络生成子单元,包括:
描述值个数获取子单元,用于获取所述各个属性字段下描述值的个数;
属性字段分层排布子单元,用于根据所述各个属性字段下描述值的个数从大到小的顺序,依次将所述各个属性字段按照从高到低的层级关系分层排布。
可选的,所述属性描述网络生成子单元,包括:
单一选择属性字段获取子单元,用于根据所述属性字段的性质,获取描述值为单一选择的属性字段;
属性字段置换获取子单元,用于将所述描述值为单一选择的属性字段置于其他属性字段之上;
其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
可选的,所述属性描述网络生成子单元,包括:
描述值排序子单元,用于将同一层的不同描述值按照预定的排序标准顺序排列。
可选的,所述路径依赖图生成单元404,包括:
筛选需求转换子单元,用于将每个筛选需求转换为描述路径表达形式;
描述路径生成子单元,用于分别生成每个描述路径表达式的至少一个描述路径;
描述路径组获取子单元,用于获取所述筛选需求的互不重复的描述路径构成描述路径组;
路径依赖图生成子单元,用于将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图。
可选的,所述路径依赖图生成子单元,包括:
描述路径排序子单元,用于以层级高优先和同层的描述值在前优先的排序规则,对所述描述路径排序;
描述路径映射子单元,用于按照上述排序,依次将所述描述路径映射到所述属性描述网络中;
描述路径合并子单元,用于合并描述路径中具有完全相同的高层描述值的部分,生成所述路径依赖图。
本申请第三实施例提供的所述电子设备实施例如下:
在上述的实施例中,提供了一种对数据对象筛选分类的方法,还提供了一种与之相对应的对数据对象筛选分类的装置,另外,本申请提供一种用于实现上述对数据对象筛选分类的方法的电子设备。
参照图5,其示出了根据本实施例提供的一种电子设备示意图。所述电子设备实施例描述得比较简单,相关的部分请参见上述方法实施例的对应说明即可。下述描述的所述电子设备实施例仅仅是示意性的。
本申请所述的一种电子设备,包括:
显示器501;
处理器502;
输入设备503;
存储器504,用于存储程序,该程序用于控制该电子设备执行下述步骤:
通过所述输入设备503读取筛选需求;
将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;
将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若所述路径依赖图中的一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;
根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
可选的,所述筛选需求中包含有描述信息,所述描述信息按照属性进行分类,每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;所述属性描述网络中,每层对应一个属性字段,各个属性字段按照从高到低的层级关系分层排布。
可选的,所述属性描述网络中,各个属性字段根据各自的描述值个数从大到小的顺序,按照从高到低的层级关系分层排布。
可选的,所述属性描述网络中,描述值为单一选择的属性字段置于其他属性字段之上;其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
可选的,所述属性描述网络中,对于同一层的不同描述值按照预定的排序标准顺序排列。
可选的,所述筛选需求用于转换为描述路径表达形式,所述描述路径表达式用于生成描述路径,这些筛选需求的互不重复的描述路径构成描述路径组;每个筛选需求转换的描述路径表达形式包括至少一个描述路径。
可选的,所述描述路径为包括至少一个描述值或者包括多个相与关系的描述值;一个描述路径的不同描述值位于属性描述网络中的不同层级,并且不同描述值按照所在层级从高到低排列。
可选的,所述路径依赖图中,高层描述值完全相同的描述路径,其相同部分被合并,形成向低层分叉的分支路径;所述高层描述值完全相同,是指从描述路径包含的最高层描述值向下,每一层都相同。
可选的,所述遍历采用深度优先遍历。
可选的,所述待筛选数据对象符合的筛选需求存在一个或者多个,或者不存在。
可选的,所述待筛选数据对象根据符合的各个筛选需求,归入不同的分类。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (32)

1.一种对数据对象筛选分类的方法,其特征在于,包括:
读取筛选需求;
将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;
根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
2.根据权利要求1所述的对数据对象筛选分类的方法,其特征在于,所述将各个筛选需求的描述值列出,建立属性描述网络,包括:
获取各个筛选需求中包含的描述信息;
对所述描述信息按照属性进行分类;每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;
将上述各个属性字段按照从高到低的层级关系分层排布;每层对应一个属性字段,构成所述属性描述网络。
3.根据权利要求2所述的对数据对象筛选分类的方法,其特征在于,所述将上述各个属性字段按照从高到低的层级关系分层排布,包括:
获取所述各个属性字段下描述值的个数;
根据所述各个属性字段下描述值的个数从大到小的顺序,依次将所述各个属性字段按照从高到低的层级关系分层排布。
4.根据权利要求2所述的对数据对象筛选分类的方法,其特征在于,所述将上述各个属性字段按照从高到低的层级关系分层排布,包括:
根据所述属性字段的性质,获取描述值为单一选择的属性字段;
将所述描述值为单一选择的属性字段置于其他属性字段之上;
其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
5.根据权利要求2所述的对数据对象筛选分类的方法,其特征在于,所述属性描述网络中,对于同一层的不同描述值按照预定的排序标准顺序排列。
6.根据权利要求1所述的对数据对象筛选分类的方法,其特征在于,所述建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图,包括:
将每个筛选需求转换为描述路径表达形式;
分别生成每个描述路径表达式的至少一个描述路径;
获取所述筛选需求的互不重复的描述路径构成描述路径组;
将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图。
7.根据权利要求6所述的对数据对象筛选分类的方法,其特征在于,所述描述路径为包括至少一个描述值或者包括多个相与关系的描述值;一个描述路径的不同描述值位于属性描述网络中的不同层级,并且不同描述值按照所在层级从高到低排列。
8.根据权利要求6所述的对数据对象筛选分类的方法,其特征在于,所述将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图,包括:
以层级高优先和同层的描述值在前优先的排序规则,对所述描述路径排序;
按照上述排序,依次将所述描述路径映射到所述属性描述网络中;
合并描述路径中具有完全相同的高层描述值的部分,生成所述路径依赖图。
9.根据权利要求8所述的对数据对象筛选分类的方法,其特征在于,所述路径依赖图中的高层描述值完全相同,包括:从描述路径包含的最高层描述值向下,每一层都相同。
10.根据权利要求1所述的对数据对象筛选分类的方法,其特征在于,所述将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较,在遍历比较过程中,若所述待筛选对象的描述信息中不包含某个描述值,则舍弃对路径依赖图中通过该描述值向下的描述路径的遍历。
11.根据权利要求1所述的对数据对象筛选分类的方法,其特征在于,所述将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较的步骤中,所述遍历采用深度优先遍历。
12.根据权利要求1所述的对数据对象筛选分类的方法,其特征在于,所述根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求的步骤,采用如下方式实现:
根据每个筛选需求的描述路径表达形式,确定每个筛选需求包含的描述路径;
若一个筛选需求包含的任意一个描述路径包含在所述待筛选数据对象的匹配路径中,则所述待筛选数据对象符合该筛选需求。
13.根据权利要求12所述的对数据对象筛选分类的方法,其特征在于,所述根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求的步骤中,确定所述待筛选数据对象符合的所有筛选需求。
14.根据权利要求13所述的对数据对象筛选分类的方法,其特征在于,包括根据待筛选数据对象的符合的各个筛选需求,将所述待筛选数据对象归入不同的分类。
15.一种对数据对象筛选分类的装置,其特征在于,包括:
筛选需求读取单元,用于读取筛选需求;
属性描述网络建立单元,用于将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
待筛选数据对象读取单元,用于读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
路径依赖图生成单元,用于建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;
遍历比较单元,用于将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若所述路径依赖图中的一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求;
筛选需求确定单元,用于根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
16.根据权利要求15所述的对数据对象筛选分类的装置,其特征在于,所述属性描述网络建立单元,包括:
描述信息获取子单元,用于获取各个筛选需求中包含的描述信息;
描述信息分类子单元,用于对所述描述信息按照属性进行分类;每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;
属性描述网络生成子单元,用于将上述各个属性字段按照从高到低的层级关系分层排布;每层对应一个属性字段,构成所述属性描述网络。
17.根据权利要求16所述的对数据对象筛选分类的装置,其特征在于,所述属性描述网络生成子单元,包括:
描述值个数获取子单元,用于获取所述各个属性字段下描述值的个数;
属性字段分层排布子单元,用于根据所述各个属性字段下描述值的个数从大到小的顺序,依次将所述各个属性字段按照从高到低的层级关系分层排布。
18.根据权利要求16所述的对数据对象筛选分类的装置,其特征在于,所述属性描述网络生成子单元,包括:
单一选择属性字段获取子单元,用于根据所述属性字段的性质,获取描述值为单一选择的属性字段;
属性字段置换获取子单元,用于将所述描述值为单一选择的属性字段置于其他属性字段之上;
其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
19.根据权利要求18所述的对数据对象筛选分类的装置,其特征在于,所述属性描述网络生成子单元,包括:
描述值排序子单元,用于将同一层的不同描述值按照预定的排序标准顺序排列。
20.根据权利要求18所述的对数据对象筛选分类的装置,其特征在于,所述路径依赖图生成单元,包括:
筛选需求转换子单元,用于将每个筛选需求转换为描述路径表达形式;
描述路径生成子单元,用于分别生成每个描述路径表达式的至少一个描述路径;
描述路径组获取子单元,用于获取所述筛选需求的互不重复的描述路径构成描述路径组;
路径依赖图生成子单元,用于将所述描述路径组中的各个描述路径映射到所述属性描述网络中,组成路径依赖图。
21.根据权利要求20所述的对数据对象筛选分类的装置,其特征在于,所述路径依赖图生成子单元,包括:
描述路径排序子单元,用于以层级高优先和同层的描述值在前优先的排序规则,对所述描述路径排序;
描述路径映射子单元,用于按照上述排序,依次将所述描述路径映射到所述属性描述网络中;
描述路径合并子单元,用于合并描述路径中具有完全相同的高层描述值的部分,生成所述路径依赖图。
22.一种电子设备,其特征在于,包括:
显示器;
处理器;
输入设备;
存储器,用于存储程序,该程序用于控制该电子设备执行下述步骤:
通过所述输入设备读取筛选需求;
将各个筛选需求的描述值列出,建立属性描述网络;该属性描述网络为分层网络,每层对应一个属性字段,每个属性字段具有至少一个描述值,该属性描述网络的各层具有从高到低的层级关系;
读取待筛选数据对象的描述信息;从中提取出该待筛选数据对象的描述信息中包含的至少一个所述属性描述网络中的描述值;
建立所述筛选需求与所述属性描述网络之间的映射关系,根据该映射关系生成路径依赖图;
将所述待筛选数据对象的描述信息中包含的描述值与所述路径依赖图中的各个描述值进行遍历比较;在遍历比较过程中,若所述路径依赖图中的一个描述路径的所有描述值均包含在所述待筛选数据对象的描述信息中,则将该描述路径记录为该待筛选数据对象的匹配路径;
根据所述待筛选数据对象的各个匹配路径,确定所述待筛选数据对象符合的筛选需求。
23.根据权利要求22所述的电子设备,其特征在于,所述筛选需求中包含有描述信息,所述描述信息按照属性进行分类,每一个属性设置一个对应的属性字段,归属于每一个属性下的至少一个描述信息经过规范化后分别作为该属性对应的属性字段下的至少一个描述值;所述属性描述网络中,每层对应一个属性字段,各个属性字段按照从高到低的层级关系分层排布。
24.根据权利要求23所述的电子设备,其特征在于,所述属性描述网络中,各个属性字段根据各自的描述值个数从大到小的顺序,按照从高到低的层级关系分层排布。
25.根据权利要求23所述的电子设备,其特征在于,所述属性描述网络中,描述值为单一选择的属性字段置于其他属性字段之上;其中,所述描述值为单一选择的属性字段,是指根据所述属性字段的性质,该属性字段所包含的描述值之间互斥。
26.根据权利要求23所述的电子设备,其特征在于,所述属性描述网络中,对于同一层的不同描述值按照预定的排序标准顺序排列。
27.根据权利要求22所述的电子设备,其特征在于,所述筛选需求用于转换为描述路径表达形式,所述描述路径表达式用于生成描述路径,这些筛选需求的互不重复的描述路径构成描述路径组;每个筛选需求转换的描述路径表达形式包括至少一个描述路径。
28.根据权利要求27所述的电子设备,其特征在于,所述描述路径为包括至少一个描述值或者包括多个相与关系的描述值;一个描述路径的不同描述值位于属性描述网络中的不同层级,并且不同描述值按照所在层级从高到低排列。
29.根据权利要求27所述的电子设备,其特征在于,所述路径依赖图中,高层描述值完全相同的描述路径,其相同部分被合并,形成向低层分叉的分支路径;所述高层描述值完全相同,是指从描述路径包含的最高层描述值向下,每一层都相同。
30.根据权利要求22所述的电子设备,其特征在于,所述遍历采用深度优先遍历。
31.根据权利要求23所述的电子设备,其特征在于,所述待筛选数据对象符合的筛选需求存在一个或者多个,或者不存在。
32.根据权利要求24所述的电子设备,其特征在于,所述待筛选数据对象根据符合的各个筛选需求,归入不同的分类。
CN201510011902.XA 2015-01-09 2015-01-09 一种对数据对象筛选分类的方法、装置以及电子设备 Active CN105824855B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510011902.XA CN105824855B (zh) 2015-01-09 2015-01-09 一种对数据对象筛选分类的方法、装置以及电子设备
TW104128413A TW201636877A (zh) 2015-01-09 2015-08-28 對資料物件篩選分類的方法、裝置以及電子設備
US14/991,797 US10394907B2 (en) 2015-01-09 2016-01-08 Filtering data objects
PCT/US2016/012741 WO2016112348A1 (en) 2015-01-09 2016-01-08 Filtering data objects

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510011902.XA CN105824855B (zh) 2015-01-09 2015-01-09 一种对数据对象筛选分类的方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN105824855A true CN105824855A (zh) 2016-08-03
CN105824855B CN105824855B (zh) 2019-12-13

Family

ID=56356510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510011902.XA Active CN105824855B (zh) 2015-01-09 2015-01-09 一种对数据对象筛选分类的方法、装置以及电子设备

Country Status (4)

Country Link
US (1) US10394907B2 (zh)
CN (1) CN105824855B (zh)
TW (1) TW201636877A (zh)
WO (1) WO2016112348A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526541A (zh) * 2016-08-30 2017-12-29 腾讯科技(深圳)有限公司 数据处理方法和装置
CN107562880A (zh) * 2017-09-01 2018-01-09 北京神州泰岳软件股份有限公司 一种基于多级分类器的分类结果筛选方法及装置
CN110895590A (zh) * 2019-11-29 2020-03-20 贝壳技术有限公司 候选对象的获取方法和装置、电子设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11086991B2 (en) * 2019-08-07 2021-08-10 Advanced New Technologies Co., Ltd. Method and system for active risk control based on intelligent interaction
US11449578B2 (en) * 2019-09-27 2022-09-20 Botty Todorov DIMANOV Method for inspecting a neural network
TWI758725B (zh) * 2020-05-08 2022-03-21 台達電子工業股份有限公司 資料分析系統和資料分析方法
CN113505273B (zh) * 2021-05-24 2023-08-22 平安银行股份有限公司 基于重复数据筛选的数据排序方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106732A1 (en) * 2007-10-19 2009-04-23 Daniel James Hanson Hierarchical data models and methods for navigating same
US20110029933A1 (en) * 2008-01-23 2011-02-03 Shixian Chu Method and apparatus for information visualized expression, and visualized human computer interactive expression interface thereof
US20110179047A1 (en) * 2008-09-28 2011-07-21 Huawei Technologies Co., Ltd. Method and system for fuzzy searching, searching result processing, and filter condition processing
CN102567346A (zh) * 2010-12-17 2012-07-11 腾讯科技(深圳)有限公司 一种数据片段弱周期匹配模式的挖掘方法和装置
WO2014001568A2 (en) * 2012-06-29 2014-01-03 Reyntjens Nick Alex Lieven Method and apparatus for realizing a dynamically typed file or object system enabling a user to perform calculations over the fields associated with the files or objects in the system
US20140280226A1 (en) * 2011-09-28 2014-09-18 Nara Logics, Inc. Apparatus and method for providing harmonized recommendations based on an integrated user profile

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5414812A (en) * 1992-03-27 1995-05-09 International Business Machines Corporation System for using object-oriented hierarchical representation to implement a configuration database for a layered computer network communications subsystem
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US6505228B1 (en) * 1998-07-22 2003-01-07 Cisco Technology, Inc. Dynamic determination of execution sequence
US6405211B1 (en) * 1999-07-08 2002-06-11 Cohesia Corporation Object-oriented representation of technical content and management, filtering, and synthesis of technical content using object-oriented representations
JP2002117031A (ja) * 2000-10-06 2002-04-19 Internatl Business Mach Corp <Ibm> 情報配信方法、情報配信システム、情報処理装置およびコンピュータプログラム製品
US7546334B2 (en) * 2000-11-13 2009-06-09 Digital Doors, Inc. Data security system and method with adaptive filter
US7363308B2 (en) * 2000-12-28 2008-04-22 Fair Isaac Corporation System and method for obtaining keyword descriptions of records from a large database
US7024693B2 (en) 2001-11-13 2006-04-04 Sun Microsystems, Inc. Filter-based attribute value access control
US8015541B1 (en) * 2002-10-24 2011-09-06 Rage Frameworks, Inc. Business process technology for the enterprise
US7181450B2 (en) * 2002-12-18 2007-02-20 International Business Machines Corporation Method, system, and program for use of metadata to create multidimensional cubes in a relational database
US7451403B1 (en) * 2002-12-20 2008-11-11 Rage Frameworks, Inc. System and method for developing user interfaces purely by modeling as meta data in software application
US7516157B2 (en) * 2003-05-08 2009-04-07 Microsoft Corporation Relational directory
CA2429909A1 (en) * 2003-05-27 2004-11-27 Cognos Incorporated Transformation of tabular and cross-tabulated queries based upon e/r schema into multi-dimensional expression queries
US20040252121A1 (en) * 2003-06-13 2004-12-16 Ankur Bhatt Integrating graphical charts into software applications
US20070118496A1 (en) * 2005-11-21 2007-05-24 Christof Bornhoevd Service-to-device mapping for smart items
WO2007104612A1 (en) * 2006-03-14 2007-09-20 International Business Machines Corporation Data mining by determining patterns in input data
US7962493B2 (en) 2007-03-05 2011-06-14 Microsoft Corporation Dynamic computation of identity-based attributes
US20090100732A1 (en) * 2007-10-19 2009-04-23 Concept Workshop Worldwide, Llc Magnetic display device
US8719066B2 (en) 2010-08-17 2014-05-06 Edifice Technologies Inc. Systems and methods for capturing, managing, sharing, and visualising asset information of an organization
US9262469B1 (en) * 2012-04-23 2016-02-16 Monsanto Technology Llc Intelligent data integration system
CN103425648B (zh) 2012-05-15 2016-04-13 腾讯科技(深圳)有限公司 关系圈的处理方法和系统
US20140095518A1 (en) 2012-09-28 2014-04-03 Sap Ag Calculated measures as attribute filters
US9489377B1 (en) * 2014-02-21 2016-11-08 Yummly, Inc. Inferring recipe difficulty
US9767089B2 (en) * 2014-08-28 2017-09-19 Industrial Audit Corporation Collecting and auditing structured data layered on unstructured objects
CN104317959B (zh) * 2014-11-10 2018-07-17 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106732A1 (en) * 2007-10-19 2009-04-23 Daniel James Hanson Hierarchical data models and methods for navigating same
US20110029933A1 (en) * 2008-01-23 2011-02-03 Shixian Chu Method and apparatus for information visualized expression, and visualized human computer interactive expression interface thereof
US20110179047A1 (en) * 2008-09-28 2011-07-21 Huawei Technologies Co., Ltd. Method and system for fuzzy searching, searching result processing, and filter condition processing
CN102567346A (zh) * 2010-12-17 2012-07-11 腾讯科技(深圳)有限公司 一种数据片段弱周期匹配模式的挖掘方法和装置
US20140280226A1 (en) * 2011-09-28 2014-09-18 Nara Logics, Inc. Apparatus and method for providing harmonized recommendations based on an integrated user profile
WO2014001568A2 (en) * 2012-06-29 2014-01-03 Reyntjens Nick Alex Lieven Method and apparatus for realizing a dynamically typed file or object system enabling a user to perform calculations over the fields associated with the files or objects in the system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526541A (zh) * 2016-08-30 2017-12-29 腾讯科技(深圳)有限公司 数据处理方法和装置
CN107526541B (zh) * 2016-08-30 2019-09-13 腾讯科技(深圳)有限公司 数据处理方法和装置
CN107562880A (zh) * 2017-09-01 2018-01-09 北京神州泰岳软件股份有限公司 一种基于多级分类器的分类结果筛选方法及装置
CN110895590A (zh) * 2019-11-29 2020-03-20 贝壳技术有限公司 候选对象的获取方法和装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN105824855B (zh) 2019-12-13
US10394907B2 (en) 2019-08-27
US20160203228A1 (en) 2016-07-14
TW201636877A (zh) 2016-10-16
WO2016112348A1 (en) 2016-07-14

Similar Documents

Publication Publication Date Title
CN105824855B (zh) 一种对数据对象筛选分类的方法、装置以及电子设备
Taleb et al. Big data quality: A survey
TWI718643B (zh) 異常群體識別方法及裝置
CN109522312B (zh) 一种数据处理方法、装置、服务器和存储介质
US9336184B2 (en) Representation of an interactive document as a graph of entities
Bjeladinovic A fresh approach for hybrid SQL/NoSQL database design based on data structuredness
CN109933514B (zh) 一种数据测试方法和装置
Ahmed et al. A literature review on NoSQL database for big data processing
US20120159333A1 (en) Representation of an interactive document as a graph of entities
CN104077723B (zh) 一种社交网络推荐系统及方法
TW201913522A (zh) 風險特徵篩選、描述報文產生方法、裝置以及電子設備
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
US10115059B2 (en) System and method for utilizing a logical graphical model for scenario analysis
CN107357970B (zh) 基于数据挖掘的建筑信息模型异常元素检测装置和方法
JP2020061136A (ja) アクセス可能な機械学習バックエンド
US20180121526A1 (en) Method, apparatus, and computer-readable medium for non-structured data profiling
CN105279138B (zh) 一种资讯研究报告自动生成系统
CN104572740B (zh) 一种存储数据的方法和装置
CN115033945A (zh) 图形界面处理方法及装置
CN110781211B (zh) 一种数据的解析方法及装置
CN111784246A (zh) 物流路径的估测方法
CN116932935A (zh) 地址匹配方法、装置、设备、介质和程序产品
US10614421B2 (en) Method and system for in-memory policy analytics
CN106776529B (zh) 业务情感分析方法及装置
CN116186119A (zh) 用户行为分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1227130

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211111

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang tmall Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited

TR01 Transfer of patent right