[go: up one dir, main page]

CN106934015A - 地址数据处理方法和装置 - Google Patents

地址数据处理方法和装置 Download PDF

Info

Publication number
CN106934015A
CN106934015A CN201710141485.XA CN201710141485A CN106934015A CN 106934015 A CN106934015 A CN 106934015A CN 201710141485 A CN201710141485 A CN 201710141485A CN 106934015 A CN106934015 A CN 106934015A
Authority
CN
China
Prior art keywords
coordinate
interval
density
maximum
latitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710141485.XA
Other languages
English (en)
Inventor
龙准
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingbangda Trade Co Ltd
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710141485.XA priority Critical patent/CN106934015A/zh
Publication of CN106934015A publication Critical patent/CN106934015A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种地址数据处理方法和装置,涉及互联网技术领域。其中的方法包括:获取预定区域内地址数据对应的经纬度坐标;根据预定区域内地址数据对应的经纬度坐标将预定区域分为多个区间;根据各区间的坐标密度识别出坐标密集区域;将坐标密集区域内的坐标作为标准地址坐标。本发明使得在筛选地址和坐标时更加准确、快速,能更好的为地址服务提供数据基础。

Description

地址数据处理方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种地址数据处理方法和装置。
背景技术
随着购物、配送公司高速的成长和规模不断的扩大,各种数据量也在疯狂的增长,其中公司订单和妥投数据更为明显,随着渠道下沉战略的实行,妥投地址已经深入乡镇,甚至农村,这些精准、海量的地址数据成为非常宝贵的资源,有效的将这些数据挖掘出来,精准服务于与地址服务相关的业务,如预分拣系统、订单轨迹系统、用户收货地址系统、高精度地图、智能派车等显得尤为必要。
现有技术中,在获得地址数据后,通常先进行地址分词,然后根据地址出现频率和阈值进行地址筛选,根据筛选出的地址进行预分拣或配货、派车等服务。但现有技术筛选出的地址精度不高,不能满足部分需求。
发明内容
本发明实施例要解决的一个技术问题是提供一种能够提高地址筛选准确性的地址数据处理方法和装置。
根据本发明的一个实施例,提出一种地址数据处理方法,包括:获取预定区域内地址数据对应的经纬度坐标;根据预定区域内地址数据对应的经纬度坐标将预定区域分为多个区间;根据各区间的坐标密度识别出坐标密集区域;将坐标密集区域内的坐标作为标准地址坐标。
进一步地,将坐标密集区域内的坐标按照标准地址库的结构进行存储。
进一步地,根据预定区域内地址数据对应的经纬度坐标将预定区域分为多个区间包括:确定预定区域内地址数据对应的经度最大值和最小值以及纬度最大值和最小值;将经度最大值和最小值以及纬度最大值和最小值构成的区域等分为多个区间。
进一步地,根据各区间的坐标密度识别出坐标密集区域包括:根据各区间对应的坐标数量确定各区间的坐标密度;将坐标密度最大的区间作为坐标密集区域。
进一步地,根据各区间的坐标密度识别出坐标密集区域包括:根据各区间对应的坐标数量确定各区间的坐标密度;若坐标密度最大的区间包含预定区域内的预定比例的坐标点,则将坐标密度最大的区间作为坐标密集区域。
进一步地,该方法还包括:递归获取与坐标密度最大的区间的相邻区间中坐标密度最大的区间;判断预定区域内的预定比例的坐标点是否在预定面积范围内;若预定区域内的预定比例的坐标点在预定面积范围内,则将坐标密度最大的区间与相邻区间中坐标密度最大的区间的集合作为坐标密集区域。
进一步地,该方法还包括:对预定区域内地址数据对应的经纬度坐标进行预处理,去除无效经纬度坐标。
进一步地,该方法还包括:基于MapReduce编程架构对预定区域内地址数据进行处理。
根据本发明的另一实施例,还提出一种地址数据处理装置,包括:地址数据坐标获取单元,用于获取预定区域内地址数据对应的经纬度坐标;区域划分单元,用于根据预定区域内地址数据对应的经纬度坐标将预定区域分为多个区间;坐标密集区域确定单元,用于根据各区间的坐标密度识别出坐标密集区域;标准地址坐标确定单元,用于将坐标密集区域内的坐标作为标准地址坐标。
进一步地,该装置还包括标准地址存储单元,标准地址存储单元用于将坐标密集区域内的坐标按照标准地址库的结构进行存储。
进一步地,该装置还包括经纬度极值确定单元,经纬度极值确定单元用于确定预定区域内地址数据对应的经度最大值和最小值以及纬度最大值和最小值;其中,区域划分单元用于将经度最大值和最小值以及纬度最大值和最小值构成的区域等分为多个区间。
进一步地,该装置还包括区间坐标密度确定单元,区间坐标密度确定单元用于根据各区间对应的坐标数量确定各区间的坐标密度;其中,坐标密集区域确定单元用于将坐标密度最大的区间作为坐标密集区域。
进一步地,该装置还包括区间坐标密度确定单元,区间坐标密度确定单元用于根据各区间对应的坐标数量确定各区间的坐标密度;坐标密集区域确定单元还用于若坐标密度最大的区间包含预定区域内的预定比例的坐标点,则将坐标密度最大的区间作为坐标密集区域。
进一步地,该装置还包括区间集合确定单元,区间集合确定单元用于递归获取与坐标密度最大的区间相邻区间中坐标密度最大的区间;其中,坐标密集区域确定单元还用于若预定区域内的预定比例的坐标点在预定面积范围内,则将坐标密度最大的区间与相邻区间中坐标密度最大的区间的集合作为坐标密集区域。
进一步地,该装置还包括坐标预处理单元,坐标预处理单元用于对预定区域内地址数据对应的经纬度坐标进行预处理,去除无效经纬度坐标。
进一步地,地址数据坐标获取单元、坐标密集区域确定单元和标准地址坐标确定单元基于MapReduce编程架构对预定区域内地址数据进行处理。
根据本发明的再一实施例,还提出一种地址数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的方法。
根据本发明的又一实施例,还提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的方法的步骤。
与现有技术相比,本发明实施例获取预定区域内地址数据对应的经纬度坐标后,根据预定区域内地址数据对应的经纬度坐标将预定区域分为多个区间,根据各区间的坐标密度识别出坐标密集区域,并将坐标密集区域内的坐标作为标准地址坐标,使得在筛选地址和坐标时更加准确、快速,能更好的为地址服务提供数据基础。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明地址数据处理方法的一个实施例的流程示意图。
图2为本发明地址数据处理方法的另一个实施例的流程示意图。
图3为本发明地址数据处理方法的再一个实施例的流程示意图。
图4为本发明地址数据处理方法的又一个实施例的流程示意图。
图5为本发明地址数据处理方法的一个具体实施例的流程示意图。
图6为本发明地址数据处理装置的一个实施例的结构示意图。
图7为本发明地址数据处理装置的另一个实施例的结构示意图。
图8为本发明地址数据处理装置的再一个实施例的结构示意图。
图9为本发明地址数据处理装置的又一个实施例的结构示意图。
图10为本发明地址数据处理装置的又一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明地址数据处理方法的一个实施例的流程示意图。该方法包括以下步骤:
在步骤110,获取预定区域内地址数据对应的经纬度坐标。例如,获取某一街道的订单妥投地址以及各地址对应的经纬度坐标。
在步骤120,根据预定区域内地址数据对应的经纬度坐标将预定区域分为多个区间。例如,获知某一街道内各地址数据的经纬度坐标后,将该区域等分或任意划割为多个区间。
在步骤130,根据各区间的坐标密度识别出坐标密集区域。例如,可以根据各区间对应的坐标数量确定各区间的坐标密度,将坐标密度最大的区间作为坐标密集区域。也可以进一步判定坐标密度最大的区间内是否包含预定区域内的预定比例的坐标点,例如,该区间是否包含某一街道上至少60%的坐标点,若是,则将该坐标密度最大的区间作为坐标密集区域。还可以将坐标密度最大的区间以及相邻的坐标密度最大的区间的集合作为坐标密集区域。具体可以根据选择的精确确定选择哪种方式确定坐标密集区域。
在步骤140,将坐标密集区域内的坐标作为标准地址坐标。其中,得到坐标密集区域后,还可以将该坐标密集区域的所有坐标点,按照标准地址库的结构存储到大数据平台。
在该实施例中,根据预定区域内地址数据对应的经纬度坐标识别出坐标密集区域,并将坐标密集区域内的坐标作为标准地址坐标,使得在筛选地址和坐标时更加准确、快速,更好的为地址服务提供数据基础。例如,某一街道上筛选出某一座大楼为坐标密集区域,可以将该大楼内的坐标作为标准地址坐标,并将标准地址坐标保存到标准地址库,在以后安排在哪里设置投放点时,可以将该区域作为投放点。
图2为本发明地址数据处理方法的另一个实施例的流程示意图。该方法包括以下步骤:
在步骤210,获取预定区域内地址数据对应的经纬度坐标。
在步骤220,确定预定区域内地址数据对应的经度最大值和最小值以及纬度最大值和最小值。
在步骤230,将经度最大值和最小值以及纬度最大值和最小值构成的区域等分为多个区间。例如,按照100米*100米的规格,将经度划分为(Xmax-Xmin)/100等份,将纬度划分为(Ymax-Ymin)/100等份,其中,Xmax为经度最大值,Xmin为经度最小值,Ymax为纬度最大值,Ymin为纬度最小值。本领域的技术人员可以根据实际情况将该区域分为具体的规格,例如,200米*200米,500米*500米等。
在步骤240,根据各区间对应的坐标数量确定各区间的坐标密度。其中,根据坐标的经纬度可以确定每个坐标点应该落在哪个区间,以及每个区间对应的坐标数量,然后得到各区间的坐标密度。
在步骤250,将坐标密度最大的区间作为坐标密集区域。例如,该坐标密度最大的区间为范围为500米*500米,而正好需要在一个500米*500米范围内设置一个投放点,则可以将该区域作为坐标密集区域。
在步骤260,将坐标密集区域内的坐标按照标准地址库的结构存储到大数据平台。
上述过程可以称为坐标聚合过程,通过坐标聚合可以确定坐标密集区域,并将坐标密集区域内的坐标按照标准地址库的结构存储到大数据平台,使得在以后筛选地址和坐标时更加准确、快速。
在本发明的另一个实施例中,还可以如图3所示,其中,步骤310-步骤340分别与步骤210-步骤240相同。
在步骤350,判断坐标密度最大的区间是否包含预定区域内的预定比例的坐标点,若是,则执行步骤360,否则,执行步骤361。例如,判断预定区域内60%的坐标点是否在该坐标密度最大的区间。
在步骤360,将坐标密度最大的区间作为坐标密集区域。
在步骤361,不将该坐标密度最大的区间作为坐标密集区域。
在步骤370,将坐标密集区域内的坐标按照标准地址库的结构存储到大数据平台。
在该实施例中,如果坐标密度最大的区间包含预定区域内的预定比例的坐标点,则将坐标密度最大的区间作为坐标密集区域,并将坐标密集区域内的坐标点作为标准地址坐标点,使得在后续筛选地址和坐标时更加准确、快速。
图4为本发明地址数据处理方法的又一个实施例的流程示意图。该方法包括以下步骤:
在步骤410,获取预定区域内地址数据对应的经纬度坐标。
在步骤420,对该预定区域内地址数据对应的经纬度坐标进行预处理,去除无效经纬度坐标。例如,可以去除明显地址与经纬度不相符的数据。
在步骤430,确定预定区域内有效地址数据对应的经度最大值和最小值以及纬度最大值和最小值。
在步骤440,将经度最大值和最小值以及纬度最大值和最小值构成的区域等分为多个区间。
在步骤450,根据各区间对应的坐标数量确定各区间的坐标密度。
在步骤460,获取密度最大的区间,并递归获取与该坐标密度最大的区间的相邻区间中坐标密度最大的区间。
在步骤470,判断该预定区域内的预定比例的坐标点是否在预定面积范围内。例如,某一街道下面对应的坐标点是否满足60%的坐标点在200*200平方米范围内。
在步骤480,若预定区域内的预定比例的坐标点在预定面积范围内,则将坐标密度最大的区间与相邻区间中坐标密度最大的区间的集合作为坐标密集区域。
在步骤490,将坐标密集区域内的坐标按照标准地址库的结构存储到大数据平台。例如在海量数据中找到与实际地址坐标误差至少在200米以内的有效数据,按照标准地址库的结构存储到大数据平台。其中,标准地址库可以包括主表和从表,其中,标准地址库主表如表1所示,标准地址库从表如表2所示。
表1
表2
在上述实施例中,通过坐标聚合算法获得坐标密集区域,并将坐标密集区域的坐标按照标准地址库的结构存储到大数据平台,能够更快、更准确的为地址服务提供数据基础。例如,在配送货物时,通过查询标准地址库主表和从表,就可快速找到要配送的地址坐标。
本发明的上述实施例可以基于MapReduce编程架构实现,如图5所示,将以一个具体实施例为例进行说明。其中,基于MapReduce计算时,输入和输出都是用\t分割;xcopies为方格x轴坐标,ycopies为方格y轴坐标,xsec为经度等份,ysec为纬度等份,mr为MapReduce简称,pointnum为坐标数量。
在步骤510,基于MapReduce,计算每个索引下面经纬度最大值与最小值,并按照每个格子100*100的规格,将经纬度分别划成(max-min)/100等份,得到方格数量。其中,每个索引指代预定区域,例如,某一条街道等。
输入:索引id经度,纬度
输出:索引id xsec ysec min经度min纬度
在步骤520,根据第一个mr输出的min经度,min纬度,计算出索引下面每个坐标对应的方格(X-minx)/100,(Y-miny)/100,以及方格下的坐标数量。
输入:索引id经度纬度地址
输出1:索引id xsec ysec{经度,纬度,地址<br>经度,纬度,地址…}pointnum
输出2:索引id xsec ysec xcopies ycopies pointnum
在步骤530,根据第二个mr的输出2,分别统计xsec,ysec下的所有pointnum,然后乘以每个点所占的密度,然后用经度密度乘以纬度密度,得到格子密度,找到最大密度的方格,并递归查找左右上下相邻格子的最大密度格子,得到密集区。
输入:索引id xsec ysec xcopies ycopies pointnum
输出:xsec ysec密度密集区坐标总数
在步骤540,根据第二个mr的输出1,和第三个mr的输出,得到密集区域的坐标集合。
输入1:索引id xsec ysec{经度,纬度,地址<br>经度,纬度,地址}pointnum
输入2:xsec ysec密度密集区坐标总数
输出:索引id地址经度纬度可信度
在步骤550,将得到的密集区域的坐标集合按照标准地址库的结构存储到大数据平台。
在该实施例中,可以对MapReduce进行优化,例如,针对输入输出文件,map中间结果使用lzo压缩,使用压缩有效的传输数据量和存储数据量,即可以提高数据的传输效率以及传输性能。
针对map task(映射任务)与reduce task(归约任务)设置,其中,map task(映射数量)由split(分片)决定,split与hfds(Hadoop分布式文件系统)的block(数据库)关系密切。
splitSize=max(“mapred.min.split.size”,min(“mapred.max.split.size”,blockSize)),如果输入文件使用了压缩,需要对压缩文件建立索引,输入文件才会分成多个split。Reduce task(规约数量)由client(客户端)设置。
应用时,应使用合适的writeable(写入)类型,例如,尽量使用intwritable,longwritabl,vintwritable类型作为键key。
另外,还可以调整reduce拉取map结果的线程数,例如,默认情况下reduce会初始化5个拉取数据的线程,逐次从map端copy,适当增加拉取map结果的线程数,可以让shuffle阶段执行能更快些
针对读写文件的buffer(缓冲区)设置。io.sort.mb,以MB为单位,默认100M,通常来看这个值太小了,这个选项定义了map输出结果在内存占用buffer的大小,当buffer达到一定阈值,会启动一个后台线程来对buffer的内容进行排序,然后写入本地磁盘(一个spill文件),根据map输出数据量的大小,可以适当的调整buffer的大小。
在上述实施例中,基于MapReduce的坐标聚合算法可以在短时间内筛选出精准的地址和坐标,从而能够更快、更准确的为地址服务提供数据基础。另外,通过对MapReduce优化还提高了数据清洗的效率。
图6为本发明地址数据处理装置的一个实施例的结构示意图。该装置包括地址数据坐标获取单元610、区域划分单元620、坐标密集区域确定单元630和标准地址坐标确定单元640。
地址数据坐标获取单元610用于获取预定区域内地址数据对应的经纬度坐标。例如,获取某一街道的订单妥投地址以及各地址对应的经纬度坐标。
区域划分单元620用于根据预定区域内地址数据对应的经纬度坐标将预定区域分为多个区间。
坐标密集区域确定单元630用于根据各区间的坐标密度识别出坐标密集区域。例如,可以根据各区间对应的坐标数量确定各区间的坐标密度,将坐标密度最大的区间作为坐标密集区域。也可以进一步判定坐标密度最大的区间内是否包含预定区域内的预定比例的坐标点,例如,该区间是否包含某一街道上至少60%的坐标点,若是,则将该坐标密度最大的区间作为坐标密集区域。还可以将坐标密度最大的区间以及相邻的坐标密度最大的区间的集合作为坐标密集区域。具体可以根据选择的精确确定选择哪种方式确定坐标密集区域。
标准地址坐标确定单元640用于将坐标密集区域内的坐标作为标准地址坐标。
在该实施例中,将预定区域分为多个区间,根据各区间的坐标密度识别出坐标密集区域,并将坐标密集区域内的坐标作为标准地址坐标,使得在筛选地址和坐标时更加准确、快速,更好的为地址服务提供数据基础。
图7为本发明地址数据处理装置的另一个实施例的结构示意图。该装置包括地址数据坐标获取单元710、经纬度极值确定单元720、区域划分单元730、区间坐标密度确定单元740、坐标密集区域确定单元750、标准地址坐标确定单元760和标准地址存储单元770。
地址数据坐标获取单元710用于获取预定区域内地址数据对应的经纬度坐标。
经纬度极值确定单元720用于确定预定区域内地址数据对应的经度最大值和最小值以及纬度最大值和最小值。
区域划分单元730用于将经度最大值和最小值以及纬度最大值和最小值构成的区域等分为多个区间。例如,按照100米*100米的规格或者200米*200米的规格等对区域进行划分。
区间坐标密度确定单元740用于根据各区间对应的坐标数量确定各区间的坐标密度。其中,根据坐标的经纬度可以确定每个坐标点应该落在哪个区间,以及每个区间对应的坐标数量,然后得到各区间的坐标密度。
坐标密集区域确定单元750用于将坐标密度最大的区间作为坐标密集区域。例如,该坐标密度最大的区间为范围为500米*500米,而正好需要在一个500米*500米范围内设置一个投放点,则可以将该区域作为坐标密集区域。
标准地址坐标确定单元760用于将坐标密集区域内的坐标作为标准地址坐标。
标准地址存储单元770将坐标密集区域内的坐标按照标准地址库的结构存储到大数据平台。
在本发明的另一个实施例中,坐标密集区域确定单元750还可以判断坐标密度最大的区间是否包含预定区域内的预定比例的坐标点,若包含预定区域内的预定比例的坐标点,则将该坐标密度最大的区间作为坐标密集区域。例如,预定区域内60%的坐标点在该坐标密度最大的区间,则将该坐标密度最大的区间作为坐标密集区域。
在上述实施例中,通过坐标聚合可以确定坐标密集区域,并将坐标密集区域内的坐标按照标准地址库的结构存储到大数据平台,使得在以后筛选地址和坐标时更加准确、快速。
在本发明的另一个实施例中,如图8所示,该装置包括地址数据坐标获取单元810、坐标预处理单元820、经纬度极值确定单元830、区域划分单元840、区间坐标密度确定单元850、区间集合确定单元860、坐标密集区域确定单元870、标准地址坐标确定单元880和标准地址存储单元890,其中,各单元可以基于MapReduce编程架构对预定区域内地址数据进行处理,即通过MapReduce技术来提高坐标聚合、数据清洗的效率。
地址数据坐标获取单元810用于获取预定区域内地址数据对应的经纬度坐标。
坐标预处理单元820用于对该预定区域内地址数据对应的经纬度坐标进行预处理,去除无效经纬度坐标。例如,可以去除明显地址与经纬度不相符的数据。
经纬度极值确定单元830用于确定预定区域内有效地址数据对应的经度最大值和最小值以及纬度最大值和最小值。
区域划分单元840用于将经度最大值和最小值以及纬度最大值和最小值构成的区域等分为多个区间。
区间坐标密度确定单元850用于根据各区间对应的坐标数量确定各区间的坐标密度。
区间集合确定单元860用于获取密度最大的区间,并递归获取与该坐标密度最大的区间的相邻区间中坐标密度最大的区间。
坐标密集区域确定单元870用于若预定区域内的预定比例的坐标点在预定面积范围内,则将坐标密度最大的区间与相邻区间中坐标密度最大的区间的集合作为坐标密集区域。例如,若某一街道下面对应的坐标点满足60%的坐标点在200*200平方米范围内,则将坐标密度最大的区间与相邻区间中坐标密度最大的区间的集合作为坐标密集区域。
标准地址坐标确定单元880用于将坐标密集区域内的坐标作为标准地址坐标。
标准地址存储单元890用于将坐标密集区域内的坐标按照标准地址库的结构存储到大数据平台。例如在海量数据中找到与实际地址坐标误差至少在200米以内的有效数据,按照标准地址库的结构存储到大数据平台。
在上述实施例中,通过坐标聚合算法获得坐标密集区域,并将坐标密集区域的坐标按照标准地址库的结构存储到大数据平台,能够更快、更准确的为地址服务提供数据基础。
图9为本发明地址数据处理装置的又一个实施例的结构示意图。该系统包括存储器910和处理器920。
存储器910可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1-5所对应实施例中的指令。
处理器920耦接至存储器910,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器920用于执行存储器中存储的指令,由于将坐标密集区域内的坐标按照标准地址库的结构进行存储,使得在筛选地址和坐标时更加准确、快速,更好的为地址服务提供数据基础。
在一个实施例中,还可以如图10所示,该地址数据处理装置包括存储器1010和处理器1020。处理器1020通过BUS总线1030耦合至存储器1010。该地址数据处理装置1000还可以通过存储接口1040连接至外部存储装置1050以便调用外部数据,还可以通过网络接口1060连接至网络或者另外一台计算机系统(未标出),此处不再进行详细介绍。
在该实施例中,根据预定区域内地址数据对应的经纬度坐标识别出坐标密集区域,并将坐标密集区域内的坐标按照标准地址库的结构进行存储,使得在筛选地址和坐标时更加准确、快速,更好的为地址服务提供数据基础。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1-5所对应实施例中的方法的步骤。本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (18)

1.一种地址数据处理方法,包括:
获取预定区域内地址数据对应的经纬度坐标;
根据所述预定区域内地址数据对应的经纬度坐标将所述预定区域分为多个区间;
根据各区间的坐标密度识别出坐标密集区域;
将所述坐标密集区域内的坐标作为标准地址坐标。
2.根据权利要求1所述的方法,还包括:
将所述坐标密集区域内的坐标按照标准地址库的结构进行存储。
3.根据权利要求2所述的方法,根据所述预定区域内地址数据对应的经纬度坐标将所述预定区域分为多个区间包括:
确定所述预定区域内地址数据对应的经度最大值和最小值以及纬度最大值和最小值;
将所述经度最大值和最小值以及所述纬度最大值和最小值构成的区域等分为多个区间。
4.根据权利要求3所述的方法,根据各区间的坐标密度识别出坐标密集区域包括:
根据各区间对应的坐标数量确定各区间的坐标密度;
将坐标密度最大的区间作为坐标密集区域。
5.根据权利要求3所述的方法,根据各区间的坐标密度识别出坐标密集区域包括:
根据各区间对应的坐标数量确定各区间的坐标密度;
若坐标密度最大的区间包含所述预定区域内的预定比例的坐标点,则将所述坐标密度最大的区间作为坐标密集区域。
6.根据权利要求4或5所述的方法,还包括:
递归获取与所述坐标密度最大的区间的相邻区间中坐标密度最大的区间;
判断所述预定区域内的预定比例的坐标点是否在预定面积范围内;
若所述预定区域内的预定比例的坐标点在预定面积范围内,则将所述坐标密度最大的区间与相邻区间中坐标密度最大的区间的集合作为坐标密集区域。
7.根据权利要求1-5任一所述的方法,还包括:
对所述预定区域内地址数据对应的经纬度坐标进行预处理,去除无效经纬度坐标。
8.根据权利要求1-5任一所述的方法,还包括:
基于MapReduce编程架构对所述预定区域内地址数据进行处理。
9.一种地址数据处理装置,包括:
地址数据坐标获取单元,用于获取预定区域内地址数据对应的经纬度坐标;
区域划分单元,用于根据所述预定区域内地址数据对应的经纬度坐标将所述预定区域分为多个区间;
坐标密集区域确定单元,用于根据各区间的坐标密度识别出坐标密集区域;
标准地址坐标确定单元,用于将所述坐标密集区域内的坐标作为标准地址坐标。
10.根据权利要求9所述的装置,还包括标准地址存储单元,所述标准地址存储单元用于将所述坐标密集区域内的坐标按照标准地址库的结构进行存储。
11.根据权利要求10所述的装置,还包括经纬度极值确定单元,所述经纬度极值确定单元用于确定所述预定区域内地址数据对应的经度最大值和最小值以及纬度最大值和最小值;
其中,所述区域划分单元用于将所述经度最大值和最小值以及所述纬度最大值和最小值构成的区域等分为多个区间。
12.根据权利要求11所述的装置,还包括区间坐标密度确定单元,所述区间坐标密度确定单元用于根据各区间对应的坐标数量确定各区间的坐标密度;
其中,所述坐标密集区域确定单元用于将所述坐标密度最大的区间作为坐标密集区域。
13.根据权利要求11所述的装置,还包括区间坐标密度确定单元,所述区间坐标密度确定单元用于根据各区间对应的坐标数量确定各区间的坐标密度;
其中,所述坐标密集区域确定单元还用于若坐标密度最大的区间包含所述预定区域内的预定比例的坐标点,则将所述坐标密度最大的区间作为坐标密集区域。
14.根据权利要求12或13所述的装置,还包括区间集合确定单元,所述区间集合确定单元用于递归获取与所述坐标密度最大的区间相邻区间中坐标密度最大的区间;
其中,所述坐标密集区域确定单元还用于若所述预定区域内的预定比例的坐标点在预定面积范围内,则将所述坐标密度最大的区间与相邻区间中坐标密度最大的区间的集合作为坐标密集区域。
15.根据权利要求9-13任一所述的装置,还包括坐标预处理单元,所述坐标预处理单元用于对所述预定区域内地址数据对应的经纬度坐标进行预处理,去除无效经纬度坐标。
16.根据权利要求9-13任一所述的装置,其中,所述地址数据坐标获取单元、所述坐标密集区域确定单元和所述标准地址坐标确定单元基于MapReduce编程架构对所述预定区域内地址数据进行处理。
17.一种地址数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至8任一项所述的方法的步骤。
CN201710141485.XA 2017-03-10 2017-03-10 地址数据处理方法和装置 Pending CN106934015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710141485.XA CN106934015A (zh) 2017-03-10 2017-03-10 地址数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710141485.XA CN106934015A (zh) 2017-03-10 2017-03-10 地址数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN106934015A true CN106934015A (zh) 2017-07-07

Family

ID=59432017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710141485.XA Pending CN106934015A (zh) 2017-03-10 2017-03-10 地址数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106934015A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635063A (zh) * 2018-12-06 2019-04-16 拉扎斯网络科技(上海)有限公司 地址库的信息处理方法、装置、电子设备和存储介质
CN110046343A (zh) * 2019-03-01 2019-07-23 江苏横云智慧科技有限公司 非规范地址转换为规范地址及规范地址编码的方法
CN111581471A (zh) * 2020-05-09 2020-08-25 北京京东振世信息技术有限公司 区域查车的方法、装置、服务器及介质
CN116415077A (zh) * 2021-12-31 2023-07-11 北京国双科技有限公司 一种地理位置信息的获取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103403734A (zh) * 2011-03-21 2013-11-20 亚马逊技术股份有限公司 快递管理
CN104463516A (zh) * 2013-09-18 2015-03-25 Sap欧洲公司 基于订单密度的订单/交通工具分配
CN105160021A (zh) * 2015-09-29 2015-12-16 滴滴(中国)科技有限公司 基于目的地偏好的订单分配方法及装置
CN105654143A (zh) * 2016-01-28 2016-06-08 北京京东尚科信息技术有限公司 识别点密度的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103403734A (zh) * 2011-03-21 2013-11-20 亚马逊技术股份有限公司 快递管理
CN104463516A (zh) * 2013-09-18 2015-03-25 Sap欧洲公司 基于订单密度的订单/交通工具分配
CN105160021A (zh) * 2015-09-29 2015-12-16 滴滴(中国)科技有限公司 基于目的地偏好的订单分配方法及装置
CN105654143A (zh) * 2016-01-28 2016-06-08 北京京东尚科信息技术有限公司 识别点密度的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶海波: "《城市地址编码的技术及应用》", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
檀竹隔: "《快递自提柜投放选址问题研究》", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635063A (zh) * 2018-12-06 2019-04-16 拉扎斯网络科技(上海)有限公司 地址库的信息处理方法、装置、电子设备和存储介质
CN110046343A (zh) * 2019-03-01 2019-07-23 江苏横云智慧科技有限公司 非规范地址转换为规范地址及规范地址编码的方法
CN111581471A (zh) * 2020-05-09 2020-08-25 北京京东振世信息技术有限公司 区域查车的方法、装置、服务器及介质
CN111581471B (zh) * 2020-05-09 2023-11-10 北京京东振世信息技术有限公司 区域查车的方法、装置、服务器及介质
CN116415077A (zh) * 2021-12-31 2023-07-11 北京国双科技有限公司 一种地理位置信息的获取方法及装置

Similar Documents

Publication Publication Date Title
CN106407207B (zh) 一种实时新增数据更新方法和装置
US10002019B2 (en) System and method for assigning a transaction to a serialized execution group based on an execution group limit for parallel processing with other execution groups
TWI690851B (zh) 電腦系統資源配置方法和裝置
KR20170123336A (ko) 파일 조작 방법 및 장치
CN106325756B (zh) 一种数据存储、数据计算方法和设备
CN107436725A (zh) 一种数据写、读方法、装置及分布式对象存储集群
CN103020174A (zh) 相似性分析方法、装置及系统
CN106934015A (zh) 地址数据处理方法和装置
CN106776809A (zh) 一种数据查询方法及系统
CN111723161B (zh) 一种数据处理方法、装置及设备
CN106406762A (zh) 一种重复数据删除方法及装置
CN105095515A (zh) 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN115033616B (zh) 一种基于多轮采样的数据筛查规则验证方法及其装置
WO2025050902A1 (zh) 查询计划的处理方法及装置
CN110930056A (zh) 一种基于思维导图的任务管理方法、终端设备及存储介质
CN104462080A (zh) 针对检索结果进行分组统计的索引结构创建方法和系统
CN105550180A (zh) 数据处理的方法、装置及系统
CN115423993A (zh) 一种基于三维gis的分层分户单体化方法及系统
CN107451142B (zh) 在数据库中写入和查询数据的方法与装置及其管理系统和计算机可读存储介质
US20170344607A1 (en) Apparatus and method for controlling skew in distributed etl job
CN103902686B (zh) 一种数据去重方法及装置
CN110688223B (zh) 数据处理方法及相关产品
CN112468546A (zh) 账号位置确定方法、装置、服务器和存储介质
CN111459937A (zh) 数据表关联方法、装置、服务器及存储介质
CN108121745A (zh) 一种数据加载方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190708

Address after: 100086 6th Floor, Zhichun Road, Haidian District, Beijing

Applicant after: Beijing Jingdong Zhenshi Information Technology Co.,Ltd.

Address before: 100080 First Floor 101, No. 2 Building, No. 20 Courtyard, Suzhou Street, Haidian District, Beijing

Applicant before: Beijing Jingbangda Trading Co.,Ltd.

Effective date of registration: 20190708

Address after: 100080 First Floor 101, No. 2 Building, No. 20 Courtyard, Suzhou Street, Haidian District, Beijing

Applicant after: Beijing Jingbangda Trading Co.,Ltd.

Address before: 100195 Beijing Haidian Xingshikou Road 65 West Cedar Creative Garden 4 District 11 Building East 1-4 Floor West 1-4 Floor

Applicant before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707

RJ01 Rejection of invention patent application after publication