CN111556998A - Transfer learning and domain adaptation using distributable data models - Google Patents
Transfer learning and domain adaptation using distributable data models Download PDFInfo
- Publication number
- CN111556998A CN111556998A CN201880084930.6A CN201880084930A CN111556998A CN 111556998 A CN111556998 A CN 111556998A CN 201880084930 A CN201880084930 A CN 201880084930A CN 111556998 A CN111556998 A CN 111556998A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- distributable
- processor
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
Description
与申请相关的交叉引用Cross-references related to the application
本申请是2017年12月7日提交的名为“TRANSFER LEARNING AND DOMAINADAPTATION USING DISTRIBUTABLE DATA MODELS”的美国专利申请序列号15/835,436的PCT申请并要求享有其优先权,在此通过全文引用的方式将其全部说明并入本文。This application is a PCT application of US Patent Application Serial No. 15/835,436 filed on December 7, 2017, entitled "TRANSFER LEARNING AND DOMAINADAPTATION USING DISTRIBUTABLE DATA MODELS", and claims priority thereof, which is hereby incorporated by reference in its entirety. Its entire description is incorporated herein.
技术领域technical field
本公开涉及机器学习的领域,更特别地涉及使用跨多个装置分布的数据中所包含的偏差的模型改进。The present disclosure relates to the field of machine learning, and more particularly to model improvement using biases contained in data distributed across multiple devices.
背景技术Background technique
在传统的机器学习中,通常在中心位置处收集并处理数据。随后可以使用所收集的数据以训练模型。然而,通过诸如网络抓取或新闻聚集的手段的可收集数据与在装置例如个人移动装置上所存储的、或来自本地警察局的犯罪数据相比在范围上相对较窄。该数据可以由于其包含敏感数据的可能性而难以离开其所存储的装置,且传输数据所需的带宽也可以是很大的。In traditional machine learning, data is often collected and processed in a central location. The collected data can then be used to train the model. However, the data that can be collected through means such as web scraping or news aggregation is relatively narrow in scope compared to crime data stored on devices, such as personal mobile devices, or from local police departments. This data can be difficult to leave the device in which it is stored due to the likelihood that it contains sensitive data, and the bandwidth required to transmit the data can also be substantial.
可以为传输(例如由于GDPR)限制在数据线上训练的生成器模型(不论是否匿名)。现有的工具诸如SNORKELTM可以提供实质性机制以加速从小种子生成真实且标记的训练数据。相同的概念可以支持传输有价值的模型而并未移动受限制信息自身。这也适用于其他模型、数据集、可视化、流水线和其他数据的共享,诸如多租户部署、组织间共享或混合云边缘使用情形。Generator models (whether anonymous or not) trained on the data line can be restricted for transmission (eg due to GDPR). Existing tools such as SNORKEL ™ can provide substantial mechanisms to accelerate the generation of realistic and labeled training data from small seeds. The same concept can support the transfer of valuable models without moving the restricted information itself. This also applies to the sharing of other models, datasets, visualizations, pipelines, and other data, such as multi-tenant deployments, inter-organization sharing, or hybrid cloud edge use cases.
需要的是一种系统以用于使用传输学习以适应在目标数据或应用内可能不具有等同特征空间或分布的特定环境或应用中所训练的数据模型。What is needed is a system for using transfer learning to fit a data model trained in a particular environment or application that may not have an equivalent feature space or distribution within the target data or application.
发明内容SUMMARY OF THE INVENTION
因此,本发明人已经构想了一种系统和方法用于使用传输学习以适应在目标数据或应用内可能不具有等同特征空间或分布的特定环境或应用中所训练的数据模型。Accordingly, the inventors have conceived a system and method for using transfer learning to fit a data model trained in a particular environment or application that may not have an equivalent feature space or distribution within the target data or application.
在优选实施例中,模型源可以服务各种可分布模型的实例:其中用于训练其的数据具有已加权并校正的偏差的广义模型,以及其中利用了偏差的偏差专用模型。实例服务于分布式装置,在那里它们可以由装置所训练。装置每个生成更新报告,报告传输回至模型源,在此模型源可以使用报告以改进主要模型。In a preferred embodiment, the model source may serve instances of various distributable models: generalized models in which the data used to train them have biases weighted and corrected, and bias-specific models in which biases are exploited. Instances serve distributed devices, where they can be trained by devices. Each device generates an update report, which is transmitted back to the model source, where it can be used by the model source to improve the main model.
在本发明的一个方面中,提供了一种用于改进具有包含在分布式数据中偏差的可分布模型的系统,包括联网的可分布模型源,其包括存储器、处理器以及存储在其存储器中并可在其处理器上可运行的多个编程指令,其中可编程指令运行在处理器上时使处理器服务于多个可分布模型的实例;以及有向计算图模块,其包括存储器、处理器和存储在其存储器中并可在其处理器上运行的多个编程指令,其中,当在处理器上运行时,可编程指令使处理器从联网的计算系统至少接收可分布模型的实例,至少部分地基于存储在存储器中的数据中所包含的偏差而从存储在存储器中的数据创建一个净化数据集,用已净化的数据集训练可分布模型的实例,并至少部分地通过更新可分布模型的实例而生成更新报告。In one aspect of the invention, there is provided a system for improving a distributable model having biases contained in distributed data, comprising a networked distributable model source comprising a memory, a processor, and storage in its memory a plurality of programming instructions executable on its processor, wherein the programmable instructions, when executed on the processor, cause the processor to serve a plurality of instances of the distributable model; and a directed computational graph module including memory, processing a processor and a plurality of programming instructions stored in its memory and executable on its processor, wherein the programmable instructions, when executed on the processor, cause the processor to receive at least an instance of the distributable model from a networked computing system, creating a sanitized dataset from the data stored in the memory based at least in part on biases contained in the data stored in the memory, training an instance of the distributable model with the sanitized dataset, and at least in part by updating the distributable An instance of the model is used to generate an update report.
在本发明的另一实施例中,已净化数据集的至少一部分是已经删除了敏感信息的数据。在本发明的另一实施例中,更新报告的至少一部分由联网可分布模型源使用以改进可分布模型。在本发明的另一实施例中,存储器中所存储数据内所包含的偏差的至少一部分是基于地理位置。在本发明的另一实施例中,存储器中所存储数据内所包含的偏差的至少一部分是基于年龄。在本发明的另一实施例中,存储器中所存储数据内所包含的偏差的至少一部分是基于性别。In another embodiment of the invention, at least a portion of the sanitized data set is data from which sensitive information has been removed. In another embodiment of the invention, at least a portion of the update report is used by a networked distributable model source to improve the distributable model. In another embodiment of the invention, at least a portion of the deviation contained within the data stored in the memory is based on geographic location. In another embodiment of the invention, at least a portion of the deviation contained in the data stored in the memory is based on age. In another embodiment of the invention, at least a portion of the variance contained in the data stored in the memory is based on gender.
在本发明的另一个特征方面中,提供了一种用于采用分布式数据中所包含的偏差改进可分布模型的方法,包括以下步骤:(a)采用联网的可分布模型源服务多个可分布模型的实例;(b)从具有有向计算图模块的联网计算系统接收至少一个可分布模型的至少一实例;(c)至少部分地基于包含在具有有向计算图模块的存储器中所存储的数据内的偏差,从存储器中所存储的数据创建已净化数据集;(d)采用有向计算图模块对已净化数据集的可分布模型实例进行训练;以及(e)至少部分地通过采用有向计算图模块对可分布模型实例进行更新来生成更新报告。In another characteristic aspect of the invention, there is provided a method for improving a distributable model using biases contained in distributed data, comprising the steps of: (a) serving a plurality of distributable models using a networked distributable model source an instance of a distributed model; (b) receiving at least one instance of at least one distributable model from a networked computing system having a directed computational graph module; (c) based at least in part on storage contained in a memory having a directed computational graph module (d) using a directed computational graph module to train distributable model instances of the sanitized dataset; and (e) at least in part by employing The directed computational graph module updates the distributed model instance to generate an update report.
附图说明Description of drawings
附图说明了数个特征方面,并与说明书一起用于根据特征方面解释本发明的原理。本领域技术人员应该知晓,附图中所示的特定布置仅仅是示例性的,且不应视为在此以任何方式限制本发明或权利要求的范围。The drawings illustrate several characteristic aspects, and together with the description serve to explain the principles of the invention in accordance with the characteristic aspects. It should be appreciated by those skilled in the art that the specific arrangements shown in the figures are exemplary only and should not be construed as limiting the scope of the invention or the claims herein in any way.
图1是根据本发明实施例的业务操作系统的示例性架构图。FIG. 1 is an exemplary architecture diagram of a service operating system according to an embodiment of the present invention.
图2是根据本发明各个实施例的用于使用传输学习以适应在目标数据或应用内可能不具有等同特征空间或分布的特定环境或应用中所训练的数据模型的示例性系统的方框图。2 is a block diagram of an exemplary system for using transfer learning to fit a data model trained in a particular environment or application that may not have an equivalent feature space or distribution within the target data or application, according to various embodiments of the present invention.
图3是根据本发明各个实施例的可以利用分布在各个扇区之中的数据内所包含的偏差以改进扇区级可分布模型的示例性系统的方框图。3 is a block diagram of an exemplary system that can exploit bias contained within data distributed among sectors to improve sector-level distributable models, in accordance with various embodiments of the present invention.
图4是根据本发明各个实施例的其中每个层级可以具有其自己的可分布模型的示例性层级的方框图。4 is a block diagram of an exemplary hierarchy in which each hierarchy may have its own distributable model, according to various embodiments of the present invention.
图5是说明了根据本发明各个实施例的用于在训练可分布模型实例之前清洁并消密存储在电子装置上数据的方法的流程图。5 is a flowchart illustrating a method for cleaning and decrypting data stored on an electronic device prior to training a distributable model instance in accordance with various embodiments of the present invention.
图6是说明了根据本发明各个实施例的用于改进在模型源外部装置上可分布模型的方法的流程图。6 is a flowchart illustrating a method for improving a distributable model on a model source external device in accordance with various embodiments of the present invention.
图7是说明了根据本发明各个实施例的用于采用从分布式装置上数据所获得的偏差改进通用和偏差专用可分布模型的方法的流程图。7 is a flow diagram illustrating a method for improving generic and bias-specific distributable models using biases obtained from data on distributed devices, in accordance with various embodiments of the present invention.
图8是说明了用于使用传输学习以适应在目标数据或应用内可能不具有等同特征空间或分布的特定环境或应用中所训练的数据模型的方法的流程图。8 is a flowchart illustrating a method for using transfer learning to fit a data model trained in a particular environment or application that may not have an equivalent feature space or distribution within the target data or application.
图9是说明了用于在传输学习中使用预训练模型以为额外模型训练提供起点的方法的流程图。9 is a flowchart illustrating a method for using a pretrained model in transfer learning to provide a starting point for additional model training.
图10是说明了用于本发明各个实施例的计算装置的示例性硬件架构的方框图。10 is a block diagram illustrating an exemplary hardware architecture of a computing device for various embodiments of the present invention.
图11是说明了根据本发明各个实施例的用于客户端装置的示例性逻辑架构的方框图。11 is a block diagram illustrating an exemplary logical architecture for a client device in accordance with various embodiments of the present invention.
图12是说明了根据本发明各个实施例的客户端、服务器、和外部装置的示例性架构布置的方框图。12 is a block diagram illustrating an exemplary architectural arrangement of clients, servers, and external devices in accordance with various embodiments of the present invention.
图13是说明了用于本发明各个实施例的计算装置的示例性硬件架构的另一方框图。13 is another block diagram illustrating an exemplary hardware architecture of a computing device for various embodiments of the present invention.
具体实施方式Detailed ways
本发明人已经设想并付诸实践了一种用于采用包含在分布式数据中的偏差改进区域化可分布模型的系统和方法。The present inventors have envisioned and put into practice a system and method for improving regionalized distributable models using biases contained in distributed data.
可以在本申请中描述一个或多个不同的特征方面。进一步,对于在此所描述的一个或多个特征方面,可以描述许多备选布置;应当理解,这些布置仅为说明目的而呈现,并且不以任何方式限制在此所包含的特征方面或在此所呈现的权利要求。一个或多个布置可以广泛地应用于许多特征方面,如从本公开中可以很容易地看出。通常,对布置进行了足够详细的描述,以使本领域技术人员能够实践其中一个或多个特征方面,并且应当理解,可以使用其他布置,并且可以在不脱离特定特征方面的范围的情况下进行结构、逻辑、软件、电气和其他改变。可参考构成本公开一部分、且以图解的方式示出一个或多个方面的特定布置的一个或多个特定特征方面或图来描述在此所描述的一个或多个特征方面的特定特征。然而,应当理解,这些特征不限于在描述它们的一个或多个特定特征方面或附图中的使用。本发明既不是对一个或多个特征方面的所有布置的文字描述,也不是必须存在于所有布置中的一个或多个特征方面的特征列表。One or more different feature aspects may be described in this application. Further, many alternative arrangements may be described for one or more of the feature aspects described herein; it should be understood that these arrangements are presented for illustrative purposes only and are not in any way limiting of the feature aspects contained herein or herein Presented claims. One or more arrangements are broadly applicable to many features, as can be readily seen from this disclosure. Typically, arrangements are described in sufficient detail to enable those skilled in the art to practice one or more of the feature aspects, and it is to be understood that other arrangements may be used and made without departing from the scope of the particular feature aspects Structural, logical, software, electrical and other changes. Specific features of one or more feature aspects described herein may be described with reference to one or more specific feature aspects or figures that form part of this disclosure and that diagrammatically illustrate specific arrangements of one or more aspects. It should be understood, however, that these features are not limited to their use in the context of one or more of the specific features or figures in which they are described. The invention is neither a literal description of all arrangements of one or more feature aspects nor a feature listing of one or more feature aspects that must be present in all arrangements.
本专利申请中所提供段落标题和本专利申请的标题仅是为了方便,且不应视作以任何方式限制本公开。The paragraph headings and the headings of this patent application are provided in this patent application for convenience only and should not be construed as limiting the present disclosure in any way.
相互通信的装置不必连续相互通信,除非另外明确规定。此外,相互通信的装置可以直接地或通过一个或多个通信机制或中介间接地逻辑或物理地通信。Devices that are in communication with each other need not be in continuous communication with each other unless expressly specified otherwise. Furthermore, devices that are in communication with each other may communicate logically or physically, either directly or indirectly through one or more communication mechanisms or intermediaries.
对具有相互通信的多个部件的方面的描述并未暗示需要所有这些部件。相反,可以描述各种任选的部件来说明各种可能的特征方面,且以便于更充分地说明一个或多个特征方面。类似地,尽管可按顺序描述过程步骤、方法步骤、算法等,但除非明确相反说明,否则此类过程、方法和算法通常可被配置为按交替顺序工作。换言之,本专利申请中描述的任何步骤序列或顺序本身并不表示要求按照该顺序执行这些步骤。所述过程的步骤可按任何实际顺序执行。进一步,尽管被描述或暗示为非同时发生,但一些步骤可以同时执行(例如,因为一个步骤在另一个步骤之后被描述)。此外,由在附图中的描绘来说明过程并不意味着所示过程排除对其的其他变化和修改,也不暗示所示过程或其任何步骤对于一个或多个特征方面是必要的,也不暗示优选所示过程。此外,通常在每个特征方面描述一次步骤,但这并不暗示它们必须发生一次,或者它们可能仅在每次执行或执行过程、方法或算法时发生一次。某些步骤可以在某些方面或某些事件中省略,或者某些步骤可以在给定的方面或事件中多次执行。A description of an aspect having multiple components in communication with each other does not imply that all of these components are required. Rather, various optional components may be described to illustrate various possible feature aspects, and in order to more fully describe one or more feature aspects. Similarly, although process steps, method steps, algorithms, etc. may be described in sequence, unless expressly stated to the contrary, such processes, methods, and algorithms may generally be configured to operate in alternate sequences. In other words, any sequence or order of steps described in this patent application does not by itself imply that the steps are required to be performed in that order. The steps of the described process may be performed in any practical order. Further, although described or suggested as non-concurrent, some steps may be performed concurrently (eg, because one step is described after another step). Furthermore, the depiction of a process in the accompanying figures does not imply that the process shown excludes other variations or modifications thereof, nor that the process shown or any step thereof is necessary for one or more features, nor There is no suggestion that the process shown is preferred. Furthermore, steps are typically described once per feature, but this does not imply that they must occur once, or that they may occur only once per execution or execution of a process, method, or algorithm. Certain steps may be omitted in certain aspects or events, or certain steps may be performed multiple times in a given aspect or event.
当在此描述单个装置或物品时,显而易见的是,可以替代单个装置或物品使用多于一个装置或物品。类似地,当在此描述多于一个装置或物品时,显而易见的是,可以替代多于一个装置或物品而使用单个装置或物品。When a single device or item is described herein, it will be apparent that more than one device or item may be used in place of a single device or item. Similarly, when more than one device or item is described herein, it will be apparent that a single device or item may be used in place of more than one device or item.
可以由并未明确描述为具有该功能或特征的一个或多个其他装置备选地具体化装置的功能或特征。因此,其他特征方面不必包括装置自身。A function or feature of a device may alternatively be embodied by one or more other devices not expressly described as having that function or feature. Therefore, other characteristic aspects need not necessarily include the device itself.
为了清楚有时以单数形式描述在此所述或引述的技术和机制。然而应该知晓,特定特征方面可以包括技术的多次迭代或机制的多个实例,除非另外说明。附图中的进程描述或方框应该理解为表示包括了用于实施进程中特殊逻辑功能或布置的一个或多个可执行指令的模块、代码段或代码部分。备选实施方式包括在各个特征方面的范围内,其中例如可以以所示或所讨论顺序之外的顺序执行功能,包括实质上同时或以相反顺序,取决于所涉及的功能,如本领域技术人员应该理解的。Techniques and mechanisms described or referenced herein are sometimes described in the singular for clarity. It should be appreciated, however, that a particular feature aspect may include multiple iterations of the technique or multiple instances of the mechanism, unless otherwise stated. Process descriptions or blocks in the figures should be understood to represent modules, code segments, or portions of code that comprise one or more executable instructions for implementing the particular logical functions or arrangements in the process. Alternative implementations are included within the scope of the various feature aspects, in which, for example, the functions may be performed out of the order shown or discussed, including substantially concurrently or in the reverse order, depending on the functionality involved, as skilled in the art People should understand.
概念性架构conceptual architecture
图1是根据本发明实施例的业务操作系统100的示例性架构图。客户端为了特殊数据输入、系统控制以及为了与系统输出诸如自动预测决策和计划以及备选路径模拟的交互而访问系统105通过系统的分布式、可扩展高带宽云接口110和数据存储112而发生,接口110使用多用途、健壮的网络应用驱动接口以输入和显示面向客户端的信息,数据存储112诸如但不限于MONGODBTM,COUCHDBTM,CASSANDRATMorREDISTM,取决于实施例。由系统分析的大部分业务数据既来自客户业务范围内的数据源,也来自基于云的、公开的或专有的数据源107,诸如但不限于:订阅的业务领域专用数据服务、外部远程传感器,订阅的卫星图像和数据馈送以及一般和特定领域感兴趣商业操作的网站,也可通过云接口110进入系统,数据被传递到可能具有接收和转换外部数据所需的API例行程序135a、然后将归一化信息传递到系统的其他分析和变换部件的连接器模块135,有向计算图模块155,大容量网络爬虫模块115,多维时序数据库120和图形堆栈服务145。有向计算图模块155从多个源检索一个或多个数据流,多个源包括但不限于多个物理传感器、网络服务提供商、基于网络的问卷和调查、电子基础设施的监视、群众活动和人输入装置信息。在有向计算图模块155内,数据可以被划分成专用预编程数据流水线155a中的两个等同流,其中一个子流可以被发送用于批处理和存储,而另一个子流可以被重新格式化以用于变换流水线分析。然后,数据可以被传送到作为分析的一部分的用于线性数据变换的通用变换器服务模块160,或者用于作为分析的一部分的分支或迭代变换的可分解变换器服务模块150。有向计算图模块155将所有数据表示为有向图,其中变换是节点,并且在图的变换边缘之间表示结果消息。大容量网络抓取模块115可以使用多个驻留服务器的预编程的网络爬虫,这些爬虫虽然是自主配置的,但是可以部署在网络抓取框架115a内,其中SCRAPYTM是一个例子,用于识别和检索基于网络的数据源中的感兴趣数据,这些数据源没有被传统的网络爬虫技术很好地标记。多维时序数据存储模块120可以从可以是数种不同类型的大量多个传感器接收流数据。多维时序数据存储模块120还可以存储系统100遇到的任何时序数据,诸如但不限于受保客户端基础设施站点的环境因素,部分或全部受保客户端的部件传感器读数和系统日志,受保客户端所在地区的天气和灾难性事件报告,来自驻留了受保客户基础设施和网络服务信息的地区的政治公报和/或新闻(例如,但不限于,新闻、资本融资机会和财务信息、销售、市场状况),以及与服务相关的客户数据。多维时序数据存储模块120可以通过动态地分配网络带宽和服务器处理信道来处理输入数据而以适应不规则和大容量的浪涌。语言的编程包装器120a的实例包括但不限于,C++、PERL,PYTHON,and ERLANGTM,这允许在不熟悉核心编程的情况下将复杂的编程逻辑添加到多维时序数据库120的默认功能中,极大地扩展了功能的广度。多维时序数据库120和大容量网络爬虫模块115检索到的数据可以通过有向计算图155和相关的通用变换器服务160和可分解变换器服务150模块进一步分析和转换为任务优化结果。备选地,可以将来自多维时序数据库和大容量网络爬虫模块的数据(通常具有确定重要顶点的脚本提示信息145a)发送到图形堆栈服务模块145,该模块采用标准化协议将信息流转换为该数据的图形表示,例如开放式图形互联网技术(尽管本发明不依赖于任何一种标准)。通过这些步骤,图形堆栈服务模块145以图形形式表示受任何预先确定的脚本修改145a影响的数据,并将其存储在基于图形的数据存储145b中,例如GIRAPHTM或键值配对型数据存储REDISTM,或RIAKTM,其中任何一个都适合存储基于图形的信息。FIG. 1 is an exemplary architecture diagram of a
然后,转换分析过程的结果可以与进一步的客户端指令、与分析相关的附加业务规则和实践、以及自动化规划服务模块130中已有数据之外的情况信息相结合,它还运行强大的基于信息理论的预测统计功能和机器学习算法130a,以允许基于当前系统导出的结果快速预测未来趋势和结果,并选择多个可能的业务决策的每一个。然后,通过使用所有或大多数可用数据,自动规划服务模块130可以提出最有可能导致具有可使用的高水平确定性的有利业务结果的业务决策。与自动化规划服务模块130密切相关,利用系统衍生的结果以及可能的外部提供的辅助最终用户业务决策的附加信息,具有离散事件模拟器编程模块125a的动作结果模拟模块125与面向最终用户的观察和状态估计服务140耦合,该服务根据情况需要具有高度可编脚本的140b,并且具有游戏引擎140a,以更实际地实施考虑中的业务决策的可能结果,允许业务决策者基于对当前可用数据的分析而调查选择一个悬而未决的行动方案而不是另一个的可能结果。The results of the transformation analysis process can then be combined with further client-side instructions, additional business rules and practices related to the analysis, and situational information beyond the existing data in the automated planning services module 130, which also runs powerful information-based Theoretical predictive statistics functions and
图2是根据本发明各个实施例的示例性系统200的方框图,其用于使用传输学习以适应在目标数据或应用内可能不具有等同特征空间或部分的特定环境或应用中所训练的数据模型。系统200包括可分布模型源201,以及多个电子装置220[a-n]。模型源201可以包括可分布模型205,本地数据存储210,和合成数据存储215;而每个电子装置可以具有实例模型221[a-n],以及装置数据222[a-n]。电子装置220[a-n]可以是本领域通常使用的任何类型计算机化硬件,包括但不限于,台式计算机、膝上型计算机、移动装置、平板计算机和计算机集群。为了简单,以下关于系统200的讨论将从单个装置220a的角度,其包括实例模型221a和装置数据222a。应该理解,装置220[a-n]可以独立地、且以类似于装置220a的方式而操作。2 is a block diagram of an
模型源201可以配置用以将可分布模型205的实例副本发送至装置220a,且可以是本领域使用的配置用于使用业务操作系统100的任何类型计算机化硬件,且可以经由可以允许在空中处理传入和传出数据的有向计算图数据流水线155a而与相连的装置通信。可分布模型205可以是本领域通常在机器学习中使用的模型,或者可以是已经调谐以更高效地利用训练数据的专用模型,该数据已经分布在各个装置之中且仍然能够通过传统的机器学习方法而训练。本地数据210可以包括之前存储的数据,或者正在存储进程中的数据,例如,当前通过监控其他系统正在收集的数据。合成数据215可以是已经智能地和/或预测地生成以适合模型上下文、并通常是基于真实趋势和事件的数据。合成数据215的示例可以包括已经从正在运行的计算机模拟收集的数据;已经使用具有之前存储的数据和当前趋势的业务操作系统100的预测模拟功能而生成的数据;或者采用了其他专用软件,诸如SNORKEL。本地数据210和合成数据215可以由模型源201用作用于可分布模型205的训练数据。尽管图2中示出为存储在模型源201内,本领域技术人员应该知晓,本地数据210和合成数据215可以源自外部系统,且通过一些机制诸如例如互联网或局域网连接而向模型源201提供。The
在系统200中,装置220a可以经由网络连接诸如互联网、局域网、虚拟私人网络等等连接至模型源201,其中装置220a可以提供可分布模型221a的实例副本。装置220a可以随后净化并清洁其自己的数据222a,并采用已净化数据训练其实例模型221a。基于对实例模型221a进行更新的报告可以由模型源201使用以改进可分布模型205。在优选实施例中,装置220[a-n]可以包括配置用于使用业务操作系统100的系统,并在其他功能之中利用其有向计算图性能以处理数据。然而在一些实施例中,电子装置的硬件可以例如是运行了另一操作系统的移动装置或计算机系统。这些系统可以使用配置用于根据已建立兼容性规范而处理数据的专用软件。In
传输引擎230如需要的话可以用于促进模型205与一些目的地装置220b的共享,例如用于与其初始所创建不同环境或为了不同目的所使用的自适应模型205。这可以例如用于在部门或组织之间共享数据模型,这可以受益于相互数据而不论硬件或软件环境中变化或目的不同。传输引擎230可以利用各种机器学习方案以提供传输学习,利用来自一个问题或一组数据的机器学习并将其适用于不同(但是相关的)数据。例如,对关于汽车的一组数据训练的机器学习可以可适用于关于其他车辆诸如卡车或摩托车的数据,且可以使用传输学习以使将汽车专用数据应用于更广阔数据集合和相关数据类型。传输学习方案可以包括例如概率逻辑诸如Markov逻辑网络(为了促进在不确定性之下的推论,其可以用于将习得的技术应用于新数据模型,或为了新目的而修改数据模型)或Bayesian模型以将各种条件相关性建模为有向非循环图。这些方案以及根据各种特征方面可以可能的其他方案可以用于分析根据对于该数据集的有意目的而分析数据集,诸如(例如)确保数据顺应任何可应用的法规(诸如审查可能存在的个人可识别信息,例如)或者确保数据符合任何所需规范以确保与有意设计目的地或用途的互用性。The
传输引擎230可以使用传输学习来适应可能具有不同特征或符合不同标准的环境或应用,以便可以对于特定目的地的适合性评估数据集。可以通过使用多个预先训练的模型来进一步增强分析,这些模型可以用作在操作期间进一步细化的起点,将机器学习算法应用于模型本身,以便可以对其进行修改以适应数据或目的地信息的变化,确保分析仍然适用于有意设计目的以及正在分析的数据集。此外,可以使用预先训练的模型来适应不需要深入分析的环境,诸如(例如)在资源有限的部署(例如嵌入式或移动装置)中,其中可以在将其导出以供存储或使用更多先进的机器学习能力之前使用预先训练的模型来执行数据的初始分析。这还提供了一种机制,用于适应可能不需要本地化训练的环境,例如在跨许多移动装置部署时,可能需要确保分析操作的一致性,而不可能每个装置都开发自己的本地化训练模型。The
传输引擎230可用于促进域自适应,从一个数据集(初始可分布数据模型205)学习,并将此机器学习应用于新数据以基于从初始训练获得的知识创建新数据模型。这可以以部分或完全无监督的方式执行,从源数据中学习而无需手动标记数据(如传统方法中常用的)。在部分无监督的布置中,具有某些标记数据的预训练模型可以用作进一步训练的起点,其中无监督学习将已标记信息合并并在此基础上开发更大的模型以供使用。这可用于合并现有的已标记数据(例如,可能已为其他应用程序创建或标记的数据),然后应用无监督机器学习来扩展数据而无需进一步的手动操作。The
系统200也可以被配置成允许数据中的某些偏差保持不变。在某些情况下,为了遵守当地法律,诸如数据的地理来源的偏差可能是必要的。例如,一些国家可以在适当位置制定了某些法律以防止向其他一些受限制国家进出口数据。通过考虑数据的地理来源的偏差,偏差可用于对传入的更新报告进行分类。更新报告随后可用于训练地理上受限的可分布模型,而不包括来自其他受限国家的数据,同时仍然包括来自非受限国家的数据。The
为了提供另一个示例性应用,分布跨多个治安市区的犯罪报告和数据可以包含可以与犯罪预测模型相关的犯罪新趋势的信息。但是,该数据可以包含敏感的必须保留在该市区内的非公开信息。采用在此描述的系统,可以从敏感信息中删除数据,用于训练犯罪预测模型的实例,并且可以将相关数据间接地集成到犯罪预测模型中。因为实际数据不会离开该市区的计算机系统,因此可以在不担心敏感信息泄露的情况下完成这项工作。To provide another exemplary application, crime reports and data distributed across multiple policing municipalities may contain information on emerging trends in crime that can be correlated to crime prediction models. However, this data can contain sensitive, non-public information that must remain within the urban area. With the system described herein, data can be removed from sensitive information, instances used to train a crime prediction model, and relevant data can be indirectly integrated into the crime prediction model. Because the actual data doesn't leave the city's computer systems, this can be done without fear of leaking sensitive information.
应当理解,电子装置220[a-n]不必同时全部连接到模型源201,并且任何数量的装置可以在给定时间主动连接至模型源201并与之交互。此外,可分布模型的改进、实例模型的改进和往复通信可以不连续地运行,并且可以仅在需要时执行。此外,为了简单,图2仅示出一个实例。然而,在实践中,系统200可以是具有多个可分布模型源的潜在更大系统的节段;或者可分布模型源可以存储并服务于多个可分布模型。电子装置220[a-n]不限于仅与一个可分布的模型源进行交互,并且可以根据需要尽可能与多个可分布模型源连接并交互。It should be understood that the electronic devices 220[a-n] need not all be connected to the
因为数据内包含的偏差可以包含有价值的信息,或在应用于正确的模型时给予有价值的洞察力,将这些数据用于专用模型可以是谨慎的。Because biases contained within the data can contain valuable information or give valuable insight when applied to the correct model, it can be prudent to use this data for specialized models.
图3是根据本发明的各种实施例的可以利用分布在各个扇区之间的数据中包含的偏差来改进偏差专用可分布模型的示例性系统300的框图。系统300可以包括可分布模型源301;和一组扇区302,其可以包括多个扇区325[a-h]。模型源301可以是类似于模型源201的系统,包括可以以等同方式使用的本地数据310的源和合成数据315的源;然而,模型源301可以服务于两个不同模型的实例-广义可分布模型305和偏差专用可分布模型320。广义可分布模型305可以是可以使用分布跨组302中各个扇区的数据来训练的模型,其中数据内偏差已经被加权和校正,这类似于可分布模型205。偏差专用可分布模型320可以是其中可以仔细考虑了来自每个扇区325[a-n]的数据内所包含任何偏差的模型。FIG. 3 is a block diagram of an
扇区325[a-h]的每一个可以是具有分布式数据的装置,类似于图2中的电子装置220[a-n],其已经被分配了分类,例如某个区域内的装置。然而,扇区并不限于是基于地理位置。为了提供一些非地理示例,扇区325[a-h]可以是按年龄组、收入类别、兴趣组等分类的装置。扇区325[a-h]的任何一个内的装置可以获得广义可分布模型和偏差专用模型的实例。装置可以随后采用其自身存储的数据来训练实例模型,该存储数据已经以如下面图7中描述的方法那样的方式处理,并且最终导致广义模型和偏差专用模型的改进。Each of the sectors 325[a-h] may be devices with distributed data, similar to the electronic devices 220[a-n] in Figure 2, which have been assigned a classification, eg, devices within a certain area. However, sectors are not limited to being based on geographic location. To provide some non-geographic examples, sectors 325[a-h] may be devices categorized by age group, income category, interest group, and the like. Devices within any of sectors 325[a-h] may obtain instances of the generalized distributable model and the bias-specific model. The device can then train the instance model using its own stored data, which has been processed in the manner described below in Figure 7, and which ultimately leads to improvements in the generalized model and the bias-specific model.
应当理解,与图2中所示的系统200类似,系统300中所示的实施例示出了可分布模型源和数据源的一种可能的布置,并且为了简单选择了这种布置。在其他实施例中,可以例如组中存在更多或更少扇区,可以存在多个扇区群组,或者可以存在多个模型,包括广义的和偏差专用的。参见下面图4的讨论对于具有多个层的示例,每个层具有其自己的扇区群组。It should be appreciated that, similar to the
图4是根据本发明的各种实施例的其中每个层可以有其自己的一组可分布模型的示例性层次结构400的框图。在层次结构400的最高层次,存在一个全球层次405,它可以包含层次结构400的所有较低层次。在全球层次405之下可以是多个大洲层级410扇区,而这些扇区又可以包括其下方的所有层级。继续这种模式,在大洲层级之下可以是多个国家级415扇区,其中可以有多个国家级或省级420扇区,这导致县级425扇区,然后是城市级430扇区,然后是街道级435扇区。每一级扇区可以具有如图3所述的系统,并且具有专门用于利用从每一级扇区分布内的数据收集的偏差的可分布模型,以及具有一定程度上已加权并校正的偏差的广义可分布模型。例如,如果一个层级上的特定模型适用于另一个层级,那么模型也可以在层级之间共享。在一层级内收集的模型和数据可以不限于在相邻层级中使用,例如,通过加权和校正偏差,在县级收集的数据也可能与全球层级的模型以及街道层级的模型相关。4 is a block diagram of an
例如,全球性公司的业务办事处可能遍布全球。该公司可以具有一个全球办事处,负责管理一个业务区域子组中的办事处,例如通常使用的业务区域,如亚太地区、美国、拉丁美洲、东南亚等。这些业务区域可以每个都有一个区域办事处,负责管理这些区域内自己的国家分组。这些国家可能各有一个国家办事处,负责管理自己的州/省/地区分组。如图4所示,可以存在更深、更细粒度的子组,但对于本示例的目的,所使用的最深级别将是州/省/地区。For example, a global company may have business offices around the world. The company can have a global office that manages offices in a subgroup of business areas, such as commonly used business areas such as Asia Pacific, US, Latin America, Southeast Asia, etc. These business areas can each have a regional office that manages their own country groupings within those areas. These countries may each have a country office that manages their own state/province/territory groupings. As shown in Figure 4, there can be deeper, finer-grained subgroups, but for the purposes of this example, the deepest level used will be state/province/territory.
全球办公室可以有具有配置用以使用业务操作系统100的系统,并且可以服务于两个可分布模型:配置用以在全球范围内分析来自分布式业务区域的已净化数据的广义可分布模型,以及利用分布在业务区域之间的数据中偏差的偏差专用的分布模型。全球模型的示例可以是预测对环境或全球气候影响的模型,而商业区域专用模型可以是基于区域数据预测商业收益的模型,诸如,每个区域的经济、每个区域的发展趋势或每个区域的人口。在下一级,区域办事处可以向该区域内的国家提供可分布模型:用于偏差已校正的全区域分布式数据的分布式模型,以及利用国家级分布式数据内偏差的基于偏差的可分布模型。这些模型可以与全球办公室所服务的模型相似,但可以更以区域和国家为中心,例如,区域环境和气候,以及国家一级的业务预测。在下一级,也是本例的最后一级,国家办事处可以向该国内的州/省/地区提供可分布模型,类似于全球和区域两级的示例模型。在州一级分布的数据可以被收集并用于训练这些模型。应当注意的是,模型的分布在每个层次上被划分以简化示例,并且不代表本发明的任何限制。在其他实施例中,例如,在任何级别中的单个系统可以为层次结构的每个级别的所有各种模型服务,或者在本示例中使用的全球公司的系统之外可以存在服务于模型的服务器。A global office may have systems configured to use the
示例性特征方面的详细说明DETAILED DESCRIPTION OF EXEMPLARY FEATURES
图5是示出根据本发明的各种实施例的用于在训练可分发模型的实例之前净化和消密存储在电子装置上的数据的方法500的流程图。在初始步骤505,识别并校正在数据内发现的偏差,以便数据可能更有利于在广义可分布模型中使用。偏差可以包括但不限于本体或区域趋势、语言或种族趋势、以及性别趋势。偏差被智能地加权以提供有用的洞察,而不会过度拟合数据集。在一些实施例中,可以特别地识别和存储偏差数据,以便在其他更区域化的可分布模型上使用。在步骤510,为了维护用户和系统的隐私,数据可以清除个人识别信息和其他敏感信息。该信息可以包括银行信息、病史、地址、个人史等。在步骤515,现在已净化和消密的数据可以被标记为用作训练数据。在步骤520,数据现在被适当地格式化以用于训练实例模型。5 is a flowchart illustrating a
应该注意的是,方法500概述了一种净化和消密数据的方法。在其他实施例中,可以跳过方法500中的一些步骤,或者可以添加其他步骤。除了用于训练实例模型、并最终改进可分布模型之外,数据还可以以类似的方式进行处理,以变得更通用和更适合于传输用于训练属于不同域的模型中。这允许在新模型中重新使用以前收集的数据,而无需有时费力重新收集为新创建的模型的特定域的上下文而格式化的数据。It should be noted that
图6是示出根据本发明的各种实施例的用于改进来自模型源外部装置上的可分布模型的方法600的流程图。在初始步骤605,可分布模型的实例与来自可分布模型源的装置共享。在步骤610,净化和消密装置上的数据,图5中概述了一种该方法。在步骤615,现在以适合用于训练通用可分布模型的格式,可以使用数据以训练装置上所共享的模型(即,可分布模型的共享实例)。在步骤620,可以生成基于对所共享模型的更新的报告,并将其传输到可分布模型源。与数据本身的传输不同,生成并传输报告的一个好处是,它可能比传输改进可分布模型所需的所有数据更有效。此外,因为原始数据不需要离开装置,此方法可能有助于进一步确保敏感信息不会泄漏。在步骤625,可分布模型源使用该报告以改进可分布模型。6 is a flowchart illustrating a
图7是示出根据本发明的各种实施例的用于采用分布式装置上的数据改进偏差专用和广义可分布模型的方法700的流程图。在初始步骤705,装置从模型源获得可分布模型的实例:广义可分布模型和偏差专用可分布模型。在步骤710,采用存储在装置上的数据创建第一数据集,该装置在由业务操作系统100智能地识别和处理的数据中具有偏差,以便与偏差专用模型一起使用。在步骤715,使用存储在装置上的数据创建第二数据集,数据中的偏差智能地加权和校正,以便该数据集可能更适合于广义模型。在步骤720,数据集被净化并消除敏感信息。在步骤725,使用第一和第二数据集以训练其各自模型的实例;第一数据集训练偏差专用模型的实例,并且第二数据集训练广义模型的实例。在步骤730,基于对每个模型的实例所做的更新而生成报告。在生成报告之后,步骤类似于方法600的最后步骤,特别是步骤620和625。生成的报告被传输到模型源,每个报告都用于改进各自的模型。7 is a flowchart illustrating a
图8是示出了用于使用传输学习来适应在特定环境或应用中训练的数据模型的方法800的流程图,该特定环境或应用在目标数据或应用中可能不具有相同的特征空间或分布。在初始步骤801中,可以从存储的数据创建第一数据集,可选地具有根据前面描述的一个或多个特征方面已识别或移除的偏差(参考图4-7)。在下一步骤802中,可以分析数据集的目的地(例如,数据预定用于的外部应用程序或服务,或与之共享数据的另一环境或部门),以识别数据集的任何需求,诸如(例如)法规、内容,或数据应遵守的格式限制。在下一步骤803中,可以将各种传输学习算法应用于第一数据集,使用机器学习以处理数据并确定其对于目的地的适合性804,以及识别数据必须适应以满足要求的区域。可以根据特定的安排使用许多传输学习方法,例如使用诸如Bayesian或Markov网络之类的概率学习模型来针对可能存在的任何不确定性适当地处理数据传输。在下一步骤805中,可以使用传输学习过程的结果来创建第二数据集,生成包含来自第一数据集的适当和自适应数据的导出数据集,使得第二数据集与目的地完全兼容。在最后步骤806中,可以将第二数据集提供给数据目的地以供使用。8 is a flowchart illustrating a
图9是示出在传输学习中使用预先训练的模型的方法900的流程图,以提供附加模型训练的起点。在初始步骤901中,可以从存储的数据创建第一数据集,可选地具有根据先前描述的一个或多个方面识别或移除的偏差(参考图4-7)。在下一步骤902中,可以分析数据集的目的地(例如,数据预定用于的外部应用程序或服务,或与之共享数据的另一环境或部门),以确定数据集的任何需求,诸如(例如)法规、内容,或数据应遵守的格式限制。在下一步骤903中,可以加载包含标记数据的预训练模型,提供初始模型以用作基于先前标记数据的一部分的无监督学习的起点(与传统的、完全监督的方法相反,其中所有数据必须手动标记以供机器学习操作)。在下一步骤904中,无监督机器学习随后可以根据预先训练的模型中的标记数据来处理第一数据集,从标记数据构建以开发用于传输和域自适应的第二数据模型905。9 is a flowchart illustrating a
硬件架构hardware architecture
通常,在此所公开的技术可以在硬件上或者软件与硬件的组合上实施。例如,它们可以实施在操作系统内核中、在单独的用户进程中、在绑定到网络应用程序的库包中、在特殊构造的机器上、在专用集成电路(ASIC)上或在网络接口卡上。Generally, the techniques disclosed herein may be implemented on hardware or a combination of software and hardware. For example, they can be implemented in the operating system kernel, in a separate user process, in a library package bound to a network application, on a specially constructed machine, on an application specific integrated circuit (ASIC), or on a network interface card superior.
在此所公开的至少一些特征方面的软件/硬件混合实施方式可实施在可编程网络驻留机器(应理解为包括间歇性连接的网络感知机器)上,其由存储在存储器中的计算机程序选择性地激活或重新配置。该网络装置可以具有多个网络接口,这些网络接口可以被配置或设计为利用不同类型的网络通信协议。在此可描述其中一些机器的一般架构,以便说明一个或多个示例性手段,通过这些手段可以实施给定的功能单元。根据特定的特征方面,在此所公开的各个特征方面的至少一些特征或功能可以在与一个或多个网络相关联的一个或多个通用计算机上实施,诸如例如终端用户计算机系统、客户端计算机、网络服务器或其他服务器系统,移动计算装置(例如,平板电脑、移动电话、智能手机、笔记本电脑或其他适当的计算装置)、消费电子装置、音乐播放器或任何其他适当的电子装置、路由器、交换机或其他适当的装置,或其任何组合。在至少一些特征方面中,在此所公开的各个特征方面的至少一些特性或功能可实施在一个或多个虚拟计算环境(例如,网络计算云、驻留在一个或多个物理计算机器上的虚拟机、或其他适当的虚拟环境)中。Hybrid software/hardware implementations of at least some of the features disclosed herein may be implemented on a programmable network-resident machine (understood as including intermittently connected network-aware machines) selected by a computer program stored in memory be activated or reconfigured automatically. The network device may have multiple network interfaces that may be configured or designed to utilize different types of network communication protocols. The general architecture of some of these machines may be described herein in order to illustrate one or more exemplary means by which a given functional unit may be implemented. According to certain feature aspects, at least some of the features or functions of the various feature aspects disclosed herein may be implemented on one or more general-purpose computers, such as, for example, end-user computer systems, client computers, associated with one or more networks , web server or other server system, mobile computing device (eg, tablet, mobile phone, smartphone, laptop or other suitable computing device), consumer electronic device, music player or any other suitable electronic device, router, switch or other suitable device, or any combination thereof. In at least some feature aspects, at least some of the features or functionalities of the various feature aspects disclosed herein may be implemented in one or more virtual computing environments (eg, network computing clouds, computer systems residing on one or more physical computing machines) virtual machine, or other suitable virtual environment).
现在参考图10,示出了描述适于实施在此所公开的特征或功能的至少一部分的示例性计算装置10的框图。例如,计算装置10可以是之前段落所列的任何一台计算机器,或者实际上是能够根据存储在存储器中的一个或多个程序执行基于软件或硬件的指令的任何其他电子装置。计算装置10可以被配置成使用用于这种通信的已知协议在诸如广域网、城域网、局域网、无线网、因特网或任何其它网络的通信网络上与诸如客户端或服务器的多个其它计算装置通信,不管是无线的还是有线的。Referring now to FIG. 10, a block diagram depicting an
在一个方面中,计算装置10包括一个或多个中央处理单元(CPU)12、一个或多个接口15和一个或多个总线14(例如外围部件互连(PCI)总线)。当在适当的软件或固件的控制下动作时,CPU12可负责实施特定配置的计算装置或机器的功能相关联的特定功能。例如,在至少一个特征方面中,计算装置10可以被配置或设计成利用了CPU12、本地存储器11和/或远程存储器16和接口15的服务器系统。在至少一个特征方面中,CPU12可导致在软件模块或部件的控制下执行一种或多种不同类型的功能和/或操作,其例如可包括操作系统和任何适当的应用软件、驱动程序等。In one aspect,
CPU12可以包括一个或多个处理器13,例如,来自Intel、ARM、Qualcomm和AMD系列微处理器之一的处理器。在一些特征方面中,处理器13可以包括特别设计的硬件,诸如用于控制计算装置10的操作的专用集成电路(ASICs)、电可擦除可编程只读存储器(EEPROMs)、现场可编程门阵列(FPGAs)等。在特定特征方面中,本地存储器11(诸如非易失性随机存取存储器(RAM)和/或只读存储器(ROM),包括例如一个或多个级别的高速缓存存储器)也可以构成CPU12的一部分。然而,有许多不同的方式可以将存储器耦合到系统10。存储器11可用于各种目的,诸如例如,高速缓存和/或存储数据、编程指令等。应该进一步认识到,CPU12可以是各种片上系统(SOC)类型硬件,其可以包括诸如存储器或图形处理芯片之类的额外硬件如本领域中越来越普遍的CPU,诸如QUALCOMM SNAPDRAGONTM或者三星EXYNOSTMCPU,诸如用于移动装置或集成装置。
如在此所使用的,术语“处理器”不仅限于本领域中所指的涉及处理器、移动处理器或微处理器的集成电路,而是广泛地指微控制器、微型计算机、可编程逻辑控制器、专用集成电路和任何其他可编程电路。As used herein, the term "processor" is not limited to an integrated circuit referred to in the art involving a processor, mobile processor, or microprocessor, but broadly refers to a microcontroller, microcomputer, programmable logic Controllers, ASICs and any other programmable circuits.
在一个方面中,接口15被提供为网络接口卡(NICs)。通常,NICs控制通过计算机网络的数据分组的发送和接收;例如,其它类型的接口15可以支持与计算装置10一起使用的其它外围装置。可提供的接口包括以太网接口、帧中继接口、电缆接口、DSL接口、令牌环接口、图形接口等。此外,可以提供各种类型的接口,例如,通用串行总线(USB)、串行、以太网、FIREWIRETM、THUNDERBOLTTM、PCI、并行、射频(RF)、BLUETOOTHTM、近场通信(例如,使用近场磁学)、802.11(WiFi)、帧中继、TCP/IP、ISDN、快速以太网接口、千兆以太网接口、串行ATA(SATA)或外部SATA(ESATA)接口、高清多媒体接口(HDMI),数字视频接口(DVI)、模拟或数字音频接口、异步传输模式(ATM)接口、高速串行接口(HSSI)接口、销售点(POS)接口、光纤数据分布式接口(FDDIs)等。通常,该接口15可以包括适于与适当介质通信的物理端口。在一些情况下,它们还可以包括独立的处理器(诸如专用的音频或视频处理器,这在本领域用于高保真A/V硬件接口中是常见的)和在一些情况下,易失性和/或非易失性存储器(例如RAM)。In one aspect, the interfaces 15 are provided as network interface cards (NICs). Generally, NICs control the transmission and reception of data packets over a computer network; for example, other types of interfaces 15 may support other peripherals used with
尽管图10所示的系统示出了用于实施本文所述的一个或多个方面的计算装置10的一个特定架构,但它决不是可在其上实施本文所述的特征和技术的至少一部分的唯一装置架构。例如,可以使用具有一个或任意数量的处理器13的架构,并且这样的处理器13可以存在于单个装置中或分布在任意数量的装置中。在一个特征方面中,单个处理器13处理通信以及路由计算,而在其他特征方面中,可以提供单独的专用通信处理器。在各种特征方面中,根据包括客户端装置(例如运行客户端软件的平板装置或智能手机)和服务器系统(例如下面更详细描述的服务器系统)的特征方面,可以在系统中实施不同类型的特征或功能。Although the system shown in FIG. 10 illustrates one particular architecture of a
不管网络装置配置如何,特征方面的系统可以采用一个或多个存储器或存储器模块(例如,远程存储器块16和本地存储器11),其被配置为存储用于通用网络操作的数据、程序指令,或与本文所描述的方面的功能性相关的其他信息(或上述的任何组合)。例如,程序指令可以控制操作系统和/或一个或多个应用程序的执行或包括操作系统和/或一个或多个应用程序。存储器16或存储器11、16也可以被配置成存储数据结构、配置数据、加密数据、历史系统操作信息、或在此所描述的任何其它特定或一般的非程序信息。Regardless of the network device configuration, the system of the features may employ one or more memories or memory modules (eg,
因为此类信息和程序指令可被用于实施本文所述的一个或多个系统或方法,因此至少一些网络装置方面可包括非翻译的机器可读存储介质,其例如可被配置或设计为存储程序指令、状态信息,以及用于执行本文所述的各种操作的类似物。此类非翻译性机器可读存储介质的示例包括但不限于磁盘、软盘和磁带等磁性介质;CD-ROM磁盘等光学介质;光盘等磁光介质,以及专门配置用于存储和执行程序指令的硬件装置,例如只读存储装置(ROM)、闪存(在移动装置和集成系统中很常见),固态驱动器(SSD)和“混合SSD”存储驱动器,它们可以将固态驱动器和硬盘驱动器的物理部件组合在一个硬件装置中(就个人计算机而言,这在本领域正变得越来越普遍)、存储器、随机存取存储器(RAM)等。应当理解,这种存储装置可以是整体的和不可移动的(例如可以焊接到主板上或以其他方式集成到电子装置中的RAM硬件模块),或者它们可以是可移动的,诸如可交换闪存模块(诸如“拇指驱动器”或设计用于快速交换物理存储装置的其他可移动介质)、“热交换”硬盘驱动器或固态驱动器、可移动光盘或其他此类可移动介质,以及这样的整体存储介质和可移动存储介质可以互换使用。程序指令的示例包括两个目标代码,例如编译器生成的目标代码,机器代码,例如汇编程序或链接程序生成的目标代码,字节代码,例如JAVA生成的目标代码TM编译器,可以使用Java虚拟机或等效程序执行,也可以使用解释器执行包含更高级别代码的文件(例如,用Python、Perl、Ruby、Groovy或任何其他脚本语言编写的脚本)。Because such information and program instructions can be used to implement one or more of the systems or methods described herein, at least some aspects of the network device can include non-translated machine-readable storage media, which, for example, can be configured or designed to store Program instructions, status information, and the like for performing the various operations described herein. Examples of such non-translational machine-readable storage media include, but are not limited to, magnetic media such as magnetic disks, floppy disks, and magnetic tapes; optical media such as CD-ROM disks; magneto-optical media such as optical disks; Hardware devices, such as read-only memory (ROM), flash memory (common in mobile devices and integrated systems), solid-state drives (SSD), and "hybrid SSD" storage drives, which combine the physical components of solid-state drives and hard-disk drives In a hardware device (which is becoming more common in the art in the case of personal computers), memory, random access memory (RAM), etc. It should be appreciated that such storage devices may be integral and non-removable (eg, RAM hardware modules that may be soldered to the motherboard or otherwise integrated into the electronic device), or they may be removable, such as swappable flash memory modules (such as "thumb drives" or other removable media designed to quickly swap physical storage devices), "hot-swap" hard disk drives or solid state drives, removable optical discs or other such removable media, and such integral storage media and Removable storage media can be used interchangeably. Examples of program instructions include two object code, such as object code generated by a compiler, machine code, such as object code generated by an assembler or linker, byte code, such as object code generated by a JAVA TM compiler, which can be virtualized using a Java TM compiler. The interpreter can also be used to execute files containing higher-level code (for example, scripts written in Python, Perl, Ruby, Groovy, or any other scripting language).
在某些特征方面中,系统可以在独立的计算系统上实施。现在参考图11,示出了在独立计算系统上描绘一个或多个方面或其部件的典型示例性架构的框图。计算装置20包括处理器21,其可以运行执行一个或多个功能或方面的应用的软件,例如客户端应用24。处理器21可以在操作系统22的控制下执行计算指令,诸如例如,MICROSOFT WINDOWSTM操作系统、APPLE macOSTM或iOSTM操作系统、一些Linux操作系统、ANDROIDTM操作系统等的版本。在许多情况下,一个或多个共享服务23可在系统20中运行,并且可用于向客户端应用24提供公共服务。例如,服务23可以是WINDOWSTM服务、Linux环境中的用户空间公共服务,或与操作系统21一起使用的任何其他类型的公共服务体系结构。输入装置28可以是适于接收用户输入的任何类型,包括例如键盘、触摸屏、话筒(例如,用于语音输入)、鼠标、触摸板、轨迹球或其任何组合。输出装置27可以是适合于向一个或多个用户提供输出的任何类型,无论是系统20的远程或本地用户,并且可以包括例如用于视觉输出的一个或多个屏幕、扬声器、打印机或其任何组合。存储器25可以是具有本领域已知的任何结构和架构的随机存取存储器,用于处理器21,例如用于运行软件。存储装置26可以是用于以数字形式存储数据的任何磁性、光学、机械、存储器或电存储装置(例如,上面描述的那些,参考图10)。存储装置26的示例包括闪存、磁性硬盘、CD-ROM等。In certain feature aspects, the system may be implemented on a separate computing system. Referring now to FIG. 11, a block diagram depicting a typical exemplary architecture of one or more aspects or components thereof on a stand-alone computing system is shown. Computing device 20 includes a
在一些特征方面中,系统可以在分布式计算网络上实施,诸如具有任意数量的客户端和/或服务器的网络。现在参考图12,示出了描述用于在分布式计算网络上实施根据一个方面的系统的至少一部分的示例性架构30的框图。根据该特征方面,可以提供任意数量的客户端33。每个客户端33可以运行用于实施系统的客户端部分的软件;客户端可以包括如图11所示的系统20。此外,可以提供任意数量的服务器32来处理从一个或多个客户端33接收到的请求。客户端33和服务器32可以经由一个或多个电子网络31彼此通信,该电子网络31可以在各个特征方面中是因特网、广域网、移动电话网络(例如CDMA或GSM蜂窝网络)、无线网络(例如WiFi、WiMAX、LTE等)或局域网(或者实际上是任何网络本领域已知的拓扑;特征方面并未优选任何一种网络拓扑)。网络31可以使用任何已知的网络协议来实施,包括例如有线和/或无线协议。In some feature aspects, the system may be implemented on a distributed computing network, such as a network with any number of clients and/or servers. Referring now to FIG. 12, a block diagram depicting an
此外,在一些特征方面中,服务器32在需要时可以调用外部服务37以获取附加信息,或者引用关于特定呼叫的附加数据。例如,可以经由一个或多个网络31与外部服务37进行通信。在各种特征方面中,外部服务37可以包括与硬件设备本身相关的或安装在硬件装置本身上的支持网络的服务或功能。例如,在客户端应用24在智能手机或其他电子设备上实施的一个方面中,客户端应用24可以获取存储在云中的服务器系统32或部署在特定企业或用户的一个或多个场所上的外部服务37上的信息。Furthermore, in some feature aspects, the server 32 may invoke
在一些特征方面中,客户端33或服务器32(或两者)可以使用一个或多个专用服务或装置,这些服务或装置可以在一个或多个网络31上本地或远程部署。例如,一个或多个数据库34可由一个或多个方面使用或参考。本领域的普通技术人员应当理解,数据库34可以以各种各样的架构而布置,并且使用各种各样的数据访问和操作装置。例如,在各个方面中,一个或多个数据库34可以包括使用结构化查询语言(SQL)的关系数据库系统,而其他数据库34可以包括诸如本领域中称为“NoSQL”的替代数据存储技术(例如,HADOOPCASSANDRATM,GOOGLE BIGTABLETM,等等)。在一些特征方面中,可根据该方面使用各种数据库架构,例如面向列的数据库、内存中数据库、集群数据库、分布式数据库、甚至平面文件数据存储库。本领域普通技术人员应当理解,可以酌情使用已知的或未来的数据库技术的任何组合,除非针对本文描述的特定方面指定特定的数据库技术或部件的特定排列。此外,应理解,本文中使用的术语“数据库”可指物理数据库机器、充当单个数据库系统的机器集群或整个数据库管理系统内的逻辑数据库。除非为“数据库”一词的给定使用指定了特定的含义,否则应解释为该词的任何这些含义,所有这些都被本领域技术人员理解为“数据库”一词的简单含义。In some feature aspects,
类似地,一些特征方面可以使用一个或多个安全系统36和配置系统35。安全和配置管理是常见的信息技术(IT)和网络功能,其中一些通常与任何IT或网络系统相关。本领域普通技术人员应当理解,本领域现在或者将来已知的任何配置或者安全子系统可以与方面一起使用而不受限制,除非对任何特定方面的描述特别要求特定的安全36或者配置系统35或者方法。Similarly, some feature aspects may utilize one or more of the
图13示出了可以在整个系统的各个位置中的任何位置使用的计算机系统40的示例性概述。它是任何可以执行代码来处理数据的计算机的示例。在不脱离本文公开的系统和方法的更广泛范围的情况下,可以对计算机系统40进行各种修改和改变。中央处理器单元(CPU)41连接到总线42,总线还连接到存储器43、非易失性存储器44、显示器47、输入/输出(I/O)单元48和网络接口卡(NIC)53。通常,I/O单元48可以连接到键盘49、指针设备50、硬盘驱动52和实时时钟51。NIC53连接到网络54,网络54可以是因特网,也可以是本地网络,本地网络可以有也可以没有到因特网的连接。在本例中,作为系统40的一部分还示出了连接到主交流(AC)电源46的电源单元45。未示出的是可能存在的电池,以及许多已知但不适用于本文公开的当前系统和方法的特定新颖功能的其他装置和修改。应当理解,所示的一些或所有部件可以组合在一起,例如在各种集成应用中,例如在高通或三星系统芯片(SOC)设备中,或者在将多个功能或功能组合到单个硬件设备(例如,在移动设备中,如智能手机、视频游戏控制台、车载计算机系统诸如导航或汽车多媒体系统、或其他集成硬件设备中)。FIG. 13 shows an exemplary overview of
在各个特征方面中,用于实施各个方面的系统或方法的功能可以分布在任意数量的客户端和/或服务器部件中。例如,可以实施各种软件模块以执行与任何特定特征方面的系统相关的各种功能,并且可以不同地实施这些模块以在服务器和/或客户端部件上运行。In various feature aspects, the functionality of a system or method for implementing the various aspects may be distributed among any number of client and/or server components. For example, various software modules may be implemented to perform various functions associated with the system in any particular feature, and these modules may be implemented differently to run on server and/or client components.
本领域技术人员将了解上述各个特征方面的可能修改的范围。因此,本发明由权利要求及其等价形式而限定。Those skilled in the art will appreciate the scope of possible modifications with respect to the various features described above. Accordingly, the invention is defined by the claims and their equivalents.
Claims (10)
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US15/835436 | 2017-12-07 | ||
| US15/835,436 US10572828B2 (en) | 2015-10-28 | 2017-12-07 | Transfer learning and domain adaptation using distributable data models |
| PCT/US2018/064555 WO2019113501A1 (en) | 2017-12-07 | 2018-12-07 | Transfer learning and domain adaptation using distributable data models |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111556998A true CN111556998A (en) | 2020-08-18 |
Family
ID=66751779
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201880084930.6A Withdrawn CN111556998A (en) | 2017-12-07 | 2018-12-07 | Transfer learning and domain adaptation using distributable data models |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP3721351A4 (en) |
| CN (1) | CN111556998A (en) |
| WO (1) | WO2019113501A1 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110659744B (en) * | 2019-09-26 | 2021-06-04 | 支付宝(杭州)信息技术有限公司 | Method and apparatus for training event prediction model and evaluating operational events |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014149827A1 (en) * | 2013-03-15 | 2014-09-25 | REMTCS Inc. | Artificial neural network interface and methods of training the same for various use cases |
| US10318882B2 (en) * | 2014-09-11 | 2019-06-11 | Amazon Technologies, Inc. | Optimized training of linear machine learning models |
| US10102480B2 (en) * | 2014-06-30 | 2018-10-16 | Amazon Technologies, Inc. | Machine learning service |
| US10210255B2 (en) * | 2015-12-31 | 2019-02-19 | Fractal Industries, Inc. | Distributed system for large volume deep web data extraction |
-
2018
- 2018-12-07 WO PCT/US2018/064555 patent/WO2019113501A1/en not_active Ceased
- 2018-12-07 CN CN201880084930.6A patent/CN111556998A/en not_active Withdrawn
- 2018-12-07 EP EP18885094.5A patent/EP3721351A4/en not_active Withdrawn
Also Published As
| Publication number | Publication date |
|---|---|
| WO2019113501A1 (en) | 2019-06-13 |
| EP3721351A1 (en) | 2020-10-14 |
| EP3721351A4 (en) | 2021-09-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10572828B2 (en) | Transfer learning and domain adaptation using distributable data models | |
| US20240220492A1 (en) | Distributable model with biases contained within distributed data | |
| US10884999B2 (en) | Distributable model with biases contained within distributed data | |
| US12407735B2 (en) | Inclusion of time-series geospatial markers in analyses employing a cyber-decision platform | |
| US20240256982A1 (en) | Removing biases within a distributed model | |
| US20240214427A1 (en) | Creating simulation models for complex adaptive systems using a multi-model, generative approach | |
| US20180247321A1 (en) | Platform for management of marketing campaigns across multiple distribution mediums | |
| US11636549B2 (en) | Cybersecurity profile generated using a simulation engine | |
| US20170124490A1 (en) | Inclusion of time series geospatial markers in analyses employing an advanced cyber-decision platform | |
| US20220276849A1 (en) | System and method for holistic application development and deployment in a distributed heterogeneous computing environment | |
| US20220043806A1 (en) | Parallel decomposition and restoration of data chunks | |
| WO2020150194A1 (en) | Multi-model generative simulation modeling of complex adaptive systems | |
| US20200004904A1 (en) | System and method for multi-model generative simulation modeling of complex adaptive systems | |
| US20200004905A1 (en) | System and methods for complex it process annotation, tracing, analysis, and simulation | |
| US11714991B2 (en) | System and methods for creation of learning agents in simulated environments | |
| US11321637B2 (en) | Transfer learning and domain adaptation using distributable data models | |
| CN111556998A (en) | Transfer learning and domain adaptation using distributable data models | |
| WO2020167539A1 (en) | System and method for complex it process annotation, tracing, analysis, and simulation | |
| WO2019071055A1 (en) | IMPROVING A DISTRIBUABLE DISTRIBUTED DATA MODEL | |
| JP6816824B2 (en) | Distributed systems, data management devices, data management methods, and programs | |
| US11755957B2 (en) | Multitemporal data analysis | |
| WO2019071057A1 (en) | Improving a distributable model with biases contained within distributed data | |
| US12542816B2 (en) | Complex IT process annotation, tracing, analysis, and simulation | |
| EP3707634A1 (en) | Cybersecurity profile generated using a simulation engine | |
| US20210117116A1 (en) | Logging, streaming and analytics platforms using any s3 compatible store as primary store |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WW01 | Invention patent application withdrawn after publication | ||
| WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200818 |