CN110300979A

CN110300979A - 广义操作感知：新生人工神经网络

Info

Publication number: CN110300979A
Application number: CN201780085807.1A
Authority: CN
Inventors: 塞尔坎·基兰亚兹; 特克尔·因斯; 蒙塞夫·格波布杰; 亚历山德罗斯·约瑟菲迪斯
Original assignee: Qatar University
Current assignee: Qatar University
Priority date: 2017-02-07
Filing date: 2017-02-07
Publication date: 2019-10-01
Anticipated expiration: 2037-02-07
Also published as: WO2018146514A9; CN110300979B; US12033071B2; WO2018146514A1; US20210097389A1

Abstract

某些实施方式通常可涉及用于机器学习的各种技术。前馈、完全连接的人工神经网络(ANN)，或所谓的多层感知器(MLP)是众所周知的通用逼近器。但是，取决于它们尝试逼近学习的功能或解空间，它们的学习性能可能会有很大差异。这是因为它们基于松散且粗略的生物神经元模型，仅承诺线性转化，然后是非线性激活功能。因此，虽然它们很好地学习了单调、相对简单且线性可分离的解空间的问题，但当解空间高度非线性且复杂时，它们可能完全不能这样做。为了解决这个缺点并且还实现生物神经元和学习系统的更广义的模型，可以形成广义操作感知器(GOP)，并且它们可以封装许多线性和非线性运算符。

Description

广义操作感知：新生人工神经网络

技术领域

某些实施方式通常可涉及用于机器学习的各种技术。更具体地，本发明的某些实施方式一般涉及前馈、完全连接的人工神经网络(ANN)、训练广义操作感知器(GOP)，以及利用渐进操作感知器(POP)实现自组织和深度自适应GOP。

背景技术

广义上的学习可以是分类、数据回归、特征提取和综合或函数逼近的形式。例如，分类的目标是找出每个类的输入数据(原始信号、数据或特征向量)到N维空间中与其他空间分离得很远的不同位置的正确转换，其中N是类的数量。因此，学习中的挑战是找到正确转换(线性或非线性)或一般来说，找到正确的连续变换集合，以便达到潜在的学习目标。为此目的，大多数现有分类器仅使用一个或几个(非)线性运算符。一个实例是支持向量机(SVM)，其中必须对将要使用的(非)线性核函数进行关键选择，并随后定义适当的参数。即使可以针对内核函数的参数优化分类器的性能，与通过使用适合当前问题特征的内核函数可以实现的性能进行相比，选择不适当的内核函数可能导致性能低下。

例如，考虑图1中所示的两个样本特征变换(FS-1和FS-2)，其中为了说明的目的，特征仅以1-D和2-D示出，并且仅考虑两类问题。在FS-1的情况下，具有二次形式的多项式核的SVM将正确地变换为3-D，使得新的(变换的)特征是线性可分的。然而，对于FS-2，可以替代地使用具有正确频率f的正弦曲线。因此，特别是在实际和复杂的问题中，只能实现正确的(一组)变换的高水平的操作多样性是至关重要的。

在生物学习系统中，这在神经元细胞水平上得到解决。例如，图2示出了具有信号流方向的生物神经元(左)和哺乳动物神经系统中的突触(右)。每个神经元通过三种不同的操作传导电信号：1)树突中的突触连接，来自输入神经元轴突末端的突触连接的每个输入信号的单独操作；2)通过胞体内的空间和时间信号积分器对操作的输入信号进行池操作；和3)激活轴突的初始部分或所谓的轴突小丘。如果合并电位超过一定限度，则轴突“激活”一系列脉冲(称为动作电位)。

如图2的右侧所示，每个终端按钮可以通过称为突触的小间隙连接到其他神经元。每个突触的物理和神经化学特征决定了信号操作，该信号操作通常与新输入信号的信号强度和极性一起是非线性的。信息存储或处理集中在单元的突触连接中，或者更精确地通过这些连接的某些操作以及连接强度(权重)。这种生物神经元或神经系统通常由多种完全的或部分的结构、生物化学和电生理学特性的神经元类型构建。例如，在哺乳动物视网膜中，存在大约55种不同类型的神经元来执行低水平视觉感测。它们中的22个的功能是已知的，并且通过结构标准定义为“类型”的单元执行不同的个体生理功能(操作者)。因此，在神经系统中，创建具有适当权重(参数)的若干不同操作以实现这种多样性并及时训练以执行或“学习”许多神经功能。具有更高计算运算符的多样性的神经网络具有更多的计算能力，并且添加更多神经多样性的事实也允许网络大小和总连接得以减少。

传统的人工神经网络被设计用于模拟生物神经元。然而，最好的ANN模型仅仅基于生物学。最典型的ANN神经元模型是McCulloch-Pitts，其主要用于许多前馈ANN，如多层感知器(MLP)。如下面等式(1)中所示，在该形式模型中，人工神经元执行以突触权重缩放的线性求和。因此，具有不同神经化学操作的突触连接和胞体中的积分仅被建模为线性变换，或者换句话说，线性加权和，随后是可能的非线性阈值函数f(.)，也被称为激活函数。

在等式(1)中，该模型是生物神经元的有限粗糙模型，这是使人工神经网络在许多问题上具有较高的学习和泛化性能变化的原因之一。已经有一些尝试通过改变神经元模型和/或传统的反向传播(BP)算法来修改MLP。但是，它们的性能改进一般来说并不重要。即使根据手头的问题优化了网络拓扑或参数更新，这些方法仍然继承了MLP的主要缺点。例如，它们采用等式(1)中描述的常规神经元模型。对于其他ANN拓扑结构，如递归神经网络、长期短期记忆网络和卷积神经网络，也是如此。

另一个前馈和完全连接的ANN是径向基函数(RBF)，它采用一组RBF，每个RBF嵌入隐藏神经元中。最典型的RBF是高斯，并且由于这种非线性运算符，RBF网络承诺比MLP更快的学习能力。然而，由于它们仅使用一个运算符RBF，而不管手头的问题如何，它们仍然存在无法逼近某些功能或区分某些模式的相同主要问题，除非使用(有时不可实行地)大型网络配置。

因此，需要解决该缺点并实现更普遍的生物神经元模型。还需要提供一种单独搜索每个层的最优运算符的方法；否则，具有多个隐藏层的GOP的搜索空间可能不可实行地大。

考虑到以下详细说明、附图和权利要求，本发明的其他特征、优点和实施方式已被阐述或显而易见。此外，应该理解，本发明的前述发明内容和下面的详细描述都是示例性的，并且旨在提供进一步的解释而不限制所要求保护的本发明的范围。

发明内容

一个实施方式可以涉及一种方法，该方法可以包括在输入层的输入神经节点接收数据，所接收的数据对应于要完成的学习目标。该方法还可以包括通过将所述输入层指定为最大POP配置(POP_max)的输入层来初始化最终POP。该方法还可以包括通过使用POP_max的输入层、第一隐藏层和输出层的配置，来形成3层单隐藏层多层渐进操作感知器(第一GOP_min)。该方法还可以包括将所形成的第一GOP_min的隐藏层作为最终POP的第一隐藏层插入，生成第一GOPmin的学习性能统计，并确定利用第一GOPmin是否可以达到学习目标。如果达到学习目标，则可以终止形成过程。否则，如果使用第一GOP_min无法达到所述学习目标，则该方法可以包括通过前向传播训练数据、使用先前隐藏层的输出作为输入层、使用所述POP_max的第二隐藏层作为隐藏层并且使用所述POP_max的输出层作为输出层的配置来形成第二3层单隐藏层多层渐进操作感知器(第二GOP_min)。该方法还可以包括形成所述第二GOP_min，并插入所形成的第二GOP_min的隐藏层作为所述最终POP的第二隐藏层。另外，该方法可以包括生成所述第二GOP_min的学习性能统计。该方法还可以包括检查利用所述第二GOP_min是否达到目标性能，如果没有达到，则重复：以相同的顺序形成、检查并插入第三、第四和附加的GOP_min，直到达到所述目标性能或形成POP_max的所有隐藏层。该方法还可以包括形成所述最终POP的输出层作为形成的最后GOP_min的输出层。

在一个实施方式中，所述第一隐藏层和附加隐藏层以及输出层的形成可以包括确定包含在其中的神经节点的最优运算符和参数。在另一实施方式中，当确定能够利用所述第一隐藏层实现所述学习目标时，所述方法可以还包括将所述第一隐藏层附加到最终的多层渐进操作感知器作为其第一隐藏层。在另一实施方式中，可以通过贪婪迭代搜索来执行所述第一隐藏层和附加隐藏层的形成。在又一个实施方式中，所述贪婪迭代搜索可以包括通过顺序地将一个运算符集分配给所述第一隐藏层和所述附加隐藏层的所有神经节点来执行分层评估。

另一个实施方式可以涉及一种装置。该装置可以包括：至少一个存储器，包括计算机程序代码；和至少一个处理器。该至少一个存储器和计算机程序代码可以与至少一个处理器一起配置，以使该装置至少在输入层的输入神经节点接收数据，所接收的数据对应于要完成的学习目标。该至少一个存储器和计算机程序代码还可以与至少一个处理器一起配置，以使所述装置至少使用最大POP配置(POP_max)的第一隐藏层和的输出层形成3层单隐藏层多层渐进操作感知器(第一GOP_min)。该至少一个存储器和计算机程序代码还可以与所述至少一个处理器一起配置，以使该装置至少确定利用所述第一隐藏层是否能够达到所述学习目标。如果使用所述第一隐藏层无法达到所述学习目标，则该至少一个存储器和计算机程序代码还可以与所述至少一个处理器一起配置，以使所述装置至少使用先前隐藏层的输出作为输入层、使用POP_max的第二隐藏层作为唯一隐藏层和POP_max的输出层形成第二3层单隐藏层多层渐进操作感知器(第二GOP_min)。该至少一个存储器和计算机程序代码还可以与至少一个处理器一起配置，以使该装置至少训练该第二GOP_min并检查是否达到目标性能，如果没有达到，则重复训练和检查，直到达到目标性能或形成POP_max的所有隐藏层。该至少一个存储器和计算机程序代码还可以与至少一个处理器一起配置，以使该装置至少形成对应于该第一隐藏层和任何附加隐藏层的输出层，并基于接收到的数据生成学习性能统计。

在一个实施方式中，第一隐藏层和附加隐藏层的形成可以包括确定包含在其中的神经节点的最优运算符和参数。在另一个实施方式中，当确定能够利用第一隐藏层达到所述学习目标时，至少一个存储器和计算机程序代码可以还与至少一个处理器一起配置，以使装置至少将第一隐藏层附加到多层渐进操作感知器的最后一层。在又一个实施方式中，可以通过贪婪迭代搜索来执行所述第一隐藏层和附加隐藏层的形成。在另一实施方式中，贪婪迭代搜索可以包括通过顺序地将一个运算符集分配给第一隐藏层和附加隐藏层的所有神经节点来执行分层评估。

另一个实施方式可以涉及在非暂时性计算机可读介质上实现的计算机程序，该计算机程序在通过处理器执行时使处理器在输入层的输入神经节点处接收数据，所接收的数据对应达到要完成的学习目标。该计算机程序当通过处理器执行时还可以使处理器使用最大POP配置(POP_max)的第一隐藏层和的输出层形成3层单隐藏层多层渐进操作感知器(第一GOP_min)。该计算机程序当通过处理器执行时还可以使处理器确定利用第一隐藏层是否能够达到所述学习目标。如果使用所述第一隐藏层无法达到所述学习目标，则该计算机程序当通过处理器执行时还可以使处理器使用先前隐藏层的输出作为输入层、使用POP_max的第二隐藏层作为唯一隐藏层和POP_max的输出层形成第二3层单隐藏层多层渐进操作感知器(第二GOP_min)。该计算机程序当通过处理器执行时还可以使处理器训练第二GOP_min并检查是否达到目标性能，如果没有达到，则重复训练和检查，直到达到所述目标性能或形成POP_max的所有隐藏层。当通过处理器执行时，计算机程序还可以使处理器形成对应于第一隐藏层和任何附加隐藏层的输出层，并基于接收到的数据生成学习性能统计。

在一个实施方式中，所述第一隐藏层和附加隐藏层的形成可以包括确定包含在其中的神经节点的最优运算符和参数。在另一个实施方式中，当确定能够利用所述第一隐藏层达到所述学习目标时，所述计算机程序在通过处理器执行时可以还使所述处理器将所述第一隐藏层附加到所述多层渐进操作感知器的最后一层。在又一个实施方式中，可以通过贪婪迭代搜索来执行所述第一隐藏层和附加隐藏层的形成。在另一实施方式中，所述贪婪迭代搜索可以包括通过顺序地将一个运算符集分配给所述第一隐藏层和所述附加隐藏层的所有神经节点来执行分层评估。

附图说明

附图被包括以提供对本发明的进一步理解，并且被并入并构成本说明书的一部分，附图示出了本发明的优选实施方式，并且与具体实施方式一起用于解释本发明的原理。在附图中：

图1示出了在2-D(FS-1)和1-D(FS-2)特征空间上执行的两个样本特征合成。

图2示出了具有信号流方向的生物神经元(左)和突触(右)。

图3示出了根据某些实施方式的在来自前一层神经元的输出的层-l处GOP神经元的形成。

图4示出了根据某些实施方式的来自4隐藏层POP_max的3隐藏层POP的样本渐进形成。

图5示出了根据某些实施方式的双螺旋问题。

图6示出了根据某些实施方式的图5的扩展双螺旋，其数据点是原始问题的30倍。

图7示出了根据某些实施方式的具有1000个样本的1-D Rastrigin函数。

图8示出了根据某些实施方式的具有2500个样本的2-D Rastrigin函数。

图9(顶部)示出了根据某些实施方式的1,000个样本的白噪声与其具有最优性能的深度MLP逼近，并且(底部)示出了缩放部分。

图10(顶部)示出了根据某些实施方式的5000个样本的最后部分的白噪声与其具有最优性能的POP逼近，并且(底部)示出了缩放部分。

图11示出了根据某些实施方式的流程图。

图12示出了根据某些实施方式的系统。

在以下说明性实施方式的详细描述中，参考了形成其一部分的附图。这些实施方式的详细描述足以使本领域技术人员能够实践本发明，并且应当理解，可以利用其他实施方式，并且可以在不脱离本发明的精神或范围的情况下对本发明进行逻辑或结构上的改变。为了避免对本领域技术人员实施本文所述实施方式而言不必要的细节，该描述可以省略本领域技术人员已知的某些信息。因此，以下具体实施方式不应被视为具有限制意义。

具体实施方式

整个说明书中描述的本发明的特征、结构或特性可以在一个或多个实施方式中以任何合适的方式组合。例如，在整个说明书中使用的短语“某些实施方式”、“一些实施方式”或其他类似语言是指结合该实施方式进行描述的特定特征、结构或特性可被包含在本发明的至少一个实施方式中的事实。

这里描述的实例仅用于说明目的。如本领域技术人员将理解的，本文描述的某些实施方式包括，例如，但不限于图1-11中所示的那些，并且可以体现为系统、装置、方法或计算机程序产品。因此，某些实施方式可以采用完全软件实施方式或组合软件和硬件方面的实施方式的形式。软件可以包括但不限于固件、常驻软件或微代码。此外，其他实施方式可以采用可从计算机可用或计算机可读介质访问的计算机程序产品的形式，该计算机可用或计算机可读介质提供由计算机或任何指令执行系统使用或与其结合使用的程序代码。

在本文描述的某些实施方式中可以使用一个或多个计算机可用或计算机可读介质的任何组合。出于本说明书的目的，计算机可用或计算机可读介质可以是任何装置，该装置能够包含、存储、通信、传播或传输由指令执行系统、装置或设备使用或与其结合使用的程序，计算机可用或计算机可读介质可以是，例如，但不限于电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体实例(非详尽的列表)可以独立地是任何合适的存储设备，诸如非暂时性计算机可读介质。合适类型的存储器可包括，但不限于：便携式计算机磁盘；硬盘驱动器(HDD)、随机存取存储器(RAM)、只读存储器(ROM)；可擦除可编程只读存储器(EPROM或闪存)；便携式光盘只读存储器(CDROM)；和/或光学存储设备。

存储器可以在单个集成电路上组合成处理器，或者可以与其分离。此外，存储在存储器中的计算机程序指令可以由处理器处理，可以是任何合适形式的计算机程序代码，例如，以任何合适的编程语言编写的编译或解释的计算机程序。存储器或数据存储实体通常是内部的，但也可以是外部的或其组合，如在从服务提供商获得额外存储器容量的情况下。存储器也可以是固定的或可移动的。

计算机可用程序代码(软件)可以通过任何传统网络使用任何适当的传输介质进行传输。当在硬件中执行时，用于执行某些实施方式的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，包括，但不限于诸如Java、Smalltalk、C++、C#之类的面向对象编程语言和诸如“C”编程语言或类似的编程语言之类的传统过程编程语言。或者，某些实施方式可以完全用硬件执行。

根据具体实施方式，程序代码可以完全在用户的设备上执行；作为独立的软件包执行，部分在用户的设备上执行，部分在用户的设备上执行，部分在远程计算机上执行；或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的传统网络连接到用户的设备。这可以包括例如局域网(LAN)或广域网(WAN)、蓝牙、Wi-Fi、卫星或蜂窝网络，或者可以与外部计算机建立连接(例如，通过互联网使用互联网服务提供商)。

根据某些实施方式，可以解决上述各种缺点，并达到更广义的生物神经元模型。在某些实施方式中，这可以通过呈现可以封装许多线性和非线性运算符的GOP来实现。与MLP相反，GOP中的每个神经元可以对其输入信号执行不同的操作。这模仿了具有其突触连接的独特神经化学特征的生物神经元细胞，每个突触连接具有一定的强度(权重)。神经元(节点)只有一个运算符，因此它被称为节点运算符，它使用相同的函数，但是对于来自前一层的每个神经元连接具有不同的参数(权重)。

在某些实施方式中，节点运算符的输出可以与池运算符集成，与MLP相反，池运算符除了求和之外可以是任何适当的积分器。激活运算符(功能)也可以允许类似的灵活性。因此，每个GOP神经元可以具有任何运算符集(节点、池和激活)，其中在运算符库中选择每个运算符以最大化学习或泛化性能。最后，如在MLP中，GOP可以是同构的，其中所有神经元具有相同的运算符集(仅网络参数变化)；或者异构的，其中每个神经元可以具有不同的运算符集，随机选择或适当搜索以最大化多样性并因此最大化学习性能。

根据某些实施方式，为每个神经元找到最优运算符集对于GOP而言是至关重要的。根据其他实施方式，可以使用替代方式形成GOP。在某些实施方式中，可以设计具有最少数量的隐藏层的最小深度GOP，同时它可以以所需精度学习复杂问题。为了达到这一目标，可以提出POP。根据某些实施方式，POP可以是根据学习问题自组织和深度自适应的异构GOP。顾名思义，它们可以逐层渐进创建，同时使用贪婪迭代搜索(GIS)在不同的单个隐藏层GOP内优化每个层的运算符和参数。可以通过GIS形成隐藏层(可以搜索最优运算符集并针对每个隐藏神经元优化参数)，并且只有当它不能以其当前形式实现学习目标时才集成到当前POP中。这种方法可以单独搜索每个层的最优运算符。否则，具有多个隐藏层的GOP的搜索空间可能不可实行地大。

广义操作感知器(GOP)

A.概述

图3示出了根据某些实施方式的在来自前一层神经元的输出的层-l处GOP神经元的形成。如图3所示，在层l+1处i^th第i个GOP神经元有三个运算符：节点运算符池运算符和最后是激活运算符f_i ^l+1。可以假设每个运算符都是从潜在运算符库f_i ^l+1∈{F}中选择的。例如，节点运算符库{Ψ}可以由以下运算符组成：乘法、指数、谐波(正弦曲线)、二次函数、高斯、高斯导数(DoG)、拉普拉斯运算符和埃尔米特，但不限于此。类似地，池运算符库{P}可以包括，但不限于：求和、n-相关、最大值和中值。在某些实施方式中，适合于分类问题的典型激活函数可以在激活运算符库{F}内组合，激活运算符库{F}包括但不限于例如双曲正切(tanh)、线性(linear)和二进制(binary)。

B.GOP的反向传播

根据某些实施方式，对于L层GOP，令l＝1且l＝L分别是输入(In)层和输出(Out)层。输出层中的最小平方误差(MSE)可写为：

对于输入矢量p及其相应的输出矢量可以针对(连接到该神经元k的)个体权重和(神经元k的)偏差计算该误差的导数，使得可以执行梯度下降法以相应地最小化误差：

在某些实施方式中，两个导数可以取决于误差对输入的灵敏度。这些灵敏度通常可称为δ误差。特别地，是层l的第k个神经元的δ误差。可以通过从该神经元的输出后向传播一步来写入δ误差其在下一层中贡献所有神经元的输入，例如：

在找到误差对输出的灵敏度的时刻，可以找到δ误差。对于输出层，l＝L，这两个术语可能是已知的：

考虑到图3中的GOP，前一层神经元的输出可以设置为它可以贡献下一层中所有神经元的输入，例如：

鉴于等式(6)，前一层中第k^th个神经元的输出有助于输入具有单独权重的当前一层的神经元。考虑到这一点，可以将误差对输出的灵敏度写入，如下所示：

其中令和然后等式(7)变成：

在某些实施方式中，对于不同的节点和池运算符，和都将是不同的函数。从输出灵敏度获得该神经元的的过程，可以得到GOP的δ的反向传播的通用等式，可以是如下：

一旦通过反向传播形成每层中的所有δ，则可以通过梯度下降法更新每个神经元的权重和偏差。具体地，层l的第k个神经元的可以用于更新该神经元的偏差以及与该神经元连接的前一层中的神经元的所有权重。GOP中的偏差更新可以与MLP相同：

对于权重灵敏度，导数的链规则可以写成，

其中令然后等式(11)简化为，

表1示出了根据某些实施方式的一些样本节点运算符及其导数其分别对应前一层神经元的权重和输出类似地，表2给出了一些典型的池运算符及其导数，其中前一层中第k个神经元的权重和输出对应第i个神经元的节点运算符在层l+1的输出。使用这些查找表，可以反向传播输出层上的误差并且可以计算权重灵敏度。可以迭代地运行BP迭代以更新GOP中每个神经元的权重(节点运算符的参数)和偏差，直到满足停止标准，诸如最大迭代次数(iterMax)或目标学习目标。结果，表3中给出了GOP的BP训练算法。

表1:节点运算符和导数

表2：池运算符和导数

表3：GOP的反向传播算法

根据某些实施方式，BP训练可以独立于运算符搜索。换句话说，只有在已经将运算符集分配给网络的每个神经元之后，才可以通过BP来训练GOP。GOP的BP训练可以是梯度下降法，就像传统的MLP的BP一样。因此，两种BP操作可能同样受到早期收敛到局部最小值的影响，并且通常需要多次BP运行才能获得更好的收敛。

尽管GOP可以是与MLP同构的，其中一个运算符集被分配给整个网络，但这可能显著地限制了网络的多样性。根据某些实施方式，可以形成高度发散的异构GOP，其中根据手头的问题优化每个神经元的参数和运算符，使得每个隐藏层可以对前一层输出的复杂图案执行正确的变换，以最大化输出层的学习目标。这可能需要彻底搜索正确的运算符以及整个网络的训练，以找出正确的参数。然而，即使对于单个神经元找到合适的运算符，也可能最终需要经训练的网络来评估学习性能。此外，该神经元的运算符集的最优性可能取决于其他神经元的运算符，因为后者的变化可能彻底改变该神经元的早期运算符选择的最优性。这些问题可以通过渐进式形成方法来解决。

渐进式操作感知器(POP)

根据某些实施方式，令Θ成为包含所有可能的运算符集的运算符库。在多层异构GOP中，考虑到网络的深度和大小以及Θ中运算符集备选方案的数量，由于这种组合搜索空间的大规模，用于找出每个神经元的运算符集的顺序搜索在计算上可能是不可实行的。因此，这可能是POP背后的主要动机之一。在某些实施方式中，从第一隐藏层开始，最终POP的每个隐藏层(目标多层异构GOP)可以单独形成，并且如果到目前为止用当前的POP不能实现目标学习目标，则可能仅形成下一个隐藏层。后者解释了为什么POP具有深度适应性，因为当目前的POP无法解决学习问题时，它们才会更深入。在不失一般性的情况下，可以假设具有hmax隐藏层的最大深度POP拓扑，POP_max可以预先定义，出于至少两个原因：1)为渐进形成设置实际深度限制，以及2)最终POP可以根据其层拓扑(例如每层中的神经元数量)和小于或等于最大深度的深度(层数)来形成。因此，POP_max可以是最终POP的配置模板。

在某些实施方式中，每个隐藏层h的形成可以在不同且最小深度GOP(GOP_min(h))中优化，其中仅有与POP_max的隐藏层和输出层对应的单个隐藏层和输出层。目标是以最大化学习性能的方式形成隐藏层和输出层。此外，层的形成可能涉及找出最优运算符及其神经元的参数。在这种最小深度网络中，使用短BP训练运行的顺序和迭代搜索对于找到最优运算符集而言可能既可行又更容易。

根据某些实施方式，为了形成第一隐藏层，POP_max的输入和输出层配置(即，神经元的数量)对于GOP_min(1)而言可以是相同的。在GOP_min(1)内形成隐藏层和输出层的同时，执行关于是否可以通过该GOP达到学习目标的调查。如果是这样，具有最优运算符和参数的形成的GOP_min(1)可以是最终的POP，并且可以终止渐进形成，而不形成其他隐藏层。否则，GOP_min(1)内形成的隐藏层可作为第一隐藏层附加到最终POP中，其输出将用作GOP_min(2)的输入层，然后将用于形成第二隐藏层。换句话说，第二隐藏层可以形成在GOP_min(2)内，其输入层是在GOP_min(1)内早先形成的第一隐藏层(的神经元输出)。为了计算这些神经元输出，可以在GOP_min(1)内前向传播训练数据。如果在形成GOP_min(2)时达到学习目标，则可以隐藏它，然后可以将输出层用作最终POP的第二隐藏层和输出层，并且可以终止渐进式搜索，而不形成其他隐藏层。否则，渐进式形成可以继续第三隐藏层形成等等，直到达到学习目标或者在相应的GOP_min(hmax)内形成POP_max的最后隐藏层。

图4示出了根据某些实施方式的来自4隐藏层(hmax＝4)POP_max的3隐藏层POP的样本渐进形成。由于可以在形成GOP_min(3)之后达到学习目标，因此最终POP可以仅具有3个隐藏层。在某些实施方式中，在每个GOP_min中隐藏层和输出层是渐进形成期间优化的学习目标取决于学习问题。例如，可以定义用于分类的最优性标准，诸如训练或验证数据集中的最小MSE或CE。或者，在二元分类问题的情况下，根据手头的分类问题选择的度量可以是最大精确度(P)、召回率(R)或F1测量度量，F1＝2PR/(P+R)。

每个GOP_min中的渐进形成可以找到每个隐藏神经元的最优运算符集。为此目的，通过针对每个隐藏神经元单独评估Θ中的每个运算符集的顺序搜索可能仍然具有不可实行的计算复杂性。也可能对于任何层，为其神经元搜索不同的最优运算符集可能是多余的。例如对于分类，在层l处为神经元设置的最优运算符可以使该神经元输出作为来自前一层神经元输出的输入模式的最优信息性(即，在类之间实现最高区分)。由于在层l处的每个神经元的输入模式是相同的(即，在层l-1中神经元的输出处存在的模式)，因此对于一个神经元的最优运算符集也可以对层l处的其他神经元是最优的。因此，可以通过将一个运算符集分配给特定层的所有神经元来限制搜索操作。还可以通过将随机运算符集分配给两个层(隐藏和输出)神经元并执行一些短BP测试运行来评估GOP_min的学习性能来尝试替代方案。

从该分配(和评估)开始，隐藏层的渐进形成可以通过贪婪迭代搜索(GIS)来执行，该迭代搜索通过将0中的一个运算符集顺序地分配给该GOP_min中的一个层的所有神经元，同时保持另一个层不变来执行分层评估。GIS可以从最初为两个层分配随机运算符集并初始评估该分配开始，以验证上述冗余假设是否成立。一旦将运算符集分配给层，通过运行少量BP测试运行，可以针对学习目标评估运算符集。在对层l的Θ中的所有集合的评估结束时，可以将表现最优的运算符集分配给该层的所有神经元，并且GIS可以在另一层上迭代。

在某些实施方式中，GIS可以从最大依赖层(输出层)开始迭代，并且朝向最小依赖层(GOP_min的隐藏层)前进。这可以使输出层在初始阶段分配当前最优运算符集，从而可以相应地在隐藏层进行更方便的搜索。根据某些实施方式，当针对输出层完成GIS时，如果用此实现了当前最好的学习性能，则找到的仍然可以是随机运算符(从Θ中随机选择的运算符)。一旦完成输出层的评估并找到且分配了最优运算符集，则可以使用隐藏层执行第一次GIS，然后终止。然后可以再次从输出层开始再次执行第二GIS，以查看另一个运算符集现在是否是对隐藏层的最新分配的最优值。这可能是因为在第一GIS迭代时，当输出层的神经元最初具有随机运算符集时，找到第一层的最优运算符集。当第二GIS终止时，可以确定GOP_min现在刚刚由BP训练，并为两个层(隐藏和输出)分配了最优运算符集。如果到目前为止所获得的最优学习性能低于学习目标，则可以将GOP_min内形成的隐藏层附加为最终POP的下一个隐藏层，并且POPmax的下一个隐藏层的渐进形成可以使用相同的双程GIS在另一个GOP_min中执行。否则，现在可以终止最终POP的渐进形成，并且GOP_min的隐藏层和输出层最终可以附加到最终POP。图4中给出的样本图示中逐步形成的GOP_min(3)过程可能就是这种情况。在运算符库Θ上的双程GIS的算法可以在表4中示出。

表4:GOPmin(h)中的双程GIS

根据某些实施方式，在GIS通过期间，具有最优运算符集的最优性能GOP(GOP_min*(h,θ))可以在任何BP测试运行的任何迭代处实现，而不一定在搜索处理结束时实现。这是因为对层l神经元的每次分配的仅保证运算符集是最优的，那么分配给其他层的运算符集也是最优的。如果不是，那么当其他层具有那些次优运算符集时，只是当前最好的运算符，这可能表明是一个局部最优解。因此，具有最优运算符GOP_min*(h,θ)的3层GOP可能是GIS的主要输出，而不是在双程GIS操作结束时收敛的那个

表5示出了根据某些实施方式的在3层GOP_min(1)上的样本GIS操作，其是POP_max的第一隐藏层的GOP_min。最初，每个GOP神经元可以具有从Θ中随机分配的运算符集。由于第0层是输入层，最初GOP_min可以表示为：I-R-R，其中“I”表示没有任何运算符的输入层，“R”表示该层神经元的Θ内分配的随机运算符集。在每个层中，由于这种随机初始化，现在Θ中可以存在运算符，并且现在可以执行关于输出层的分层运算符集分配的适当评估。这是第一GIS迭代，Θ中的运算符集可以按顺序分配给输出层，并通过两次连续的测试运行进行评估。该表示出了根据某些实施方式的测试运行索引和在(最小MSE)内实现的最优性能，仅在具有特定运算符集分配的测试运行实现比先前最优结果更好的性能时。因此，每层的最后一个条目表示来自最优测试运行的最小MSE，例如，对于GIS迭代1和层2，在第一测试运行期间在Θ中通过运算符集21实现最小MSE＝0.416×10^-2。这就是为什么随后将运算符集21分配给输出层并且对GOP上的层1：I-R-21继续搜索过程的原因。在第一GIS迭代结束时，当前最好的GOP具有I-64-21布局，因此，第二GIS迭代现在再次寻找输出层的最优运算符集，而前一层在Θ中包含第64运算符集，因此，验证运算符集21是否仍然是输出层的最优选择。对于此样本问题，结果是输出层中的运算符集31给出了最优结果。

表5：从具有随机运算符(I-R-R)的3层GOPmin开始，其中I表示输入层，R表示为隐藏层和输出层分配的随机运算符，通过对每个运算符集执行两次测试运行阐明Θ中运算符集上的双程GIS。

如表5中突出显示的，在第二BP测试运行期间的第二GIS迭代中使用GOP_min*(θ)实现了最优性能(最小MSE＝6.2×10^-4)，同时使用运算符集31评估输出层。

实验结果

在某些实施方式中，可以提供大量实验以评估POP的学习性能和泛化性潜力。对于POP，表1和表2中给出的样本节点和池运算符将与三个激活运算符一起使用：{tanh，linear，lincut}列举为{0，1，2}。对于每个运算符，MLP运算符(乘法、求和和正切)总是使用0-列举。因此，具有这些默认运算符的运算符集0的同源GOP将与MLP相同。为了评估学习性能，使用6层POP_max配置：Inx48x24x12x6xOut，其中In和Out是由学习问题确定的输入和输出层大小。对于针对MLP和RBF网络的公平比较性能评估，将使用相同的网络配置、学习参数和实验设置。换句话说，当形成最终POP时，其网络配置和BP参数将用于“等效MLP”。然而，由于RBF网络只能具有单个隐藏层，因此可以形成等效RBF网络，其具有等于最终POP的所有隐藏神经元的总数的隐藏(高斯)神经元的数量。此外，可以使用深度(复杂)MLP和RBF配置来查看它们是否能够实现与POP相似或更好的学习性能。

表6示出了根据某些实施方式的所有可能的最终POP配置的隐藏神经元以及深度和等效MLP和RBF网络的数量。例如，如果最终POP由拓扑形成，Inx48x24xOut，等效MLP可以形成具有相同的拓扑，并且等效RBF将具有Σn＝48+24＝72个高斯神经元。另一方面，对于相同的学习问题，深度MLP配置可能具有3个更多隐藏层和672个更多隐藏神经元。

表6:具有其隐藏神经元总数量(∑n)的可能的最终POP、深度且等效的MLP和RBF网络配置。

由于遇到的所有问题的动态范围(或转换为)在[-1，1]的范围内，因此最大输出将对应于1，而所有其他问题将对应于-1。但是，对于具有单个输出的那些分类问题(例如所有合成问题)，可能需要为每个分配(至1和-1)的最小90％置信水平，这意味着如果实际输出不在所需输出的10％范围内，则发生分类误差(CE)。

表7；运算符列举(顶部)和每个运算符集的索引(底部)。

表7的顶部部分列举了它们相应集中的运算符，并且底部部分示出了根据某些实施方式的可以在实验中使用的运算符库Θ中的每个单独运算符集的索引。Θ中可能有4×3×6＝72个运算符集。在每个GOP_min中的渐进式形成(PF)期间，可以运行具有最多500个时段的2BP测试运行，用于评估GOP_min的每个层的Θ中的每个运算符集。此外，可以执行10个PF操作以获得学习和泛化性能统计，例如平均值、标准偏差和实现的最优性能分数。之后，如果目标学习目标尚未达到，作为可选的后处理，具有最优性能的最终POP可以通过常规BP运行进一步训练，每个运行最多3000个时段。对于BP测试和常规运行，可以对学习速率进行全局调整，即，对于每个BP迭代t与在输出层获得的MSE，E(t)。学习速率ε的全局调整在[5.10-1，5.10-5]范围内进行，如下：

其中α＝1.05和β＝0.7。每次BP运行都可以从随机参数初始化开始，并存储达到最优性能的网络。对于任何BP运行，可以嵌入停止标准，其可以包括最大迭代次数(例如，300用于测试，3000用于常规BP运行)的组合和目标性能水平，即，对于训练数据集，10-⁴用于MSE或10-³用于CE，且F1为99％。当在任何BP运行(例如在GIS的BP测试运行期间)中达到目标性能水平时，可以省略进一步的BP运行。

A.学习性能评估

为了评估POP的学习性能，可以使用最具挑战性的合成问题，如双螺旋、N比特奇偶校验问题、N比特素数评估问题、1-D和2-D高动态和多模态函数逼近，以及1000个样本的均匀白噪声逼近。为了测试POP的学习可扩展性，可以扩展三个问题的数据集大小：双螺旋、N比特奇偶校验校验和白噪声逼近。接下来，可以简要介绍每个问题及其扩展。

1)双螺旋问题

图5示出了根据某些实施方式的双螺旋问题。在图5中，x轴标记为“x”，y轴标记为“y”，其中x和y之间的关系由基础函数给出，y＝f(x)。双螺旋问题可能是高度非线性的，并且具有更多有趣的特性。例如，2D数据可以表现出一些时间特征，其中螺旋的半径和角度随时间变化。误差空间可以是高度多模态的，具有许多局部最小值。因此，诸如BP的方法可能在减少误差方面遇到严重问题。在两个类别(螺旋)中的每一个中，数据集可以包括194个模式(2D点)、97个样本，并且可以用作ANN的基准。此外，在前馈ANN上使用标准BP算法可能无法获得接近最优的解。然而，可以实现在层之间具有快捷链接的特殊网络结构。在某些情况下，使用2x50x1配置的2层MLP可能无法解决该问题。因此，这可能是传统MLP最难学习的问题之一。

图6示出了根据某些实施方式的扩展双螺旋，其数据点是原始问题的30倍。在图6中，x轴标记为“x”，y轴标记为“y”，其中x和y之间的关系由基础函数给出，y＝f(x)。鉴于扩展，现在有30×194＝5820个样本，并且双螺旋也具有3倍密集的圆相互缠绕。

2)1-D和2-D函数逼近

图7示出了根据某些实施方式的具有1000个样本的1-D Rastrigin函数。此外，图8示出了根据某些实施方式的具有2500个样本的2-D Rastrigin函数。在图7和图8中，x轴标记为“x”，y轴标记为“y”，其中x和y之间的关系由基础函数给出，y＝f(x)。因此，如图7和图8所示，高动态和多模态1-D和2-D Rastrigin函数用于函数逼近，如等式(15)表示。

其中K＝0.62是使函数适合[-1，1]范围的归一化系数。外，1-D Rastrigin函数具有1000个均匀分布的点，并且2-D函数具有均匀分布的2500个点的50x50网格。

3)N比特奇偶校验问题

可以以下面的方式定义N比特奇偶校验问题。给定二进制N维输入向量，x＝(x₁，……，x_N)，如果数1是奇数，则奇偶校验为1，否则为0。2比特奇偶校验问题与不能通过单层感知器(SLP)解决的XOR问题相同。已经针对N比特奇偶校验问题测试了许多关于MLP的研究，其中N保持低值，例如3<N<8。在如此低的N比特奇偶校验问题上，MLP可以提供具有不同精度的解。然而，随着N越来越大，MLP，尤其是具有单个隐藏层的更简单的配置，完全无法学习。因此，在某些实施方式中，设定N＝12，并且用212＝4096个样本的数据集进行比较评价。然后通过设置N＝15将样本延伸8倍至2¹⁵＝32768个样本，以测试POP的可伸缩性性能。

4)N比特素数问题

可以以下面的方式定义N比特素数问题。给定输入整数，目的是从其N维二进制分解到输入向量x＝(x1，……，xN)来了解该数是否为素数。如果数是素数，则输出为1，否则为0。在某些实施方式中，设置N＝12，因此，可以学习直到4095的素数。

5)(均匀)白噪声逼近

均匀白噪声是具有均匀分布的随机信号，例如～U(-1，1)。这种纯粹随机信号的逼近可能是具有挑战性的学习问题，因为理想情况下没有用于学习的模式。然而，计算机中的均匀随机数发生器实际上不是随机的，而是混沌(伪随机)过程，其取决于相对于最初设置的种子数生成数字序列的特定函数。此外，根据某些实施方式，目的是测试POP，无论它们是否能够以所需精度“逼近”某些复杂模式而不是那些伪随机数。为此目的，首先产生白噪声序列，其中1000个随机数～U(-1，1)均匀分布在[-1，1]的范围内。然后将序列扩展到5000个随机数，以测试POP的可扩展性。仅对于此扩展，由于问题的严重性，POP_max的隐藏神经元的数量加倍。

表8显示了POP和具有等效和深度配置的传统ANN的学习性能统计(平均值、μ、标准差、σ和最小值)。结果分别给出了1-D和2-D函数逼近问题。因此，现在有6个问题和3个扩展的结果。从表6中可以看到相应的最终POP配置。可以进行几个重要的观察。在大多数问题中，最好的POP达到100％的分类准确度(CE＝0)或MSE＝0。在遇到的六个问题中，对于仅其中的两个，最好的结果是使用与POP_max具有相同隐藏层数的最终POP来实现的。这表明适当的深度并由此根据问题进行多样性调整。这进一步揭示了为每一层找到合适的运算符集对实现具有正确深度的优雅学习性能的关键作用。另一方面，没有一种等效的MLP或RBF配置能够实现这一点，相反，它们在大多数问题上完全失败了。有趣的是，对于深度MLP和RBF配置也是如此，即使网络大小利用其他隐藏层增加了10倍以上。虽然学习性能有所改善，但总的来说它们的表现仍然比POP差得多。

表8:六个挑战性学习问题和三个扩展问题上的POP和具有等效且深度配置的传统ANN的学习性能。POP配置列于表6中。

根据某些实施方式，深度MLP达到的最优性能是：MSE＝22.77×10^-2。通过等效MLP获得的最优结果(28.15×10^-2)可以看到一定的改进。图9顶部示出了根据某些实施方式的1000个样本的白噪声与其具有最优性能的深度MLP逼近，并且(底部)示出了缩放部分。在图9中，x轴标记为“随机数索引”，并且y轴标记为U(-1，1)。特别是，如图9所示，这种“改进的”逼近仍然是失败的，因此改进可以忽略不计。另一方面，最优深度RBF网络设法实现了两个问题的学习目标。这是预期的结果，因为仅具有一个任意大的隐藏层的ANN可以逼近于任何精度水平的函数。此外，深度RBF具有744个神经元的隐藏层，因此，在具有最小的两个数据集—双螺旋(194)和1-D Rastrigin(1,000)上，甚至部分地在白噪声(1,000)上，由于如此大的隐藏层，它们实现了目标学习性能。然而，对于具有超过2000个样本的较大数据集，这已不再可能。当然，对于许多真实数据集而言，使用与数据集大小处于相同比例的这种绝对大小的隐藏神经元可能不是可行的选择。

从最初的结果来看，传统人工神经网络的配置都没有设法学习三个扩展问题中的任何一个。另一方面，POP实现了与以前类似的性能水平，因此表现出高水平的可扩展性。此外，对于两个扩展问题使用相同的POP_max，对于12位对应物而言，对于15位奇偶校验问题实现的最优POP具有单个隐藏层，而对于扩展的双螺旋问题，其仅具有两个隐藏层，而不是原始版本的三个隐藏层。这表明只要找到了正确的深度和运算符集，即使数据集大小显著增加(例如，在这种情况下为30次)，POP仍然可以显示相同的性能水平。当底层模式(或函数)由正确的运算符集合正确建模时，只要相同的模式或函数占优势，POP的性能不会受到数据集大小的影响。

在没有图案或功能的极端情况下，如在白噪声信号的情况下，只要提供足够的多样性，POP仍然可以应对该问题。对于具有5000个样本的扩展白噪声逼近，情况确实如此。数据集大小增加了5倍，并且证明了使用具有相同深度且仅有两倍隐藏神经元的POP_max足以实现类似的学习性能。图10(顶部)示出了根据某些实施方式的5000个样本的最后部分的白噪声与其具有最优性能的POP逼近，并且(底部)示出了缩放部分。在图10中，x轴标记为“随机数索引”，并且y轴标记为U(-1，1)。图10还显示了该数据集上最优POP的逼近性能(MSE＝2.5×10^-4)。对于合理的可视化，图10中仅示出了[3500，5000]范围内的数据点。

B.关于UCI机器学习(Proben1)数据集的泛化评估

根据某些实施方式，评估了GOP相对于具有有限且稀缺的具有缺失属性的训练数据的真实基准数据集的泛化能力。这背后的原因是使泛化的挑战性任务成为适当的评估。此外，使用了更简单的POP_max配置：Inx24x12x6xOut。从Proben1储存库中，选择了四个基准分类问题：乳腺癌、心脏病、马绞痛和糖尿病，它们是具有以下属性的医学诊断问题：(a)所有这些都基于来自人类患者的医疗数据来解决实际问题；(b)输入和输出属性类似于医生使用的属性；(c)由于医学实例的获得成本很高，因此训练集受到限制，具有偶尔缺失属性。

1)乳腺癌

该数据集的目的是根据通过针抽吸收集的细胞的显微镜检查将乳房肿块分类为良性或恶性。有699个样本，其中458个是良性的，241个是恶性的，它们最初被划分为350个用于训练，175个用于验证，并且174个用于测试。该数据集由9个输入和2个输出属性组成，由William Wolberg博士在威斯康星大学麦迪逊分校建立。

2)糖尿病

该数据集用于预测皮马印第安人中的糖尿病诊断。报告的所有患者均为至少21岁的女性。总共有768个样本，其中500个被归类为糖尿病阴性，并且268个为糖尿病阳性。数据集最初被划分为384用于训练，192用于验证，并且192用于测试。它由8个输入和2个输出属性组成。

3)心脏病

初始数据集由具有35个输入属性的920个样本组成，其中一些属性严重缺失。因此，第二组数据是使用前一组中最干净的部分组成的，该部分是由Robert Detrano博士在克利夫兰诊所基金会建立的。克利夫兰数据在Proben1存储库中称为“heartc”，包含303个样本例，但其中6个仍然包含丢失的数据，因此被丢弃。其余的被划分为149个用于训练，74个用于验证，并且74个用于测试。有13个输入和2个输出属性。目的是根据输入属性预测心脏病的存在。

4)马绞痛

该问题具有许多缺失值(总体上约30％)，并且有364个记录。该数据集被划分为182个用于训练，91个用于验证，并且91个用于测试。有58个输入和3个输出属性。目的是预测马发生了什么，并且结果如下：1-活着，

2-死亡和3-安乐死。

根据某些实施方式，为了评估POP的泛化能力，对“未见”数据-测试数据集的最优可能学习性能进行评估。为此目的，在训练常规ANN或形成POP时，仅观察到测试集上的最优性能(即，最小测试CE)。有几种方法可以改善测试数据集的泛化性能，例如早期停止、参数噪声、退出、交叉验证等。但是，这些方法超出了本工作的范围，因此在此不再使用。目标是评估POP的泛化潜力，例如，找到在每个渐进形成或对测试数据进行训练期间实现的最优可能的泛化能力。因此，在相同的设置和条件下对传统ANN进行了比较评估。

表9显示了在4个Proben1数据集上的10个训练/渐进形成运行期间观察到的最优泛化性能的统计数据。对于癌症数据集，所有ANN容易在测试数据上实现100％分类准确度，因为这是具有最具辨别力特征的最简单的数据集。然而，对于其他三个更具挑战性的数据集，POP和其他两个ANN之间存在显著的泛化性能差距。随着数据集变得更具挑战性，差距扩大。例如，最大差距发生在Horse数据集中，其中30％的数据丢失，这使得学习最困难。这是预期的结果，因为POP的优越学习能力可以模拟和学习复杂、嘈杂甚至缺失模式，如早期实验所示。

图11示出了根据某些实施方式的流程图。特别地，图11示出了可以由下面描述的用户设备和/或服务器执行的过程。在步骤101中，可以在输入层的输入神经节点处接收数据。在某些实施方式中，所接收的数据可以对应于要完成的学习目标。在步骤105中，可以通过将输入层指定为最大POP配置(POP_max)的输入层来初始化最终POP。在步骤110中，可以使用POP_max的输入层、第一隐藏层和输出层的配置来创建3层单隐藏层多层渐进操作感知器(第一GOP_min)。在步骤115中，可以插入形成的第一GOP_min的隐藏层作为最终POP的第一隐藏层，并且在步骤120，可以生成第一GOP_min的学习性能统计。

此外，在步骤125，可以确定是否可以利用第一GOP_min实现学习目标。如果可以实现学习目标，则终止形成过程。如果使用第一GOP_min无法达到学习目标，则该过程可以包括通过前向传播训练数据、使用先前隐藏层的输出作为输入层、使用POP_max的第二隐藏层作为隐藏层并且使用POP_max的输出层作为输出层的配置来形成第二3层单隐藏层多层渐进操作感知器(第二GOP_min)。在步骤130，可以形成第二GOP_min并将其插入作为最终POP的第二隐藏层。

在步骤135，可以生成第二GOP_min的学习性能统计，并且在步骤140，可以检查是否利用第二GOP_min实现目标性能。如果不可以，则该过程可以以相同的顺序重复形成、检查和插入第三、第四和附加的GOP_min，直到达到目标性能或形成POP_max的所有隐藏层。在步骤145，最终POP的输出层可以形成作为形成的最后GOP_min的输出层。

根据某些实施方式，第一隐藏层和附加隐藏层以及输出层的形成可以包括确定包含在其中的神经节点的最优运算符和参数。在其他实施方式中，当确定能够利用第一隐藏层实现学习目标时，该过程可以还包括将第一隐藏层附加到最终的多层渐进操作感知器作为其第一隐藏层。根据某些实施方式，可以通过贪婪迭代搜索来执行第一隐藏层和附加隐藏层的形成。在其他实施方式中，贪婪迭代搜索可以包括通过顺序地将一个运算符集分配给第一隐藏层和附加隐藏层的所有神经节点来执行分层评估。

图12示出了根据某些实施方式的系统。应当理解，图1-11的内容可以通过各种手段或它们的组合来实现，例如硬件、软件、固件、一个或多个处理器和/或电路。在一个实施方式中，系统可以包括若干设备，例如用户设备210和/或服务器220。该系统可以包括一个以上的用户设备210和一个以上的服务器220。

用户设备210和服务器220均可以包括至少一个处理器211和221。可以在每个设备中提供至少一个存储器，并分别表示为212和222。存储器可以包括计算机程序指令或其中包含的计算机代码。可以提供一个或多个收发器213和223，并且每个设备还可以包括天线，分别示为214和224的天线。尽管每个设备仅示出一个天线，但是可以提供许多天线和多个天线元件。例如，可以提供这些设备的其他配置。例如，除了无线通信之外，用户设备210和服务器220可以另外被配置用于有线通信，并且在这种情况下，天线214和224可以示出任何形式的通信硬件，而不仅限于天线。

收发器213和223可以各自独立地是发射器、接收器或发射器和接收器，或者可以配置用于发射和接收的单元或设备。此外，一个或多个功能也可以实现为可以在服务器上运行的软件中的虚拟应用程序。

用户设备210可以是移动站(MS)，诸如移动电话或智能电话或多媒体设备、计算机，诸如提供无线通信功能的平板电脑、膝上型计算机或台式计算机，提供无线通信功能的个人数据或数字助手(PDA)。然而，某些实施方式可以在可以实现任何ANN的任何地方实现，其可以进一步包括在云计算平台或服务器上。

在一些实施方式中，诸如用户设备210或服务器220之类的装置可以包括用于执行以上关于图1-11描述的实施方式的装置。在某些实施方式中，包括计算机程序代码的至少一个存储器可以被配置为与至少一个处理器一起，使得装置至少执行本文描述的任何过程。

处理器211和221可以由任何计算或数据处理设备实现，例如中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、数字增强电路或类似设备或其组合。处理器可以实现为单个控制器，或多个控制器或处理器。

对于固件或软件，实施可以包括至少一个芯片组的模块或单元(例如过程、功能等)。存储器212和222可以独立地是任何合适的存储设备，例如上面描述的那些。存储器和计算机程序指令可以与用于特定设备的处理器一起配置，以使诸如用户设备210或服务器220之类的硬件设备执行上述任何过程(例如参见图1-11)。因此，在某些实施方式中，非暂时性计算机可读介质可以用计算机指令或一个或多个计算机程序(诸如添加或更新的软件路径、小应用程序或宏)编码，当在硬件中执行时，可以执行如本文所述的一种方法的方法。或者，某些实施方式可以完全用硬件执行。

某些实施方式利用生物神经元的广义模型解决了前馈ANN的众所周知的问题和局限性。某些实施方式的GOP模型允许封装许多线性和非线性运算符，以实现优雅的多样性、突触连接的更好模型，以及生物神经元细胞的体细胞的整合过程。尽管BP方法被修改为训练任何GOP，但只有使用经过适当训练的参数设置的正确运算符集才能真正提供正确的内核变换混合，以准确地逼近或模拟学习问题的潜在复杂功能/表面。通过提出自组织和深度适应性的POP已经解决了该问题。

在渐进形成方法中，根据某些实施方式，可以迭代地搜索每个隐藏层的最优运算符集，并且可以通过修改的BP同时优化它们的参数。这样的分层形成避免了冗余的隐藏层形成，并且创建了具有学习问题复杂性所需的正确深度和多样性的最终POP。根据某些实施方式，一组广泛的实验表明，POP可以提供巨大的多样性，因此可以管理最具挑战性的学习问题，这些问题甚至可以通过具有更深和复杂配置的传统ANN部分地学习。特别是，在白噪声逼近问题中，没有用于学习的模式。然而，具有适当深度的最终POP能够适应复杂的功能，即使在具有所需精度的这种随机数据上也是如此。此外，据观察，当数据量显著增加时，只要主要数据模式占优势，POP就可以很好地扩大规模。

尽管前面的描述涉及本发明的优选实施方式，但应注意，其他变化和修改对于本领域技术人员来说是显而易见的，并且可以在不脱离本发明的精神或范围的情况下进行。此外，结合本发明的一个实施方式描述的特征可以与其他实施方式结合使用，即使上面没有明确说明。

此外，四个基准Proben1数据集上的结果表明，POP可以实现的最优泛化性能可以与传统ANN相同或更好。值得注意的是，这些结果仍然保证了基线学习性能，而当运算符库特别丰富时，可以进一步扩大差距，特别是可以进一步提高多样性的节点和池运算符。

因此，根据某些实施方式，可以通过使用非线性运算符的生物学神经元的广义模型来解决传统的MLP神经元模型的各种限制和缺点。也可以提供以类似于生物神经网络的渐进方式构建的GOP。此外，POP可以共享经典MLP的相同属性，包括但不限于，例如至少前馈、完全连接、分层、偏置、可通过反向传播训练等，并且可以与MLP相同，只要使用本机MLP运算符即可。因此，在某些实施方式中，POP不会比MLP表现更差。

根据其他实施方式，还可以提供要搜索的最优运算符集。此外，利用非线性运算符的正确组合，POP可以学习非常复杂的问题，这些问题无法通过更深入、更复杂的MLP来学习。在其他实施方式中，GOP和POP可以方便地用于使用任何其他分类器(例如ANN、SVM、RF等)的任何应用中。

Claims

1.一种方法，包括：

在输入层的输入神经节点接收数据，所接收的数据对应于要完成的学习目标；

通过将所述输入层指定为最大POP配置(POP_max)的输入层来初始化最终POP；

通过使用POP_max的输入层、第一隐藏层和输出层的配置，来形成3层单隐藏层多层渐进操作感知器(第一GOP_min)；

插入所形成的第一GOP_min的隐藏层作为所述最终POP的第一隐藏层；

生成所述第一GOP_min的学习性能统计；

确定利用所述第一GOP_min是否能够达到所述学习目标；

如果达到所述学习目标，则终止形成过程；

如果使用第一GOP_min无法达到所述学习目标，则通过前向传播训练数据、使用先前隐藏层的输出作为输入层、使用所述POP_max的第二隐藏层作为隐藏层并且使用所述POP_max的输出层作为输出层的配置来形成第二3层单隐藏层多层渐进操作感知器(第二GOP_min)；

形成所述第二GOP_min，并插入所形成的第二GOP_min的隐藏层作为所述最终POP的第二隐藏层；

生成所述第二GOP_min的学习性能统计；

检查利用所述第二GOP_min是否达到目标性能，如果没有达到，则重复：以相同的顺序形成、检查并插入第三、第四和附加的GOP_min，直到达到所述目标性能或形成POP_max的所有隐藏层；以及

形成所述最终POP的输出层作为形成的最后GOP_min的输出层。

2.根据权利要求1所述的方法，其中，所述第一隐藏层和附加隐藏层以及输出层的形成包括确定包含在其中的神经节点的最优运算符和参数。

3.根据权利要求1所述的方法，其中，当确定能够利用所述第一隐藏层实现所述学习目标时，所述方法还包括将所述第一隐藏层附加到最终的多层渐进操作感知器作为其第一隐藏层。

4.根据权利要求1所述的方法，其中，通过贪婪迭代搜索来执行所述第一隐藏层和附加隐藏层的形成。

5.根据权利要求4所述的方法，其中，所述贪婪迭代搜索包括通过顺序地将一个运算符集分配给所述第一隐藏层和所述附加隐藏层的所有神经节点来执行分层评估。

6.一种装置，包括：

至少一个存储器，包括计算机程序代码；和

至少一个处理器；

其中，所述至少一个存储器和所述计算机程序代码与所述至少一个处理器一起配置，以使所述装置至少：

使用最大POP配置(POP_max)的第一隐藏层和的输出层形成3层单隐藏层多层渐进操作感知器(第一GOP_min)；

确定利用所述第一隐藏层是否能够达到所述学习目标；

如果使用所述第一隐藏层无法达到所述学习目标，则使用先前隐藏层的输出作为输入层、使用POP_max的第二隐藏层作为唯一隐藏层和POP_max的输出层形成第二3层单隐藏层多层渐进操作感知器(第二GOP_min)；

训练所述第二GOP_min并检查是否达到目标性能，如果没有达到，则重复训练和检查，直到达到所述目标性能或形成POP_max的所有隐藏层；

形成对应于所述第一隐藏层和任何附加隐藏层的输出层；和

根据所收到的数据生成学习性能统计。

7.根据权利要求6所述的装置，其中，所述第一隐藏层和附加隐藏层的形成包括确定包含在其中的神经节点的最优运算符和参数。

8.根据权利要求6所述的装置，其中，当确定能够利用所述第一隐藏层达到所述学习目标时，所述至少一个存储器和所述计算机程序代码还与所述至少一个处理器一起配置，以使所述装置至少将所述第一隐藏层附加到所述多层渐进操作感知器的最后一层。

9.根据权利要求6所述的装置，其中，通过贪婪迭代搜索来执行所述第一隐藏层和所述附加隐藏层的形成。

10.根据权利要求9所述的装置，其中，所述贪婪迭代搜索包括通过顺序地将一个运算符集分配给所述第一隐藏层和所述附加隐藏层的所有神经节点来执行分层评估。

11.一种计算机程序，其体现在非暂时性计算机可读介质上，所述计算机程序在通过处理器执行时使所述处理器：

确定利用所述第一隐藏层是否能够达到所述学习目标；

形成对应于所述第一隐藏层和任何附加隐藏层的输出层；和

根据所收到的数据生成学习性能统计。

12.根据权利要求11所述的计算机程序，其中，所述第一隐藏层和附加隐藏层的形成包括确定包含在其中的神经节点的最优运算符和参数。

13.根据权利要求11所述的计算机程序，其中，当确定能够利用所述第一隐藏层达到所述学习目标时，所述计算机程序在通过处理器执行时还使所述处理器将所述第一隐藏层附加到所述多层渐进操作感知器的最后一层。

14.根据权利要求11所述的计算机程序，其中，通过贪婪迭代搜索来执行所述第一隐藏层和所述附加隐藏层的形成。

15.根据权利要求14所述的计算机程序，其中，所述贪婪迭代搜索包括通过顺序地将一个运算符集分配给所述第一隐藏层和所述附加隐藏层的所有神经节点来执行分层评估。