CN114175046A

CN114175046A - 模拟哺乳动物大脑中关于视觉观察到的身体的运动的决策过程的系统

Info

Publication number: CN114175046A
Application number: CN202080054700.2A
Authority: CN
Inventors: J·弗拜特; K·米萨吉恩; E·卢戈; D·崔瓦兹-伯那丁
Original assignee: Universite de Montreal; Essilor International Compagnie Generale dOptique SA
Current assignee: Universite de Montreal; EssilorLuxottica SA
Priority date: 2019-08-05
Filing date: 2020-08-03
Publication date: 2022-03-11
Anticipated expiration: 2040-08-03
Also published as: CA3148721A1; US20220284303A1; EP4010850A1; WO2021023724A1; CN114175046B

Abstract

本发明是一种系统(1)，所述系统通过包括朝向模拟神经元结构的接口的模拟视觉路径来模拟哺乳动物大脑中关于与视觉观察到的身体的身体姿势相关的运动特性的决策过程，所述接口至少将所述观察到的身体的发光信息转换为光流数据流，所述光流数据流传递与所述视觉观察到的身体相关的信息，并且可以在所述模拟神经元结构中处理所述信息，所述系统是前馈系统，并且从所述视觉观察到所述决策按层级包括：所述模拟视觉路径及其接口(3，3L，3R)；模拟局部运动方向检测神经元结构(4，4L，4R)，用于通过感受野来检测运动方向；模拟对立运动检测神经元结构(5，5L，5R)，用于检测至少与展开和收缩相关的对立运动；模拟复杂模式检测神经元结构(6，6L，6R)，用于在整个视觉观察上并且根据所述整个视觉观察的时间期间的演变来全局地检测光流模式，可检测的模式是原型模式；以及模拟运动模式检测神经元结构(7，7LR)，用于检测运动模式，并且提供关于运动特性的决策。根据本发明，所述模拟运动模式检测神经元结构(7，7LR)的神经元包括遗忘能力，所述遗忘能力是延迟的函数、并且对于每个神经元来说是所述神经元的活动的函数。

Description

模拟哺乳动物大脑中关于视觉观察到的身体的运动的决策过程的系统

技术领域

本发明涉及一种检测和决策系统，该检测和决策系统模拟哺乳动物大脑中关于视觉观察到的身体的运动的决策过程。

背景技术

人类从稀疏的视觉输入中恢复关于移动的活体的信息(例如，身份或活动类型)的强大能力被称为生物运动感知。生物运动感知一直是研究的对象。运动感知是生物的一项重要功能，并且它在从哺乳动物(以及尤其是人类)的基本生存活动到社会生活的许多活动中都有用武之地。已经开发了生物运动感知中涉及的神经元结构及其关系的生物模型。

到目前为止，已经确定生物运动感知功能中涉及局部运动检测和动态形状线索识别的整合。更准确地，该功能涉及在神经元系统中激活专用于运动信息处理的“背侧路径”、激活专用于形状识别的“腹侧路径”，并且其中，这两条路径的两个输出在颞上沟(STS)处交汇。

在相关技术领域，已经确定了以下文件：

-(1)YI-ZENG HSIEH等人：“Development of Home Intelligent Fall DetectionIoT System Based on Feedback Optical Flow Convolutional Neural Network[基于反馈光流卷积神经网络的家庭智能跌倒检测IoT系统的开发]”，IEEE ACCESS，第6卷，2018年1月1日(2018-01-01)，第6048-6057页。该文件披露了一种标准网络CNN(卷积神经网络)。

-(2)MURUGADOSS R等人：“Universal approximation of nonlinear systempredictions in sigmoid activation functions using artificial neural networks[使用人工神经网络在sigmoid激活函数中对非线性系统预测的通用近似]”，2014年IEEE计算智能和计算研究国际会议，IEEE，2014年12月18日(2014-12-18)，第1-6页。该文档披露了对全连接的已知MLP(多层感知)上的非线性内核的修改。

-(3)YIKANG SHEN等人：“Ordered Neurons:Integrating Tree Structures intoRecurrent Neural Networks[有序神经元：将树结构集成到循环神经网络中]”，ARXIV.0RG，康奈尔大学图书馆，201奥林图书馆，康奈尔大学，伊萨卡，纽约，14853。该文件披露了一种被称为LSTM(长短期记忆)类型的RNN(循环神经网络)，它是众所周知的并且使用反馈连接。

然而，他们在非生物机器(尤其是计算机)中的模拟(其试图模仿所涉及的生物结构)所提供的结果并不十分有效，并且与生物的生物运动感知中涉及的真实生物神经元结构所提供的结果不够接近。

发明内容

发明人已经开发了一种新的添加了遗忘功能的描述性风险不利贝叶斯模拟模型，该遗忘功能大大改善了模拟系统中的运动感知(即，检测和决策)的结果。而且，在系统中添加一些特定的运动检测、尤其是顺时针和逆时针旋转检测，已显示出能够进一步改善模拟结果。

所提出的系统旨在模拟在视觉感受器(眼睛，其可能辅以眼科装置)中、以及眼睛下游的神经元结构中、以及尤其是人类大脑内的视觉皮层的一些神经元结构中进行的视觉信息处理，以便再现特定人类受试者对他/她接收到的视觉信息的内容的决策方式。

在以下描述中，假设在眼睛和最终眼科装置中处理和转换的视觉信息涉及视觉路径及其接口。在眼睛下游，假设在神经元结构的神经元中处理的视觉信息涉及光流数据流，并且相关的神经元结构在技术领域中通常被称为涉及视觉皮层路径。

因此，提出了一种前馈风险敏感贝叶斯模拟模型来模仿生物运动感知。所提出的模型是层级的，并且利用与系统必须判定的运动特性相关的所存储/所记忆的原型模式。而且，为了进一步改善结果，利用具有遗忘功能的动态相互抑制的神经元网络来实施所模拟的决策制定神经元。

必须注意，在本文件中，“检测器”一词被用作等同于“神经元”一词。

更确切地，本发明是一种检测和决策系统，所述检测和检测系统通过包括朝向模拟神经元结构的接口的模拟视觉路径来模拟哺乳动物大脑中关于与视觉观察到的身体的身体姿势相关的运动特性的决策过程，所述模拟视觉路径及其接口至少将所述观察到的身体的发光信息转换为光流数据流，所述光流数据流传递与所述视觉观察到的身体相关的视觉观察信息，并且可以在所述模拟神经元结构中处理所述视觉观察信息，

所述系统是前馈系统，并且从所述视觉观察到所述决策按层级包括：

-所述模拟视觉路径及其接口，所述模拟视觉路径及其接口被配置为模拟眼睛以及所述至少一只眼睛上的最终眼科装置，

-模拟局部运动方向检测神经元结构，用于通过感受野来检测运动方向，并且从所述接口接收光流数据流，

-模拟对立运动检测神经元结构，用于检测至少与展开和收缩相关的对立运动，并且从所述模拟局部运动方向检测神经元结构接收光流数据流，

-模拟复杂模式检测神经元结构，用于在整个视觉观察中并且根据所述整个视觉观察的时间期间的演变来全局地检测光流模式，并且从所述模拟对立运动检测神经元结构接收光流数据流，可检测的模式是原型模式，以及

-模拟运动模式检测神经元结构，用于检测运动模式，并且从所述模拟复杂模式检测神经元结构接收光流数据流，并且提供关于运动特性的决策。

根据本发明，所述模拟运动模式检测神经元结构的神经元均包括遗忘能力，所述遗忘能力是延迟和所述神经元的活动的函数。

还应考虑了以下单独的或以其所有可能的技术组合采取的附加手段：

-模拟运动模式检测神经元结构是能够记忆的神经元结构，

-与身体姿势相关的动作特性选自以下各项中的至少一项：移动方向、移动速度、移动位置，

-视觉观察到的身体是活体，尤其是动物或人类身体，

-视觉观察到的身体是机器，尤其是机器人，

-视觉观察到的身体是虚拟身体，

-在检测神经元结构之间传递的光流数据流取决于其来自哪个检测神经元结构而携带不同类型的信息，

-当来自模拟对立运动检测神经元结构时，所述光流数据流可以是特征向量，

-光流数据流由连续帧组成，

-原型模式由系统在初步学习阶段学习，

-原型模式是在系统中预先建立的，

-所述模拟对立运动检测神经元结构进一步检测与旋转相关的对立运动，

-在系统中进一步模拟了系统的内部噪声，

-噪声被添加到从模拟复杂模式检测神经元结构输出的光流数据流，

-噪声被添加到模拟复杂模式检测神经元结构中的每个神经元的输出，

-噪声被添加到在模拟运动模式检测神经元结构中输入的光流数据流，

-所添加的噪声具有高斯分布Ν(H_i(t),Δtδ²)，其中，δ²是方差，并且H_i(t)是复杂模式检测神经元在不存在所添加的内部噪声的情况下的理想活动，

-所述模拟视觉路径及其接口被配置为模拟眼睛以及所述至少一只眼睛上的最终眼科装置，

-所模拟的眼睛和眼科装置具有某些特性，

-眼睛的特性主要是正常视力、近视、散光…

-眼科装置的特性主要是镜片度数…

-通过模拟眼睛并产生光流数据流的相机来对身体进行视觉观察，所述光流数据流通过至少一个特性函数进一步过滤，以模拟眼睛和最终眼科装置的特性，

-模拟眼睛的相机包括一组感受野，

-所述模拟局部运动方向检测神经元结构被配置为检测感受野之间的二维空间中的运动方向，可检测的运动方向为上、下和左、右，

-每个感受野具有包括在0.5度到1.5度之间的感受野，

-感受野优选为0.9度，

-所述模拟对立运动检测神经元结构被配置为检测二维空间中的展开、收缩、顺时针旋转和逆时针旋转，

-模拟对立运动检测神经元结构的每个神经元具有3.5度的观察角度，

-所述模拟对立运动检测神经元结构被配置为检测相邻感受野之间的展开、收缩、顺时针旋转和逆时针旋转，

-所述模拟对立运动检测神经元结构被配置为检测不相邻的感受野之间的展开、收缩、顺时针旋转和逆时针旋转，

-所述模拟复杂模式检测神经元结构包括模拟神经元集合，并且被配置为在具有确定值的全局观察角度内检测二维空间中的原型模式，所述模拟复杂模式检测神经元结构的模拟神经元被分配给所述集合中的多个组，所述组的数量对应于所述系统能够提供的可能决策的数量，每一组包括在所述组内非对称地且侧向地连接在一起的模拟神经元。

-组的数量为偶数，

-对于两个可能决策，组的数量为二，

-组的数量为奇数，最少为三组，

-对于三个可能决策，组的数量为三，

-每一组包括相同数量的模拟神经元，

-当至少一个组构成一个决策空间时，这个组包括不同数量的模拟神经元，

-所述模拟复杂模式检测神经元结构包括模拟神经元集合，并且被配置为通过全局观察来检测二维空间中的原型模式，所述模拟复杂模式检测神经元结构的模拟神经元集合被分配给两个相等的组以用于关于相反的运动方向的两种可能决策，每一组包括在所述组内非对称地且侧向地连接在一起的模拟神经元，

-这两个相反的运动方向是左和右，

-这两个相反的运动方向是上和下，

-所述模拟复杂模式检测神经元结构的模拟神经元集合被分配给四个组以用于四个可检测的相反的二乘二运动方向，即左和右两个相反方向以及上和下两个相反方向，

-模拟复杂模式检测神经元结构的全局观察角度为8度，

-模拟复杂模式检测神经元结构的全局观察角度大于8度，并且对应于整个视觉观察，

-模拟复杂模式检测神经元结构的全局观察角度对应于整个视觉观察，

-模拟复杂模式检测神经元结构的模拟神经元集合包括十八个模拟神经元，每个可检测的相反运动方向九个模拟神经元，

-在模拟复杂模式检测神经元结构中，活跃神经元使被调谐为预测后来模式的神经元兴奋，并抑制被调谐到过去模式的神经元，

-在模拟复杂模式检测神经元结构中，对光流模式敏感的神经元的动态对应于以下规律：

其中，i是光流数据流的第i帧，光流从第i-1帧上升至第i帧，Hi(t)是神经元的活动，τ_OFP＝150ms，w(m)是权重内核，f(H)是阶跃阈值函数，并且Gi(t)是神经元的瞬时前馈输入，

-在模拟复杂模式检测神经元结构中，所实施的描述性风险规避贝叶斯分类器基于针对不同错误使用不同惩罚水平的平均风险最小化方法，将当前帧分类为后来的特征向量之一的分类错误相比于关于较旧的模板的分类错误具有更低的严重性水平，分类错误发生于模拟对立运动检测神经元结构输出的、且涉及空间R_i的特征向量u被错误地归为类ω_k而i≠k之时，并且在分类错误的情况下将损失项λ_ki指配给所述错误分类，并且在正确分类的情况下将值为0的损失项λ_ki指配给所述正确分类，并且形成了包括元素λ_ki的损失矩阵，该元素构成针对分类为类ω_k而真实状态为i的惩罚水平，该状态是模拟复杂模式检测神经元结构接收到的特征向量，

-在模拟复杂模式检测神经元结构的模拟神经元集合包括十八个模拟神经元(每个可检测的相反的运动方向九个模拟神经元)的情况下，考虑了十八个类(这两个相反的运动方向中的每一个运动方向九个类)，根据以下公式来最小化平均风险：

u∈R_i如果

则λ_ll＝0，

其中，ω_i(i＝1…18)是类，R_j(j＝1…18)当其具有最低加权总和并且分类为类ω_i时构成特征空间R_i的区域/子空间，并且其中，p(Pu|ω_k)是在给定类ω_k的情况下特征向量的似然，并且p(ω_k)是类ω_k的先验概率，每个空间R_i的特征向量的似然服从高斯分布N(μ_i,Σ_i)，其中，μi是均值向量，并且Σi是协方差矩阵，并且分别为每个类ω_k预定义了先验概率p(ω_k)，其中，

以使得对于每个顺序帧，只要u(t)属于特征空间R_i，调谐到类ωi的检测器就接收到正的非零前馈输入G_i(t)，以及使得具有匹配模板的神经元抑制模拟运动模式检测神经元结构的其他神经元，

-所述模拟运动模式检测神经元结构被配置为相互抑制的模拟神经元网络，其中，具有最高兴奋性输入的模拟神经元以非线性且相互作用的操作抑制其他模拟神经元的活动，所述其他模拟神经元的活动未超过其定义的阈值，

-模拟运动模式检测神经元结构的相互抑制的模拟神经元是根据以下关系模拟的：

其中，T是第一个对从所述模拟复杂模式检测神经元结构接收的光流数据流表现兴奋的神经元的活动，并且D是所述网络的其余神经元的活动，τ是时间常数，并且S()是根据下式的修正的米氏函数(也可以使用其他类似函数，如累积高斯函数或威布尔函数)：

其中，M是兴奋性-抑制性活动的最大信息阈值，并且σ通常标记函数S(P)达到其最大值的一半的信息阈值点，P_T和P_D分别是T型和D型神经元可用的信息阈值，有：

P_T(D)＝E_T-kND

P_D(D，T)＝E_D-k(N-1)D-kT

其中，N是神经元的数量，并且常数k是抑制性反馈增益，E_T和E_D表示从模拟复杂模式检测神经元结构接收的光流数据流，

-当网络的相互抑制的模拟神经元在来自模拟复杂模式检测神经元结构的光流数据流中接收到负输入时，于是根据以下关系来模拟所述相互抑制的模拟神经元：

-所述模拟运动模式检测神经元结构的相互抑制的模拟神经元具有附加输入，通过所述附加输入来执行所述遗忘能力，所述附加输入针对首先兴奋的神经元根据Dis_T＝u(t-τ_a)*[T-S(P_T(D))-k_DisT]来接收数据，并且针对其他神经元根据Dis_D＝u(t-τ_a)*[D-S(P_D(D，T))-k_DisD]来接收数据，并且其中，T是第一个对从所述模拟复杂模式检测神经元结构接收的光流数据流表现兴奋的神经元的活动，并且D是所述网络其余神经元的活动，u()是单位阶跃函数，τ_a是时间常数，并且S()是修正的米氏函数或具有与米氏函数相同的数学对称性的任何其他函数(例如，累积高斯函数或威布尔函数)，并且k_Dis是加权系数，

-所述系统包括实施所述神经元结构的至少一个可编程计算机，

-所述至少一个可编程计算机包括输入-输出接口，所述输入-输出接口允许输入至少修改与所述遗忘能力相关的延迟的参数值，

-所述系统进一步包括用风险敏感Q学习算法实施的学习函数，

-所述学习功能是在所述模拟复杂模式检测神经元结构中实施的。

具体实施方式

现在将参考附图描述本发明的示例性实施例，在附图中：

-图1示意性地展示了在单眼观察的情况下根据本发明的系统的结构，

-图2示意性地展示了在双眼观察的情况下根据本发明的系统的结构，以及

-图3是在系统的第三层中实施的Q学习算法的学习步骤的示例。

现在将用示例性实施方式来描述本发明的系统，然后呈现该系统在足球比赛中的应用。更确切地，该示例性实施方式是能够从复杂的生物运动足球射门视觉刺激中辨别出球的方向的系统。

更一般地，本发明的用于模拟决策过程的系统基于神经模仿，并且该系统模拟哺乳动物大脑的神经元操作，尤其是模拟专用于运动信息处理的“背侧路径”，该背侧路径处理包含视觉信息的“光流”。该系统提供的决策和与视觉观察到的身体姿势相关的运动特性(例如，运动的存在、运动方向)有关。在这种意义上，该系统在作为模拟系统的同时，也表现为真实的生物运动检测和决策器官。

实际上，对于没有内部适应能力(即，不能调整其神经元以自行检测和判定新特性)的系统，该系统能够判定的特性是该系统被配置为检测和判定的特性。在所有情况下，该系统的结果/输出是与特性相关的决策选择。应注意，本发明的系统具有一定的学习能力，在这种意义上，神经元结构根据可以通过训练程序而学习到的功能参数来操作，以便尤其是再现特定人类受试者的决策方式。在更简单的操作中，直接为该系统提供已经预定义的功能参数。我们将看到，这些参数可以是例如噪声水平、神经元之间的抑制程度、神经元的固有延迟。

在其原理上，该模拟检测和系统是描述性风险规避贝叶斯决策制定系统。该系统首先基于模拟系统所模仿的视觉系统在感知/认知过程中存储原型模式的假设，其次基于包括堆叠层的层级前馈模型，每一层具有特定的检测功能。

另外，层级结构的最后一层(即运动模式检测器层，并且其模拟决策制定神经元)是基于相互抑制的神经元网络的动态模型。然而，这最后一个模型已经通过附加功能(即遗忘功能)进行了完善。正是这些运动模式检测器的活动构成了决策响应，或者更一般地，构成了生物运动模拟检测和决策系统的行为。

因此，本发明的系统中使用的神经元模型基于三个主要假设：

-模拟背侧流由被配置为提取光流特征的神经元检测器(即，神经元)的层级构成。

-模型在神经元结构层之间采用前馈架构。

-该系统存储原型模式，并将其用于感知和识别。

关于图1和图2，所模拟的背侧流的神经元层级是前馈架构，该前馈架构包括在模拟神经元结构中按顺序地/串行地操作的以下神经元层：

-局部运动能量检测器8，

-对立运动检测器9，

-被布置为两个检测器组10、11的复杂模式检测器，

-运动模式检测器12、13。

这些模拟神经元结构是以层级方式链接的，并且信息以光流数据流的形式在它们之间从所述前馈架构/层级中的较低层神经元结构的输出传递到下一神经元结构的输入。

取决于这些神经元结构的模拟神经元的计算的实际实施方式，可以以从对神经元进行模拟的特定实体之间的单个消息到全局消息传递等多种方式实施光流数据流。在所有情况下，这背后的基本原理是神经元计算，其中，根据检测器/神经元的输入来计算其输出，以模仿生物神经元细胞。

神经元结构和神经元层级可以以多种方式来实施，从完全计算的完全虚拟系统到使用对神经元进行模拟的硬件元件，这些硬件元件例如作为ASIC或可重编程门阵列(其中，布置了多组门来对神经元进行模拟)相互连接。

必须注意，在示例性实施方式中，由于使用了作为数字系统的通用计算机，实施方式是基于采样数据的，在系统内处理的演变的视觉数据被采样成一系列静止图像或帧。然而，在使用基于模拟的系统并且视觉数据连续可用的情况下，可以采用非采样实施方式。

系统接收视觉刺激序列或视频，通常是一系列帧或静止图像，这些图像被一个接一个地按顺序处理，并且每一层取决于该层的检测功能而输出携带不同类型信息的光流数据流。视觉刺激序列可以直接提供给系统，或者其可以是模拟眼睛的设备的输出，尤其是对相机提供的数据进行一些处理的数字摄像机的输出。通过系统中的这种模拟视觉路径和接口3，于是可以模拟处于完美状态的眼睛，或者替代地，具有某一(或某些)疾病或缺陷的眼睛。

根据本发明的系统受到了在高复杂度的视觉刺激(即，对球进行足球射门)下从模拟受试者的视角检测球的方向的挑战，该模拟受试者具有基于根据本发明的系统的模拟决策大脑部分。因此，所描述的示例性实施方式是基于该目标/目的而构建的。

局部运动能量检测器

局部运动能量检测器在模拟局部运动方向检测神经元结构4、4L、4R中实施，该神经元结构形成背侧流的神经元层级中的较低的第一层。

这些局部运动能量检测器对不同的运动方向敏感，并且具有小于模拟对立运动检测神经元结构的观察角度的感受野，其中每个感受野通常具有约为0.9度的角度。在当前示例性实施方式中，感受野对四个不同的方向敏感：相邻感受野之间的左和右、上和下，并且对应的检测器已经被部署在36×31的网格组件中。

在更先进的实施方式中，检测可以扩展到(多个)对角线方向。

神经元结构使用视觉刺激序列中的两个连续帧来进行检测：局部运动能量检测器检测两个连续帧之间的更改，并且模拟局部运动方向检测神经元结构输出的光流数据流携带关于每个感受野的可能运动方向的信息。

在模拟局部运动方向检测神经元结构中实施最大池化。

如果需要，可以在Casile A、Giese MA.的“Critical features for therecognition of biological motion[生物运动识别的关键特征]”，Journal of Vision[视觉期刊].2005；5(4):6-，以及还有Smith,A.T.,&Snowden,R.J.(1994),“Visualdetection of motion[运动的视觉检测]”；学术出版社(Academic Press)中找到该模拟运动方向检测神经元结构的实施方式的详细解释。

对立运动检测器

对立运动检测器9在模拟对立运动检测神经元结构5、5L、5R中实施，该神经元结构形成背侧流的神经元层级中的第二层。

这些检测器对比如展开、收缩和旋转等对立运动敏感。

例如，专用于竖直收缩检测的神经元被位于其观察角度内的两个相邻子场中发生的这种相反运动所激活，这些子场被限定在与局部运动能量检测器相对应的感受野内。

在示例性实施方式中，每个对立运动检测器的观察角度约为3.5度。

对立运动检测器汇集在一个子场中具有相同方向偏好的局部运动能量检测器的响应，即，来自由模拟局部运动方向检测神经元结构输出的光流数据流。

在竖直收缩的情况下，这将是左子场中的向右运动，同时以相同的方式汇集来自相邻子场的检测器响应，只是偏好相反(在竖直收缩的情况下，该偏好将是右子场中的向左运动)。

在示例性实施方式中，对竖直的和水平的展开和收缩的对立运动敏感的检测器是布置为5×5组件的100个收缩和展开检测器，25个检测器用于水平展开，25个检测器用于水平收缩，25个检测器用于竖直展开，并且25个检测器用于竖直收缩，并且这些检测器因此能够产生对与这些对立运动相关的100个特征的检测。

除了水平的和竖直的收缩和展开检测以外，实施能够产生对与每个旋转取向(顺时针或逆时针)相关的20个特征的检测的顺时针旋转检测和逆时针旋转检测，每种检测具有布置为5×4组件的20个检测器。因此，顺时针旋转检测器和逆时针旋转检测器管理20个感受野，这些感受野对应于每个顺时针检测和逆时针检测的局部运动能量检测器的感受野，涵盖模拟局部运动方向检测神经元结构的36×31网格组件。每个旋转感受野连接到4个相连且重叠的子场，从而允许旋转检测器也使用最大池化策略来拾取最高旋转活动。每个子场与模拟局部运动方向检测神经元结构的14×14的局部运动能量检测器相关，该局部运动能量检测器构成用于模拟对立运动检测神经元结构中的顺时针或逆时针旋转的5×4感受野布置。

现在描述用于旋转检测机制的结构。每个旋转检测器(顺时针或逆时针)连接有四个子场：左上、右上、左下和右下子场。因为局部运动能量检测器检测这四个基本运动方向：右、左、上和下方向，所以只有在以下两个方向条件下，顺时针旋转才能被神经元检测到：

-左上子场为上，右上子场为右，左下子场为左，且右下子场为下，

-左上子场为右，右上子场为下，左下子场为上，且右下子场为左。

可以容易地从该旋转的条件中推断出用于检测逆时针旋转的两个条件。

因此，模拟对立运动检测神经元结构的输出能够检测与对应于对立运动的展开、收缩和旋转相关的140个特征，这些特征是在发送到下一层的光流数据流中输出的。

复杂模式检测器

复杂模式检测器被布置为组10、11，并且在模拟复杂模式检测神经元结构6、6L、6R中实施，该神经元结构形成背侧流的神经元层级中的第三层。

模式是一系列随时间变化的特征，这些特征能够由模拟对立运动检测神经元结构检测，并且与系统可以达成的特定决策相对应。模式是已学习的模板，并且其是统计帧。在当前示例性实施方式中，有18个统计帧(二乘九，用于左和右两个方向)，并且模拟复杂模式检测神经元结构6、6L、6R的每个神经元/检测器配置有这些统计帧之一。在示例性实施方式中，这些统计帧在这些神经元中的每一个神经元中是预先设置的，并且不存在学习过程。然而，在更先进的实施方式中，可以实施并执行初始学习阶段。因此，在示例性实施方式中，这些模式是根据系统被配置为计算的关于与身体姿势相关的可视化且经处理的运动的可能决策来预先建立/预先设置的。

复杂模式检测神经元结构由能够随着时间推移而检测/辨别一系列暂时复杂的光流模式的神经元构成。然后，这些神经元也会对它们接收到的输入的时间顺序做出响应。这意味着，如果顺序不正确，则风险(参见下文解释的贝叶斯风险评估方案)将显著更高，因此神经元保持静默。

复杂模式检测器被布置为侧向耦合神经元网络，其中，非对称连接允许活跃神经元在某一时刻使被调谐到可能的(多个)后来光流模式的神经元兴奋，并抑制其余检测器加密过去的/较旧的光流模式。如果需要，可以查阅该文献：Mineiro,P.和Zipser,D.J.N.C.(1998),“Analysis of direction selectivity arising from recurrent corticalinteractions[对由反复皮层相互作用引起的方向选择性的分析]”10(2),353-371。

以这种方式，对第i帧敏感的复杂模式检测器的假设动态(即，来自帧序列中的第i-1帧和第i帧的光流)如下所示：

其中，t是时间，m对应于第三层的神经元数量，H_i(t)是第i个神经元的活动，τ_OFP＝150ms是复杂模式检测动态的时间常数，w(m)是非对称权重内核，f(H)是阶跃阈值函数，以及G_i(t)是神经元的瞬时前馈输入并且来自第二层5、5L、5R。更确切地，模拟复杂模式检测神经元结构6、6L、6R的输入(其来自模拟对立运动检测神经元结构5、5L、5R)经过贝叶斯风险评估方案，并且其结果构成Gi(t)。这些公式的抑制部分是求和项。

由于到第三层6、6L、6R中的每个光流神经元的前馈输入是通过贝叶斯风险评估方案推导出来的，因此这表示模拟复杂模式检测神经元结构6、6L、6R的记忆。

使用欧拉方法来求解上面表示的第三层6、6L、6R的复杂模式检测器的动态。

如前所述，关于模型的基本假设之一是由神经元执行的原型匹配。该原型匹配只不过是构成前述前馈输入的模板匹配过程的结果。模板所对应于的信息基于对可能模式的先验知识或先前学习。

以下文件中描述了开发用于模式检测的侧向耦合神经元网络的尝试：Casile,A.和Giese,M.A.(2005)，“Critical features for the recognition of biologicalmotion[生物运动识别的关键特征]”，见Journal of Vision[视觉期刊],5(4),6-6,doi:10.1167/5.4.6以及还见于Giese,M.A.和&Poggio,T.(2003)，“Neural mechanisms forthe recognition of biological movements[生物运动识别的神经机制]”，见Nat RevNeurosci[神经科学杂志],4(3),179-192。

为了生成瞬时前馈输入G_i(t)，与上面刚刚列出的这两个文件中描述的开发相比，示例性实施方式使用了数量更少的神经元和不同的策略。在这些文件中，针对Gi(t)使用径向基函数。而且，径向基函数对当前系统中处理的这种类型的刺激根本不起作用。

在示例性实施方式中，前馈输入G_i(t)被认为是多类贝叶斯分类方案的产物。这里不使用经典的分类错误最小化，而是选择使用将平均风险最小化并且包括针对不同类型错误的不同意义的方法。这已被证明是更高效的。更确切地，将当前帧错误地分类为后来的特征向量之一的严重性必须低于与过去的/较旧的特征向量/模板相关的错误分类的严重性。

其背后的逻辑可以用守门员的示例来解释；这意味着，如果守门员判定在场景中观察到的帧属于序列的未来状态之一，则与将该场景分类为过去的/之前的编码模板相比，救球的机会受到的影响更小，要知道，模板是140个元素的数组，因此其编码300×400像素的帧。

在示例性实施方式中，关于运动特性，系统必须判定的是足球运动员的移动所导致的球方向是左侧还是右侧。

为了简化该过程，考虑射门相对于系统在其中看到足球运动员的身体的视觉观察场景的中心的偏离角度。仍为了简化，每个刺激序列(即，罚球序列)的九个连续时间段已被考虑用于关于模式随时间的演变来定义这些模式。

在示例性实施方式中，持续时间长度为4.5s的每个刺激序列/视频被采样并且由90个帧构成，并且模拟复杂模式检测神经元结构在其输入处每两个连续帧便接收140个元素的特征向量。采样基于周期为500毫秒的时间点。模拟复杂模式检测神经元结构包括十八个检测器/神经元，其中组10(图1)的九个检测器用于右向，并且组11(图1)的九个检测器用于左向，并且每个检测器对90帧刺激中的十个连续帧敏感。存储在每个模拟神经元中的模板是代表所有这10个帧以及还有20个不同角度的这十个帧的统计模式，除此之外，神经元之间还存在对神经元进行控制以维持序列的并行连接。

更一般地，复杂模式检测神经元结构中的神经元的数量是每个神经元专用于处理的帧的数量(在示例性实施方式中为10帧)、以及刺激的长度(在示例性实施方式中为90帧)、以及可能的决策数量(在示例性实施方式中为2)的函数。当然，在其他实施方式中，这些值可以改变。

例如，在示例性实施方式中，神经元

对于左侧射门的帧1到帧10具有选择性，而神经元

对于右侧射门的帧41到帧50具有选择性。这18个神经元中的每一个包含假设为高斯形式N(uk,Σk)的内部生成模型(u|ω_k)，k＝1,...,18。每个模板的均值uk和协方差矩阵Σk是使用从10帧具有不同偏离程度的多个刺激中推导出的特征向量来计算的。因此，每个模板以及因此每个统计帧是具有均值向量和协方差矩阵的高斯函数。

例如，使用来自射门的帧61到帧70的特征向量来训练神经元

这些帧与观察者右手侧的偏离程度为7°至20°。简而言之，无论射门的偏离如何，神经元

都应该对帧61到帧70具有选择性。

这些参数导致分类问题有十八个类，九个类用于向右的球以及九个类用于向左的球。这还意味着模拟复杂模式检测神经元结构包括18个检测器/神经元，9个用于右向以及9个用于左向。

每个类表示刺激序列中的一个特定时段。每个时段对应于具有90个帧的刺激序列中的10个连续帧。例如，与向右的球相关联的第1类意味着我们处于刺激序列中的第一时段，并且这对应于前十帧。与向左的球相关联的第3类在刺激序列到达帧31至帧40之间的某处并且具有这种球方向时是良好的检测。

因此，相关的分类问题是十八个类的问题，ω_i，i＝1,…,18，其中，R_j(j＝1,…,18)构成特征空间R_i的区域/子空间。当然，这可以应用于第三层的任意数量的类(神经元)。

当属于空间R_i的特征向量u被误分类为类ω_k而i≠k时会发生错误，并且因此，损失项λ_ki将被指配给该错误决策。以这种方式，可以形成损失矩阵，其元素λ_ki构成当真实状态为i(馈送到第三层的特征向量)时对动作k(此处：分类为类ω_k)的惩罚。

可以看出，在以下情况下，平均风险被最小化：

u∈R_i，如果

则λ_ll＝0,

这表明，当u具有最低加权总和并且分类为类ω_i时，其源自空间R_i。在该不等式中，p(u|ω_k)是在给定类ω_k的情况下的特征向量的似然，并且p(ω_k)是类ω_k的先验概率。在所实施的模型中，假设每个空间R_i的特征向量的似然服从高斯分布(μ_i,Σ_i)，其中，μ_i是均值向量，并且Σ_i是协方差矩阵。而且，分别为每个类ω_k预定义了先验p(ω_k)，并且

以这种方式，只要u(t)属于特征空间R_i，调谐到类ω_i的检测器/神经元就在每个时间步长/帧处接收正的非零前馈输入G_i(t)。

这可以通过以下方式在细胞层面进行描述：当一个输入与标记为i的一个神经元的预设模板相匹配时，所有其他不同类的神经元都将这视为添加到它们风险总和的相当大的加权量，而损失项λ_ii＝0则使得标记为i的匹配神经元免于将该大信号添加到其风险总和。换句话说，具有匹配的模板的神经元抑制其他神经元的响应。

运动模式检测器

运动模式检测器12、13在模拟运动模式检测神经元结构7、7LR中实施，该神经元结构形成背侧流的神经元层级中的第四层并且提供关于(多个)运动特性的最终决策。

因此，在构成模型的最高的第四层的运动模式检测器/神经元中会发生对完整生物运动模式的辨别。

在示例性实施方式中，完整生物动作限于两种可能的决策：在向左射门的刺激与向右射门的刺激之间进行区分，并且仅实施两个模拟神经元。这两个神经元根据具有适应和遗忘能力的稳健相互抑制模型来布置。这是非线性微分系统，并且已经使用4阶龙格-库塔法进行求解。

更一般地，在模拟复杂模式检测神经元结构中实施的、并且属于与可能的决策之一相对应的一个特定动作的复杂模式检测器的活动的总和用作与该动作相关联的运动模式检测器的输入。

在系统必须判定的活动决策的数量不是两个而是例如三个的情况下，于是在第四层实施三个神经元，并且最初就利用将由系统判定的这三个活动来训练第三层神经元。

如一开始所述的，这是非线性、兴奋性、抑制性的神经元网络，其被实施用于模拟第四层的运动模式检测器。

为此，使用非线性、兴奋性且抑制性网络来模拟这些运动模式检测器。该网络的操作被称为相互抑制或全局抑制，具有最高兴奋性输入的检测器以非线性且相互作用的方式抑制其活动未超过其阈值的那些检测器的活动。

另外，在第四层神经元网络的操作中添加了遗忘功能。由于这种遗忘功能，该系统可以更精确地模拟真实生物大脑进行决策时存在的反应时间。

在当前示例中，仅在第四层的最后两个决策神经元中实施遗忘功能。

遗忘功能基于神经元适应，这是指暴露于恒定刺激的神经元的反应性随着时间的推移而降低。例如，在视觉系统中，如果没有注视眼动，则对图像或运动的视觉感知会逐渐减弱或消失。作为决策制定神经元的运动模式检测器神经元也不例外，并且不应永久保持激活，遗忘功能用于实施系统中神经元激活的短暂性质。

在示例性实施方式中，必须注意，为了简化系统的实施方式，在模拟运动模式检测神经元结构中的第四层中实施遗忘功能。

相互抑制模型具有以下动态，并且解释了决策制定神经元的响应：

τdT/dt＝-T+S(P_T(D))

τdD/dt＝-D+S(P_D(D，T))

其中，T是首先兴奋的神经元的活动，并且D表示第4层7、7LR中的其他神经元的活动，τ是时间常数，并且S(P)是已被证明在兴奋性-抑制性网络模型设计中具有优势的修正的米氏函数。在其他实施方式中，可以使用米氏函数以外的另一函数，例如，如累积高斯函数之类的行为函数。在这样的其他实施方式中，可以使用具有与米氏函数相同的数学对称性的任何其他函数，例如，累积高斯函数或威布尔函数。

此外，P_T和P_D分别是T型和D型神经元可用的信息阈值：当信息阈值为负时，作为结果，第四层7、7LR内的神经元侧向连接关闭，稳健互抑制模型将神经元的负输出设置为零。更确切地：

PT(D)＝E_T-k_inhND

P(D，T)＝E_D-k_inh(N-1)D-kT

其中，N是神经元的数量，并且常数k_inh是抑制性反馈增益。此外，E_T和E_D表示从上一层层级(第三层)生成的外部输入。

修正的米氏函数为：

其中，M是兴奋性-抑制性活动的最大信息阈值，并且σ设置S(P)达到其半大值的点。

要求解的方程的数量取决于该过程中涉及多少决策制定神经元。例如，对于决策制定代理，为了从N个选择中挑选出一个选择，这就需要求解一个关于P(D)的方程和N-1个关于P_D(D，T)的方程。

在示例性实施方式中，在左与右之间决策，N＝2，并且因此用两个模拟神经元来实施第四层。

通过对相互抑制模型进行以下修改，在第四层中实施遗忘功能，该修改引入了时间相关项作为T神经元和D神经元两者的动态的输入：

Dis_T＝(t-τ_a)*[T-S(P_T(D))-k_DisT]

Dis_D＝(t-τ_a)*[D-S(P_D(D，T))-k_DisD]

其中，u()是单位阶跃函数，τ_a标记开始适应/遗忘的时间点，并且k_Dis是加权系数。在时刻τ_a处，微分方程的遗忘输入被打开，并且每个神经元的动态弱化为简单的指数递减，从而使神经元脱离兴奋状态。

优选地，还修改了所实施的相互抑制模型，其中，为了降低敏感度水平，第四层忽略负变化，而不是根据线性一阶动态而使神经元的活动指数衰减。更确切地，当神经元因为负信息阈值而断开连接时，神经元活动将如下所示：

噪声

目前为止描述的具有四个层的系统可以这样使用。但是，为了更好地模拟决策制定过程中的不确定性，可以优选地添加一定水平的噪声。

在该示例性实施方式中，为了简化系统的实施方式，在第四层的输入处在光流数据流内接收噪声。然而，也可以在层级系统的一个或多个其他层中引入噪声。而且，非常低的噪声水平还可能对神经网络的运作产生有益影响。

因此，为了模拟决策制定过程中的不确定性，假设每个复杂模式检测器(第3层)的输出是从高斯分布N(H_i(t)，Δtδ²)中得到的，其中，H_i(t)是在不存在所添加的方差为δ²的内部噪声的情况下复杂模式检测器的平均理想活动。

模拟视觉路径和接口

将用于模拟决策过程的系统应用于视觉观察到/感知到的数据，并且还模拟负责视觉的器官(即，眼睛)可能是有利的。由模拟视觉路径及其接口3(图1)、3R和3L(图2)模拟的眼睛将观察场景2(图1中表征为一系列帧)的发光信息转换为光流数据流，该光流数据流传递与视觉观察场景相关的信息，并且可以通过四层神经元结构来处理该信息。因此，模拟眼睛也是观察场景与光流数据流之间的接口。这就是模拟眼睛被称为模拟视觉路径和接口的原因。

模拟眼睛可以被实施为模拟普通的眼睛、完美的眼睛或具有一些缺陷的眼睛。而且，可以用附加的眼科装置(例如，镜片或护目镜)来对其进行模拟。

模拟视觉路径及其接口可以是摄像机、计算装置与诸如摄像机等视觉传感器的组合，或者单纯被实施为计算装置。计算装置允许在光流数据流被发送第一检测层进行处理之前对其进行预处理。例如，预处理可以是场景模糊、用于模拟近视或其他缺陷的场景变形、用于模拟眼科装置(例如，镜片或护目镜)的动作的场景变形。

在当前应用中，场景包括可观察到的身体，该身体正在移动，以创建由系统分析的身体姿势。如果身体优选地是哺乳动物身体并且尤其是人体，则本发明可以应用于可以具有与其他零件相关地移动的零件的任何可观察元件，而不一定是生物。

训练和测试

已经在计算机上使用

实施了该模拟，并且已经使用

框架执行了数据和统计分析。

对于系统测试，使用了简化的身体，对该简化的身体的观察限于一定数量的亮点。这就是图1的观察场景2的帧序列所以包括逐帧移动的亮点的原因。

然而，该系统可以应用于身体在其中具有规则外观的场景，但这必然需要层更加复杂，并且尤其需要第3层6、6L、6R和第4层7、7LR层中有更多神经元。

更确切地，为了测试该系统，使用了从真实人类足球运动员录制的点球式足球罚球射门视频。球上没有点(刺激中不存在球或球的任何代表)。要判断的罚球射门结果是球的方向。

点球式足球罚球射门视频先前用于从真实人类观察者(即，受试者)收集心理物理数据，尤其是涉及关于球的方向(左或右)的决策。除了决策之外，所收集的心理物理数据尤其是用于描述感官任务的经典阈值和斜率。这些心理物理数据用于系统测试以及真实人类与该系统之间的交叉验证。

视频中的刺激包括15个点，表示头部和人体的主要关节：肩部、臀部、肘部、手腕、膝盖和脚踝。这在图2上进行了示意性表示，其中，观察场景2中的足球运动员的身体包括点14(用箭头来表征这些点的移动)。每个刺激由持续时间长度为4.5秒的90个帧构成。通过绕Z轴旋转原始刺激，可以创建关于不同角度的向左和向右的点球式足球射门的刺激。

在心理物理学研究中，使35名人类受试者暴露于朝向观察者/受试者的左手侧或右手侧偏离2°、4°、8°和15°的角度的刺激。

对于系统的训练和交叉验证，所利用的数据包括1°至20°范围内的所有射门角度。该范围是从球门视角看罚球射门时的角度范围。

已经使用k重交叉验证程序(k＝5)对系统进行交叉验证。

更确切地，模型分两个阶段进行训练：第一，1到20度上的交叉验证，以确定算法得到了验证；以及第二，7到20度上的模型训练，这在自然环境中更有意义。更确切地，该第二阶段是针对2°、4°、8°和15°的角度进行的，以再现心理物理学研究条件。

在心理物理学研究中，已经设计了仅依赖于生物运动信号来决定球的方向(左或右)的强迫选择范式任务。这35名人类受试者中的每一个暴露于总共1080个偏离角度为2°、4°、8°和15°的左射门和右射门的随机化刺激序列(每一侧的每个角度120次)。因此，对于每个人类受试者，确定了将人类行为与角度偏离进行关联的心理物理函数。

在该系统中，为了能够再现真实人类/受试者的表现，对系统的三个变量进行了调整，以模仿心理物理学研究中的35名受试者的行为。因此，这些变量是系统及其神经元结构的功能参数。

正如心理物理学研究那样，对于每个角度和每一侧，系统已经暴露于相同的刺激120次，以生成错误百分量。此外，这已经重复了30次，并且根据模拟结果在系统上评估了与受试者的心理物理参数相同的心理物理参数，以便能够对受试者和系统进行比较。

用于根据这35名受试者中的每一个的行为调整系统的四个变量是：

-在模拟运动模式检测神经元结构中实施的运动模式检测器的输入处接收到的内部噪声的标准差δ。

-在模拟运动模式检测神经元结构中实施的运动模式检测器的时间常数τ。

-在模拟运动模式检测神经元结构中实施的运动模式检测器的抑制性反馈增益k_inh。

-嵌入到τ_a参数中的遗忘。

经过训练之后，该系统相比于先前已知的不具备遗忘能力且不具备旋转检测的系统来说表现得相当好。系统的5重交叉验证导致87.5％的平均成功率，其中第一重测试时的成功率最低，为62.5％，而最后两重测试时的成功率为100％。

即使内部噪声水平的添加导致角度阈值更高、斜率更平、反应时间更快或系统整体性能更差，系统性能在存在所施加的宽范围的内部噪声δ的情况下仍展现出显著的稳健性。

除了作为系统的重要调节参数的噪声之外，这两个决策制定神经元之间发生的抑制的程度(用k来表示)以及其固有延迟(用τ来表示)被证明是将模型带入不同的受试者行为的关键因素。

对于宽范围的变量k、τ和δ，系统以恒定值τ_a＝1.22秒运行，并相应地计算了角度阈值、斜率和反应时间。当然，也可以调整τ的值。

添加旋转检测使得系统的所有计算出的配置无一例外地具有更好的性能，这意味着更低的角度阈值且更陡的斜率，但反应时间没有显著的变化。旋转检测的这种添加甚至允许对受试者之一进行模拟，这在先前没有旋转检测的情况下是不可能的。

现在介绍从测试中获得的、变量对系统决策制定行为的贡献。

神经元的动态时间常数τ的增加总是导致更好的性能，这意味着更低的角度阈值和更陡的斜率。

抑制性增益k的增加显示出不同的特点(取决于k的值)，但其总是导致更高的反应时间。起初，抑制性增益k的增加导致性能恶化(更高的阈值和更平的斜率)，但是这在k超过值8之后变得有所改善。然而，对于δ＝0.030，该现象似乎不太明显。在该噪声水平下，角度阈值并未减小，而是以较低的速率增大。最后，必须注意，斜率呈现出变得更陡的新趋势，这只意味着在较低的角度偏离下达到最高的准确度。

性能的改善不是没有代价的。分析运动模式检测器的活动表明，当抑制性增益k非常大时，获胜的检测器/神经元达到其活动的最高点需要长得多的时间，并且这可以被解释为导致更长的处理时间。因此，在该系统中，在大抑制性增益下出现的、影响运动模式神经元系统的兴奋/抑制比的处理时间的增加可以被解释为本系统与当前在人类中的发现显著一致。

受试者的结果与模拟结果

通过调整上面提及的变量：内部噪声δ、相互抑制时间常数τ和抑制性增益k，系统可以以非常好的准确度来模拟35名受试者的行为(即，他们的心理物理函数)。

相关性分析表明，实验角度阈值与模拟角度阈值之间存在显著正相关性，其中，斯皮尔曼相关系数rs＝0.991，p值＝7.08E-31(p<0.001)，并且模拟斜率值与实验斜率值之间存在另一显著正相关性，其中，斯皮尔曼相关系数rs＝0.963，p值＝2.70E-20(p<0.001)。

该系统的示例性实施方式使用固定的原型模式、参数和先验(即，类ω_k的先验概率(ω_k))，以进行感知和做出决策，并且该方法是具有预先调整的风险矩阵的统计风险敏感框架。该系统的更全面的模型(其中，先前的元素(尤其是用于调整系统的变量)将是可适应的)可以从在线学习和适应能力中受益。

在可以应用于当前模型的机器学习领域中，可以实施强化学习，其中，学习执行导致最高奖励的特定动作的代理是无监督学习的子集，该代理的学习方法符合因果关系。作为强化学习的一种形式，Q学习在对基于奖励的人类决策制定和多巴胺能介导的奖励预测机制进行建模方面显示出良好的前景。

对于Q学习的这种实施方式，定义一些概念是有用的：

-环境：发生问题的情景，

-代理：在某些假设下执行动作的自主行动者，

-动作：代理可以执行的任何可能行为(如图中的链接)，

-状态：代理可以主持的情况(如图中的节点)，

-奖励：环境为代理的最后一个动作而授予代理的即时收益(如指配给每个链接的权重)，

-方针：基于当前状态来指示代理的下一个动作的策略，

-值：任何状态使用特定方针的预期长期收益，以及

-动作值：也称为Q值，类似于值并且也仅取决于动作，并且意味着在特定状态下使用特定方针采取特定动作的预期长期收益。

如果我们假设，在某个环境中，其中一个状态是目标，那么清白历史(cleanslate)的代理的目标将是当其被置于所提及的环境中时达到该目标状态。通过将奖励值或权重与每个可能的动作相关联，可以实现将一种状态指定为目标。

例如，如果存在一种状态，代理可以在下一步中到达目标状态，则该动作的奖励值为100，但是任何不导致目标状态的动作的奖励值均为零。可以认为，奖励是将状态与动作进行关联的矩阵，其中矩阵的元素是奖励值。在该奖励矩阵中，除了值零和100之外，当某个动作不存在时，我们只能为它指配负奖励值。奖励矩阵在学习开始时被初始化为零矩阵。

现在，具有未知数量的元素并且也被初始化为具有单个零值的零矩阵(当在学习期间发现新状态时，矩阵将会扩展)的动作值矩阵Q表示我们的代理的大脑，他在学习开始时一无所知。

使用了简单的转移公式：

Q(state,action)＝Reward(state,action)+γ*Max(Q(next state,allactions))

动作值矩阵Q的每个元素将通过向奖励矩阵中的对应值添加学习项来计算。更新项是Q中的针对下一状态的所有可能动作的最大值乘以学习率γ。

通过对随机状态下的代理进行初始化并且将动作值矩阵Q初始化为零矩阵，可以启动算法。在每一步，代理随机选择到达可能的状态之一，然后我们通过将奖励矩阵元素中的对应元素与动作值矩阵Q中下一状态的所有可能动作的最大值相加、再与更新因子相乘，来计算动作值矩阵Q中的元素的值。刚才所解释的内容表征了学习过程的一次迭代，并且迭代是朝着收敛方向进行的。对应的学习过程如图3中具有吸收目标的三状态系统的学习步骤的简化示例所示。

在收敛时，可以假设代理知道到达目标的最优路径，这意味着，无论从任何初始状态，总和值最高的路径就是要选取的路径，正如McCullock,J.(2012)在可从http://mnemstudio.org/path-finding-q-learning-tutorial.htm检索的“A Painless Q-Learning Tutorial[无痛Q学习教程]”中所提出的。

在我们的生物运动感知模型框架中，代理将是复杂模式检测器的第三层，这些复杂模式检测器在模拟复杂模式检测神经元结构6、6L、6R中实施并且识别运动的不同阶段。状态空间是涵盖各种身体移动并且移动通过第一层和第二层的刺激，并且动作空间是将观察结果分类为其对应时间阶段的分类。每次运行时，我们建立具有新初始状态的新环境。在每一步处，对于刺激中的给定序列，我们从代理获得动作，基于该动作，环境返回奖励和新状态。

这组状态、动作、奖励和下一状态根据所提及的更新规则而形成Q值。稳定收敛的Q值是使得代理能够在给定观察结果下做出最佳分类以获得最大奖励的方针。为了获得准确的Q值，可以借助于深度神经网络。因此才有了深度Q学习这一术语。

为了对像人类行为那样的具有未知转移概率的系统进行建模，可以使用实施顺序决策制定的风险敏感Q学习算法。选择效用函数来为具有嘈杂奖励的决策制定提供风险敏感框架，正如Shen,Y(2015)“Risk-sensitive Markov Decision Processes[风险敏感马尔可夫决策过程]”(doctor rerum naturalium)，柏林大学技术学院中所提出的。

该系统作为功能模拟器可以具有多种用途。该系统可以应用于光学眼科处方或设计，因为其允许在模拟系统上进行光学器件的个体间适应。基于神经模仿模型，通过考虑个体适应能力、尤其是通过考虑τ_a值以及对兴奋/抑制神经元反应进行建模的对应层，可以改进新光学设计或新涂层的概念和创新。取决于未来佩戴者的诸如年龄、屈光不正、专业知识等个体特性，系统的适应能力可以改变。通过模仿人类大脑的本发明系统，还可以研究眼科镜片畸变对人类决策制定过程的影响，并且对该影响进行建模。

因此，眼科镜片生产商将能够提前评估和估计他们的设计对现实生活情况的影响。这种情况的示例是确定从前面来的人是走向观察者的左边还是右边以避免碰撞，或者是检测更细微的移动。这种应用可以通过在生物运动刺激与模拟模型之间插入镜片设计模型来实现。通过在生产之前实施该过程，镜片制造商可以节省其投入到评估阶段的大部分费用和时间。

例如，已经测试了光学畸变对生物运动感知的影响。观察到的足球射门场景(即，当前实例中的点球显示)已经畸变了2.3屈光度的桶形像差。在系统中模拟并计算了心理物理函数。这导致了模拟受试者/系统的心理物理函数的阈值和斜率的变化。例如，一个阈值为9.3°且无畸变的模拟受试者变为17.9°且具有畸变，并且其斜率从0.12变为0.06。对于另一个模拟受试者，阈值从10.7°变为42.3°，并且斜率从0.11变为0.013。值得提醒的是，检测生物运动取向的准确度越好，斜率就越高，反之亦然。

在另一应用中，该系统可以应用于机器人视觉，以快速识别人类动作姿势。例如，应用于帮助老年人群或其他人群评估基于人类的动作的机器人。它还可以应用于监控系统，以确定具体的动作，或者应用于体育运动，以用于行为监测。

根据本发明的系统可以以许多其他方式实施，例如根据以下可能性：

在系统的示例性实施方式中，模拟对立运动检测神经元结构的对立运动检测器仅从局部运动能量检测器的相邻感受野接收数据。在更先进的系统中，可以汇集来自两个远距离感受野的数据，以便能够检测移动场景中的全局或至少较大的相对运动。

在系统的示例性实施方式中，第一层和第二层两者都被模拟为无噪声的，但是如上所见，可以向这些层中一个或两个层添加噪声。

用于测试的实施方式包括如图1所示的系统，其中在单眼应用中仅有一个模拟视觉路径和接口以及层的层级结构。如图2所示，该系统可以被扩展到双眼实施方式，其中，分别由模拟视觉路径和接口3R、3L、模拟局部运动方向检测神经元结构4R、4L、模拟对立运动检测神经元结构5R、5L、以及模拟复杂模式检测神经元结构6R、6L构成的两个子系统1R、1L被并行布置，并且这两个子系统的输出(来自这两个子系统1R、1L的两个模拟复杂模式检测神经元结构)被发送到提供决策的公共模拟运动模式检测神经元结构7LR。由于两个模拟视觉路径和两个接口朝向同一场景有两个不同视角、以及由于并行的层，可以提供与双眼视觉可获得的运动特性相关的附加决策。

Claims

1.一种系统(1)，所述系统通过包括朝向模拟神经元结构的接口的模拟视觉路径来模拟哺乳动物大脑中关于与视觉观察到的身体的身体姿势相关的运动特性的决策过程，所述模拟视觉路径及其接口至少将所述观察到的身体的发光信息转换为光流数据流，所述光流数据流传递与所述视觉观察到的身体相关的视觉观察信息，并且可以在所述模拟神经元结构中处理所述视觉观察信息，

-所述模拟视觉路径及其接口(3，3L，3R)，所述模拟视觉路径及其接口被配置为模拟眼睛以及所述至少一只眼睛上的最终眼科装置，

-模拟局部运动方向检测神经元结构(4，4L，4R)，用于通过感受野来检测运动方向，并且从所述接口接收光流数据流，

-模拟对立运动检测神经元结构(5，5L，5R)，用于检测至少与展开和收缩相关的对立运动，并且从所述模拟局部运动方向检测神经元结构接收光流数据流，

-模拟复杂模式检测神经元结构(6，6L，6R)，用于在整个视觉观察上并且根据所述整个视觉观察的时间期间的演变来全局地检测光流模式，并且从所述模拟对立运动检测神经元结构接收光流数据流，可检测的模式是原型模式，以及

-模拟运动模式检测神经元结构(7，7LR)，用于检测运动模式，并且从所述模拟复杂模式检测神经元结构接收光流数据流，并且提供关于运动特性的决策，

其中，所述模拟运动模式检测神经元结构(7，7LR)的神经元均包括遗忘能力，所述遗忘能力是延迟和所述神经元的活动的函数。

2.根据权利要求1所述的系统，其中，所述模拟对立运动检测神经元结构(5，5L，5R)进一步检测与旋转相关的对立运动。

3.根据权利要求1或权利要求2所述的系统，其中，在所述系统中进一步模拟所述系统的内部噪声，并且其中，噪声被添加到从所述模拟复杂模式检测神经元结构(6，6L，6R)输出的所述光流数据流。

4.根据权利要求1至3中任一项所述的系统，其中，所述模拟局部运动方向检测神经元结构(4，4L，4R)被配置为检测感受野之间的二维空间中的运动方向，可检测的运动方向为上、下和左、右。

5.根据权利要求2结合权利要求1至4中任一项其他权利要求所述的系统，其中，所述模拟对立运动检测神经元结构(5，5L，5R)被配置为检测二维空间中的展开、收缩、顺时针旋转和逆时针旋转。

6.根据权利要求1至5中任一项所述的系统，其中，所述模拟复杂模式检测神经元结构(6，6L，6R)包括模拟神经元集合，并且被配置为在具有确定值的全局观察角度内检测二维空间中的原型模式，所述模拟复杂模式检测神经元结构的模拟神经元被分配给所述集合中的多个组(10，11)，所述组(10，11)的数量对应于所述系统能够提供的可能决策的数量，每一组包括在所述组内非对称地且侧向地连接在一起的模拟神经元。

7.根据权利要求1至6中任一项所述的系统，其中，所述模拟运动模式检测神经元结构(7，7LR)被配置为相互抑制的模拟神经元(12，13)网络，其中，具有最高兴奋性输入的模拟神经元以非线性且相互作用的操作抑制其他模拟神经元的活动，所述其他模拟神经元的活动未超过其定义的阈值。

8.根据权利要求7所述的系统，其中，所述模拟运动模式检测神经元结构(7，7LR)的相互抑制的模拟神经元(12，13)具有附加输入，通过所述附加输入来执行所述遗忘能力，所述附加输入针对首先兴奋的神经元根据Dis_T＝u(t-τ_a)*[T-S(P_T(D))-k_DisT]来接收数据，并且针对其他神经元根据Dis_D＝u(t-τ_a)*[D-S(P_D(D,T))-k_DisD]来接收数据，并且其中，T是第一个对从所述模拟复杂模式检测神经元结构接收的光流数据流表现兴奋的神经元的活动，并且D是所述网络的其余神经元的活动，u()是单位阶跃函数，τ_a是时间常数，并且S()是修正的米氏函数或具有与米氏函数相同的数学对称性的任何其他函数，并且k_Dis是加权系数。

9.根据权利要求1至8中任一项所述的系统，其中，所述系统包括实施所述神经元结构的至少一个可编程计算机。

10.根据权利要求9所述的系统，其中，所述至少一个可编程计算机包括输入-输出接口，所述输入-输出接口允许输入至少修改与所述遗忘能力相关的延迟的参数值。

11.根据权利要求1至10中任一项所述的系统，其中，所述系统进一步包括用风险敏感Q学习算法实施的学习函数。

12.根据权利要求11所述的系统，其中，所述学习功能是在所述模拟复杂模式检测神经元结构中实施的。