CN105700526A - 具有自主学习能力的在线序列极限学习机方法 - Google Patents
具有自主学习能力的在线序列极限学习机方法 Download PDFInfo
- Publication number
- CN105700526A CN105700526A CN201610020090.XA CN201610020090A CN105700526A CN 105700526 A CN105700526 A CN 105700526A CN 201610020090 A CN201610020090 A CN 201610020090A CN 105700526 A CN105700526 A CN 105700526A
- Authority
- CN
- China
- Prior art keywords
- learning
- state
- external
- time
- learning machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人技术领域,一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。本发明提供的具有自主学习能力的在线序列极限学习机方法,以在线序列极限学习机为框架,结合强化Q学习,提出了一种具有自主学习能力的在线序列极限学习机方法,并将该模型运用到移动机器人路径规划研究中,使机器人根据外部环境的状态与奖励,实现自主学习导航,提高机器人在未知环境中的自主学习能力。
Description
技术领域
本发明涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人技术领域。
背景技术
针对现有认知发育方法中主动性与收敛度不高以及BP网络学习速度慢,容易陷入局部最优等问题,本专利结合极限学习机网络随机获取输入权值与阈值的特点,加快了学习训练速度,避免陷入局部最优解,同时也提高了智能体的主动学习性能。
探索认知发育机理,构建认知发育机制,并把这些机制赋予机器人,是人工智能和机器人学、认知科学、神经生理学和发育心理学研究的重要课题。
人类可以在不同的环境下调整自己的行为来适应环境、选取最合适的动作去完成任务,并学会新的技能。而机器人自从出现以来,大部分都只用于从事复杂重复、单调或者危险的任务,例如组装机器、探险、搜救、侦查等。与此同时,机器人在面对灵活多变、难以预测的环境时,那些面向特定任务、面向特定数据、遗传算法等传统方法就不再适用了,这也限制了机器人的应用范围,所以未知环境下的自主学习能力、决策能力和任务执行能力就成了机器人研究的重点和难点。因此就产生了一个新的研究方向——认知发育机器人。人的自主心智发育属于发展神经科学以及发展心理学领域的研究。近来,来自机器人和机器智能领域的研究人员通过交叉学科研究,对心智发育机器人的研究形成了一个新的研究领域。而机器人如何根据当前环境来选取合适的潜在动作完成任务又是认知发育机器人的一个新的研究内容。
20世纪60年代末至70年代初,斯坦福研究所研制出的具有逻辑推理和行为规划能力的移动式机器人Shakey,被认为是第一个具有自主学习能力的机器人。然而,Shakey是靠单独手工编程或者制定具体任务的机器学习来实现预定功能的,其自适应能力和自主探索能力相对较弱,从某种意义上讲,他并不是一个真正的智能机器人。1997年,麻省理工学院人工智能实验室的Brook教授提出了认知机器人的概念。1998年,J.Weng最早提出了机器人自主心智发育思想。2001年,他在Science上阐述了发育机器人的思想框架和算法模型,并指出真正的智能机器人是具有自主心智发育能力的,使机器人在与环境的交互过程中,独立自主的形成和发育知识及技能,这种能力是渐进形成、发展和完善的,并贯穿于机器人一生。
专利申请号为201410101272.0的专利主要针对传统机器人学习速率较低,实时性差等问题提出了一种仿生智能控制方法,该方法可以快速有效的提高机器人的智能水平。申请号为201410055115.0的专利主要针对现有技术中存在的机器人避障导航智能化程度不高等问题,提出了一种基于Skinner操作条件反射原理的机器人避障导航方法,是机器人能够在没有导师信号的情况下,以“learning-by-doing”的试错式方式与环境交互,建立操作条件反射,完成避障导航。申请号为201210398379.7的专利主要针对现有基于视频的人体行为识别方法存在的不足,提出一种基于在线贯序极限学习机的递增式人体行为识别方法该方法基于在线序贯极限学习机分类器对人体行为进行识别,不但能够在训练样本很少的情况下,以较少的训练时间,获得较为精确的人体行为识别结果,而且具有在线学习能力,即当环境和识别对象发生变化时,无需重新训练新的分类器,只需在现有的分类器基础上继续在线学习就可以达到人体行为的准确识别。
发明内容
针对BP神经网络在移动机器人路径规划应用中存在的维度高,训练难,学习速度慢等问题,提出一种基于在线序列极限学习机的强化Q学习方法(Q-learning),并运用到移动机器人路径规划研究当中,通过外部环境对机器人动作的奖励(惩罚)值,对机器人系统进行反馈,完成自主认知学习。
具体的技术方案为:
该方法一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。各个部分具体含义如下:
(1)表示外部获得的有限的状态集合,表示第个状态,为外部动机的个数。
(2)表示有限的外部智能体动作集合,表示第个动作,表示外部动作个数。
(3)表示系统在时刻在外部状态为时所表现出来的外部动作后使状态转移到后的奖赏信号。
(4)表示系统在时刻在外部状态为时所表现出来的外部智能体动作后使状态转移到后的值函数。
强化Q学习结合了动态规划与动物心理学知识,从而可以实现具有回报的机器在线学习。该方法通过Markov决策过程建模,迭代出最优解。
(1)
其中,为折扣因子,为学习因子,且。Q学习算法流程如下:
Step1:随机初始化;
Step2:观测当前状态并选择执行一个动作决策;
Step3:获得下一状态,并同时获取奖励信号;
Step4:根据(1)式更新Q值。
(5)为状态转移方程,即时刻的外部状态总是由时刻的外部状态和外部智能体动作共同决定,一般来讲是由模型本身与外部环境决定。
(6)表示极限学习机神经网络系统隐含层输出集合,为第个新训练样本数据,表示新训练样本数据个数。
(7)为中间参数转移方程,在时刻的中间参数总是由时刻的中间参数与时刻的极限学习机网络系统隐含层输出共同决定,一般来说是由加入的新样本数据决定。
(8)表示极限学习机网络整体的输出参数集合,为经过第个新样本训练数据训练后预期得到的输出参数,表示输出参数的个数。
首先采用批量的ELM算法来完成对该批数据的训练,如式(2)
(2)
之后含有个训练样本的新数据加入到训练模型中,网络的新隐含层输出矩阵如式(3):
(3)
式(3)可以简化为式(4)
(4)
网络输出矩阵可以改写成为式(5)
(5)
则新的输出权值更新为式(6)
(6)
令(7)
(8)
于是有:
(9)
根据Sherman-Morrison矩阵求逆引理可以将式(9)化简为式(10):
(10)
由式(10)可以得出可以由递推求出,所以得出式(11):
(11)
(9)为极限学习机网络输出权值转移方程,在时刻的输出权值参数总是由时刻的输出权值参数,时刻的中间参数与极限学习机网络系统隐含层输出同时决定,具体来讲是由上一状态的输出参数决定。
将式(9)两边同时求逆得到式(12):
(12)
所以有式(13):
(13)
可以推导式(6),从而得到式(14):
(14)
式中,,都是已知矩阵。
可以看出新的输出权值矩阵可以在就模型下递推更新得到,不需要重新训练。更新公式如式(15)
(15)
本发明系统学习步骤如下:
Step1:将Q-OSELM与网络训练中所用到的各种参数进行初始化;
Step2:将移动机器人状态进行初始化;
Step3:获取当前移动机器人系统的状态信息;
Step4:将当前状态信息输入到Q-OSELM网络中进行训练,根据所输出的Q值信息选择动作决策;
Step5:执行动作决策,使移动机器人得到一个新的状态,以此同时获得一个反馈强化信号。如果机器人发生碰撞,则返回到机器人初始状态并重新开始训练;
Step6:将其反馈信号通过环境反馈到Q-OSELM中完成网络训练;
Step7:重复Step3-Step6直到训练完毕,完成自主在线学习。
研究表明,ELM存在的许多优点,可以满足Q学习的研究需求。
首先,由于ELM是一种前馈神经网络,它采取自适应的方式模仿人脑进行学习训练,网络泛化能力很强,使智能体的智能系统能够更好更快的适应环境变化。
其次,ELM具有自学习,自组织能力以及归纳能力等特点,这不但保证了Q学习算法的收敛性,而且大大增强了智能体对未知环境的识别处理能力。
最后,ELM还具有较强的容错能力,它可以根据被控对象的自身特征进行精确的模式识别。
本发明提供的具有自主学习能力的在线序列极限学习机方法,以在线序列极限学习机为框架,结合强化Q学习,提出了一种具有自主学习能力的在线序列极限学习机方法,并将该模型运用到移动机器人路径规划研究中,使机器人根据外部环境的状态与奖励,实现自主学习导航,提高机器人在未知环境中的自主学习能力。
附图说明
图1为本发明的系统学习流程图;
图2为本发明的移动机器人智能控制结构模型;
图3为本发明的基于Q-OSELM的Q学习网络框架;
图4为实施例的简单环境下机器人寻优路径;
图5为实施例的增加障碍物数量后第一次学习后的运动轨迹;
图6为实施例的增加障碍物数量后完成三次学习后的运动轨迹;
图7为实施例的增加障碍物数量后完成六次学习后的运动轨迹。
具体实施方式
下面结合附图和实施方案对本发明做出进一步说明。
本发明的学习框架图如图3所示,并且按照图1所示的流程进行训练学习。图2给出了机器人智能控制结构模型,体现出机器人是如何通过自主学习完成避碰。
智能机器人在完成一系列任务之前,首先要保证它能够实时快速的适应环境,并完成相应的任务。于是移动机器人识别场景并完成躲避障碍的运动控制称为机器人的首要任务。为了验证本发明所提出的一种具有自主学习能力的极限学习机模型的有效性与收敛性,实验以移动机器人为研究对象,研究在未知环境下机器人避碰的技能。
实验初期设置了10个障碍物与1个目标点且随机的分布在仿真环境中;实验第二阶段改变障碍物及目标位置坐标,并增加障碍物数量至14个。观察两次仿真实验机器人行走路线并记录运动所需的时间。
实验的关键之处是Q学习中强化回报的获取。由此,选取合适的强化学习回报可以提高网络的训练收敛速度。根据本文机器人所需要完成的任务,选取折扣因子,学习因子,并将强化学习回报分为两部分:
依照移动机器人与障碍物的相对运动方向所产生的强化回报;
依照移动机器人与目标点的相对运动方向所产生的强化回报;
由于环境中障碍物是随机分布的,因此处于初始阶段的机器人会随机选取动作,并且导致发生碰撞,得到相应的强化回报,并进行存储,之后通过OSELM网络进行函数逼近,完成训练。经过一段时间训练,机器人可以自主学习实现避开障碍物并顺利到达目标点。
实验一:简单环境下的避碰实验
机器人在无干扰的未知环境中,采用本发明提出的方法,经过一次训练就可以完全掌握环境信息,并完成避碰,表现出快速的自主学习能力,证明了该算法的有效性快速性。仿真运动轨迹如图4所示。
实验二:复杂环境下的避碰实验
简单环境下的避碰实验不能说明该方法的收敛性,于是我们增加障碍数量并完成相应的避碰任务。由于机器人对复杂环境适应的比较慢,所以在较为复杂的初期环境中发生碰撞,如图5所示;而在第三次学习完成后完成避碰并到达目标点的任务,通过路径可以看出产生了冗余点,运动轨迹不平滑,如图6所示;而通过六次学习后,机器人可以完成任务,且路径平滑,实现了快速的自主学习避障,如图7所示。通过复杂环境下从发生碰撞到完成避碰的学习过程中,说明了该方法的收敛性。
Claims (6)
1.具有自主学习能力的在线序列极限学习机方法,其特征在于,系统的整体认知模型以在线序列极限学习机为基础,模拟人脑认知发育机制,与Q学习算法结合并设计了一个九元数组表示:
其中各个部分所表示的内容如下:
(1)表示外部获得的有限的状态集合,表示第个状态,为外部动机的个数;
(2)表示有限的外部智能体动作集合,表示第个动作,表示外部动作个数;
(3)表示系统在时刻在外部状态为时所表现出来的外部动作后使状态转移到后的奖赏信号;
(4)表示系统在时刻在外部状态为时所表现出来的外部智能体动作后使状态转移到后的值函数;
(5)为状态转移方程,即时刻的外部状态总是由时刻的外部状态和外部智能体动作共同决定;
(6)表示在线序列极限学习机网络系统隐含层输出集合,为第个新训练样本数据,表示新训练样本数据个数;
(7)为中间参数转移方程,在时刻的中间参数总是由时刻的中间参数与时刻的在线序列极限学习机网络系统隐含层输出共同决定;
(8)表示在线序列极限学习机网络整体的输出参数集合,为经过第个新样本训练数据训练后预期得到的输出参数,表示输出参数的个数;
(9)为在线序列极限学习机网络输出权值转移方程,在时刻的输出权值参数总是由时刻的输出权值参数,时刻的中间参数与极限学习机网络系统隐含层输出同时决定。
2.根据权利要求书1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述的(3)、(4)中,强化Q学习算法结合了动态规划与动物心理学知识,从而可以实现具有回报的机器在线学习;该方法通过Markov决策过程建模,迭代出最优解:
其中,为折扣因子,为学习因子,且;
Q学习算法流程如下:
Step1:随机初始化;
Step2:观测当前状态并选择执行一个动作决策;
Step3:获得下一状态,并同时获取奖励信号;
Step4:根据式更新Q值。
3.根据权利要求书1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述(5)中,状态转移单元确定的状态转移方程为:
即中时刻的外部状态总是由时刻的外部状态与时刻的外部智能体动作决定,与其时刻之前的外部状态和外部智能体动作无关。
4.根据权利要求书1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述的是(7)中,中间参数单元所确定出来的中间参数转移方程为:
即中时刻的中间参数总是由时刻的中间参数与时刻的在线序列极限学习机系统隐含层输出共同决定,该系统可以通过上一状态的中间参数递推计算得出下一状态的中间参数,不用重复学习,减少了大量的训练时间:
。
5.根据权利要求书1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,所述的(8)中,所述在线序列极限学习机网络输出权值单元的输出权值转移方程:
即中时刻的输出权值参数总是由第时刻的输出权值参数,时刻的中间参数与在线序列极限学习机系统隐含层输出共同决定,该系统通过上一状态的输出权值参数递推计算得出下一状态的输出权值参数,不用重复学习,减少了大量的学习时间:
。
6.根据权利要求书1所述的具有自主学习能力的在线序列极限学习机方法,其特征在于,自主学习依据下列流程运行:
Step1:将Q-OSELM与网络训练中所用到的各个参数进行初始化;
Step2:初始化智能体状态;
Step3:获取当前智能体状态信息;
Step4:将当前获取的状态信息输入到Q-OSELM网络系统中进行训练,根据所输出的Q值信息选择并执行动作决策;
Step5:执行动作决策,使智能体得到一个新的外部状态,与此同时获得一个反馈强化信号;
Step6:将其反馈信号通过外部环境反馈到Q-OSELM完成网络训练;
Step7:重复执行Step3~Step6直到训练完毕,并完成自主学习。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610020090.XA CN105700526B (zh) | 2016-01-13 | 2016-01-13 | 具有自主学习能力的在线序列极限学习机方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610020090.XA CN105700526B (zh) | 2016-01-13 | 2016-01-13 | 具有自主学习能力的在线序列极限学习机方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN105700526A true CN105700526A (zh) | 2016-06-22 |
| CN105700526B CN105700526B (zh) | 2018-07-27 |
Family
ID=56226225
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201610020090.XA Expired - Fee Related CN105700526B (zh) | 2016-01-13 | 2016-01-13 | 具有自主学习能力的在线序列极限学习机方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN105700526B (zh) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106598058A (zh) * | 2016-12-20 | 2017-04-26 | 华北理工大学 | 内在动机驱动的极限学习机自发育系统及其运行方法 |
| CN107168066A (zh) * | 2017-06-23 | 2017-09-15 | 太原理工大学 | 一种温室环境自适应控制方法 |
| CN107229973A (zh) * | 2017-05-12 | 2017-10-03 | 中国科学院深圳先进技术研究院 | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
| CN107479547A (zh) * | 2017-08-11 | 2017-12-15 | 同济大学 | 基于示教学习的决策树行为决策算法 |
| CN107547914A (zh) * | 2017-08-15 | 2018-01-05 | 浙江工业大学 | Dash标准下的基于knn‑q学习的视频片段获取优化方法 |
| CN107885086A (zh) * | 2017-11-17 | 2018-04-06 | 合肥工业大学 | 基于mcmc优化q学习的自主航行器控制参数在线调节方法 |
| CN108406767A (zh) * | 2018-02-13 | 2018-08-17 | 华南理工大学 | 面向人机协作的机器人自主学习方法 |
| CN109212975A (zh) * | 2018-11-13 | 2019-01-15 | 北方工业大学 | 一种具有发育机制的感知行动认知学习方法 |
| CN110288878A (zh) * | 2019-07-01 | 2019-09-27 | 科大讯飞股份有限公司 | 自适应学习方法及装置 |
| CN110379225A (zh) * | 2018-04-12 | 2019-10-25 | 百度(美国)有限责任公司 | 互动式语言习得的系统和方法 |
| CN111515962A (zh) * | 2020-06-04 | 2020-08-11 | 桂林电子科技大学 | 含有谐波减速器柔性关节的传递误差补偿控制方法 |
| CN111645079A (zh) * | 2020-08-04 | 2020-09-11 | 天津滨电电力工程有限公司 | 一种带电作业机器人机械臂路径规划控制装置及其方法 |
| CN114815816A (zh) * | 2022-04-07 | 2022-07-29 | 青岛科技大学 | 一种自主导航机器人 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102200787B (zh) * | 2011-04-18 | 2013-04-17 | 重庆大学 | 机器人行为多层次集成学习方法及系统 |
| CN102402712B (zh) * | 2011-08-31 | 2014-03-05 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
| CN102819264B (zh) * | 2012-07-30 | 2015-01-21 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
| CN103473598A (zh) * | 2013-09-17 | 2013-12-25 | 山东大学 | 基于变长度粒子群优化算法的极限学习机 |
| CN105137967B (zh) * | 2015-07-16 | 2018-01-19 | 北京工业大学 | 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 |
-
2016
- 2016-01-13 CN CN201610020090.XA patent/CN105700526B/zh not_active Expired - Fee Related
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106598058A (zh) * | 2016-12-20 | 2017-04-26 | 华北理工大学 | 内在动机驱动的极限学习机自发育系统及其运行方法 |
| CN107229973A (zh) * | 2017-05-12 | 2017-10-03 | 中国科学院深圳先进技术研究院 | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
| CN107168066A (zh) * | 2017-06-23 | 2017-09-15 | 太原理工大学 | 一种温室环境自适应控制方法 |
| CN107168066B (zh) * | 2017-06-23 | 2020-04-28 | 太原理工大学 | 一种温室环境自适应控制方法 |
| CN107479547B (zh) * | 2017-08-11 | 2020-11-24 | 同济大学 | 基于示教学习的决策树行为决策算法 |
| CN107479547A (zh) * | 2017-08-11 | 2017-12-15 | 同济大学 | 基于示教学习的决策树行为决策算法 |
| CN107547914A (zh) * | 2017-08-15 | 2018-01-05 | 浙江工业大学 | Dash标准下的基于knn‑q学习的视频片段获取优化方法 |
| CN107885086A (zh) * | 2017-11-17 | 2018-04-06 | 合肥工业大学 | 基于mcmc优化q学习的自主航行器控制参数在线调节方法 |
| CN107885086B (zh) * | 2017-11-17 | 2019-10-25 | 合肥工业大学 | 基于mcmc优化q学习的自主航行器控制参数在线调节方法 |
| CN108406767A (zh) * | 2018-02-13 | 2018-08-17 | 华南理工大学 | 面向人机协作的机器人自主学习方法 |
| CN110379225A (zh) * | 2018-04-12 | 2019-10-25 | 百度(美国)有限责任公司 | 互动式语言习得的系统和方法 |
| CN109212975A (zh) * | 2018-11-13 | 2019-01-15 | 北方工业大学 | 一种具有发育机制的感知行动认知学习方法 |
| CN110288878A (zh) * | 2019-07-01 | 2019-09-27 | 科大讯飞股份有限公司 | 自适应学习方法及装置 |
| CN111515962A (zh) * | 2020-06-04 | 2020-08-11 | 桂林电子科技大学 | 含有谐波减速器柔性关节的传递误差补偿控制方法 |
| CN111515962B (zh) * | 2020-06-04 | 2022-04-12 | 桂林电子科技大学 | 含有谐波减速器柔性关节的传递误差补偿控制方法 |
| CN111645079A (zh) * | 2020-08-04 | 2020-09-11 | 天津滨电电力工程有限公司 | 一种带电作业机器人机械臂路径规划控制装置及其方法 |
| CN114815816A (zh) * | 2022-04-07 | 2022-07-29 | 青岛科技大学 | 一种自主导航机器人 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN105700526B (zh) | 2018-07-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN105700526A (zh) | 具有自主学习能力的在线序列极限学习机方法 | |
| Jesus et al. | Deep deterministic policy gradient for navigation of mobile robots in simulated environments | |
| Bing et al. | End to end learning of spiking neural network based on r-stdp for a lane keeping vehicle | |
| Wang et al. | Learning to navigate through complex dynamic environment with modular deep reinforcement learning | |
| Baladron et al. | The contribution of the basal ganglia and cerebellum to motor learning: A neuro-computational approach | |
| US20170008168A1 (en) | Navigational Control of Robotic Systems and Other Computer-Implemented Processes Using Developmental Network with Turing Machine Learning | |
| Dasgupta et al. | Information dynamics based self-adaptive reservoir for delay temporal memory tasks | |
| Maravall et al. | Vision-based anticipatory controller for the autonomous navigation of an UAV using artificial neural networks | |
| Wang et al. | Motivated optimal developmental learning for sequential tasks without using rigid time-discounts | |
| Li et al. | A novel Q-learning algorithm based on improved whale optimization algorithm for path planning | |
| CN116147627A (zh) | 一种结合深度强化学习和内在动机的移动机器人自主导航方法 | |
| Huang et al. | Connecting model-based and model-free control with emotion modulation in learning systems | |
| CN112525194A (zh) | 一种基于海马-纹状体内源性和外源性信息的认知导航方法 | |
| CN117848370A (zh) | 一种知识学习人工蜂群算法的机器人路径规划方法 | |
| Jin et al. | A game-theoretic reinforcement learning approach for adaptive interaction at intersections | |
| Hilleli et al. | Toward deep reinforcement learning without a simulator: An autonomous steering example | |
| Šter | An integrated learning approach to environment modelling in mobile robot navigation | |
| Houbre et al. | Balancing exploration and exploitation: a neurally inspired mechanism to learn sensorimotor contingencies | |
| Yuan et al. | Reinforcement Learning Navigation for Robots Based on Hippocampus Episode Cognition | |
| Wang et al. | A computational developmental model of perceptual learning for mobile robot | |
| Ganesh et al. | Deep reinforcement learning for simulated autonomous driving | |
| Kim et al. | Inference of other’s internal neural models from active observation | |
| Wang et al. | Decision optimisation of a mobile robot in a complex environment based on memory sequence replay mechanism | |
| Tanneberg et al. | Online learning with stochastic recurrent neural networks using intrinsic motivation signals | |
| CN119927902B (zh) | 模拟大脑学习与记忆机理的机器人行为决策方法及设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180727 Termination date: 20190113 |