JP2021034050A - 強化学習に基づくauv行動計画及び動作制御方法 - Google Patents
強化学習に基づくauv行動計画及び動作制御方法 Download PDFInfo
- Publication number
- JP2021034050A JP2021034050A JP2020139299A JP2020139299A JP2021034050A JP 2021034050 A JP2021034050 A JP 2021034050A JP 2020139299 A JP2020139299 A JP 2020139299A JP 2020139299 A JP2020139299 A JP 2020139299A JP 2021034050 A JP2021034050 A JP 2021034050A
- Authority
- JP
- Japan
- Prior art keywords
- auv
- reward
- target
- wall
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
Description
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムがトレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了するステップと、
制御システムがトレーニング済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含む。
前記強化学習に基づくAUV行動計画及び動作制御方法において、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する前記過程においては、以下のステップを含み、
トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
経路ポイントが既知環境下のグローバル計画であるため、航渡過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含み、グローバルデータにタスク情報、状況情報、計画知識が記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自学習計画システムであり、トレーニングされておき、計画タスクを実行するに先立って行動ライブラリからトレーニング済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、評価システムは、強化学習アルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されており
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
α=θ−βであり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12
式中、k11、k12はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
r2=k21r21+k22r22
式中、k21、k22はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
r2=k21r21+k22r22+k23r23+k24r24
式中、k23、k24はそれぞれ加重値であり、
AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了し、
r33=kccos(α)
式中、kCは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33
式中、k31〜k33はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットを環境として、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
また、トレーニング中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムをトレーニングにより得て、制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
1、本発明で設計された3層計画システムは、総タスクをターゲットへの移動と障害物回避のサブ動作に分解し、環境状態モデルと報酬関数を設計し、動作中の戦略最適化により空間次元を削減し、それによって、複雑な環境モデルでも安全で衝突のない経路を計画することができ、「次元の呪い」の問題を解決する。
また、本発明は、インテリジェントレベルが高く、計画が手動プログラミングに依存する必要がなく、人工経験によらずにロボット制御を実現することができる。
2、本発明は、ディープ強化学習アルゴリズムを行動計画システムに適用し、ニューラルネットワークを介して高次元データ特徴を抽出することで、連続的な環境状態での検知の問題を解決し、また強化学習を使用して行動決定計画を行うものである。トンネル検出タスクのニーズに応じて、ターゲットポイントへの移動、壁追跡、障害物回避という3つの典型的な動作が定義され、動作ごとに動作ネットワークが構築され、対応する環境状態変数と報酬関数が設計されて、壁の隅の問題については、仮想ターゲットポイントに基づく追跡方法が提案される。各動作は対応する目標に達しており、各動作ネットワークを呼び出すことでトンネル検出タスクを完了し、それにより、アルゴリズムは、安定性が高く、汎化能力が強い。
3、本発明は、AUVの運動学モデルを環境として、力から速度へのマッピング関係をトレーニングしているため、本発明の制御方法は、正確な環境モデルを必要とせず、トレーニング経験が制限され、実環境への適用が困難であるという問題を解決し、他のインテリジェント制御アルゴリズムの研究と比較して、普遍的な適応性を有し、一度だけトレーニングに成功すると、さまざまなタスクに適用できる。
本実施形態は、強化学習に基づくAUV行動計画及び動作制御方法である。
(1)自律型無人潜水機のタスクの階層的設計
(2)行動計画システムの構築
(3)DDPG制御アルゴリズムに基づく設計。
水中ロボットによるトンネル検出タスクを階層化するには、自律型無人潜水機によるトンネル検出タスク、行動及び動作の概念を定義し、つまり、自律型無人潜水機によるトンネル検出を総タスクとして定義し、総タスクを完了するためには、ターゲットへの移動、壁追跡及び障害物回避という3つの典型的な行動を定義し、ロボットが水中で航行して計画された行動を完了するために生じる特定の制御命令を動作として定義し、たとえば、n度左折、n度右折、nノットの速度での前進などがある。
AUVは、トンネル検出タスクを実行する際に、タスクのニーズに応じて、グローバル経路計画によって指定されたクリティカル経路ポイントに順次到着する。ただし、実際の作業過程では、急に現れた障害物やトンネル壁の損傷によるトンネル壁環境の変化など、未知の環境情報が存在するため、安全性を確保するために、AUVは環境情報と自身の状況に基づいてタイムリーに応答する必要がある。ディープ強化学習に基づく行動計画システムは、反応式に基づく計画アーキテクチャを採用しており、環境状態と動作の間のマッピング関係を構築することにより、AUVは環境の変化に応じて動作をすばやく計画することができ、緊急環境変化に対するAUVの対処能力を向上できる。
AUVは、トンネル検出タスクを実行する過程に亘って、予めグローバルに計画されたターゲットポイントに到着する必要があり、経路を最短にするために、ターゲットポイントへの移動行動は、AUVが障害物を検知していないときに向首角を調整しながらターゲットポイントへ航行するようにし、したがって、ターゲットへの移動行動過程におけるAUVのリアルタイム向首をできるだけターゲット方向付近に制御する必要がある。ターゲットへの移動行動のニーズに応じて、図2に示すように、特徴入力量は主にAUVとターゲットポイントの位置及び角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定する。ターゲット向首角βは、AUVがターゲットへ航行しているときの向首角である。
ターゲットへの移動行動は、主にAUVが障害物無し環境でターゲットポイントへ航行するように駆動し、したがって、具体的な報酬関数は、2項に設定され、第1項r11はAUVとターゲットポイントの距離の変化を考慮し、具体的には、
α=θ−β (2)であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α) (3)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12 (4)
式中、k11、k12はそれぞれ加重値である。
ほとんどのトンネルの距離が長いため、水利プロジェクト全体が10km以上に達する可能性があり、AUVがトンネルの入口に入ると、手動による介入が困難になり、このため、AUVがトンネル環境に応じて自律的に検出タスクを完了することが求められる。衝突を回避するには、AUVは壁から安全な距離だけ離れる必要があり、そして、水中の光源や視認性などによって制限されて、AUVと壁の間の距離が画像収集の品質にも直接影響し、したがって、AUVには、壁から一定の距離を保持しながら壁に沿って航行する能力が求められる。
AUVの壁追跡行動学習において、報酬関数は、AUVができるだけ壁に平行し、壁となす角度を約0°に維持し、壁とは一定の距離を保持するようにすることに用いられる。
r2=k21r21+k22r22 (8)
式中、k21、k22はそれぞれ加重値である。
一般的な壁環境では、壁追跡行動には、ターゲットの向首角とターゲットの追跡距離のみを考慮すればよく、ターゲットへの移動行動や障害物回避行動に比べて、実際ターゲットポイントによる案内がないので、壁の隅などのような特殊な環境の場合は、正確な計画結果を提供することができない。壁の隅の問題は、AUV壁追跡行動における主な難問であり、本発明では、主に2種類の壁の隅の環境、つまり外直角環境と内直角環境を考慮する。壁の隅の環境の特殊性のため、外直角を追跡する場合、AUVの前方にあるレンジングソナーが壁を検出できず、AUVはタイムリーに向首角を調整できず、ターゲットを失うことがある。内側の壁の隅の場合、基本報酬の設計に前方の障害物を考慮しないので、衝突が発生する。
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものである。
r2=k21r21+k22+r22+k23r23+k24r24 (15)
式中、k23、k24はそれぞれ加重値であり、
報酬係数k23とk24値が大きいため、壁の隅の環境ではAUVは仮想ターゲットポイントにより案内される傾向がある。
障害物回避行動は、行動計画システムのキーであり、AUVの自律的決定レベルを決定し、AUVが作業タスクを安全的に実施できるかを左右する。
障害物回避行動は、AUVが急に現れた障害物を回避しターゲットポイントに順調に到着するようにするために用いられ、したがって、報酬信号分が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、式16に示すように、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了する。
r33=kccos(α) (18)
式中、kCは障害物回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33 (19)
式中、k31〜k33はそれぞれ加重値である。
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットモデルを環境モデルとして、動作からロボットモデルへのマッピングをトレーニングすることができる。したがって、本発明では、直接ロボットを環境として、ファジー流体力学パラメータのロボットの運動学及び動力学モデル、即ちAUVモデルを作成し、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=-|△v+△Ψ|を設計し、ここで、△vは速度誤差であり、△Ψは向首誤差である。また、トレーニング中のAUVモデルにランダム干渉力を追加することで、動的に変化している水中環境をシミュレーションし、それにより、抗干渉能力を有するDDPGに基づく完全な制御システムがトレーニングにより得られる。制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
τ=μ(st|θμ) (22)として表し、
ロボット状態sは主にロボットの速度と向首として示され、
V=[u,v,r]
Ψ=[0,θ,Ψ] (23)
式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
水平運動であるので、v、rは無視され、このため、
τ=μ(st)=μ(μ(t),Ψ(t)) (24)
この式は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す。
実施形態1に記載のファジー流体力学パラメータのAUVモデルの作成過程は、一般的なAUVダイナミックモデリングの過程であり、本分野の従来技術を用いて実現でき、上記過程をより明瞭にするために、本実施形態では、ファジー流体力学パラメータのAUVモデルの作成過程を説明するが、ただし、本発明は、以下のファジー流体力学パラメータのAUVモデルの作成方式を含むが、それに制限されない。ファジー流体力学パラメータのAUVモデルの作成過程には、
水中ロボットの流体力学方程を作成するステップと、
Mは水中ロボットの全水中排水量の質量であり、
xG、yG、zGは水中ロボットの重心の艇体座標系における座標であり、
Iy、Izはそれぞれ艇体座標系のy、z軸に対する水中ロボットの質量の慣性モーメントであり、
u、v、ω、q、rはそれぞれ水中ロボットの艇体座標系での縦方向速度、横方向速度、垂向速度、トリム角速度、回転角速度であり、
本発明の最も主な目的は、水中ロボットが水中環境において現在の環境状態に基づいて行動決定及び動作制御を自律的に行うことによって、人を複雑なプログラミングプロセスから解放することであり、具体的には、以下のように実現される。
1.1)環境モデルを作成して、初期位置とターゲットポイントを決定し、アルゴリズムパラメータを初期化させる。
1.2)現在のt時刻での環境状態及びロボットタスクを決定し、タスクをターゲットへの移動行動、壁追跡行動、障害物回避行動に分解する。
1.3)現在の状態に基づいてターゲットへの移動、壁追跡又は障害物回避を選択して、行動を動作に分解する。
1.4)動作aを実行して、新しい状態s’を観察し、報酬値Rを得る。
1.5)ニューラルネットワークをトレーニングして各動作のQ値を得て、最大Q値に基づいて動作を出力する。
1.6)Q関数を更新する。
1.7)現在の時刻の状態を判断し、ターゲット状態に達する場合、1.8)に入り、そうではない場合、1.4)に入る。
1.8)選択した行動が完了した後、Q関数を更新する。
1.9)検出が完了したか否かを判断し、完了した場合、1.10)に入り、そうではない場合、1.3)に入る。
1.10)Q値が収束しているか否かを判断し、収束している場合、トレーニング又は計画を終了し、収束していない場合、ロボット位置を初期化させ、1.2)に入る。
2.1)パラメータを初期化する。
2.2)外部ループを行う。
2.2.1)ターゲット向首、ターゲット速度をランダムに生成する。
2.2.2)内部ループを行う。
2.2.2.1)DDPGアルゴリズムを実行させて、動作τ=a=μ(st|θμ)を出力する。
2.2.2.2)AUV運動学モデルに基づいてAUVの加速度を計算する。
r=−|△v+△Ψ+△θ|
2.2.2.4)制御誤差が0であり、r+=1である場合、小ループを終了する。
2.2.2.5)criticニューラルネットワークを更新して最小損失を取得する。
2.2.2.8)内ループのステップ数に達すると、内ループを終了する。
2.2.3)外ループのステップ数に達すると、外ループを終了する。
Claims (6)
- 強化学習に基づくAUV行動計画及び動作制御方法であって、
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムがトレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了するステップと、
制御システムがトレーニング済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含み、
対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する前記過程においては、以下のステップを含み、
トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
経路ポイントが既知環境下のグローバル計画であるため、航渡過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含み、グローバルデータにタスク情報、状況情報、計画知識が記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自学習計画システムであり、トレーニングされておき、計画タスクを実行するに先立って行動ライブラリからトレーニング済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、評価システムは、強化学習アルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されており、
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
第2項r12はAUVの向首角の変化を考慮し、向首角がターゲットに近いほど、ターゲット値の報酬値が大きく、現在のAUV向首とターゲット向首との夾角αが
α=θ−β (2)であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α) (3)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12 (4)
式中、k11、k12はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
式中、lAUVは前後にある2つのソナーの間の距離であり、壁追跡行動の環境状態の特徴入力はx1、x2、x3、x4、x5、θ、θwall及びターゲット追跡距離lgoalに設定され、ここで、x1〜x5はそれぞれ3つの前方ソナーと一側に設けられた前後ソナーにより測定されたデータであり、特徴入力量は8個であり、AUVと壁の間の状態関係を完全に記述することができ、距離閾値を設定してソナーデータについて判断を行い、トレーニング中に閾値を超えると、現在のトレーニング周期を終了し、
報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
第2項は、式(7)のようにAUVの前後両端と壁の距離を考慮し、AUVと壁の距離と予め設定された値との差が減少すると、正の報酬を取得し、この差が増大すると負の報酬を取得し、追跡距離が予め設定された値の±0.2mの範囲にあることができ、追跡範囲内のこの項の報酬値が0である場合、この場所と壁の距離値は、同一側面にある2つのレンジングソナーによるデータの平均値であり、
一般的な壁追跡行動の総報酬rは2項の報酬を加重したものであり、
r2=k21r21+k22r22 (8)
式中、k21、k22はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
r24=kBcos(α)
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
r2=k21r21+k22r22+k23r23+k24r24
式中、k23、k24はそれぞれ加重値であり、
AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了し、
第2項は、現在のAUVとターゲットポイントの距離に基づいて生じる報酬値r32であり、AUVが障害物を回避しながらターゲットポイントへ航行するように促し、このため、AUVがターゲットポイントから離間すると、負の報酬を取得し、ターゲットポイントに近づくと正の報酬を取得し、AUVターゲットポイントに到着すると、正の報酬値1.0を取得し、トレーニング周期を終了し、
第3項は、AUVと現在のターゲットがなす角度αに基づいて生じる報酬r33であり、同様にAUVがターゲットポイントの方向へ航行するように促すが、この項の報酬は、主に、現在のターゲット向首に近くなるように向首角を調整することをAUVに学習させ、経路の長さを減らすようにするためであり、
r33=kccos(α)
式中、kCは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33
式中、k31〜k33はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットを環境として、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
また、トレーニング中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムをトレーニングにより得て、制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する、ことを特徴とする強化学習に基づくAUV行動計画及び動作制御方法。 - DDPG制御システムを利用してロボットを計画命令に従うように制御する前記過程では、
DDPGコントローラが、強化学習アルゴリズムにおける動作をロボットの推力及びトルクに対応させ、アルゴリズムにおける状態をロボットの速度及び角速度に対応させ、アルゴリズムについて学習トレーニングを行い、力から状態へのマッピング関係を取得するステップと、
DDPGをAUV制御に適用するには、まず、Criticニューラルネットワーク構造Q(stat|θQ)及びActorニューラルネットワーク構造μ(st|θμ)(θQとθμはネットワークの重みパラメータを示す。)を作成し、それぞれCriticとActorの2つの構造中に、ターゲットネットワークtarget_netと予測ネットワークeval_netという2つのニューラルネットワークを作成し、次に、DDPGの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御し、
と組み合わせて関数で、τ=μ(st|θμ)として表し、
ロボット状態sは主にロボットの速度と向首として示され、
V=[u,v,r]
Ψ=[0,θ,Ψ]
式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
v、rは無視され、
式τ=μ(st)=μ(μ(t),Ψ(t))は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す、ことを特徴とする請求項1、2又は3に記載の強化学習に基づくAUV行動計画及び動作制御方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910775602.7A CN110333739B (zh) | 2019-08-21 | 2019-08-21 | 一种基于强化学习的auv行为规划及动作控制方法 |
| CN201910775602.7 | 2019-08-21 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021034050A true JP2021034050A (ja) | 2021-03-01 |
| JP6854549B2 JP6854549B2 (ja) | 2021-04-07 |
Family
ID=68150103
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020139299A Active JP6854549B2 (ja) | 2019-08-21 | 2020-08-20 | 強化学習に基づくauv行動計画及び動作制御の方法 |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP6854549B2 (ja) |
| CN (1) | CN110333739B (ja) |
Cited By (156)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113283181A (zh) * | 2021-06-28 | 2021-08-20 | 上海海事大学 | 一种障碍物和海流环境中多auv快速围捕方法 |
| CN113290557A (zh) * | 2021-05-21 | 2021-08-24 | 南京信息工程大学 | 一种基于数据驱动的蛇形机器人控制方法 |
| CN113433953A (zh) * | 2021-08-25 | 2021-09-24 | 北京航空航天大学 | 多机器人协同避障方法、装置和智能机器人 |
| CN113515119A (zh) * | 2021-04-25 | 2021-10-19 | 华北电力大学 | 一种基于强化学习的变电站内巡检机器人路径规划方案 |
| CN113552881A (zh) * | 2021-07-15 | 2021-10-26 | 浙江工业大学 | 一种用于神经网络训练的多路径规划数据集生成方法 |
| CN113573235A (zh) * | 2021-08-16 | 2021-10-29 | 苏州云享阁智能科技有限公司 | 一种基于ddpg算法获得最优资源分配以提升定位精度的方法 |
| CN113592162A (zh) * | 2021-07-22 | 2021-11-02 | 西北工业大学 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
| CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
| CN113592958A (zh) * | 2021-08-13 | 2021-11-02 | 大连海事大学 | 一种基于单目视觉的auv对接坞站光学引导方法 |
| CN113671834A (zh) * | 2021-08-24 | 2021-11-19 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
| CN113741533A (zh) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
| CN113771044A (zh) * | 2021-10-09 | 2021-12-10 | 北京卫星环境工程研究所 | 一种机器人末端负载动态受力感知方法 |
| CN113791612A (zh) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
| CN113821903A (zh) * | 2021-07-09 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 温度控制方法和设备、模块化数据中心及存储介质 |
| CN113821035A (zh) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | 无人船轨迹追踪控制方法和装置 |
| CN113836788A (zh) * | 2021-08-24 | 2021-12-24 | 浙江大学 | 基于局部数据增强的流程工业强化学习控制的加速方法 |
| CN113829351A (zh) * | 2021-10-13 | 2021-12-24 | 广西大学 | 一种基于强化学习的移动机械臂的协同控制方法 |
| CN113848946A (zh) * | 2021-10-20 | 2021-12-28 | 郑州大学 | 一种基于神经调节机制的机器人行为决策方法及设备 |
| CN113848974A (zh) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
| CN113848927A (zh) * | 2021-10-07 | 2021-12-28 | 兰州理工大学 | 一种自主规划路径的自动驾驶系统 |
| CN113867396A (zh) * | 2021-10-22 | 2021-12-31 | 吉林大学 | 一种网联无人机航线规划与航线平滑方法及装置 |
| CN113885564A (zh) * | 2021-10-20 | 2022-01-04 | 哈尔滨工程大学 | 一种基于大数据的组队循迹规划导航方法 |
| CN113885549A (zh) * | 2021-11-23 | 2022-01-04 | 江苏科技大学 | 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法 |
| CN113919217A (zh) * | 2021-10-08 | 2022-01-11 | 南开大学 | 自抗扰控制器自适应参数整定方法及装置 |
| CN113916254A (zh) * | 2021-07-22 | 2022-01-11 | 北京控制工程研究所 | 一种停靠式抓捕的航天器自主交会对接试验方法 |
| CN113985876A (zh) * | 2021-10-27 | 2022-01-28 | 广州大学 | 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统 |
| CN113988196A (zh) * | 2021-11-01 | 2022-01-28 | 乐聚(深圳)机器人技术有限公司 | 一种机器人移动方法、装置、设备及存储介质 |
| CN114003029A (zh) * | 2021-09-12 | 2022-02-01 | 西北工业大学 | 一种声光融合导引的自主水下航行器鲁棒对接回收方法 |
| CN114020013A (zh) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
| CN114019805A (zh) * | 2021-11-17 | 2022-02-08 | 九江职业技术学院 | 一种欠驱动auv的模型预测对接控制方法 |
| CN114063624A (zh) * | 2021-10-22 | 2022-02-18 | 中国船舶重工集团公司第七一九研究所 | 一种爬游无人潜水器多模式规划运动控制器及其控制方法 |
| CN114077258A (zh) * | 2021-11-22 | 2022-02-22 | 江苏科技大学 | 一种基于强化学习ppo2算法的无人艇位姿控制方法 |
| CN114089633A (zh) * | 2021-11-19 | 2022-02-25 | 江苏科技大学 | 一种水下机器人多电机耦合驱动控制装置及方法 |
| CN114155298A (zh) * | 2021-12-09 | 2022-03-08 | 山东大学 | 一种基于主动感知的机器人堵漏方法及系统 |
| CN114153216A (zh) * | 2021-12-14 | 2022-03-08 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
| CN114169234A (zh) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | 一种无人机辅助移动边缘计算的调度优化方法及系统 |
| CN114200833A (zh) * | 2021-11-24 | 2022-03-18 | 华中科技大学 | 一种基于观测器的机器人网络动态区域覆盖的控制方法 |
| CN114296440A (zh) * | 2021-09-30 | 2022-04-08 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种融合在线学习的agv实时调度方法 |
| CN114330651A (zh) * | 2021-12-14 | 2022-04-12 | 中国运载火箭技术研究院 | 面向多要素联合指控的分层多智能体增强学习方法 |
| CN114355915A (zh) * | 2021-12-27 | 2022-04-15 | 杭州电子科技大学 | 一种基于深度强化学习的agv路径规划 |
| CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
| CN114399225A (zh) * | 2022-01-24 | 2022-04-26 | 北京理工大学 | 一种基于Q-Learning的深空探测器任务规划方法 |
| CN114493013A (zh) * | 2022-01-28 | 2022-05-13 | 浙江同善人工智能技术有限公司 | 基于强化学习的智能体路径规划方法、电子设备及介质 |
| CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
| CN114578830A (zh) * | 2022-04-11 | 2022-06-03 | 北京化工大学 | 基于强化学习的仿蛇机器人运动规划方法 |
| CN114578712A (zh) * | 2022-03-08 | 2022-06-03 | 北京航空航天大学 | 多功能水下自主航行器集群仿真系统 |
| CN114610070A (zh) * | 2022-03-21 | 2022-06-10 | 大连理工大学 | 一种无人机协同的风电场智能巡检方法 |
| CN114625151A (zh) * | 2022-03-10 | 2022-06-14 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
| CN114679699A (zh) * | 2022-03-23 | 2022-06-28 | 重庆邮电大学 | 基于深度强化学习的多无人机节能巡航通信覆盖方法 |
| CN114675535A (zh) * | 2022-03-07 | 2022-06-28 | 大连理工大学 | 一种基于强化学习的航空发动机过渡态寻优控制方法 |
| CN114692890A (zh) * | 2021-12-24 | 2022-07-01 | 中国人民解放军军事科学院战争研究院 | 基于模型的权值组合规划值扩展的方法 |
| CN114721397A (zh) * | 2022-04-19 | 2022-07-08 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
| CN114785397A (zh) * | 2022-03-11 | 2022-07-22 | 浙江以正通信技术有限公司 | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 |
| CN114800488A (zh) * | 2022-03-18 | 2022-07-29 | 清华大学深圳国际研究生院 | 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 |
| CN114815864A (zh) * | 2022-03-31 | 2022-07-29 | 哈尔滨工程大学 | 一种基于强化学习的高超声速飞行器航迹规划方法 |
| CN114801897A (zh) * | 2022-05-17 | 2022-07-29 | 南京航空航天大学 | 一种基于ddpg算法的燃料电池混合动力系统能量管理方法 |
| CN114815816A (zh) * | 2022-04-07 | 2022-07-29 | 青岛科技大学 | 一种自主导航机器人 |
| CN114840928A (zh) * | 2022-05-07 | 2022-08-02 | 西北工业大学 | 一种基于深度学习的水下航行器集群运动仿真方法 |
| CN114839969A (zh) * | 2022-04-02 | 2022-08-02 | 达闼机器人股份有限公司 | 控制设备移动的方法、装置、存储介质与电子设备 |
| CN114859910A (zh) * | 2022-04-28 | 2022-08-05 | 武汉理工大学 | 基于深度强化学习的无人船路径跟随系统及方法 |
| CN114879660A (zh) * | 2022-04-14 | 2022-08-09 | 海南大学 | 一种基于目标驱动的机器人环境感知方法 |
| CN114879671A (zh) * | 2022-05-04 | 2022-08-09 | 哈尔滨工程大学 | 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 |
| CN114879706A (zh) * | 2022-06-17 | 2022-08-09 | 哈尔滨工程大学 | 一种rrt与人工势场法相结合的auv目标搜索方法 |
| CN114895697A (zh) * | 2022-05-27 | 2022-08-12 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
| CN114910072A (zh) * | 2022-04-21 | 2022-08-16 | 海南大学 | 基于深度强化学习的无人机导航方法、装置、设备及介质 |
| CN114923486A (zh) * | 2022-04-21 | 2022-08-19 | 厦门大学 | 一种基于全局环境图和注意力侧重的机器人导航方法 |
| CN114979952A (zh) * | 2022-05-20 | 2022-08-30 | 电子科技大学长三角研究院(衢州) | 一种基于强化学习ppo算法的指纹室内定位方法 |
| CN114964268A (zh) * | 2022-07-29 | 2022-08-30 | 白杨时代(北京)科技有限公司 | 一种无人机导航方法及装置 |
| CN115016534A (zh) * | 2022-06-02 | 2022-09-06 | 之江实验室 | 一种基于记忆增强学习的无人机自主避障导航方法 |
| CN115016405A (zh) * | 2022-05-26 | 2022-09-06 | 天津大学 | 一种基于深度强化学习的工艺路线多目标优化方法 |
| CN115033000A (zh) * | 2022-07-06 | 2022-09-09 | 重庆大学 | 基于深度强化学习的双目标路径规划方法 |
| CN115033022A (zh) * | 2022-06-28 | 2022-09-09 | 华南理工大学 | 面向移动平台基于专家经验的ddpg无人机降落方法 |
| CN115119174A (zh) * | 2022-06-30 | 2022-09-27 | 西安理工大学 | 灌区场景中基于能耗优化的无人机自主部署方法 |
| CN115167430A (zh) * | 2022-07-21 | 2022-10-11 | 山东大学 | 一种具备全范围信息恢复能力的机器人导航避障方法 |
| CN115167484A (zh) * | 2022-05-13 | 2022-10-11 | 西北工业大学 | 基于神经网络的自主水下航行器模型预测路径跟踪方法 |
| CN115202356A (zh) * | 2022-07-21 | 2022-10-18 | 大连海事大学 | 一种三维水下欠驱动auv回收路径规划方法 |
| CN115278901A (zh) * | 2022-08-04 | 2022-11-01 | 哈尔滨工程大学 | 水下无定位移动网络的自适应通信方法 |
| CN115314854A (zh) * | 2022-08-08 | 2022-11-08 | 广东智能无人系统研究院 | 一种海上风电水下设施无人巡检系统及方法 |
| CN115328143A (zh) * | 2022-08-26 | 2022-11-11 | 齐齐哈尔大学 | 一种基于环境驱动的主从水面机器人回收导引方法 |
| CN115469674A (zh) * | 2022-08-25 | 2022-12-13 | 西北工业大学 | 一种基于改进式分布式模型预测的大通信周期auv编队方法 |
| CN115468454A (zh) * | 2022-08-30 | 2022-12-13 | 南京理工大学 | 虚拟力法与引战配合相结合的多弹协同对抗策略 |
| CN115494733A (zh) * | 2022-10-27 | 2022-12-20 | 南方电网调峰调频发电有限公司储能科研院 | 一种基于gazebo的水下机器人自适应控制方法 |
| CN115494831A (zh) * | 2021-06-17 | 2022-12-20 | 中国科学院沈阳自动化研究所 | 一种人机自主智能协同的跟踪方法 |
| CN115493597A (zh) * | 2022-11-15 | 2022-12-20 | 山东大学 | 一种基于sac算法的auv路径规划控制方法 |
| CN115550236A (zh) * | 2022-08-31 | 2022-12-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
| CN115586761A (zh) * | 2022-10-24 | 2023-01-10 | 红云红河烟草(集团)有限责任公司 | 卷烟制丝回潮控制系统的故障容错控制方法及存储介质 |
| CN115640131A (zh) * | 2022-10-28 | 2023-01-24 | 南京航空航天大学 | 一种基于深度确定性策略梯度的无人机辅助计算迁移方法 |
| CN115686076A (zh) * | 2022-11-17 | 2023-02-03 | 中国人民解放军海军航空大学 | 基于增量式发育深度强化学习的无人机路径规划方法 |
| CN115686065A (zh) * | 2022-11-10 | 2023-02-03 | 北京航空航天大学 | 一种基于深度强化学习的无人机动态目标跟踪控制方法 |
| CN115913607A (zh) * | 2022-09-07 | 2023-04-04 | 南方电网数字平台科技(广东)有限公司 | 基于电力设备的网络安全系统智能运维方法及装置 |
| CN115922722A (zh) * | 2022-12-22 | 2023-04-07 | 浙江大学 | 一种基于迁移强化学习的大鼠机器人流畅控制方法 |
| CN115981369A (zh) * | 2023-01-09 | 2023-04-18 | 南京航空航天大学 | 有限通信下面向多无人机联合任务分配和航迹规划的方法 |
| CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
| CN116227767A (zh) * | 2023-01-07 | 2023-06-06 | 南京工业大学 | 基于深度强化学习的多无人机基站协同覆盖路径规划方法 |
| CN116243595A (zh) * | 2023-01-09 | 2023-06-09 | 中国船舶重工集团公司第七0七研究所九江分部 | 一种基于全回转推进器的auv水平面控制方法 |
| CN116295449A (zh) * | 2023-05-25 | 2023-06-23 | 吉林大学 | 水下自主航行器路径指示方法及装置 |
| CN116301027A (zh) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
| CN116339333A (zh) * | 2023-03-27 | 2023-06-27 | 华南理工大学 | 基于深度强化学习dqn的多agv路径规划避障方法 |
| CN116382089A (zh) * | 2023-04-21 | 2023-07-04 | 西北工业大学 | 一种基于新颖性度量的sac强化学习视觉伺服控制方法及系统 |
| CN116400701A (zh) * | 2023-04-13 | 2023-07-07 | 大连理工大学 | 一种基于深度强化学习的移动机器人在线路径规划方法 |
| CN116430900A (zh) * | 2023-05-04 | 2023-07-14 | 四川大学 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
| CN116424573A (zh) * | 2023-02-16 | 2023-07-14 | 哈尔滨工业大学(深圳) | 一种未知复杂环境下无拖曳卫星控制方法 |
| CN116520832A (zh) * | 2023-04-19 | 2023-08-01 | 北京航空航天大学 | 一种适用于集群穿越虚拟管道的速度和密度规划方法 |
| CN116578102A (zh) * | 2023-07-13 | 2023-08-11 | 清华大学 | 水下自主航行器避障方法、装置、计算机设备和存储介质 |
| CN116665335A (zh) * | 2023-05-04 | 2023-08-29 | 深圳大学 | 基于深度强化学习的核电巡检方法、装置、设备及介质 |
| CN116699519A (zh) * | 2023-02-23 | 2023-09-05 | 西北工业大学 | 一种水下无人平台高可靠性智能定位方法 |
| CN116700020A (zh) * | 2023-08-10 | 2023-09-05 | 西安爱生无人机技术有限公司 | 变后掠翼无人机的控制方法、系统、无人机及存储介质 |
| CN116909280A (zh) * | 2023-07-20 | 2023-10-20 | 山东科技大学 | 一种基于视觉感知的强化学习双层决策agv避障方法 |
| CN116956998A (zh) * | 2023-06-28 | 2023-10-27 | 中国地质大学(武汉) | 基于分层强化学习的雷达干扰决策与参数优化方法及装置 |
| CN117035263A (zh) * | 2023-06-27 | 2023-11-10 | 哈尔滨工程大学 | 一种水下大范围环境内多auv节点的任务分配方法、计算机及存储介质 |
| CN117055591A (zh) * | 2023-10-11 | 2023-11-14 | 青岛哈尔滨工程大学创新发展中心 | 综合洋流影响和机动性约束的auv全局路径规划方法 |
| JP2023166680A (ja) * | 2022-05-10 | 2023-11-22 | 株式会社日立製作所 | 行動制御計画装置及び行動制御計画方法 |
| CN117130379A (zh) * | 2023-07-31 | 2023-11-28 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
| CN117140527A (zh) * | 2023-09-27 | 2023-12-01 | 中山大学·深圳 | 一种基于深度强化学习算法的机械臂控制方法及系统 |
| CN117233520A (zh) * | 2023-11-16 | 2023-12-15 | 青岛澎湃海洋探索技术有限公司 | 基于改进Sim-GAN的AUV推进系统故障检测评估方法 |
| CN117441701A (zh) * | 2023-10-25 | 2024-01-26 | 常州大学 | 基于拓扑排序奖励机制的无人机农业驱鸟方法及系统 |
| CN117519272A (zh) * | 2023-12-07 | 2024-02-06 | 北京理工大学 | 一种基于车轮动力学的轮式水陆两栖车姿态控制方法 |
| CN117682429A (zh) * | 2024-02-01 | 2024-03-12 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
| CN117744540A (zh) * | 2024-02-19 | 2024-03-22 | 青岛哈尔滨工程大学创新发展中心 | 水下无人航行器的水下作业水动力特性趋势预测方法 |
| CN117856904A (zh) * | 2023-12-12 | 2024-04-09 | 山东科技大学 | 一种基于深度强化学习的多auv协同移动光通信方法 |
| CN117872347A (zh) * | 2024-01-12 | 2024-04-12 | 兰州理工大学 | 基于双层强化学习优化的jpda多目标跟踪方法及系统 |
| CN117970931A (zh) * | 2024-03-29 | 2024-05-03 | 青岛科技大学 | 一种机器人动态路径规划方法、设备及介质 |
| CN117990111A (zh) * | 2024-04-03 | 2024-05-07 | 北京盛安同力科技开发有限公司 | 一种基于mbse模型的探月机器人局部路径规划方法及系统 |
| CN117991794A (zh) * | 2024-01-31 | 2024-05-07 | 广东海洋大学 | 基于强化学习激励信号塑性的无人船操纵优化方法及装置 |
| CN118192594A (zh) * | 2024-04-12 | 2024-06-14 | 东南大学 | 一种基于改进的maddpg算法的车辆路径规划方法及系统 |
| CN118189977A (zh) * | 2024-05-17 | 2024-06-14 | 广东海洋大学 | 基于人工智能的水下机器人集群路径规划与控制方法 |
| CN118249474A (zh) * | 2024-05-27 | 2024-06-25 | 西北工业大学宁波研究院 | 一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略 |
| CN118244755A (zh) * | 2024-03-11 | 2024-06-25 | 华中科技大学 | 基于成像声呐的水下航行器对接控制方法及装置 |
| CN118289183A (zh) * | 2024-04-08 | 2024-07-05 | 山东科技大学 | 一种仿哥布林鲨的海参捕捞机器人及其位姿控制方法 |
| CN118466569A (zh) * | 2024-07-10 | 2024-08-09 | 中南大学 | 基于区间理论的高超声速变体飞行器预设性能控制方法 |
| CN118707974A (zh) * | 2024-06-02 | 2024-09-27 | 浙江大学 | 一种基于改进视线法的水下航行器制导方法 |
| CN118760168A (zh) * | 2024-07-04 | 2024-10-11 | 武汉理工大学 | 基于奖励函数改进的深度强化学习路径规划方法及系统 |
| CN119105512A (zh) * | 2024-09-29 | 2024-12-10 | 武汉科技大学 | 一种基于深度强化学习的自主移机器人路径规划方法 |
| CN119260709A (zh) * | 2024-09-27 | 2025-01-07 | 泰志达智能科技(苏州)有限公司 | 一种用于控制机器人的方法 |
| CN119268688A (zh) * | 2024-10-16 | 2025-01-07 | 哈尔滨工程大学 | 一种海底地形辅助导航重定位及路径重规划方法、程序、设备及存储介质 |
| CN119347749A (zh) * | 2024-09-29 | 2025-01-24 | 华中科技大学 | 一种基于多任务强化学习的接力器缸体内壁焊缝机器人打磨多目标优化方法及系统 |
| CN119469143A (zh) * | 2024-10-11 | 2025-02-18 | 哈尔滨工程大学 | 一种用于复杂水下环境避障的水下机器人路径规划方法 |
| CN119501934A (zh) * | 2024-11-20 | 2025-02-25 | 北京航空航天大学 | 一种基于深度强化学习的接触式加工机器人运动规划方法 |
| CN119536324A (zh) * | 2024-11-27 | 2025-02-28 | 杭州电子科技大学 | 一种三维未知环境下数模协同驱动的auv最优艏向控制方法 |
| JP7638050B1 (ja) | 2022-10-08 | 2025-03-03 | 哈爾濱工程大学 | モデルベースの原子力装置評価シミュレーション方法及びシステム |
| CN119555085A (zh) * | 2025-01-22 | 2025-03-04 | 北京世航智能科技有限公司 | 自主式水下机器人航行路径规划方法、设备及系统 |
| CN119575980A (zh) * | 2024-11-29 | 2025-03-07 | 兰州理工大学 | 复杂环境下无人水面航行器最优轨迹规划方法及系统 |
| CN119644733A (zh) * | 2024-12-03 | 2025-03-18 | 浙江大学 | 基于强化学习的自适应规划器参数调优方法和装置 |
| CN119902432A (zh) * | 2024-12-27 | 2025-04-29 | 哈尔滨工业大学 | 一种基于改进A-star算法与强化学习的集群路径规划方法及系统 |
| US20250138539A1 (en) * | 2023-10-25 | 2025-05-01 | International Business Machines Corporation | Protecting robotic bee from threats by dynamically generating impulse force |
| CN119984290A (zh) * | 2025-04-15 | 2025-05-13 | 青岛杰瑞自动化有限公司 | 一种基于深度强化学习的路径规划方法及系统、电子设备 |
| CN120215514A (zh) * | 2025-05-27 | 2025-06-27 | 四川参盘供应链科技有限公司 | 一种面向动态障碍物的强化学习无人叉车避障调度方法及系统 |
| CN120235212A (zh) * | 2025-05-29 | 2025-07-01 | 集美大学 | 基于简化环境与动力学的无人艇路径规划强化学习方法 |
| CN120307303A (zh) * | 2025-06-16 | 2025-07-15 | 浙江省农业科学院 | 用于组培苗移栽的机械臂路径规划方法、装置及其可读存储介质 |
| CN120326633A (zh) * | 2025-06-16 | 2025-07-18 | 佛山大学 | 一种重载工业机器人的路径规划与安全精准控制方法 |
| CN120357981A (zh) * | 2025-05-16 | 2025-07-22 | 东北大学 | 一种基于强化学习的无人机光通信链路跟瞄方法 |
| CN120523217A (zh) * | 2025-07-18 | 2025-08-22 | 中国船舶集团有限公司第七〇七研究所 | 一种强干扰环境水下航行器定位控制方法、系统及装置 |
| CN120656129A (zh) * | 2025-06-25 | 2025-09-16 | 长江大学 | 一种基于深度学习的auv海底石油管道巡检风险识别系统 |
| CN120711405A (zh) * | 2025-08-14 | 2025-09-26 | 南京桂瑞得信息科技有限公司 | 基于ddpg和联邦剪枝的无人平台自组网抗干扰方法 |
| CN120745739A (zh) * | 2025-06-06 | 2025-10-03 | 中国科学院声学研究所 | 基于深度强化学习的auv船体归坞方法 |
| CN120848530A (zh) * | 2025-09-23 | 2025-10-28 | 青岛理工大学 | 基于强化学习的移动机器人动态避障控制方法及系统 |
Families Citing this family (47)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110658827B (zh) * | 2019-10-25 | 2020-06-23 | 嘉应学院 | 一种基于物联网的运输车自动引导系统及其方法 |
| CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
| CN111079936B (zh) * | 2019-11-06 | 2023-03-14 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
| CN110909859B (zh) * | 2019-11-29 | 2023-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
| CN111198568A (zh) * | 2019-12-23 | 2020-05-26 | 燕山大学 | 一种基于q学习的水下机器人避障控制方法 |
| CN111142522B (zh) * | 2019-12-25 | 2023-06-09 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
| CN111061277B (zh) | 2019-12-31 | 2022-04-05 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
| CN111240345B (zh) * | 2020-02-11 | 2023-04-07 | 哈尔滨工程大学 | 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 |
| CN111273677B (zh) * | 2020-02-11 | 2023-05-12 | 哈尔滨工程大学 | 基于强化学习技术的自主水下机器人速度和艏向控制方法 |
| CN111290270B (zh) * | 2020-02-11 | 2022-06-03 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
| EP4110431A4 (en) | 2020-02-27 | 2023-08-02 | Siemens Healthcare Diagnostics Inc. | AUTOMATIC VALIDATION OF SENSOR TRACKS USING MACHINE LEARNING |
| CN111638646B (zh) * | 2020-05-29 | 2024-05-28 | 平安科技(深圳)有限公司 | 四足机器人行走控制器训练方法、装置、终端及存储介质 |
| CN111667513B (zh) * | 2020-06-01 | 2022-02-18 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
| CN111813143B (zh) * | 2020-06-09 | 2022-04-19 | 天津大学 | 一种基于强化学习的水下滑翔机智能控制系统及方法 |
| CN113799949B (zh) * | 2020-06-11 | 2022-07-26 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
| CN111982117B (zh) * | 2020-08-17 | 2022-05-10 | 电子科技大学 | 一种基于深度学习的auv光学引导与测向方法 |
| CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
| CN112179367B (zh) * | 2020-09-25 | 2023-07-04 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
| CN112241176B (zh) * | 2020-10-16 | 2022-10-28 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
| CN112347961B (zh) * | 2020-11-16 | 2023-05-26 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
| CN112526524B (zh) * | 2020-12-09 | 2022-06-17 | 青岛澎湃海洋探索技术有限公司 | 一种基于前视声纳图像和auv平台的水下渔网检测方法 |
| CN112560671B (zh) * | 2020-12-15 | 2022-04-12 | 哈尔滨工程大学 | 基于旋转卷积神经网络的船舶检测方法 |
| CN113052372B (zh) * | 2021-03-17 | 2022-08-02 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
| CN113050430B (zh) * | 2021-03-29 | 2023-05-02 | 浙江大学 | 一种基于鲁棒强化学习的排水系统控制方法 |
| CN113406957B (zh) * | 2021-05-19 | 2022-07-08 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
| CN113177366B (zh) * | 2021-05-28 | 2024-02-02 | 华北电力大学 | 一种综合能源系统规划方法、装置和终端设备 |
| CN113268074B (zh) * | 2021-06-07 | 2022-05-13 | 哈尔滨工程大学 | 一种基于联合优化的无人机航迹规划方法 |
| CN113093773B (zh) * | 2021-06-10 | 2021-09-03 | 深之蓝海洋科技股份有限公司 | 基于水下机器人的水下结构检测方法、系统、设备及介质 |
| CN113268933B (zh) * | 2021-06-18 | 2022-02-15 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
| CN113252028B (zh) * | 2021-06-28 | 2021-09-21 | 深之蓝海洋科技股份有限公司 | 输水隧洞内机器人的定位方法、电子设备及存储介质 |
| CN114139675B (zh) * | 2021-12-08 | 2024-09-20 | 中国科学技术大学 | 提升智能体控制中选择可靠动作准确性的方法 |
| CN114995468B (zh) * | 2022-06-06 | 2023-03-31 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
| CN115291616B (zh) * | 2022-07-25 | 2023-05-26 | 江苏海洋大学 | 一种基于近端策略优化算法的auv动态避障方法 |
| CN115178944B (zh) * | 2022-08-04 | 2024-05-24 | 广东工业大学 | 一种安全强化学习的狭窄空间机器人作业规划方法 |
| CN115586782B (zh) * | 2022-10-17 | 2024-04-12 | 湖南大学 | 一种自主式水下机器人运动控制方法及装置 |
| CN115610628A (zh) * | 2022-10-27 | 2023-01-17 | 南方电网调峰调频发电有限公司储能科研院 | 一种水下机器人穿梭水电站阻抗孔的控制方法 |
| CN115657678B (zh) * | 2022-10-28 | 2024-04-26 | 中国船舶重工集团公司第七一九研究所 | 面向复杂动态环境的水下无人潜航器航迹生成方法及系统 |
| CN116184999A (zh) * | 2022-11-08 | 2023-05-30 | 济南超级计算技术研究院 | 一种环境自适应的水下机器人及控制方法 |
| CN116339316A (zh) * | 2023-02-13 | 2023-06-27 | 中国科学院沈阳自动化研究所 | 一种基于深度强化学习的深海采矿机器人路径规划方法 |
| CN115855226B (zh) * | 2023-02-24 | 2023-05-30 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
| CN116976442B (zh) * | 2023-06-04 | 2025-09-26 | 西北工业大学 | 一种基于me-ddpg的无人机多对一追捕博弈方法 |
| CN116627147A (zh) * | 2023-06-05 | 2023-08-22 | 哈尔滨工程大学 | 输水隧洞巡检auv运动规划方法 |
| CN116858843A (zh) * | 2023-07-12 | 2023-10-10 | 大连海事大学 | 一种基于深度强化学习的海工平台导管架自主巡检系统 |
| CN117633960B (zh) * | 2023-11-08 | 2025-06-24 | 哈尔滨工程大学 | 一种输水隧洞检测auv模型的优化方法 |
| CN118567364A (zh) * | 2024-07-30 | 2024-08-30 | 苏州元脑智能科技有限公司 | 巡检设备的移动控制方法及装置 |
| CN119828700B (zh) * | 2024-08-31 | 2025-11-21 | 西北工业大学 | 基于强化学习的水下六足机器人多壁面连续运动控制方法 |
| CN119628801B (zh) * | 2024-10-31 | 2025-09-12 | 中国船舶集团有限公司第七〇九研究所 | 一种基于混合训练序列策略的智能水声通信方法及装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008052473A (ja) * | 2006-08-24 | 2008-03-06 | Nippon Telegr & Teleph Corp <Ntt> | 水中ロボットの動作制御方法、装置、プログラム及びその記録媒体 |
Family Cites Families (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006309519A (ja) * | 2005-04-28 | 2006-11-09 | Institute Of National Colleges Of Technology Japan | 強化学習システム、及び強化学習プログラム |
| JP4929449B2 (ja) * | 2005-09-02 | 2012-05-09 | 国立大学法人横浜国立大学 | 強化学習装置および強化学習方法 |
| CN102402712B (zh) * | 2011-08-31 | 2014-03-05 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
| JP6721785B2 (ja) * | 2016-09-15 | 2020-07-15 | グーグル エルエルシー | ロボット操作のための深層強化学習 |
| JP6875513B2 (ja) * | 2016-10-10 | 2021-05-26 | ディープマインド テクノロジーズ リミテッド | ロボットエージェントによって実行されるべきアクションを選択するためのニューラルネットワーク |
| CN107102644B (zh) * | 2017-06-22 | 2019-12-10 | 华南师范大学 | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 |
| CN107490965B (zh) * | 2017-08-21 | 2020-02-07 | 西北工业大学 | 一种空间自由漂浮机械臂的多约束轨迹规划方法 |
| CN108594834B (zh) * | 2018-03-23 | 2020-12-22 | 哈尔滨工程大学 | 一种面向未知环境下多auv自适应目标搜索和避障方法 |
| CN108444481B (zh) * | 2018-03-25 | 2019-08-06 | 哈尔滨工程大学 | 一种基于辅助决策系统的水下潜器路径规划方法 |
| CN109540151B (zh) * | 2018-03-25 | 2020-01-17 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
| CN108803321B (zh) * | 2018-05-30 | 2020-07-10 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
| CN108873687B (zh) * | 2018-07-11 | 2020-06-26 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
| CN109241552B (zh) * | 2018-07-12 | 2022-04-05 | 哈尔滨工程大学 | 一种基于多约束目标的水下机器人运动规划方法 |
| CN109212476B (zh) * | 2018-09-18 | 2023-03-14 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
| CN109407676B (zh) * | 2018-12-20 | 2019-08-02 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的机器人避障方法 |
-
2019
- 2019-08-21 CN CN201910775602.7A patent/CN110333739B/zh active Active
-
2020
- 2020-08-20 JP JP2020139299A patent/JP6854549B2/ja active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008052473A (ja) * | 2006-08-24 | 2008-03-06 | Nippon Telegr & Teleph Corp <Ntt> | 水中ロボットの動作制御方法、装置、プログラム及びその記録媒体 |
Cited By (215)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113515119A (zh) * | 2021-04-25 | 2021-10-19 | 华北电力大学 | 一种基于强化学习的变电站内巡检机器人路径规划方案 |
| CN113290557A (zh) * | 2021-05-21 | 2021-08-24 | 南京信息工程大学 | 一种基于数据驱动的蛇形机器人控制方法 |
| CN115494831B (zh) * | 2021-06-17 | 2024-04-16 | 中国科学院沈阳自动化研究所 | 一种人机自主智能协同的跟踪方法 |
| CN115494831A (zh) * | 2021-06-17 | 2022-12-20 | 中国科学院沈阳自动化研究所 | 一种人机自主智能协同的跟踪方法 |
| CN113283181A (zh) * | 2021-06-28 | 2021-08-20 | 上海海事大学 | 一种障碍物和海流环境中多auv快速围捕方法 |
| CN113283181B (zh) * | 2021-06-28 | 2024-02-27 | 上海海事大学 | 一种障碍物和海流环境中多auv快速围捕方法 |
| CN113821903A (zh) * | 2021-07-09 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 温度控制方法和设备、模块化数据中心及存储介质 |
| CN113821903B (zh) * | 2021-07-09 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 温度控制方法和设备、模块化数据中心及存储介质 |
| CN113552881B (zh) * | 2021-07-15 | 2024-03-26 | 浙江工业大学 | 一种用于神经网络训练的多路径规划数据集生成方法 |
| CN113552881A (zh) * | 2021-07-15 | 2021-10-26 | 浙江工业大学 | 一种用于神经网络训练的多路径规划数据集生成方法 |
| CN113592162A (zh) * | 2021-07-22 | 2021-11-02 | 西北工业大学 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
| CN113592162B (zh) * | 2021-07-22 | 2023-06-02 | 西北工业大学 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
| CN113916254A (zh) * | 2021-07-22 | 2022-01-11 | 北京控制工程研究所 | 一种停靠式抓捕的航天器自主交会对接试验方法 |
| CN113589842B (zh) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
| CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
| CN113592958A (zh) * | 2021-08-13 | 2021-11-02 | 大连海事大学 | 一种基于单目视觉的auv对接坞站光学引导方法 |
| CN113573235A (zh) * | 2021-08-16 | 2021-10-29 | 苏州云享阁智能科技有限公司 | 一种基于ddpg算法获得最优资源分配以提升定位精度的方法 |
| CN113791612A (zh) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
| CN113791612B (zh) * | 2021-08-17 | 2023-10-24 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
| CN113671834A (zh) * | 2021-08-24 | 2021-11-19 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
| CN113836788B (zh) * | 2021-08-24 | 2023-10-27 | 浙江大学 | 基于局部数据增强的流程工业强化学习控制的加速方法 |
| CN113836788A (zh) * | 2021-08-24 | 2021-12-24 | 浙江大学 | 基于局部数据增强的流程工业强化学习控制的加速方法 |
| CN113671834B (zh) * | 2021-08-24 | 2023-09-01 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
| CN113433953A (zh) * | 2021-08-25 | 2021-09-24 | 北京航空航天大学 | 多机器人协同避障方法、装置和智能机器人 |
| CN114003029A (zh) * | 2021-09-12 | 2022-02-01 | 西北工业大学 | 一种声光融合导引的自主水下航行器鲁棒对接回收方法 |
| CN114003029B (zh) * | 2021-09-12 | 2023-06-30 | 西北工业大学 | 一种声光融合导引的自主水下航行器鲁棒对接回收方法 |
| CN113741533A (zh) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
| CN113821035A (zh) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | 无人船轨迹追踪控制方法和装置 |
| CN113848974A (zh) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
| CN113848974B (zh) * | 2021-09-28 | 2023-08-15 | 西安因诺航空科技有限公司 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
| CN114296440A (zh) * | 2021-09-30 | 2022-04-08 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种融合在线学习的agv实时调度方法 |
| CN114296440B (zh) * | 2021-09-30 | 2024-04-09 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种融合在线学习的agv实时调度方法 |
| CN113848927A (zh) * | 2021-10-07 | 2021-12-28 | 兰州理工大学 | 一种自主规划路径的自动驾驶系统 |
| CN113919217A (zh) * | 2021-10-08 | 2022-01-11 | 南开大学 | 自抗扰控制器自适应参数整定方法及装置 |
| CN113919217B (zh) * | 2021-10-08 | 2024-05-17 | 南开大学 | 自抗扰控制器自适应参数整定方法及装置 |
| CN113771044B (zh) * | 2021-10-09 | 2022-11-11 | 北京卫星环境工程研究所 | 一种机器人末端负载动态受力感知方法 |
| CN113771044A (zh) * | 2021-10-09 | 2021-12-10 | 北京卫星环境工程研究所 | 一种机器人末端负载动态受力感知方法 |
| CN113829351B (zh) * | 2021-10-13 | 2023-08-01 | 广西大学 | 一种基于强化学习的移动机械臂的协同控制方法 |
| CN113829351A (zh) * | 2021-10-13 | 2021-12-24 | 广西大学 | 一种基于强化学习的移动机械臂的协同控制方法 |
| CN113885564A (zh) * | 2021-10-20 | 2022-01-04 | 哈尔滨工程大学 | 一种基于大数据的组队循迹规划导航方法 |
| CN113848946B (zh) * | 2021-10-20 | 2023-11-03 | 郑州大学 | 一种基于神经调节机制的机器人行为决策方法及设备 |
| CN113848946A (zh) * | 2021-10-20 | 2021-12-28 | 郑州大学 | 一种基于神经调节机制的机器人行为决策方法及设备 |
| CN114063624A (zh) * | 2021-10-22 | 2022-02-18 | 中国船舶重工集团公司第七一九研究所 | 一种爬游无人潜水器多模式规划运动控制器及其控制方法 |
| CN113867396B (zh) * | 2021-10-22 | 2024-04-26 | 吉林大学 | 一种网联无人机航线规划与航线平滑方法及装置 |
| CN113867396A (zh) * | 2021-10-22 | 2021-12-31 | 吉林大学 | 一种网联无人机航线规划与航线平滑方法及装置 |
| CN114020013A (zh) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
| CN114020013B (zh) * | 2021-10-26 | 2024-03-15 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
| CN113985876B (zh) * | 2021-10-27 | 2023-09-26 | 广州大学 | 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统 |
| CN113985876A (zh) * | 2021-10-27 | 2022-01-28 | 广州大学 | 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统 |
| CN113988196A (zh) * | 2021-11-01 | 2022-01-28 | 乐聚(深圳)机器人技术有限公司 | 一种机器人移动方法、装置、设备及存储介质 |
| CN114019805A (zh) * | 2021-11-17 | 2022-02-08 | 九江职业技术学院 | 一种欠驱动auv的模型预测对接控制方法 |
| CN114089633A (zh) * | 2021-11-19 | 2022-02-25 | 江苏科技大学 | 一种水下机器人多电机耦合驱动控制装置及方法 |
| CN114089633B (zh) * | 2021-11-19 | 2024-04-26 | 江苏科技大学 | 一种水下机器人多电机耦合驱动控制装置及方法 |
| CN114077258B (zh) * | 2021-11-22 | 2023-11-21 | 江苏科技大学 | 一种基于强化学习ppo2算法的无人艇位姿控制方法 |
| CN114077258A (zh) * | 2021-11-22 | 2022-02-22 | 江苏科技大学 | 一种基于强化学习ppo2算法的无人艇位姿控制方法 |
| CN113885549B (zh) * | 2021-11-23 | 2023-11-21 | 江苏科技大学 | 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法 |
| CN113885549A (zh) * | 2021-11-23 | 2022-01-04 | 江苏科技大学 | 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法 |
| CN114200833B (zh) * | 2021-11-24 | 2024-04-12 | 华中科技大学 | 一种基于观测器的机器人网络动态区域覆盖的控制方法 |
| CN114200833A (zh) * | 2021-11-24 | 2022-03-18 | 华中科技大学 | 一种基于观测器的机器人网络动态区域覆盖的控制方法 |
| CN114169234A (zh) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | 一种无人机辅助移动边缘计算的调度优化方法及系统 |
| CN114155298A (zh) * | 2021-12-09 | 2022-03-08 | 山东大学 | 一种基于主动感知的机器人堵漏方法及系统 |
| CN114155298B (zh) * | 2021-12-09 | 2024-05-17 | 山东大学 | 一种基于主动感知的机器人堵漏方法及系统 |
| CN114153216A (zh) * | 2021-12-14 | 2022-03-08 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
| CN114330651A (zh) * | 2021-12-14 | 2022-04-12 | 中国运载火箭技术研究院 | 面向多要素联合指控的分层多智能体增强学习方法 |
| CN114153216B (zh) * | 2021-12-14 | 2023-10-03 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
| CN114692890A (zh) * | 2021-12-24 | 2022-07-01 | 中国人民解放军军事科学院战争研究院 | 基于模型的权值组合规划值扩展的方法 |
| CN114355915B (zh) * | 2021-12-27 | 2024-04-02 | 杭州电子科技大学 | 一种基于深度强化学习的agv路径规划 |
| CN114355915A (zh) * | 2021-12-27 | 2022-04-15 | 杭州电子科技大学 | 一种基于深度强化学习的agv路径规划 |
| CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
| CN114355980B (zh) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
| CN114399225A (zh) * | 2022-01-24 | 2022-04-26 | 北京理工大学 | 一种基于Q-Learning的深空探测器任务规划方法 |
| CN114493013A (zh) * | 2022-01-28 | 2022-05-13 | 浙江同善人工智能技术有限公司 | 基于强化学习的智能体路径规划方法、电子设备及介质 |
| CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
| CN114527642B (zh) * | 2022-03-03 | 2024-04-02 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
| CN114675535A (zh) * | 2022-03-07 | 2022-06-28 | 大连理工大学 | 一种基于强化学习的航空发动机过渡态寻优控制方法 |
| CN114675535B (zh) * | 2022-03-07 | 2024-04-02 | 大连理工大学 | 一种基于强化学习的航空发动机过渡态寻优控制方法 |
| CN114578712A (zh) * | 2022-03-08 | 2022-06-03 | 北京航空航天大学 | 多功能水下自主航行器集群仿真系统 |
| CN114578712B (zh) * | 2022-03-08 | 2023-09-26 | 北京航空航天大学 | 多功能水下自主航行器集群仿真系统 |
| CN114625151A (zh) * | 2022-03-10 | 2022-06-14 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
| CN114625151B (zh) * | 2022-03-10 | 2024-05-28 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
| CN114785397A (zh) * | 2022-03-11 | 2022-07-22 | 浙江以正通信技术有限公司 | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 |
| CN114800488A (zh) * | 2022-03-18 | 2022-07-29 | 清华大学深圳国际研究生院 | 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 |
| CN114610070A (zh) * | 2022-03-21 | 2022-06-10 | 大连理工大学 | 一种无人机协同的风电场智能巡检方法 |
| CN114679699A (zh) * | 2022-03-23 | 2022-06-28 | 重庆邮电大学 | 基于深度强化学习的多无人机节能巡航通信覆盖方法 |
| CN114815864A (zh) * | 2022-03-31 | 2022-07-29 | 哈尔滨工程大学 | 一种基于强化学习的高超声速飞行器航迹规划方法 |
| CN114839969A (zh) * | 2022-04-02 | 2022-08-02 | 达闼机器人股份有限公司 | 控制设备移动的方法、装置、存储介质与电子设备 |
| CN114815816A (zh) * | 2022-04-07 | 2022-07-29 | 青岛科技大学 | 一种自主导航机器人 |
| CN114578830A (zh) * | 2022-04-11 | 2022-06-03 | 北京化工大学 | 基于强化学习的仿蛇机器人运动规划方法 |
| CN114879660B (zh) * | 2022-04-14 | 2023-08-15 | 海南大学 | 一种基于目标驱动的机器人环境感知方法 |
| CN114879660A (zh) * | 2022-04-14 | 2022-08-09 | 海南大学 | 一种基于目标驱动的机器人环境感知方法 |
| CN114721397B (zh) * | 2022-04-19 | 2024-05-31 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
| CN114721397A (zh) * | 2022-04-19 | 2022-07-08 | 北方工业大学 | 一种基于强化学习和好奇心的迷宫机器人路径规划方法 |
| CN114923486B (zh) * | 2022-04-21 | 2024-05-17 | 厦门大学 | 一种基于全局环境图和注意力侧重的机器人导航方法 |
| CN114910072A (zh) * | 2022-04-21 | 2022-08-16 | 海南大学 | 基于深度强化学习的无人机导航方法、装置、设备及介质 |
| CN114923486A (zh) * | 2022-04-21 | 2022-08-19 | 厦门大学 | 一种基于全局环境图和注意力侧重的机器人导航方法 |
| CN114859910A (zh) * | 2022-04-28 | 2022-08-05 | 武汉理工大学 | 基于深度强化学习的无人船路径跟随系统及方法 |
| CN114879671A (zh) * | 2022-05-04 | 2022-08-09 | 哈尔滨工程大学 | 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 |
| CN114840928A (zh) * | 2022-05-07 | 2022-08-02 | 西北工业大学 | 一种基于深度学习的水下航行器集群运动仿真方法 |
| JP2023166680A (ja) * | 2022-05-10 | 2023-11-22 | 株式会社日立製作所 | 行動制御計画装置及び行動制御計画方法 |
| JP7761527B2 (ja) | 2022-05-10 | 2025-10-28 | 株式会社日立製作所 | 行動制御計画装置及び行動制御計画方法 |
| CN115167484B (zh) * | 2022-05-13 | 2024-04-19 | 西北工业大学 | 基于神经网络的自主水下航行器模型预测路径跟踪方法 |
| CN115167484A (zh) * | 2022-05-13 | 2022-10-11 | 西北工业大学 | 基于神经网络的自主水下航行器模型预测路径跟踪方法 |
| CN114801897A (zh) * | 2022-05-17 | 2022-07-29 | 南京航空航天大学 | 一种基于ddpg算法的燃料电池混合动力系统能量管理方法 |
| CN114979952A (zh) * | 2022-05-20 | 2022-08-30 | 电子科技大学长三角研究院(衢州) | 一种基于强化学习ppo算法的指纹室内定位方法 |
| CN115016405A (zh) * | 2022-05-26 | 2022-09-06 | 天津大学 | 一种基于深度强化学习的工艺路线多目标优化方法 |
| CN114895697A (zh) * | 2022-05-27 | 2022-08-12 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
| CN114895697B (zh) * | 2022-05-27 | 2024-04-30 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
| CN115016534A (zh) * | 2022-06-02 | 2022-09-06 | 之江实验室 | 一种基于记忆增强学习的无人机自主避障导航方法 |
| CN114879706A (zh) * | 2022-06-17 | 2022-08-09 | 哈尔滨工程大学 | 一种rrt与人工势场法相结合的auv目标搜索方法 |
| CN115033022A (zh) * | 2022-06-28 | 2022-09-09 | 华南理工大学 | 面向移动平台基于专家经验的ddpg无人机降落方法 |
| CN115119174A (zh) * | 2022-06-30 | 2022-09-27 | 西安理工大学 | 灌区场景中基于能耗优化的无人机自主部署方法 |
| CN115033000A (zh) * | 2022-07-06 | 2022-09-09 | 重庆大学 | 基于深度强化学习的双目标路径规划方法 |
| CN115202356A (zh) * | 2022-07-21 | 2022-10-18 | 大连海事大学 | 一种三维水下欠驱动auv回收路径规划方法 |
| CN115167430A (zh) * | 2022-07-21 | 2022-10-11 | 山东大学 | 一种具备全范围信息恢复能力的机器人导航避障方法 |
| CN114964268A (zh) * | 2022-07-29 | 2022-08-30 | 白杨时代(北京)科技有限公司 | 一种无人机导航方法及装置 |
| CN115278901B (zh) * | 2022-08-04 | 2023-06-06 | 哈尔滨工程大学 | 水下无定位移动网络的自适应通信方法 |
| CN115278901A (zh) * | 2022-08-04 | 2022-11-01 | 哈尔滨工程大学 | 水下无定位移动网络的自适应通信方法 |
| CN115314854A (zh) * | 2022-08-08 | 2022-11-08 | 广东智能无人系统研究院 | 一种海上风电水下设施无人巡检系统及方法 |
| CN115469674A (zh) * | 2022-08-25 | 2022-12-13 | 西北工业大学 | 一种基于改进式分布式模型预测的大通信周期auv编队方法 |
| CN115328143B (zh) * | 2022-08-26 | 2023-04-18 | 齐齐哈尔大学 | 一种基于环境驱动的主从水面机器人回收导引方法 |
| CN115328143A (zh) * | 2022-08-26 | 2022-11-11 | 齐齐哈尔大学 | 一种基于环境驱动的主从水面机器人回收导引方法 |
| CN115468454A (zh) * | 2022-08-30 | 2022-12-13 | 南京理工大学 | 虚拟力法与引战配合相结合的多弹协同对抗策略 |
| CN115550236A (zh) * | 2022-08-31 | 2022-12-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
| CN115550236B (zh) * | 2022-08-31 | 2024-04-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
| CN115913607A (zh) * | 2022-09-07 | 2023-04-04 | 南方电网数字平台科技(广东)有限公司 | 基于电力设备的网络安全系统智能运维方法及装置 |
| JP2025506345A (ja) * | 2022-10-08 | 2025-03-11 | 哈爾濱工程大学 | モデルベースの原子力装置評価シミュレーション方法及びシステム |
| JP7638050B1 (ja) | 2022-10-08 | 2025-03-03 | 哈爾濱工程大学 | モデルベースの原子力装置評価シミュレーション方法及びシステム |
| CN115586761A (zh) * | 2022-10-24 | 2023-01-10 | 红云红河烟草(集团)有限责任公司 | 卷烟制丝回潮控制系统的故障容错控制方法及存储介质 |
| CN115494733A (zh) * | 2022-10-27 | 2022-12-20 | 南方电网调峰调频发电有限公司储能科研院 | 一种基于gazebo的水下机器人自适应控制方法 |
| CN115640131A (zh) * | 2022-10-28 | 2023-01-24 | 南京航空航天大学 | 一种基于深度确定性策略梯度的无人机辅助计算迁移方法 |
| CN115686065A (zh) * | 2022-11-10 | 2023-02-03 | 北京航空航天大学 | 一种基于深度强化学习的无人机动态目标跟踪控制方法 |
| CN115493597A (zh) * | 2022-11-15 | 2022-12-20 | 山东大学 | 一种基于sac算法的auv路径规划控制方法 |
| CN115686076A (zh) * | 2022-11-17 | 2023-02-03 | 中国人民解放军海军航空大学 | 基于增量式发育深度强化学习的无人机路径规划方法 |
| CN115922722A (zh) * | 2022-12-22 | 2023-04-07 | 浙江大学 | 一种基于迁移强化学习的大鼠机器人流畅控制方法 |
| CN116227767A (zh) * | 2023-01-07 | 2023-06-06 | 南京工业大学 | 基于深度强化学习的多无人机基站协同覆盖路径规划方法 |
| CN116243595A (zh) * | 2023-01-09 | 2023-06-09 | 中国船舶重工集团公司第七0七研究所九江分部 | 一种基于全回转推进器的auv水平面控制方法 |
| CN115981369B (zh) * | 2023-01-09 | 2023-12-01 | 南京航空航天大学 | 有限通信下面向多无人机联合任务分配和航迹规划的方法 |
| CN115981369A (zh) * | 2023-01-09 | 2023-04-18 | 南京航空航天大学 | 有限通信下面向多无人机联合任务分配和航迹规划的方法 |
| CN116301027A (zh) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
| CN116301027B (zh) * | 2023-02-08 | 2023-12-05 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
| CN116424573A (zh) * | 2023-02-16 | 2023-07-14 | 哈尔滨工业大学(深圳) | 一种未知复杂环境下无拖曳卫星控制方法 |
| CN116699519A (zh) * | 2023-02-23 | 2023-09-05 | 西北工业大学 | 一种水下无人平台高可靠性智能定位方法 |
| CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
| CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
| CN116339333A (zh) * | 2023-03-27 | 2023-06-27 | 华南理工大学 | 基于深度强化学习dqn的多agv路径规划避障方法 |
| CN116400701A (zh) * | 2023-04-13 | 2023-07-07 | 大连理工大学 | 一种基于深度强化学习的移动机器人在线路径规划方法 |
| CN116520832A (zh) * | 2023-04-19 | 2023-08-01 | 北京航空航天大学 | 一种适用于集群穿越虚拟管道的速度和密度规划方法 |
| CN116382089A (zh) * | 2023-04-21 | 2023-07-04 | 西北工业大学 | 一种基于新颖性度量的sac强化学习视觉伺服控制方法及系统 |
| CN116430900A (zh) * | 2023-05-04 | 2023-07-14 | 四川大学 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
| CN116665335A (zh) * | 2023-05-04 | 2023-08-29 | 深圳大学 | 基于深度强化学习的核电巡检方法、装置、设备及介质 |
| CN116430900B (zh) * | 2023-05-04 | 2023-12-05 | 四川大学 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
| CN116295449A (zh) * | 2023-05-25 | 2023-06-23 | 吉林大学 | 水下自主航行器路径指示方法及装置 |
| CN116295449B (zh) * | 2023-05-25 | 2023-09-12 | 吉林大学 | 水下自主航行器路径指示方法及装置 |
| CN117035263A (zh) * | 2023-06-27 | 2023-11-10 | 哈尔滨工程大学 | 一种水下大范围环境内多auv节点的任务分配方法、计算机及存储介质 |
| CN116956998A (zh) * | 2023-06-28 | 2023-10-27 | 中国地质大学(武汉) | 基于分层强化学习的雷达干扰决策与参数优化方法及装置 |
| CN116578102A (zh) * | 2023-07-13 | 2023-08-11 | 清华大学 | 水下自主航行器避障方法、装置、计算机设备和存储介质 |
| CN116578102B (zh) * | 2023-07-13 | 2023-09-19 | 清华大学 | 水下自主航行器避障方法、装置、计算机设备和存储介质 |
| CN116909280A (zh) * | 2023-07-20 | 2023-10-20 | 山东科技大学 | 一种基于视觉感知的强化学习双层决策agv避障方法 |
| CN117130379A (zh) * | 2023-07-31 | 2023-11-28 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
| CN117130379B (zh) * | 2023-07-31 | 2024-04-16 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
| CN116700020B (zh) * | 2023-08-10 | 2023-11-24 | 西安爱生无人机技术有限公司 | 变后掠翼无人机的控制方法、系统、无人机及存储介质 |
| CN116700020A (zh) * | 2023-08-10 | 2023-09-05 | 西安爱生无人机技术有限公司 | 变后掠翼无人机的控制方法、系统、无人机及存储介质 |
| CN117140527B (zh) * | 2023-09-27 | 2024-04-26 | 中山大学·深圳 | 一种基于深度强化学习算法的机械臂控制方法及系统 |
| CN117140527A (zh) * | 2023-09-27 | 2023-12-01 | 中山大学·深圳 | 一种基于深度强化学习算法的机械臂控制方法及系统 |
| CN117055591B (zh) * | 2023-10-11 | 2024-03-15 | 青岛哈尔滨工程大学创新发展中心 | 综合洋流影响和机动性约束的auv全局路径规划方法 |
| CN117055591A (zh) * | 2023-10-11 | 2023-11-14 | 青岛哈尔滨工程大学创新发展中心 | 综合洋流影响和机动性约束的auv全局路径规划方法 |
| US20250138539A1 (en) * | 2023-10-25 | 2025-05-01 | International Business Machines Corporation | Protecting robotic bee from threats by dynamically generating impulse force |
| CN117441701A (zh) * | 2023-10-25 | 2024-01-26 | 常州大学 | 基于拓扑排序奖励机制的无人机农业驱鸟方法及系统 |
| CN117233520B (zh) * | 2023-11-16 | 2024-01-26 | 青岛澎湃海洋探索技术有限公司 | 基于改进Sim-GAN的AUV推进系统故障检测评估方法 |
| CN117233520A (zh) * | 2023-11-16 | 2023-12-15 | 青岛澎湃海洋探索技术有限公司 | 基于改进Sim-GAN的AUV推进系统故障检测评估方法 |
| CN117519272A (zh) * | 2023-12-07 | 2024-02-06 | 北京理工大学 | 一种基于车轮动力学的轮式水陆两栖车姿态控制方法 |
| CN117856904A (zh) * | 2023-12-12 | 2024-04-09 | 山东科技大学 | 一种基于深度强化学习的多auv协同移动光通信方法 |
| CN117872347A (zh) * | 2024-01-12 | 2024-04-12 | 兰州理工大学 | 基于双层强化学习优化的jpda多目标跟踪方法及系统 |
| CN117991794A (zh) * | 2024-01-31 | 2024-05-07 | 广东海洋大学 | 基于强化学习激励信号塑性的无人船操纵优化方法及装置 |
| CN117682429B (zh) * | 2024-02-01 | 2024-04-05 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
| CN117682429A (zh) * | 2024-02-01 | 2024-03-12 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
| CN117744540B (zh) * | 2024-02-19 | 2024-04-30 | 青岛哈尔滨工程大学创新发展中心 | 水下无人航行器的水下作业水动力特性趋势预测方法 |
| CN117744540A (zh) * | 2024-02-19 | 2024-03-22 | 青岛哈尔滨工程大学创新发展中心 | 水下无人航行器的水下作业水动力特性趋势预测方法 |
| CN118244755A (zh) * | 2024-03-11 | 2024-06-25 | 华中科技大学 | 基于成像声呐的水下航行器对接控制方法及装置 |
| CN117970931A (zh) * | 2024-03-29 | 2024-05-03 | 青岛科技大学 | 一种机器人动态路径规划方法、设备及介质 |
| CN117990111A (zh) * | 2024-04-03 | 2024-05-07 | 北京盛安同力科技开发有限公司 | 一种基于mbse模型的探月机器人局部路径规划方法及系统 |
| CN118289183A (zh) * | 2024-04-08 | 2024-07-05 | 山东科技大学 | 一种仿哥布林鲨的海参捕捞机器人及其位姿控制方法 |
| CN118192594A (zh) * | 2024-04-12 | 2024-06-14 | 东南大学 | 一种基于改进的maddpg算法的车辆路径规划方法及系统 |
| CN118192594B (zh) * | 2024-04-12 | 2025-09-19 | 东南大学 | 一种基于改进的maddpg算法的车辆路径规划方法及系统 |
| CN118189977A (zh) * | 2024-05-17 | 2024-06-14 | 广东海洋大学 | 基于人工智能的水下机器人集群路径规划与控制方法 |
| CN118249474B (zh) * | 2024-05-27 | 2024-08-06 | 西北工业大学宁波研究院 | 一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略 |
| CN118249474A (zh) * | 2024-05-27 | 2024-06-25 | 西北工业大学宁波研究院 | 一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略 |
| CN118707974A (zh) * | 2024-06-02 | 2024-09-27 | 浙江大学 | 一种基于改进视线法的水下航行器制导方法 |
| CN118760168A (zh) * | 2024-07-04 | 2024-10-11 | 武汉理工大学 | 基于奖励函数改进的深度强化学习路径规划方法及系统 |
| CN118466569A (zh) * | 2024-07-10 | 2024-08-09 | 中南大学 | 基于区间理论的高超声速变体飞行器预设性能控制方法 |
| CN119260709A (zh) * | 2024-09-27 | 2025-01-07 | 泰志达智能科技(苏州)有限公司 | 一种用于控制机器人的方法 |
| CN119105512A (zh) * | 2024-09-29 | 2024-12-10 | 武汉科技大学 | 一种基于深度强化学习的自主移机器人路径规划方法 |
| CN119347749A (zh) * | 2024-09-29 | 2025-01-24 | 华中科技大学 | 一种基于多任务强化学习的接力器缸体内壁焊缝机器人打磨多目标优化方法及系统 |
| CN119469143A (zh) * | 2024-10-11 | 2025-02-18 | 哈尔滨工程大学 | 一种用于复杂水下环境避障的水下机器人路径规划方法 |
| CN119268688A (zh) * | 2024-10-16 | 2025-01-07 | 哈尔滨工程大学 | 一种海底地形辅助导航重定位及路径重规划方法、程序、设备及存储介质 |
| CN119501934A (zh) * | 2024-11-20 | 2025-02-25 | 北京航空航天大学 | 一种基于深度强化学习的接触式加工机器人运动规划方法 |
| CN119536324A (zh) * | 2024-11-27 | 2025-02-28 | 杭州电子科技大学 | 一种三维未知环境下数模协同驱动的auv最优艏向控制方法 |
| CN119536324B (zh) * | 2024-11-27 | 2025-10-28 | 杭州电子科技大学 | 一种三维未知环境下数模协同驱动的auv最优艏向控制方法 |
| CN119575980A (zh) * | 2024-11-29 | 2025-03-07 | 兰州理工大学 | 复杂环境下无人水面航行器最优轨迹规划方法及系统 |
| CN119644733A (zh) * | 2024-12-03 | 2025-03-18 | 浙江大学 | 基于强化学习的自适应规划器参数调优方法和装置 |
| CN119902432B (zh) * | 2024-12-27 | 2025-07-25 | 哈尔滨工业大学 | 一种基于改进A-star算法与强化学习的集群路径规划方法及系统 |
| CN119902432A (zh) * | 2024-12-27 | 2025-04-29 | 哈尔滨工业大学 | 一种基于改进A-star算法与强化学习的集群路径规划方法及系统 |
| CN119555085A (zh) * | 2025-01-22 | 2025-03-04 | 北京世航智能科技有限公司 | 自主式水下机器人航行路径规划方法、设备及系统 |
| CN119984290A (zh) * | 2025-04-15 | 2025-05-13 | 青岛杰瑞自动化有限公司 | 一种基于深度强化学习的路径规划方法及系统、电子设备 |
| CN120357981A (zh) * | 2025-05-16 | 2025-07-22 | 东北大学 | 一种基于强化学习的无人机光通信链路跟瞄方法 |
| CN120215514A (zh) * | 2025-05-27 | 2025-06-27 | 四川参盘供应链科技有限公司 | 一种面向动态障碍物的强化学习无人叉车避障调度方法及系统 |
| CN120235212A (zh) * | 2025-05-29 | 2025-07-01 | 集美大学 | 基于简化环境与动力学的无人艇路径规划强化学习方法 |
| CN120745739B (zh) * | 2025-06-06 | 2026-01-06 | 中国科学院声学研究所 | 基于深度强化学习的auv船体归坞方法 |
| CN120745739A (zh) * | 2025-06-06 | 2025-10-03 | 中国科学院声学研究所 | 基于深度强化学习的auv船体归坞方法 |
| CN120307303A (zh) * | 2025-06-16 | 2025-07-15 | 浙江省农业科学院 | 用于组培苗移栽的机械臂路径规划方法、装置及其可读存储介质 |
| CN120326633A (zh) * | 2025-06-16 | 2025-07-18 | 佛山大学 | 一种重载工业机器人的路径规划与安全精准控制方法 |
| CN120656129A (zh) * | 2025-06-25 | 2025-09-16 | 长江大学 | 一种基于深度学习的auv海底石油管道巡检风险识别系统 |
| CN120523217A (zh) * | 2025-07-18 | 2025-08-22 | 中国船舶集团有限公司第七〇七研究所 | 一种强干扰环境水下航行器定位控制方法、系统及装置 |
| CN120711405A (zh) * | 2025-08-14 | 2025-09-26 | 南京桂瑞得信息科技有限公司 | 基于ddpg和联邦剪枝的无人平台自组网抗干扰方法 |
| CN120848530A (zh) * | 2025-09-23 | 2025-10-28 | 青岛理工大学 | 基于强化学习的移动机器人动态避障控制方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN110333739B (zh) | 2020-07-31 |
| CN110333739A (zh) | 2019-10-15 |
| JP6854549B2 (ja) | 2021-04-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6854549B2 (ja) | 強化学習に基づくauv行動計画及び動作制御の方法 | |
| Cai | Robotics: From Manipulator to Mobilebot | |
| Hadi et al. | Adaptive formation motion planning and control of autonomous underwater vehicles using deep reinforcement learning | |
| CN109765929B (zh) | 一种基于改进rnn的uuv实时避障规划方法 | |
| CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
| CN109784201B (zh) | 基于四维风险评估的auv动态避障方法 | |
| CN115718497B (zh) | 一种多无人艇避碰决策方法 | |
| CN108334677B (zh) | 一种基于gru网络的uuv实时避碰规划方法 | |
| CN113534668A (zh) | 基于最大熵的演员-评论家框架的auv运动规划方法 | |
| CN108319293A (zh) | 一种基于lstm网络的uuv实时避碰规划方法 | |
| CN117590867B (zh) | 基于深度强化学习的水下自主航行器接驳控制方法和系统 | |
| CN114995468B (zh) | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 | |
| CN112799414A (zh) | 一种auv松弛轨迹规划方法 | |
| CN119088039A (zh) | 一种基于强化学习的无人艇自主导航方法与系统 | |
| CN114167856A (zh) | 一种基于人工情感的服务机器人局部路径规划方法 | |
| Lanča et al. | Model predictive altitude and velocity control in ergodic potential field directed multi-UAV search | |
| CN117519197A (zh) | 一种水面无人艇的局部路径规划方法及装置 | |
| Hu et al. | Dynamic task assignment and path optimization for multi-AUVs system | |
| Kang et al. | Fuzzy logic based behavior fusion for multi-AUV formation keeping in uncertain ocean environment | |
| Ridao et al. | O2CA2: A new hybrid control architecture for a low cost AUV | |
| CN116540717A (zh) | 一种基于改进dwa的auv局部路径规划方法 | |
| Gao et al. | Increased autonomy and situation awareness for rov operations | |
| Xin et al. | Design and test of an experimental platform for unmanned surface vessel | |
| Lin et al. | Cross-domain Monitoring of Underwater Targets Based on Q-learning for Heterogeneous Unmanned Vehicles | |
| Gok et al. | Reinforcement learning based local path planning for mobile robot |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200820 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200820 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201005 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210309 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6854549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |