TWI858385B

TWI858385B - 基於用戶學習環境的強化學習裝置及方法

Info

Publication number: TWI858385B
Application number: TW111132584A
Authority: TW
Inventors: 閔豫麟; 劉沇尚; 李聖民; 趙元英; 金巴達; 李東炫
Original assignee: 南韓商愛慈逸笑多股份有限公司
Priority date: 2021-09-17
Filing date: 2022-08-29
Publication date: 2024-10-11
Also published as: KR102365169B1; WO2023043019A1; US20230088699A1; TW202314562A

Abstract

本發明公開一種基於用戶學習環境的強化學習裝置及方法。本發明中，用戶可以通過用戶介面(UI)和拖放(Drag & Drop)容易地設定基於CAD數據的強化學習環境並迅速構成強化學習環境，並且基於用戶設定的學習環境執行強化學習，從而可以自動生成在各種環境下得到最優化的目標物體的位置。

Description

基於用戶學習環境的強化學習裝置及方法

本發明涉及一種基於用戶學習環境的強化學習裝置及方法，更詳細地，涉及一種通過用戶設定強化學習環境並利用模擬進行強化學習來生成目標物體的最佳位置的基於用戶學習環境的強化學習裝置及方法。

強化學習作為處理與環境(environment)相互作用並實現目標的智能體的學習方法，廣泛使用在人工智慧領域。

這種強化學習的目的在於，找出作為學習的行為主體的強化學習智能體(Agent)進行何種行動才能獲得更多的回報(Reward)。

即，在沒有規定的答案的狀態下也能夠學習作何種行為能使回報最大化的學習方法，在輸入和輸出具有明確的關係的情況下，經過進行反復試驗來學習使回報最大化的過程，而不是事先聽取要做的行為並執行。

此外，智能體隨著時間步進的流逝而依次地選擇行為，並基於所述行為對環境產生的影響而得到回報(reward)。

圖1繪示出根據現有技術的強化學習裝置的構成的框圖，如圖1所示，智能體10可以通過對強化學習模型的學習來學習確定行為(Action)(或行動)A的方法，作為各個行為的A可以影響下一狀態(state)S，並且成功的程度可以用回報(Reward)R來測量。

即，在通過強化學習模型進行學習的情況下，回報作為根據某一狀態(State)針對智能體10所確定的行為(行動)的回報分數，是針對根據學習的智能體10的決策的一種回饋。

環境20作為智能體10可採取的行動、根據該行動的回報等的所有規則，狀態、行為、回報等均為環境的構成要素，除了智能體10之外的所有已確定的構成要素均為環境。

另外，智能體10通過強化學習為使未來的回報最大化而採取行為，因此根據如何策劃確定回報會對學習結果產生很大的影響。

然而，這種強化學習在設計、製造過程中在各種條件下將目標物體佈置在任意的物體周邊的情況下，存在因用戶通過手工操作找出最佳的位置而進行設計的實際環境與虛擬環境之間的差異而使所學習的行為未被最優化的問題。

此外，存在用戶難以在強化學習開始之前自訂強化學習環境並基於與其相應的環境構成來執行強化學習的問題。

此外，製作很好地模仿實際環境的虛擬環境需要時間、人力等方面的很多成本，並且難以快速反映變化的實際環境。

此外，在通過虛擬環境學習的實際製造過程中，在多種條件下將目標物體佈置在任意的物體周邊的情況下，存在因實際環境與虛擬環境之間的差異而使所學習的行為未被最優化的問題。

因此，“很好地”創建虛擬環境極為重要，並且需要能夠快速地反映變化的實際環境的技術。

[現有技術文獻]

韓國公開專利公報第10-2021-0064445號(發明名稱：半導體工藝模擬系統及其模擬方法)中即有此種技術之描述。

為了解決這種問題，本發明的目的在於，提供一種基於用戶學習環境的強化學習裝置及方法，其通過用戶設定強化學習環境並利用模擬進行強化學習來生成目標物體的最佳位置。

為了實現上述的目的，本發明的一實施例作為基於用戶學習環境的強化學習裝置可以包括：模擬引擎，基於包括有整體物體訊息的設計數據來分析整體物體訊息中的單個物體和所述單個物體的位置訊息，並基於從用戶終端輸入的設定訊息來對所述分析的物體設定按物體而附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境，基於所述自訂的強化學習環境來執行強化學習，基於所述自訂的強化學習環境的狀態(State)訊息和使目標物體在至少一個單個物體周邊部的佈置被最優化而確定的行為(Action)來執行模擬，提供針對被模擬的目標物體的佈置的回報(Reward)訊息作為針對強化學習智能體的決策的回饋；以及強化學習智能體，基於從所述模擬引擎接收的狀態訊息和回報訊息執行強化學習，從而確定行為以最優化在所述物體周邊佈置部的目標物體的佈置。

此外，根據所述實施例的設計數據可以包括有CAD數據或網表(Netlist)數據的半導體設計數據。

此外，根據所述實施例的模擬引擎可以包括：環境設定部，通過從用戶終端輸入的設定訊息來設定按物體而附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境；強化學習環境構成部，基於包括所述整體物體訊息的設計數據，分析整體物體訊息中的單個物體和所述物體的位置訊息，按單個物體附加在環境設定部設定的顏色、限制(Constraint)、位置變更訊息而生成構成的自訂的強化學習環境的模擬數據，基於所述模擬數據，向所述強化學習智能體請求用於在至少一個單個物體周邊部佈置目標物體的最優化訊息；以及模擬部，基於從所述強化學習智能體接收的行為執行構成針對目標物體的佈置的強化學習環境的模擬，並向所述強化學習智能體提供包括有要用於強化學習的目標物體的佈置訊息的狀態訊息和回報訊息。

此外，根據所述實施例的回報訊息也可以基於物體與目標物體之間的距離或目標物體的位置來計算。

此外，本發明的一實施例作為基於用戶學習環境的強化學習方法，可以包括：步驟a，強化學習伺服器從用戶終端接收包括有整體物體訊息的設計數據；步驟b，所述強化學習伺服器分析整體物體訊息中的單個物體和所述單個物體的位置訊息，並通過從用戶終端輸入的設定訊息針對所述所分析的物體設定按物體附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境；以及步驟c，所述強化學習伺服器基於包括在通過強化學習智能體要用於強化學習的目標物體的佈置訊息的所述自訂的強化學習環境的狀態(State)訊息和回報(Reward)訊息執行強化學習，從而確定行為(Action)以最優化在所述至少一個單個物體周邊部佈置的目標物體的佈置；以及步驟d，所述強化學習伺服器基於行為來執行構成針對所述目標物體的佈置的強化學習環境的模擬，並且生成根據模擬執行結果的回報訊息作為針對強化學習智能體的決策的回饋。

此外，根據所述實施例的回報訊息可以基於物體與目標物體之間的距離或所述目標物體的位置來計算。

此外，根據所述實施例的設計數據可以是包括有CAD數據或網表(Netlist)數據的半導體設計數據。

本發明具有用戶可以通過用戶介面(UI)和拖放(Drag & Drop)容易地設定基於CAD數據的強化學習環境並迅速構成強化學習環境的優點。

此外，由於本發明基於用戶設定的學習環境執行強化學習，從而具有可以自動生成在各種環境下得到最優化的目標物體的位置的優點。

100:用戶終端

200:強化學習伺服器

210:模擬引擎

211:環境設定部

212:強化學習環境構成部

213:模擬部

220:強化學習智能體

300:設計數據圖像

310:物體

320:物體

400:學習環境設定畫面

410:設定物件圖像

411:設定物件物體

412:障礙物

420:強化學習環境設定圖像

421:顏色設定輸入部

422:障礙物設定輸入部

423:學習環境存儲部

500:模擬物件圖像

600:學習結果圖像

610:物體

620:目標物體

630:邊界

圖1繪示出一般強化學習裝置的構成的方塊圖。

圖2繪示出根據本發明的一實施例的基於用戶學習環境的強化學習裝置的方塊圖。

圖3繪示出根據圖2的實施例的基於用戶學習環境的強化學習裝置的強化學習伺服器的方塊圖。

圖4繪示出根據圖3的實施例的強化學習伺服器的構成的方塊圖。

圖5是為了說明根據本發明的一實施例的基於用戶學習環境的強化學習方法而繪示的流程圖。

圖6是為了說明根據本發明的一實施例的基於用戶學習環境的強化學習方法而繪示的設計數據的示意圖。

圖7是為了說明根據本發明的一實施例的基於用戶學習環境的強化學習方法而繪示的物體訊息數據的示意圖。

圖8是為了說明根據本發明的一實施例的基於用戶學習環境的強化學習方法的環境訊息設定過程而繪示的示意圖。

圖9是為了根據本發明的一實施例的基於用戶學習環境的強化學習方法的模擬數據的示意圖。

圖10是為了說明根據本發明的一實施例的基於用戶學習環境的強化學習方法的回報過程而繪示的示意圖。

以下，參照本發明的優選實施例及附圖詳細說明本發明，並且以附圖中的相同的附圖標記指代相同的構成要素為前提進行說明。

在說明用於實施本發明的具體內容之前，需要注意的是，在不混淆本發明的技術要旨的範圍內，省略了與本發明的技術要旨沒有直接關聯的結構。

此外，本說明書及權利要求範圍中所使用的術語或詞語應依據發明人為了以最佳的方法說明自己的發明而可以定義合適的術語的概念為原則，應被解釋為符合發明的技術思想的含義和概念。

在本說明書中，某一部分“包括”某一構成要素的表述並不表示排除其他構成要素的情況，而是表示還可以包括其他構成要素的情況。

此外，“...部”、“...器”、“...模組”等術語表示處理至少一個功能或行為的單位，其可以通過硬體或軟體、或者兩者的結合來區分。

此外，將顯而易見的是，術語“至少一個”被定義為包括單數及複數的術語，並且即使不存在術語“至少一個”，各個構成要素也可以以單數或複數的形式存在，並且可以表示單數或複數。

此外，各個構成要素以單數或複數配備是能夠根據實施例而進行變更的。

以下，將參照附圖詳細說明根據本發明的一實施例的基於用戶學習環境的強化學習裝置及方法的優選實施例。

圖2繪示出根據本發明的一實施例的基於用戶學習環境的強化學習裝置的框圖，圖3繪示出根據圖2的實施例的基於用戶學習環境的強化學習裝置的強化學習伺服器的框圖，圖4繪示出根據圖3的實施例的強化學習伺服器的構成的框圖。

參照圖2至圖4，根據本發明的一實施例的基於用戶學習環境的強化學習裝置可以包括：強化學習伺服器200，基於包括有整體物體訊息的設計數據來分析整體物體訊息中的單個物體和該物體的位置訊息，基於從用戶終端100輸入的設定訊息來對所分析的物體設定按物體而附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境。

此外，強化學習伺服器200可以包括模擬引擎210和強化學習智能體220，以基於自訂的強化學習環境來執行模擬，並且基於自訂的強化學習環境的狀態(State)訊息和使目標物體在至少一個單個物體周邊部的佈置被最優化而確定的行為(Action)並利用針對模擬的目標物體的佈置的回報(Reward)訊息來執行強化學習。

模擬引擎210從通過網路連接的用戶終端100接收包括有整體物體訊息的設計數據，並基於接收到的設計數據分析整體物體訊息中的單個物體和該物體的位置訊息。

在此，用戶終端100作為能夠通過網路瀏覽器訪問強化學習伺服器200並能夠將存儲在用戶終端100中的任意的設計數據上傳至強化學習伺服器200的終端，可以構成為桌上型電腦、筆記型電腦、平板型電腦、PDA或嵌入式終端。

此外，可以在用戶終端100設置應用程式，以能夠基於用戶輸入的設定訊息來自訂上傳至強化學習伺服器200的設計數據。

在此，設計數據作為包括整體物體(object)訊息的數據，為了調節進入強化學習狀態的圖像大小，可以包括邊界(boundary)訊息。

此外，由於設計數據接收各個物體的位置訊息而可能會需要設定單獨限制(Constraint)，從而可以包括單獨檔，優選地，可以由CAD檔構成，CAD檔的類型可以由FBX、OBJ等檔構成。

此外，為了能夠提供與實際環境相似的學習環境，設計數據可以是用戶所創建的CAD檔。

此外，設計數據也可以由利用def、lef、v等格式的半導體設計數據或包括網表(Netlist)數據的半導體設計數據構成。

此外，模擬引擎210可以與強化學習智能體220相互作用的同時實現供學習的虛擬環境而構成強化學習環境，並且為了能夠應用用於訓練強化學習智能體220的模型的強化學習演算法而包括機器學習(ML：Machine Learning)智能體(未圖示)。

其中，ML-智能體可以向強化學習智能體220傳遞訊息，還可以執行諸如用於強化學習智能體220的“Python”等程式之間的介面作用。

此外，模擬引擎210也可以構成為包括基於網路的圖形庫(未示出)，以能夠通過網路(Web)進行視覺化。

即，可以構成為利用Java Script程式設計語言，使得交互3D圖形能夠在相容的網路流覽器中使用。

此外，模擬引擎210可以通過從用戶終端100輸入的設定訊息針對所分析的物體設定按物體附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境。

並且，模擬引擎210可以包括環境設定部211、強化學習環境構成部212以及模擬部213，以能夠基於自訂的強化學習環境來執行模擬，並且可以提供所述自訂的強化學習環境的狀態(State)訊息和針對被模擬的目標物體的佈置的回報(Reward)訊息，被模擬的目標物體的佈置的回報(Reward)訊息基於為了最優化目標物體在至少一個單個物體周邊部的佈置而確定的行為(Action)。

環境設定部211可以利用從用戶終端100輸入的設定訊息來設定按照包括在設計數據中的物體附加有任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境。

即，針對包括在設計數據中的物體，例如，按模擬所需的物體、不必要的障礙物、需要佈置的目標物體等的特性或功能而進行區分，通過針對按區分的特性或功能而被區分的物體附加特定顏色並進行區分，從而能夠防止在強化學習時增加學習範圍。

此外，針對單個物體的限制(Constraint)而言，可以是在設計過程中對物體是否為目標物體、固定物體、障礙物等進行設定，或者在單個物體是固定物體的情況下，通過對佈置在周邊部的目標物體的最小距離、佈置在周邊部的目標物體的數量、佈置在周邊部的目標物體的類型(Type)等進行設定，從而在強化學習時能夠進行各種環境的設定。

此外，通過變更物體的位置來設定及提供各種環境條件，從而可以實現針對佈置在任意的物體周邊的目標物體的最佳的佈置。

強化學習環境構成部212可以基於包括有整體物體訊息的設計數據來分析整體物體訊息中的單個物體和該物體的位置訊息，並可以生成構成按單個物體附加有在環境設定部211中設定的顏色、限制(Constraint)、位置變更訊息而自訂的強化學習環境的模擬數據。

此外，強化學習環境構成部212可以基於模擬數據向所述強化學習智能體220請求用於在至少一個單個物體周邊部佈置目標物體的最優化訊息。

即，強化學習環境構成部212可以基於所生成的模擬數據向強化學習智能體220請求用於在至少一個單個物體周邊部佈置一個以上的目標物體的最優化訊息。

模擬部213可以基於從強化學習智能體220接收的行為來執行構成針對目標物體的佈置的強化學習環境的模擬，並且向所述強化學習智能體220提供包括要有用於強化學習的目標物體的佈置訊息的狀態訊息和回報訊息。

在此，回報訊息可以基於物體與目標物體之間的距離或目標物體的位置來計算，也可以基於根據目標物體的特性的回報(例如，目標物體以以任意的物體為中心而上下對稱、左右對稱、對角線對稱等的方式而佈置)來計算回報訊息。

強化學習智能體220作為基於從模擬引擎210接收的狀態訊息和回報訊息來執行強化學習而確定使佈置在物體周邊部的目標物體的佈置最優化的行為的構成，可以構成為包括強化學習演算法。

在此，強化學習演算法可以利用基於價值接近方式和基於策略接近方式中的一種來找到用於回報最大化的最佳的策略，其中，在基於價值接近方式中，最佳的策略是基於智能體的經驗從近似的最佳值函數中匯出的，基於策略接近方式是學習從價值函數近似中分離出的最佳的策略並使被訓練的政策向近似值函數方向改善。

此外，為能夠確定使目標物體以物體為中心而佈置的角度、與物體隔開的距離等佈置在最佳位置的行為，強化學習演算法使強化學習智能體220進行學習。

接著將說明根據本發明的一實施例的基於用戶學習環境的強化學習方法。

圖5是用於說明根據本發明的一實施例的基於用戶學習環境的強化學習方法而繪示的流程圖。

參照圖2至圖5，在根據本發明的一實施例的基於用戶學習環境的強化學習方法中，強化學習伺服器200的模擬引擎210接收從用戶終端100上傳的包括有整體物體訊息的設計數據，並為了基於包括有整體物體訊息的設計數據來分析整體物體訊息中的單個物體和該物體的位置訊息而對設計數據進行轉換(S100)。

即，在步驟S100中上傳的設計數據如圖6的設計數據圖像300，包括有整體物體(object)訊息的設計數據作為CAD檔，為了調節進入強化學習的狀態(State)的圖像大小而可以包括邊界(boundary)訊息。

此外，在步驟S100中上傳的設計數據如圖7所示地為了能夠基於單獨檔訊息而顯示根據物體的特性的單個物體310、320而進行轉換並提供。

接著，強化學習伺服器200的模擬引擎210按單個物體和各個物體分析位置訊息，基於從用戶終端100輸入的設定訊息對所分析的物體設定按物體附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境，並且執行基於包括要用於強化學習的目標物體的佈置訊息的自訂的強化學習環境的狀態(State)訊息和回報(Reward)訊息的強化學習(S200)。

即，如圖8所示，在步驟S200中，模擬引擎210可以通過學習環境設定畫面400，利用從用戶終端100輸入的設定訊息，將劃分在設定物件圖像410上的物體劃分為設定物件物體411、障礙物412等。

此外，模擬引擎210按各個物體通過強化學習環境設定圖像420的顏色設定輸入部421、障礙物設定輸入部422等進行設定，以使設定物件物體411和障礙物412具有特定顏色。

此外，模擬引擎210可以基於從用戶終端100提供的設定訊息，按各個物體可以進行如下的單獨限制(Constraint)設定：與佈置在對應物體的周邊部的目標物體之間的最小距離、佈置在物體周邊部的目標物體的數量、佈置在物體周邊部的目標物體的類型(Type)、具有相同特性的物體之間的組設定訊息、任意的障礙物和目標物體不重疊等。

此外，模擬引擎210通過從用戶終端100提供的位置變更訊息來變更設定物件物體410及障礙物412的位置並進行佈置，從而可以設定位置訊息被變更的各種自訂的強化學習環境。

此外，如果從學習環境存儲部423接收到輸入，則模擬引擎210基於自訂的強化學習環境生成模擬數據(如圖9的模擬物件圖像500所示)。

此外，在步驟S200中，模擬數據也可以轉換為可延伸標記語言(XML：eXtensible Markup Language)檔，以便能夠通過網路(Web)進行視覺化並使用。

此外，如果強化學習伺服器200的強化學習智能體220從模擬引擎210接收到基於模擬數據的單個物體和在對應物體的周邊部佈置目標物體的最優化請求，則可以執行基於包括從模擬引擎210收集的要用於強化學習的目標物體的佈置訊息的自訂的強化學習環境的狀態(State)訊息和回報訊息的強化學習。

接著，強化學習智能體220基於模擬數據來確定行為(Action)，以使目標物體在至少一個單個物體和對應物體的周邊部的佈置被最優化(S300)。

即，強化學習智能體220利用強化學習演算法以任意的物體為中心佈置目標物體，此時，進行學習以確定佈置在最佳的位置的行為(目標物體與物體之間形成的角度、與對應物體隔開的距離、與對應物體的對稱方向等)。

另外，模擬引擎210基於從強化學習智能體220提供的行為來執行針對目標物體的佈置的模擬，並且基於模擬的執行過程，模擬引擎210基於物體與目標物體之間的距離或所述目標物體的位置來生成回報訊息(S400)。

此外，在步驟S400中，回報訊息，例如，在物體與目標物體之間的距離需要接近的情況下，以負的回報的方式提供距離訊息本身，以使物體與目標物體之間的距離最大限度地接近於“0”。

例如，如圖10所示，在學習結果圖像600中，物體610與目標物體620之間的距離在需要位於所設定的邊界630處的情況下，將(-)回報值生成為回報訊息並提供至強化學習智能體220，從而使其能夠在確定下一個行為時被反應。

此外，回報訊息也可以考慮目標物體620的厚度來確定距離。

因此，可以提供由用戶設定學習環境並通過利用模擬的強化學習來生成目標物體的最佳位置。

此外，通過基於用戶設定的學習環境執行強化學習，從而可以自動生成在各種環境中被最優化的目標物體的位置。

如上所述，雖然參照本發明的最佳實施例進行了說明，但只要是本發明所屬技術領域的熟練的技術人員就能夠理解為，在不脫離權利要求範圍中記載的本發明的思想及領域的範圍內，可以將本發明進行各種修改及變更。

並且，在本發明的權利要求範圍中記載的附圖標記僅用於說明的明確性和便利進行的記載而並非限定於此，在說明實施例的過程中，為了說明的明確性和便利而可能誇張地圖示了附圖中圖示的線的厚度或構成要素的大小等。

並且，上述的術語作為考慮到本發明中的功能而定義的術語，其可以根據用戶、運用者的意圖或慣例而不同，因此針對這些術語的解釋應基於本說明書整體內容而做出。

並且，雖然未明確圖示或說明，但本發明所屬技術領域的具有一般知識的人員顯然可以從本發明的記載事項進行包括在本發明的技術思想的各種形態的變形，且這仍然屬於本發明的權利範圍內。

並且，參照附圖說明的上述的實施例旨在用於說明本發明而記述的，本發明的權利範圍並不局限於這種實施例。

100:用戶終端

200:強化學習伺服器

Claims

一種基於用戶學習環境的強化學習裝置，該強化學習裝置包括一強化學習伺服器，該強化學習伺服器係包括：模擬引擎(210)，設置在該強化學習伺服器中，並執行於該強化學習伺服器中，該模擬引擎基於包括有整體物體訊息的設計數據來分析該整體物體訊息中的單個物體和該單個物體的位置訊息，並基於從用戶終端(100)輸入的設定訊息來對該所分析的物體設定按物體而附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境，基於該自訂的強化學習環境來執行強化學習，基於該自訂的強化學習環境的狀態(State)訊息和使目標物體在至少一個單個物體周邊部的佈置被調整而得到一優化結果的行為(Action)來執行模擬，提供針對被模擬的目標物體的佈置的回報(Reward)訊息作為針對強化學習智能體(220)的決策的回饋，其中，該優化結果至少包括該目標物體與所述至少一個物體之間形成的角度、該目標物體與所述至少一個物體隔開的一距離、或是該目標物體與所述至少一個物體的一對稱方向；以及強化學習智能體(220)，設置在該強化學習伺服器中，並執行於該強化學習伺服器中，該強化學習智能體基於從該模擬引擎(210)接收的狀態訊息和回報訊息執行強化學習，從而確定行為以該優化結果在該物體周邊部佈置的目標物體的佈置。
如請求項1所述的基於用戶學習環境的強化學習裝置，其中該設計數據是包括有CAD數據或網表(Netlist)數據的半導體設計數據。
如請求項1所述的基於用戶學習環境的強化學習裝置，其中該模擬引擎(210)包括：環境設定部(211)，通過從用戶終端(100)輸入的設定訊息來設定按物體而附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境；強化學習環境構成部(212)，基於包括該整體物體訊息的設計數據，分析整體物體訊息中的單個物體和該物體的位置訊息，按單個物體附加在環境設定部(211)設定的顏色、限制(Constraint)、位置變更訊息而生成構成的自訂的強化學習環境的模擬數據，基於該模擬數據，向該強化學習智能體(220)請求用於在至少一個單個物體周邊部佈置目標物體的該優化結果；以及模擬部(213)，基於從該強化學習智能體(220)接收的行為執行構成針對目標物體的佈置的強化學習環境的模擬，並向該強化學習智能體(220)提供包括有要用於強化學習的目標物體的佈置訊息的狀態訊息和回報訊息。
如請求項3所述的基於用戶學習環境的強化學習裝置的強化學習裝置，其中該回報訊息基於物體與目標物體之間的距離或目標物體的位置來計算。
一種基於用戶學習環境的強化學習方法，係包括：步驟a，強化學習伺服器(200)從用戶終端(100)接收包括有整體物體訊息的設計數據；步驟b，該強化學習伺服器(200)分析該整體物體訊息中的單個物體和該單個物體的位置訊息，並通過從用戶終端(100)輸入的設定訊息針對該所分析的物體設定按物體附加任意的顏色、限制(Constraint)、位置變更訊息的自訂的強化學習環境；以及步驟c，該強化學習伺服器(200)基於包括在通過強化學習智能體(220)要用於強化學習的目標物體的佈置訊息的該自訂的強化學習環境的狀態(State)訊息和回報(Reward)訊息執行強化學習，從而確定行為(Action)以調整在該至少一個單個物體周邊部佈置的目標物體的佈置，得到一優化結果；以及步驟d，該強化學習伺服器(200)基於行為來執行構成針對該目標物體的佈置的強化學習環境的模擬，並且生成根據模擬執行結果的回報訊息作為針對強化學習智能體的決策的回饋，其中，該步驟d的回報訊息基於物體與目標物體之間的距離或該目標物體的位置來計算，該優化結果至少包括該目標物體與所述至少一個物體之間形成的角度、該目標物體與所述至少一個物體隔開的一距離、或是該目標物體與所述至少一個物體的一對稱方向。
如請求項5所述的基於用戶學習環境的強化學習方法，其中該步驟a的設計數據是包括有CAD數據或網表(Netlist)數據的半導體設計數據。