CN106296006A - 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法 - Google Patents
非完备信息博弈中风险与收益均衡的最少遗憾的评估方法 Download PDFInfo
- Publication number
- CN106296006A CN106296006A CN201610658485.2A CN201610658485A CN106296006A CN 106296006 A CN106296006 A CN 106296006A CN 201610658485 A CN201610658485 A CN 201610658485A CN 106296006 A CN106296006 A CN 106296006A
- Authority
- CN
- China
- Prior art keywords
- strategy
- sigma
- risk
- regret
- game
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,包括如下步骤:步骤1:针对每个信息集,初始化其策略、估值和每个动作的遗憾值;步骤2:使用当前的策略进行博弈,直至完成本次博弈;步骤3:在本次博弈所访问到的每个信息集上计算估值及每个动作的遗憾值;步骤4:根据遗憾匹配算法计算出新的策略;步骤5:计算新策略的风险值并综合考虑收益与风险的关系,挑选下一轮博弈中要使用的策略;步骤6:返回步骤2,直至博弈过程终止。本发明设计了一种利用经济学中风险的概念,并研究风险模型的原理,结合最少遗憾算法,应用在非完备信息机器博弈中。在利用最少遗憾算法收益占优策略的同时,兼顾策略的风险,达到更为合理的纳什均衡。
Description
技术领域
本发明涉及人工智能领域,尤其涉及非完备信息博弈中风险与收益均衡的最少遗憾的评估方法。
背景技术
人工智能是计算机领域的一个重要分支,它的中心任务是研究如何使计算机去做原本只能靠人的智力才能完成的工作。机器博弈作为人工智能的一个重要研究领域,是检验人工智能发展水平的一个重要手段。在机器博弈的研究中,非完备信息机器博弈是该领域研究的难点和重点之一。非完备信息博弈中的博弈方由于无法获得所有的信息,因而无法准确预知对手会采取哪些对策。这和社会中商业竞争、军事战争等的情形十分类似,它的研究对于建立现实社会的决策支持系统有很强的参考价值。
发明内容
为了解决现有技术中问题,本发明提供了非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,包括如下步骤:
步骤1:针对每个信息集,初始化其策略、估值和每个动作的遗憾值;
步骤2:使用当前的策略进行博弈,直至完成本次博弈;
步骤3:在本次博弈所访问到的每个信息集上计算估值及每个动作的遗憾值;
步骤4:根据遗憾匹配算法计算出新的策略;
步骤5:计算新策略的风险值并综合考虑收益与风险的关系,挑选下一轮博弈中要使用的策略;
步骤6:返回步骤2,直至博弈过程终止。
本发明的有益效果是:
本发明设计了一种利用经济学中风险的概念,并研究风险模型的原理,结合最少遗憾算法,应用在非完备信息机器博弈中。在利用最少遗憾算法收益占优策略的同时,兼顾策略的风险,达到更为合理的纳什均衡。
附图说明
图1是本发明流程图;
图2是非完备信息博弈过程;
图3是风险模型中I、II型风险损失示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
首先介绍非完备信息博弈的模型及风险模型的基本概念。
非完备信息扩展式博弈是一个六元组<H,H,P,fc,{Li}i=1,2,...,N,{ui}i=1,2,...,N>其中N是代表玩家的有限集;H是有限动作序列的集合,空序列及每个动作序列的前缀也是H中的元素。终止序列Z是H中不是任何序列前缀的序列。对于非终止序列h∈H,A(h)={a:ha∈H}表示在动作序列h之后可以执行的动作的集合。函数P为非终止序列分配一个玩家,其中c代表随机事件。P(h)代表在序列h后轮到哪个玩家做动作。若P(h)=c,则随机事件在决定序列h之后的动作。对于玩家i∈N,表示其信息分割;信息分割的元素称为信息集,每个信息集是H的子集,代表若干无法明确区分的动作序列。函数fc为P(I)=c的信息集提供A(h)中每一个动作a发生的概率,表示为fc(a|I);对于玩家i∈N,ui:Z→R是其效用函数,在每个终止序列上获得返回值。
玩家i的策略σi是对每一个信息集Ii∈Li,σi(Ii):A(Ii)→[0,1]是在动作集A(Ii)的概率分布函数。玩家i的策略空间用∑i表示。一个策略组包含所有玩家的策略,用σ=(σ1,σ2,...,σN)表示。用σ-i表示除去玩家i,剩余的所有玩家策略组成的策略组。
给定策略组σ(当所有玩家根据策略σ选择动作),定义动作序列h发生的概率为πσ(h)。显然πσ(h)可以分解为每一个玩家对动作序列h的发生所贡献的乘积,即同理,可定义对于两个不同的动作序列h和h',令πσ(h,h')为在策略组σ下,从h到h'的转移概率,若h是h'的前缀,则πσ(h,h')=πσ(h)/πσ(h')否则,πσ(h,h')=0。类似的,可以定义和
图2中的集合W代表了非完备信息博弈环境I的所有可能的情况的集合,W中的每个元素wi都代表了I的一个可能的完备信息状态,I的真实状态是W中的某一个wi。这里引入世界的概念:一个世界是非完备信息博弈的一个可能状态。W是当前博弈状态的世界集,S是W的抽样集,完备信息蒙特卡洛抽样方法的基本过程是,采用随机方法抽样出W的子集S,对其中的每个完备信息世界si进行计算,统计分析每个si的最优解mi,最后在M中选择最终的最优策略序列。
将机器博弈问题策略选择算法中的不确定性归结为以下两类风险损失。
I型风险损失及其计算方法:
由估值函数的对世界估值的不准确性造成的风险损失称为I型风险损失。假设世界w的最优策略序列为m,则此时m的I型风险损失计算方法如下:
在上式中,代表了估值函数对世界w下采取策略序列m的收益估值,代表真实世界采取策略序列m时的收益估值。
II型风险损失及计算方法:
由于对手最优策略判断的不准确性造成的风险损失称为II型风险损失,策略序列m的II型风险损失计算方法如下:
是估值函数对真实世界I采取策略序列m的收益估值。真实世界I下博弈双方的实际策略序列m’的收益估值。
图3展示了I、II型风险损失的区别,估值函数对世界w和真实世界I经过策略序列m的预期收益的估值差为I型风险损失,图中为LwI,真实世界I中,策略序列m和实际策略序列m’的预期收益差为II型风险损失,图中为LmII。由此,定义世界w下采用策略序列m的风险损失为
Lwm=LwI+LmII (3)。
本发明设计了一种利用经济学中风险的概念,并研究风险模型的原理,结合最少遗憾算法,应用在非完备信息机器博弈中。在利用最少遗憾算法收益占优策略的同时,兼顾策略的风险,达到更为合理的纳什均衡。
下面结合图1就发明的各个步骤做详细阐述。基本步骤为:
步骤1:进行初始化。对于玩家i∈N,对其每个信息集I∈Li上策略的估值v(I,σ)=0对每一个a∈A(I),r(I,a)=0,其策略初始化为δi(I,a)=1/|A(I)|
步骤2:博弈方按照自己的策略轮流进行动作,直到本次博弈结束,并记录各博弈方结果。
步骤3:在本次博弈所访问到的每个信息集上计算估值及每个动作的遗憾值;
信息集I处的价值:
在信息集I,不采取动作a的遗憾值:
步骤4:由上一步求出的在每个访问到的信息集上的估值根据后悔匹配算法,重新为每个信息集上的各个动作分配比重,得到新的策略。这样计算相比于直接采取后悔程度最大的动作,好处在于避免对手同样进行后悔值的计算,感知己方的策略。由此得到以收益优先的策略。
对于信息集I,通过遗憾匹配得到下一步的一个收益优先的策略:
步骤5:计算新策略的风险值并综合考虑收益与风险的关系,挑选下一轮博弈中要使用的策略。
下面考虑风险因素对博弈结果的影响:
针对非完备信息机器博弈的特点,提出一个近似化计算风险损失的方法,其基本思想是计算抽样集S中的预计收益的均值,来代替世界集W中I的真实收益。
假设博弈者对当前状态的世界集为W,元素数为n,W的抽样集为S,元素数为t,M为W的所有合法策略序列集合,元素数为k。首先给出此时的平均收益计算方法:
定义:为抽样集S的平均收益。计算方法如下:
基于(7)式,对于策略序列δ的综合风险损失近似化计算方法公式如下:
(8)式中,约等号所连接处即为使用以及抽样集S进行近似计算的过程。
基于以上方法,能够计算出新策略的风险值。
接下来是如何综合考虑收益和风险之间的关系。
假设有策略A,B。EA和EB分别代表博弈者对于策略A、B的预期收益。LA和LB代表策略A和B的风险损失。则策略A、B的优劣判断规则如下:
1:若策略A、B满足uA-LA>uB,则A优于B,反之,若满足uB-LB>uA,则B优于A。
2:否则,由下式:
如果R>0,则A优于B,若R<0,则B优于A,若R=0,则AB等优,系统可做随机选择。
由以上方法,可对当前博弈者的新旧策略进行排序,排序最优的策略作为当前的风险与收益均衡的策略,也即是博弈者的最优策略。
步骤6:判断整个博弈过程是否终止,若未终止,返回步骤2继续执行。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (5)
1.非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,其特征在于:
包括如下步骤:
步骤1:针对每个信息集,初始化其策略、估值和每个动作的遗憾值;
步骤2:使用当前的策略进行博弈,直至完成本次博弈;
步骤3:在本次博弈所访问到的每个信息集上计算估值及每个动作的遗憾值;
步骤4:根据遗憾匹配算法计算出新的策略;
步骤5:计算新策略的风险值并综合考虑收益与风险的关系,挑选下一轮博弈中要使用的策略;
步骤6:返回步骤2,直至博弈过程终止。
2.根据权利要求1所述的非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,其特征在于:步骤1中,初始化过程如下:对于玩家i∈N,对其每个信息集I∈Li上策略的估值v(I,σ)=0,对每一个a∈A(I),动作a在信息集I上的遗憾值r(I,a)=0,其策略初始化为δi(I,a)=1/|A(I)|,表示起始时每个动作的概率相等,相加为1,其中:N是代表玩家的有限集,Li表示玩家i的信息分割,I为信息集,σ为策略组,a为动作。
3.根据权利要求2所述的非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,其特征在于:步骤3中,信息集I处的价值:
在信息集I,不采取动作a的遗憾值:
其中,z表示终止序列集合中的一个、u(z)表示到达博弈终止状态后的实际效用值,z[I]表示终止序列z在信息集I上的显示部分,表示玩家i所有的对手到达z[I]的概率,πσ(z[I],z)为所有玩家从历史序列z[I]到z的转移概率,表示一个与σt等价的策略组,除了在信息集I中,策略组总会选择动作a公式(5)计算在T轮迭代中玩家i采取动作a的平均遗憾值。
4.根据权利要求3所述的非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,其特征在于:步骤4中,由上一步求出的在每个访问到的信息集上的估值根据后悔匹配算法,重新为每个信息集上的各个动作分配比重,得到新的策略,由此得到以收益优先的策略,对于信息集I,通过遗憾匹配得到下一步的一个收益优先的策略:
其中,公式含义为:当累加的遗憾值为正时,比上总遗憾值进行归一化,成比例的更新策略,否则下一轮的迭代策略即为初始的均一化策略,其中R表示累加T轮的遗憾值,a代表动作,I代表信息集,即为下一轮(第T+1轮)在信息集I,玩家i采用动作a的概率。
5.根据权利要求4所述的非完备信息博弈中风险与收益均衡的最少遗憾的评估方法,其特征在于:步骤5中,针对非完备信息机器博弈的特点,提出一个近似化计算风险损失的方法,其基本思想是计算抽样集S中的预计收益的均值,来代替世界集W中I的真实收益;
假设博弈者对当前状态的世界集为W,元素数为n,W的抽样集为S,元素数为t,M为W的所有合法策略序列集合,元素数为k,首先给出此时的平均收益计算方法:
定义:为抽样集S的平均收益,计算方法如下:
基于(7)式,对于策略序列δ的综合风险损失近似化计算方法公式如下:
(8)式中,约等号所连接处即为使用以及抽样集S进行近似计算的过程,基于以上方法,计算出新策略的风险值;
接下来是如何综合考虑收益和风险之间的关系,
假设有策略A,B,EA和EB分别代表博弈者对于策略A、B的预期收益,LA和LB代表策略A和B的风险损失,则策略A、B的优劣判断规则如下:
1:若策略A、B满足uA-LA>uB,则A优于B,反之,若满足uB-LB>uA,则B优于A;
2:否则,由下式:
如果R>0,则A优于B,若R<0,则B优于A,若R=0,则AB等优,系统可做随机选择;
由以上方法,对当前博弈者的新旧策略进行排序,排序最优的策略作为当前的风险占优策略,也即是博弈者的最优策略,其中,R代表风险,LA和LB代表策略A和B的风险损失,uA和uB代表策略A和B的实际效益值。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610658485.2A CN106296006A (zh) | 2016-08-10 | 2016-08-10 | 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610658485.2A CN106296006A (zh) | 2016-08-10 | 2016-08-10 | 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN106296006A true CN106296006A (zh) | 2017-01-04 |
Family
ID=57668611
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201610658485.2A Pending CN106296006A (zh) | 2016-08-10 | 2016-08-10 | 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106296006A (zh) |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109829566A (zh) * | 2018-12-26 | 2019-05-31 | 中国人民解放军国防科技大学 | 一种生成作战行动序列的方法 |
| CN110404264A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 |
| CN110404265A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质 |
| CN110599051A (zh) * | 2019-09-19 | 2019-12-20 | 桂林电子科技大学 | 一种两个Agent的子博弈完美纳什均衡拿取方法 |
| CN110772798A (zh) * | 2019-10-23 | 2020-02-11 | 桂林电子科技大学 | 一种基于fip结构寻找纳什均衡序列的方法 |
| KR102133143B1 (ko) * | 2019-01-17 | 2020-07-13 | 알리바바 그룹 홀딩 리미티드 | 당사자 간의 전략적 상호 작용에서의 전략 검색 |
| CN111905373A (zh) * | 2020-07-23 | 2020-11-10 | 深圳艾文哲思科技有限公司 | 一种基于博弈论和纳什均衡的人工智能决策方法及系统 |
| WO2020227954A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of an execution device |
| WO2020227958A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of execution device |
| WO2020227960A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of an execution device |
| CN112041875A (zh) * | 2019-12-12 | 2020-12-04 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
| CN112041811A (zh) * | 2019-12-12 | 2020-12-04 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
| CN112149824A (zh) * | 2020-09-15 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 利用博弈论更新推荐模型的方法及装置 |
| CN112639841A (zh) * | 2019-01-17 | 2021-04-09 | 创新先进技术有限公司 | 用于在多方策略互动中进行策略搜索的采样方案 |
| US11144841B2 (en) | 2019-12-12 | 2021-10-12 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| US11157316B1 (en) | 2020-04-02 | 2021-10-26 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| US11204803B2 (en) | 2020-04-02 | 2021-12-21 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| CN114580642A (zh) * | 2022-03-17 | 2022-06-03 | 中国科学院自动化研究所 | 构建博弈ai模型和数据处理的方法、装置、设备及介质 |
| CN117670094A (zh) * | 2023-12-14 | 2024-03-08 | 中国人民解放军国防科技大学 | 一种基于红蓝博弈对抗的电磁行动策略生成方法和系统 |
| CN118644111A (zh) * | 2024-08-15 | 2024-09-13 | 中国电子科技集团公司第十五研究所 | 基于博弈论的方案评估系统及方法 |
-
2016
- 2016-08-10 CN CN201610658485.2A patent/CN106296006A/zh active Pending
Cited By (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109829566A (zh) * | 2018-12-26 | 2019-05-31 | 中国人民解放军国防科技大学 | 一种生成作战行动序列的方法 |
| CN112292701A (zh) * | 2019-01-17 | 2021-01-29 | 创新先进技术有限公司 | 在多方策略互动中进行策略搜索 |
| CN112639841B (zh) * | 2019-01-17 | 2024-02-06 | 创新先进技术有限公司 | 用于在多方策略互动中进行策略搜索的采样方案 |
| CN112639841A (zh) * | 2019-01-17 | 2021-04-09 | 创新先进技术有限公司 | 用于在多方策略互动中进行策略搜索的采样方案 |
| RU2743626C1 (ru) * | 2019-01-17 | 2021-02-20 | Эдванст Нью Текнолоджиз Ко., Лтд. | Поиск стратегии в стратегическом взаимодействии между сторонами |
| KR102133143B1 (ko) * | 2019-01-17 | 2020-07-13 | 알리바바 그룹 홀딩 리미티드 | 당사자 간의 전략적 상호 작용에서의 전략 검색 |
| WO2020147075A1 (en) * | 2019-01-17 | 2020-07-23 | Alibaba Group Holding Limited | Strategy searching in strategic interaction between parties |
| CN112292696A (zh) * | 2019-05-15 | 2021-01-29 | 创新先进技术有限公司 | 确定执行设备的动作选择方针 |
| WO2020227958A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of execution device |
| WO2020227960A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of an execution device |
| CN112292698A (zh) * | 2019-05-15 | 2021-01-29 | 创新先进技术有限公司 | 确定执行设备的动作选择方针 |
| WO2020227954A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of an execution device |
| CN112292699A (zh) * | 2019-05-15 | 2021-01-29 | 创新先进技术有限公司 | 确定执行设备的动作选择方针 |
| CN110404265A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质 |
| CN110404264A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 |
| CN110404264B (zh) * | 2019-07-25 | 2022-11-01 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 |
| CN110404265B (zh) * | 2019-07-25 | 2022-11-01 | 哈尔滨工业大学(深圳) | 一种基于博弈残局在线解算的多人非完备信息机器博弈方法、装置、系统及存储介质 |
| CN110599051A (zh) * | 2019-09-19 | 2019-12-20 | 桂林电子科技大学 | 一种两个Agent的子博弈完美纳什均衡拿取方法 |
| CN110772798A (zh) * | 2019-10-23 | 2020-02-11 | 桂林电子科技大学 | 一种基于fip结构寻找纳什均衡序列的方法 |
| US11077368B2 (en) | 2019-12-12 | 2021-08-03 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| CN112041811B (zh) * | 2019-12-12 | 2022-09-16 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
| US11113619B2 (en) | 2019-12-12 | 2021-09-07 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| US11144841B2 (en) | 2019-12-12 | 2021-10-12 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| CN112041875A (zh) * | 2019-12-12 | 2020-12-04 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
| CN112041811A (zh) * | 2019-12-12 | 2020-12-04 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
| CN112041875B (zh) * | 2019-12-12 | 2022-04-22 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
| US11157316B1 (en) | 2020-04-02 | 2021-10-26 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| US11204803B2 (en) | 2020-04-02 | 2021-12-21 | Alipay (Hangzhou) Information Technology Co., Ltd. | Determining action selection policies of an execution device |
| CN111905373A (zh) * | 2020-07-23 | 2020-11-10 | 深圳艾文哲思科技有限公司 | 一种基于博弈论和纳什均衡的人工智能决策方法及系统 |
| CN112149824A (zh) * | 2020-09-15 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 利用博弈论更新推荐模型的方法及装置 |
| CN114580642A (zh) * | 2022-03-17 | 2022-06-03 | 中国科学院自动化研究所 | 构建博弈ai模型和数据处理的方法、装置、设备及介质 |
| CN117670094A (zh) * | 2023-12-14 | 2024-03-08 | 中国人民解放军国防科技大学 | 一种基于红蓝博弈对抗的电磁行动策略生成方法和系统 |
| CN118644111A (zh) * | 2024-08-15 | 2024-09-13 | 中国电子科技集团公司第十五研究所 | 基于博弈论的方案评估系统及方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106296006A (zh) | 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法 | |
| Prasetio | Predicting football match results with logistic regression | |
| Miljković et al. | The use of data mining for basketball matches outcomes prediction | |
| Bhatt et al. | Exploring the hearthstone deck space | |
| CN112926744A (zh) | 基于强化学习的非完全信息博弈方法、系统以及电子设备 | |
| CN106339582A (zh) | 一种基于机器博弈技术的棋牌类游戏自动化残局生成方法 | |
| Karlis et al. | On modelling soccer data | |
| CN111905373A (zh) | 一种基于博弈论和纳什均衡的人工智能决策方法及系统 | |
| Suznjevic et al. | Application context based algorithm for player skill evaluation in MOBA games | |
| EP2025373B1 (en) | Balancing tool | |
| Singla et al. | Integer optimisation for dream 11 cricket team selection | |
| CN118846531A (zh) | 一种目标对象的确定方法、装置、设备及存储介质 | |
| JP2024138321A (ja) | ゲームの評価方法、装置及びプログラム | |
| An et al. | Research on the Application of Apriori Algorithm in the Teaching of Ball Sports Techniques and Tactics | |
| Chaslot et al. | Meta monte-carlo tree search for automatic opening book generation | |
| JP7519199B2 (ja) | 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム | |
| CN114781574A (zh) | 二人零和的非完全信息博弈策略评估方法 | |
| O’Donoghue | Rare events in tennis | |
| Everson et al. | Composite Poisson models for goal scoring | |
| Ravi et al. | Using Game Theory to maximize the chance of victory in two-player sports | |
| Wise | Elo ratings for large tournaments of software agents in asymmetric games | |
| Rashad | A rough-Neuro model for classifying opponent behavior in real time strategy games | |
| JP7519704B2 (ja) | ゲームの評価方法、装置及びプログラム | |
| Agrawal et al. | Targeted upskilling framework based on player mistake context in online skill gaming platforms | |
| O’Shaughnessy | On the value of AFL player draft picks |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |
|
| RJ01 | Rejection of invention patent application after publication |