CN108108822B - 并行训练的异策略深度强化学习方法 - Google Patents
并行训练的异策略深度强化学习方法 Download PDFInfo
- Publication number
- CN108108822B CN108108822B CN201810040895.XA CN201810040895A CN108108822B CN 108108822 B CN108108822 B CN 108108822B CN 201810040895 A CN201810040895 A CN 201810040895A CN 108108822 B CN108108822 B CN 108108822B
- Authority
- CN
- China
- Prior art keywords
- experience information
- experience
- storage unit
- environment
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种并行训练的异策略深度强化学习方法,包括:创建一个环境进程池,需要深度强化学习的智能主体作为主进程选择两个以上的环境进程同时开始交互;在交互过程中,环境进程将每一步交互中所产生的经验信息存储在当前环境进程所对应的经验信息缓存单元中,每当该环境进程中的经验信息缓存单元增加n条单步交互信息时,主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新;在一个回合结束时,环境进程依基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并选择存储到对应的经验存储单元或直接删除。该方法可以提高强化学习算法的样本效率,缩短训练用时,进而提高其学习的效率和稳定性。
Description
技术领域
本发明涉及人工智能、机器学习技术领域,尤其涉及一种并行训练的异策略深度强化学习方法。
背景技术
强化学习作为一种重要的机器学习方法,在智能控制机器人、人机博弈、临床医学及分析预测等领域有着诸多应用。强化学习独立于传统机器学习中监督学习和非监督学习之外,从智能主体和环境之间的交互中获得经验,从而完成智能主体从环境到行为映射的策略学习。在强化学习中,智能主体接收来自于环境的状态信息并基于学习的策略产生一个动作作用于环境,环境接受该动作后状态发生变化,同时产生一个回报值(奖励或惩罚),并将变化后的当前状态和该奖惩信号发送给智能主体,智能主体再根据接收到的信息更新策略并根据策略选择下一个决策结果(即动作)。强化学习系统的学习目标在于与环境的交互过程中,动态地调整智能主体自身的参数从而更新待学习的策略,使得环境反馈的正信号最大。
深度强化学习是在强化学习的基础上,用深度学习模型构建强化学习中的智能主体的一种新型强化学习方式。在深度强化学习中,智能主体需要更多的训练样本,因此就要求智能主体和环境之间产生大量的交互行为来产生训练数据。然而,实际科学研究和工业生产中的环境和反馈信号(回报值)的设计均十分复杂,根据智能主体所发送的动作信号计算环境变化后状态值及回报值运算量大,耗时长,对智能主体学习的训练方式和样本效率都提出了极高的要求。
鉴于此,有必要进行深入研究,提高深度强化学习中智能主体的样本效率,缩短对于智能主体训练的用时,从而提高强化学习中智能主体的学习能力,使其在应用场景中更快、更好地发挥实用价值。
发明内容
本发明的目的是提供一种并行训练的异策略深度强化学习方法,可以提高强化学习算法的样本效率,缩短训练用时,进而提高其学习的效率和稳定性。
本发明的目的是通过以下技术方案实现的:
一种并行训练的异策略深度强化学习方法,包括:
创建一个环境进程池,所述环境进程池中包含多个同种类型的环境进程;
需要深度强化学习的智能主体作为主进程向环境进程池发送交互请求,根据各环境进程返回的信息选择两个以上的环境进程同时开始交互;
在主进程和当前环境进程交互的过程中,环境进程将每一步交互中所产生的经验信息存储在当前环境进程所对应的经验信息缓存单元中,每当该环境进程中的经验信息缓存单元增加n条单步交互信息时,主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新;
在主进程和当前环境进程交互中的一个回合结束时,环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元或直接删除。
由上述本发明提供的技术方案可以看出,经验样本筛选及存储算法和经验样本采样算法为在异步并行训练框架的基础之上采用的优化算法,可以根据具体的应用需求和应用场景进行取舍和调整,从而提高该类异策略强化学习算法的样本效率,缩短训练用时,进而提高其学习的效率和稳定性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的传统异策略深度强化学习方法的流程图;
图2为本发明实施例提供的并行训练的异策略深度强化学习方法的流程图;
图3为本发明实施例提供的神经网络结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种并行训练的异策略深度强化学习方法,针对异策略深度强化学习算法,利用多进程实现一个智能主体与多个环境同时进行交互,并将与多个环境进行交互所产生的经验对智能主体进行异步训练,主要过程如下:
1、创建一个环境进程池,所述环境进程池中包含多个同种类型的环境进程。
本发明实施例中,各个环境进程之间可以采用相同或者不同的参数设置。
2、需要深度强化学习的智能主体作为主进程向环境进程池发送交互请求,根据各环境进程返回的信息选择两个以上的环境进程同时开始交互。
在本步骤中,智能主体作为主进程向环境进程池发送交互请求,如果进程池中存在未处于交互状态的环境进程,则向主进程返回相应环境进程的标识,主进程将对应环境进程的环境标识从“空闲”状态设置成“被占用”状态,并与对应环境进程进行交互;如果进程池中不存在未处于交互状态的环境进程,则将处于“被占用”状态的环境标识作为等待信号返回给主进程,主进程根据得到的等待信号,选择等待或是继续向环境进程池发送交互请求。
3、在主进程和当前环境进程交互的过程中,环境进程将每一步交互中所产生的经验信息存储在当前环境进程所对应的经验信息缓存单元中,每当该环境进程中的经验信息缓存单元增加n条单步交互信息时,主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新。
本发明实施例中,所述的经验信息主要包括:状态值、动作值、回报值、交互终止标识和累计回报值(可选)。
4、在主进程和当前环境进程交互中的一个回合结束时,环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元或直接删除。
本发明实施例中,在主进程和当前环境进程交互中的一个回合结束时,主进程释放当前环境进程,将相关环境进程重置为“空闲”状态;被重置的环境进程对环境进行重置并等待下一次交互的发起。
本发明实施例中,经验存储单元主要包括普通经验信息存储单元和高回报经验信息存储单元。所述普通经验信息存储单元和高回报经验信息存储单元均为固定的长度,并采用FIFO(先进先出)的存储方式对经验信息进行存储;长度是指最大能存储的单步交互所对应的经验信息的数目。将普通经验信息存储单元的长度记为LO,普通经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为NO;将高回报经验信息存储单元的长度记为LH,高回报经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为NH。
本发明实施例中,所述经验样本筛选及存储算法,是在智能主体对应的主进程和某一环境进程交互的一个完整的回合(episode)结束后,对该环境进程中的经验信息缓存单元中的经验信息进行筛选及存储操作,主要过程如下:
将当前经验信息缓存单元中的缓存的这一回合的交互所产生的经验信息存储到普通经验信息存储单元,并更新NO;将更新后的NO与第一阈值Nlimit进行比较。
本发明实施例中,交互是以步(step)为单位进行的,一个回合(episode)包含多步(step)交互。并且经验信息缓存单元和经验信息存储单元具有不同的功能,一个回合未完成时,先将当前已经完成的步对应的经验信息存到经验信息缓存单元中,等这个回合结束了,再将这个回合所有步的经验信息存到经验信息存储单元中。
如果NO小于第一阈值Nlimit,则此次存储操作结束;
如果NO大于第一阈值Nlimit,则分别计算最新存储的Nnew个回合的经验信息所对应的回合累计回报值的第p1百分位数的值Rhigh,与第p2百分位数的值Rlow,其中p1>p2;记当前存储到普通经验信息存储单元中的经验信息的回合累计回报值为R,当时R>Rhigh,将该回合所对应的经验信息复制到高回报经验信息存储单元中进行存储;当Rlow≤R≤Rhigh时,将该回合所对应的经验信息以概率p=(R-Rhigh)/(Rhigh-Rlow)复制到高回报经验信息存储单元中进行存储;当R≤Rlow时,结束此次存储操作。
本发明实施例中,一个回合(episode)中的每步交互(step)都会产生一个回报值,这里的回合累积回报值是指对某个回合中所有步(step)的回报值进行累计,即该累计是以步(step)为单位操作的。
所述经验样本采样算法作用于智能主体对应的主进程从存储单元中采样,并对自身参数进行更新时。主要过程如下:
当主进程准备对智能主体进行参数更新时,先检测普通经验信息存储单元中已经存储的经验信息的数目NO,并将其与第二阈值Nl(通常设置为Batch Size的整数倍)进行比较:如果NO<Nl,则放弃此次采样及参数更新;如果NO≥Nl,则对高回报经验信息存储单元中已经存储的经验信息的数目进行检测,如果已经存储的经验样本数目低于第三阈值Nl1,则从普通经验样本存储单元中进行采样,如果不低于第四阈值Nl2,则从以下两种方式中选择一种完成采样:
以概率P从高回报经验信息存储单元中进行采样并用所获得样本进行参数更新,以概率(1-P)从普通经验信息存储单元中进行采样并用所获得样本进行参数更新;
每次采样的样本集合中有P的样本从高回报经验信息存储单元中采样获得,另外(1-P)的样本从普通经验信息存储单元中采样获得。
为了便于说明,下面结合具体示例来进行说明。
图1所示传统异策略深度强化学习算法采用单个智能主体与单个环境串行同步的训练方式,与其不同,本发明实例所提供的方案如图2所示,为单个智能主体同时和多个同类型环境进行并行交互并对经验信息的存储和采样方式进行了相应的优化;主要如下:
本发明实例中的智能主体基于经典的策略梯度算法Deep Deterministic PolicyGradient,主要由图3所示的策略网络和价值网络组成。设置普通经验信息存储单元的长度LO=106;高回报经验信息存储单元的长度LH=104;更新智能主体中的神经网络时采用的Baych Size=128;从普通经验信息存储单元中采样所要求的已存经验信息数目阈值Nlimit=64*128;从高回报经验信息存储单元中采样所要求的已存经验信息数目阈值Nl=32*128。
首先,按照前述方案中所述方法创建包含多个同类型环境进程的进程池,其中,不同进程中的环境进程可以采用相同或者不同的参数设置(如在游戏环境中可以设置不同的难度等级)。然后,智能主体对应的主进程同时和不同环境进程进行交互,每完成一步交互,智能主体依据前述方案中所描述的经验样本采样算法检测各存储单元中已经存储的经验信息数目是否满足要求,并决定对智能主体中神经网络的更新方式。更为具体地,每次神经网络的后向传播中,以0.1的概率从高回报经验信息存储单元进行采样,以0.9的概率从普通经验信息存储单元进行采样。同时,环境进程将单步交互所获得的经验信息存储到该进程所对应的经验信息缓存单元中。当一个完整的回合交互完成后,环境进程依据技术方案中的经验信息筛选及存储算法对该回合交互产生的经验信息进行存储。其中,取最近存入普通经验信息存储单元的100个回合的经验信息(即Nnew=100)的回合累积回报值的第90(即p1=90)百分位数作为Rhigh,第10(即p2=10)百分位数作为Rlow;再与当前存储到普通经验信息存储单元中的经验信息的回合累计回报值R进行比较,从而选择相应的存储策略。
需要说明的是,上式示例中所涉及的各参数的具体数值仅为举例,并非构成限制;在实际应用中,用户可以根据实际需要或经验来设定各参数的具体取值。
本发明专利具有一定的可检测性,具体的检测方案如下:
一、检测相关程序的进程数目。如果相关程序中存在一个主进程和多个与其交互的环境进程,则很可能使用了本发明专利所涉及的技术方案。
二、检测相关程序的存储单元和进程对其的读写情况。如果相关程序中存在多个“读写”频率较高的存储单元和两个“读”操作频率明显高于“写”操作频率的存储单元,则很可能使用了本发明专利所涉及的技术方案。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种并行训练的异策略深度强化学习方法,其特征在于,包括:
创建一个环境进程池,所述环境进程池中包含多个同种类型的环境进程;
需要深度强化学习的智能主体作为主进程向环境进程池发送交互请求,根据各环境进程返回的信息选择两个以上的环境进程同时开始交互;
在主进程和当前环境进程交互的过程中,环境进程将每一步交互中所产生的经验信息存储在当前环境进程所对应的经验信息缓存单元中,每当该环境进程中的经验信息缓存单元增加n条单步交互信息时,主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新;
在主进程和当前环境进程交互中的一个回合结束时,环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元或直接删除;
其中,所述环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元包括:
经验存储单元包括普通经验信息存储单元和高回报经验信息存储单元;将普通经验信息存储单元的长度记为LO,普通经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为NO;将高回报经验信息存储单元的长度记为LH,高回报经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为NH;
将当前经验信息缓存单元中的信息存储到普通经验信息存储单元,并更新NO;将更新后的NO与第一阈值Nlimit进行比较;
如果NO小于第一阈值Nlimit,则此次存储操作结束;
如果NO大于第一阈值Nlimit,则分别计算最新存储的Nnew个回合的经验信息所对应的回合累计回报值的第p1百分位数的值Rhigh,与第p2百分位数的值Rlow,其中p1>p2;记当前存储到普通经验信息存储单元中的经验信息的回合累计回报值为R,当R>Rhigh时,将该回合所对应的经验信息复制到高回报经验信息存储单元中进行存储;当Rlow≤R≤Rhigh时,将该回合所对应的经验信息以概率p=(R-Rhigh)/(Rhigh-Rlow)复制到高回报经验信息存储单元中进行存储;当R≤Rlow时,结束此次存储操作。
2.根据权利要求1所述的一种并行训练的异策略深度强化学习方法,其特征在于,智能主体作为主进程向环境进程池发送交互请求,如果进程池中存在未处于交互状态的环境进程,则向主进程返回相应环境进程的标识,主进程将对应环境进程的环境标识从空闲状态设置成被占用状态,并与对应环境进程进行交互;
如果进程池中不存在未处于交互状态的环境进程,则将处于被占用状态的环境标识作为等待信号返回给主进程,主进程根据得到的等待信号,选择等待或是继续向环境进程池发送交互请求。
3.根据权利要求1所述的一种并行训练的异策略深度强化学习方法,其特征在于,所述的经验信息包括:状态值、动作值、回报值、交互终止标识和累计回报值。
4.根据权利要求1所述的一种并行训练的异策略深度强化学习方法,其特征在于,所述主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新包括:
当主进程准备对智能主体进行参数更新时,先检测普通经验信息存储单元中已经存储的经验信息的数目NO,并将其与第二阈值Nl进行比较:如果NO<Nl,则放弃此次采样及参数更新;如果NO≥Nl,则对高回报经验信息存储单元中已经存储的经验信息的数目进行检测,如果高回报经验信息存储单元中已经存储的经验样本数目低于第三阈值Nl1,则从普通经验样本存储单元中进行采样,如果不低于第四阈值Nl2,则从以下两种方式中选择一种完成采样:
以概率P从高回报经验信息存储单元中进行采样并用所获得样本进行参数更新,以概率(1-P)从普通经验信息存储单元中进行采样并用所获得样本进行参数更新;
每次采样的样本集合中有P的样本从高回报经验信息存储单元中采样获得,另外(1-P)的样本从普通经验信息存储单元中采样获得。
5.根据权利要求1所述的一种并行训练的异策略深度强化学习方法,其特征在于,所述普通经验信息存储单元和高回报经验信息存储单元均为固定的长度,并采用FIFO的存储方式对经验信息进行存储;长度是指最大能存储的单步交互所对应的经验信息的数目。
6.根据权利要求1所述的一种并行训练的异策略深度强化学习方法,其特征在于,在主进程和当前环境进程交互中的一个回合结束时,主进程释放当前环境进程,将相关环境进程重置为空闲状态;被重置的环境进程对环境进行重置并等待下一次交互的发起。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810040895.XA CN108108822B (zh) | 2018-01-16 | 2018-01-16 | 并行训练的异策略深度强化学习方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810040895.XA CN108108822B (zh) | 2018-01-16 | 2018-01-16 | 并行训练的异策略深度强化学习方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN108108822A CN108108822A (zh) | 2018-06-01 |
| CN108108822B true CN108108822B (zh) | 2020-06-26 |
Family
ID=62220060
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201810040895.XA Active CN108108822B (zh) | 2018-01-16 | 2018-01-16 | 并行训练的异策略深度强化学习方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN108108822B (zh) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7016295B2 (ja) * | 2018-06-28 | 2022-02-04 | 三菱重工業株式会社 | 意思決定装置、無人システム、意思決定方法、及びプログラム |
| CN110888401B (zh) * | 2018-09-11 | 2022-09-06 | 京东科技控股股份有限公司 | 火力发电机组燃烧控制优化方法、装置及可读存储介质 |
| CN109523029B (zh) * | 2018-09-28 | 2020-11-03 | 清华大学深圳研究生院 | 自适应双自驱动深度确定性策略梯度强化学习方法 |
| CN110428057A (zh) * | 2019-05-06 | 2019-11-08 | 南京大学 | 一种基于多智能体深度强化学习算法的智能博弈系统 |
| CN110531617B (zh) * | 2019-07-30 | 2021-01-08 | 北京邮电大学 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
| SG11202010172WA (en) | 2019-12-12 | 2020-11-27 | Alipay Hangzhou Inf Tech Co Ltd | Determining action selection policies of execution device |
| CN112041875B (zh) | 2019-12-12 | 2022-04-22 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
| SG11202010204TA (en) | 2019-12-12 | 2020-11-27 | Alipay Hangzhou Inf Tech Co Ltd | Determining action selection policies of an execution device |
| CN112926735B (zh) * | 2021-01-29 | 2024-08-02 | 北京字节跳动网络技术有限公司 | 深度强化学习模型的更新方法、装置、框架、介质及设备 |
| CN114117752B (zh) * | 2021-11-10 | 2025-06-06 | 杭州海康威视数字技术股份有限公司 | 一种智能体的强化学习模型训练方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
| CN106779072A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于自举dqn的增强学习深度搜索方法 |
| CN107209872A (zh) * | 2015-02-06 | 2017-09-26 | 谷歌公司 | 强化学习系统的分布式训练 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018005739A (ja) * | 2016-07-06 | 2018-01-11 | 株式会社デンソー | ニューラルネットワークの強化学習方法及び強化学習装置 |
-
2018
- 2018-01-16 CN CN201810040895.XA patent/CN108108822B/zh active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105637540A (zh) * | 2013-10-08 | 2016-06-01 | 谷歌公司 | 用于强化学习的方法和设备 |
| CN107209872A (zh) * | 2015-02-06 | 2017-09-26 | 谷歌公司 | 强化学习系统的分布式训练 |
| CN106779072A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于自举dqn的增强学习深度搜索方法 |
Non-Patent Citations (2)
| Title |
|---|
| Multi-agent Reinforcement Learning Based on Bidding;MENG Wei等;《The 1st International Conference on Information Science and Engineering》;20091228;第4949-4952页 * |
| 并行强化学习算法及其应用研究;孟伟 等;《计算机工程与应用》;20091201;第45卷(第34期);第25-28,52页 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN108108822A (zh) | 2018-06-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108108822B (zh) | 并行训练的异策略深度强化学习方法 | |
| CN102111448B (zh) | 分布式哈希表dht存储系统的数据预取方法、节点和系统 | |
| WO2019062699A1 (zh) | 资源调度方法、调度服务器、云计算系统及存储介质 | |
| CN110322931B (zh) | 一种碱基识别方法、装置、设备及存储介质 | |
| JPH0682330B2 (ja) | コンピユータ入出力サブシステムの性能を改良するための方法 | |
| WO2012149776A1 (zh) | 存储数据的方法和装置 | |
| JP2022106287A (ja) | 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体 | |
| CN104516677B (zh) | 磁盘数据读写方法及磁盘存储装置 | |
| CN107122130B (zh) | 一种数据重删方法及装置 | |
| WO2018068714A1 (zh) | 重删处理方法及存储设备 | |
| CN109144431A (zh) | 数据块的缓存方法、装置、设备及存储介质 | |
| CN110647294A (zh) | 存储块回收方法、装置、存储介质及电子设备 | |
| CN110058969A (zh) | 一种数据恢复方法及装置 | |
| CN107562851B (zh) | 一种数据的更新方法、装置及电子设备 | |
| CN104021226B (zh) | 预取规则的更新方法及装置 | |
| US20190114082A1 (en) | Coordination Of Compaction In A Distributed Storage System | |
| CN110147884A (zh) | 一种高效电路拓扑结构进化方法及其系统 | |
| CN108334935A (zh) | 精简输入的深度学习神经网络方法、装置和机器人系统 | |
| CN119718686B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
| CN120763069A (zh) | 测试用例生成方法、装置、设备、存储介质和程序产品 | |
| CN113806013B (zh) | 一种存储链路清理方法、装置、设备及介质 | |
| CN115665174A (zh) | 一种梯度数据的同步方法、系统、设备及存储介质 | |
| US11983223B2 (en) | Finite automaton construction using regular expression derivatives to simulate behavior of a backtracking engine | |
| CN107301459A (zh) | 一种基于fpga异构运行遗传算法的方法及系统 | |
| CN118672829A (zh) | 数据库的预写式日志处理方法、系统恢复方法和相关设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |