[go: up one dir, main page]

CN107003858A - 通过监控重复指令序列的运行时代码并行化 - Google Patents

通过监控重复指令序列的运行时代码并行化 Download PDF

Info

Publication number
CN107003858A
CN107003858A CN201580063636.3A CN201580063636A CN107003858A CN 107003858 A CN107003858 A CN 107003858A CN 201580063636 A CN201580063636 A CN 201580063636A CN 107003858 A CN107003858 A CN 107003858A
Authority
CN
China
Prior art keywords
instructions
branch
instruction
register
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580063636.3A
Other languages
English (en)
Inventor
诺姆·米兹拉希
阿尔贝托·曼德勒
莎伊·科伦
乔纳森·弗里德曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centi Peter Sami Ltd
Original Assignee
Centi Peter Sami Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centi Peter Sami Ltd filed Critical Centi Peter Sami Ltd
Publication of CN107003858A publication Critical patent/CN107003858A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3808Instruction prefetching for instruction reuse, e.g. trace cache, branch target cache
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Advance Control (AREA)

Abstract

一种方法包括在执行程序代码的指令的处理器(20)中,监控重复的指令序列的段中的指令,以构建所监控的指令的寄存器访问的规范。响应于检测到所监控的指令中的分支误预测,对规范进行校正以补偿分支误预测。基于校正后的规范,将重复序列的执行并行化。

Description

通过监控重复指令序列的运行时代码并行化
发明领域
本发明总体上涉及处理器设计,并且具体地涉及用于运行时代码并行化的方法和系统。
发明背景
已经提出了用于在运行时动态地并行化软件代码的各种技术。例如,Akkary和Driscoll在1998年12月的第31届微体系结构年度国际研讨会的论文集“A DynamicMultithreading Processor”中描述了实现单个程序的动态多线程执行的处理器架构,该文章通过引用并入本文。
Marcuellu等人在1998年的第12届国际超级计算会议的论文集“SpeculativeMultithreaded Processors”中描述了一种处理器微架构,该微架构通过不需要编译器或用户支持的控制推测技术来同时执行从单个程序获得的多个控制线程,该文章通过引用并入本文。
Marcuello和Gonzales在1999年的13届国际超级计算会议的论文集“ClusteredSpeculative Multithreaded Processors”中提出了在运行时从单线程应用中产生推测性线程的微架构,该文章通过引用并入本文。
在2000年的第14届并行与分布式处理国际研讨会的论文集“AQuantitativeAssessment of Thread-Level Speculation Techniques”(其通过引用并入本文)中,Marcuello和Gonzales分析了不同线程推测技术的益处以及线程单元中的值预测、分支预测、线程初始化开销和连接的影响。
Ortiz-Arroyo和Lee在2003年的第16届并行与分布式计算系统的国际会议(PDCS'03)的论文集“Dynamic Simultaneous Multithreaded Architecture”中描述了被称为动态同时多线程(DSMT)的多线程架构,该多线程架构在同时多线程处理器核上执行来自单个程序的多个线程的,该文章通过引用并入本文。
发明概述
本文中描述的本发明的实施例提供了一种方法,该方法包括在执行程序代码的指令的处理器中,监控重复的指令序列的段中的指令,以构建所监控的指令的寄存器访问的规范。响应于检测到所监控的指令中的分支误预测,对规范进行校正以补偿分支误预测。基于校正后的规范,将重复序列的执行并行化。
在一些实施例中,监控指令还包括生成由所监控的指令遍历的流控制轨迹,并且该方法包括对流控制轨迹进行校正以补偿分支误预测。在实施例中,该方法包括在并行化执行期间继续监控指令。在实施例中,该方法包括在校正规范之后继续监控指令并构建规范。在示例实施例中,校正规范包括终止对该段的指令的监控,并且丢弃在该段中收集的寄存器访问的规范的至少一部分。
在一些实施例中,校正规范包括基于分支误预测之后的指令,将规范回滚到与在其中发生分支误预测的分支指令处或其之前的指令对应的先前状态。在实施例中,监控指令包括在规范中记录对寄存器的最后写入操作在所述序列中的位置,并且回滚规范包括校正最后写入操作的位置。在示例实施例中,记录最后写入操作的位置包括递增对寄存器的写入操作的计数,以及校正位置包括将该计数递减到与其中发生分支误预测的分支指令对应的值。
在所公开的实施例中,监控指令包括在规范中记录由所监控的指令访问的寄存器的分类,并且校正规范包括对寄存器中的一个或更多个进行重新分类以补偿分支误预测。
在一些实施例中,监控指令包括保存在沿着所监控的段的一个或更多个相应的分支指令处或其之前的规范的一个或更多个状态,并且校正规范包括恢复到与其中发生分支误预测的分支指令处或其之前的指令对应的保存状态。
保存状态可以包括仅针对沿着所监控的段的分支指令的部分子集,保存状态。该方法可以包括根据程序代码中的指示或来自程序代码的编译器的指示和/或基于在运行时评估的标准来选择分支指令的部分子集。
在一些实施例中,监控指令包括基于在处理器的执行流水线中从存储器提取的分支指令,基于在处理器的执行流水线中被解码的分支指令,以及/或者共同地基于在处理器的执行流水线中从存储器提取的分支指令和被解码的分支指令,生成所监控的指令的流控制轨迹。
在一些实施例中,监控指令包括基于在处理器的执行流水线中被解码的指令,基于在处理器的执行流水线中被执行的指令,和/或基于被提交的但由于分支误预测而未被清除的指令,在规范中记录对寄存器的最后写入操作在所述序列中的位置。
在实施例中,监控指令包括仅在评估序列的条件分支指令的相应分支条件之后才收集寄存器访问。在另一个实施例中,监控指令包括生成所监控的指令的流控制轨迹,包括对于处理器的分支预测单元未知的分支指令。
根据本发明的实施例,另外提供了包括执行流水线和监控单元的处理器。执行流水线被配置为执行程序代码的指令。监控单元被配置为监控重复指令序列的段中的指令,以便构建所监控的指令的寄存器访问的规范,被配置为响应于检测到所监控的指令中的分支误预测,对规范进行校正,以补偿分支误预测,并且基于校正后的规范,将重复序列的执行并行化。
从结合附图进行的本发明的实施例的以下详细描述,本发明将被更完全地理解,其中:
附图简述
图1是根据本发明的实施例示意性地图示了执行运行时代码并行化的处理器的框图;
图2是根据本发明的实施例示意性地图示了程序循环的运行时并行化的图;以及
图3是根据本发明的实施例示意性地图示了用于在监控重复指令序列期间缓解分支误预测的方法的流程图。
具体实施方式
综述
本文中描述的本发明的实施例提供了用于在处理器中对代码的运行时并行化的改进的方法和设备。在所公开的实施例中,处理器识别重复的指令序列,并且创建和执行被称为段的多个并行代码序列,其执行不同出现的序列。这些段被调度,以用于通过多个硬件线程进行并行执行。
例如,重复序列可以包括循环,在这种情况下,段包括多个循环迭代、迭代的部分或循环的延续。作为另一示例,重复序列可以包括函数,在这种情况下,段包括多个函数调用、函数的部分或函数延续。在运行时,对预编译代码执行并行化。术语“重复序列”通常指的是被重新访问并执行多次的任何指令序列。
在一些实施例中,在识别重复序列时,处理器监控序列中的指令并构建“记分板”-由所监控的指令对寄存器的访问的规范。记分板与由所监控的序列遍历的特定流控制轨迹相关联。处理器基于在记分板和轨迹中收集的信息来决定如何以及何时创建和执行多个段。
指令监控的其他方面在题为“Run-time code parallelization withcontinuous monitoring of repetitive instruction sequences”的代理人案卷编号1279-1004的美国专利申请以及题为“Register classification for run-time codeparallelization”的代理人案卷编号1279-1004.1的美国专利申请中进行讨论,这些专利申请被转让给本专利申请的受让人并且其公开内容通过引用并入本文。
在一些实施例中,处理器在其执行流水线中提取和处理指令。当预测条件分支指令采用分支但在实际执行期间未采用分支时,可能发生分支误预测,或反之亦然。在检测到分支误预测时,处理器通常清除随后的指令和相应的结果。
当分支误预测发生在其指令被监控的段中时,记分板中的寄存器访问信息通常将是不正确的或至少是不完整的。本文描述的一些实施例提供了用于在检测到分支误预测事件之后校正在记分板中收集的寄存器访问信息的技术。
在示例实施例中,处理器停止对所讨论的段的监控,并丢弃在其中收集的寄存器访问信息。在其他实施例中,处理器将记分板回滚到误预测之前的状态,并且在正确的分支决策之后继续监控段。
处理器可以以各种方式回滚记分板,诸如通过提前保存记分板在条件分支指令之前的状态,并且在需要时恢复到先前保存的状态。可替代地,处理器可以通过追溯误预测之后的指令并将寄存器访问计数器递减回到其在误预测之前的值来回滚记分板。可以针对所有条件分支指令执行回滚,或仅针对条件分支指令的所选子集执行回滚。还描述了用于选择子集的示例标准。
在一些实施例中,作为监控过程的一部分,处理器生成与记分板相关联的流控制轨迹。在检测到误预测时,处理器通常也使用上述任何方法来校正所生成的流控制轨迹。
在其他公开的实施例中,处理器通过适当选择生成流控制轨迹的执行流水线级以及收集寄存器访问信息的执行流水线级来降低误预测的影响。
在各种实施例中,处理器可以在提取之后、在解码之后或者两者组合之后立即从指令中生成轨迹。
可以例如在紧接解码之后、在执行(包括将被清除的误预测的指令的执行)之后或提交(仅包括将不被清除的指令)之后收集寄存器访问信息。
系统描述
图1是根据本发明的实施例示意性地图示处理器20的框图。处理器20运行预编译的软件代码,同时使代码执行并行化。处理器在运行时通过在程序指令从存储器中被提取并被解码的时候对其进行分析来执行并行化决策。
在本示例中,处理器20包括执行流水线,该执行流水线包括一个或更多个提取单元24、一个或更多个解码单元28、乱序(OOO)缓冲器32和执行单元36。提取单元24从多级指令高速缓存存储器中提取程序指令,该高速缓存存储器在本示例中包括1级(L1)指令高速缓存40和2级(L2)指令高速缓存44。
分支预测单元48预测在执行期间预期由程序遍历的流控制轨迹(在本文中为了简短起见而被称为“轨迹”)。预测通常基于由提取单元24提取的先前指令的地址或程序计数器(PC)值。基于预测,分支预测单元48指示提取单元24将提取哪些新的指令。单元48的流控制预测也影响代码执行的并行化,如以下将解释的。
由解码单元28解码的指令存储在OOO缓冲器32中,以用于通过执行单元36进行乱序执行,即,不按照指令被编译和存储在存储器中的顺序。可替代地,所缓冲的指令可以按顺序执行。随后发出所缓冲的指令,以供各种执行单元36执行。在本示例中,执行单元36包括一个或更多个乘法累加(MAC)单元、一个或更多个算术逻辑单元(ALU)、一个或更多个加载/存储单元和分支执行单元(BRA)。另外或可替代地,执行单元36可以包括其他合适类型的执行单元,例如浮点单元(FPU)。
由执行单元36产生的结果被存储在寄存器文件和/或多级数据高速缓存存储器中,其在本示例中包括1级(L1)数据高速缓存52和2级(L2)数据高速缓存56。在一些实施例中,L2数据高速缓存存储器56和L2指令高速缓存存储器44被实现为相同物理存储器中单独的存储器区域或者在没有固定预分配的情况下简单地共享相同的存储器。
在一些实施例中,处理器20还包括负责运行时代码并行化的线程监控和执行单元60。下面详细说明单元60的功能。
图1中所示的处理器20的配置是示例配置,其纯粹为了概念清楚起见而被选择。在替代的实施例中,可使用任何其他合适的处理器配置。例如,在图1的配置中,使用多个提取单元24和多个解码单元28来实现多线程。每个硬件线程可以包括被分配以提取用于线程的指令的提取单元以及被分配以对所提取的指令进行解码的解码单元。另外或可替代地,多线程可以以许多其他方式实现,例如使用每线程的多个OOO缓冲器、单独的执行单元和/或每线程的单独的寄存器文件。在另一个实施例中,不同的线程可以包括不同的相应处理核心。
作为又一个示例,可以在没有高速缓存或有不同的高速缓存结构,在每线程没有分支预测或者有单独的分支预测的情况下实现处理器。处理器可以包括附加元件,例如,仅举几个例子,重排序缓冲器(ROB)、寄存器重命名。此外,可替代地,所公开的技术可以用具有任何其它合适的微架构的处理器执行。
处理器20可以使用任何合适的硬件例如使用一个或更多个专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他设备类型来实现。另外或可替代地,可使用软件或使用硬件和软件元件的组合来实现处理器20的某些元件。可以使用诸如随机存取存储器(RAM)的任何合适类型的存储器来实现指令高速缓存存储器和数据高速缓存存储器。
处理器20可以用软件编程以执行本文中所描述的功能。该软件可通过网络以电子形式下载到处理器,例如,或者可替代地或另外,它可以被提供和/或储存在非暂时性有形介质上,诸如,磁存储器、光存储器或电子存储器。
基于段监控的运行时代码并行化
在一些实施例中,处理器20中的单元60识别重复的指令序列并且使其执行并行化。重复指令序列可以包括例如,程序循环的相应迭代、函数或过程的相应出现或被多次重新访问和执行的任何其他合适的指令序列。在本上下文中,术语“重复指令序列”是指在过去至少一次执行其流控制轨迹(例如,PC值序列)的指令序列。数据值(例如,寄存器值)可能因执行而异。
在所公开的实施例中,处理器20通过使用多个硬件线程并行或半并行地调用和执行多个代码段来并行化重复指令序列。每个线程执行相应的代码段,例如循环的相应迭代、多个(不一定是连续的)循环迭代、循环迭代的一部分、循环的延续、其函数或一部分或延续或任何其它合适类型的段。
使用多个硬件线程来执行处理器20中段的并行化。在图1的示例中,尽管不是必然的,但每个线程包括已经由单元60分配以执行一个或更多个段的相应提取单元24和相应解码单元28。在另一个示例实施例中,在两个或更多个线程之间共享给定的提取单元24。
在实践中,数据依赖性存在于段之间。例如,在某个循环迭代中执行的计算可取决于在先前迭代中执行的计算的结果。使段并行化的能力在很大程度上取决于这种数据依赖性。
图2是根据本发明的示例实施例展示程序循环的运行时并行化的图。本示例涉及指令的并行化,但是所公开的技术也可以以类似的方式用于并行化微操作(micro-ops)。该图的顶部示出了示例程序循环(从SPECint测试套件的bzip基准测试版重现)和指令之间的依赖性。一些依赖性在相同循环迭代中的指令之间,而其他依赖性在给定循环迭代中的指令和先前迭代中的指令之间。
该图的底部示出了根据本发明的实施例的单元60如何使用四个线程TH1...TH4来并行化该循环。该表跨越总共十一个周期,并列出了在每个周期内执行哪些线程的哪些指令。每个指令由其迭代数和迭代中的指令数表示。例如,“14”代表第1循环迭代的第4个指令。在该示例中,指令5和指令7被忽略,并且假设完美的分支预测。
线程执行中的参差(staggering)是由于数据依赖性。例如,由于指令21(第二次迭代中的第一指令)依赖于指令13(第一次迭代的第三指令),因此线程TH2不能执行指令21和22(第二次循环迭代中的前两个指令)直到周期1。整个表中存在类似的依赖性。总的来说,这种并行化方案能够在六个周期内执行两次循环迭代,或者每三个周期执行一次迭代。
重要的是要注意,图2中所示的并行化仅考虑指令之间的数据依赖性,而不考虑其他约束,诸如执行单元的可用性。因此,图2中的周期不一定直接转换为相应的时钟周期。例如,图2中列出为在给定周期内执行的指令实际上可能在多于一个时钟周期内执行,因为它们竞争相同的执行单元36。
在一些实施例中,单元60通过监控处理器流水线中的指令来决定如何使代码并行化。响应于识别重复指令序列,单元60在序列被处理器提取、解码和执行时开始监控该序列。
在一些实施方式中,单元60的功能可以分布在多个硬件线程之间,使得给定的线程可以被视为在执行期间监控其指令。然而,为了清楚起见,下面的描述假设监控功能由单元60执行。
作为监控过程的一部分,单元60生成由所监控的指令遍历的流控制轨迹以及在本文中被称为记分板的监控表。段的记分板通常包括寄存器的一些分类。此外,对于至少一些寄存器,记分板指示对寄存器的最后写入操作的所监控的序列中的位置。
可以使用任何合适的指示来指示最后写入操作的位置,诸如对寄存器的写入次数的计数或最后写入操作的地址。最后写入指示使单元60能够确定例如何时允许它执行依赖于寄存器的值的随后段中的指令。记分板生成的其他方面可以在以上引用的美国专利申请代理人案卷编号1279-1004和1279-1004.1中找到。
在段监控期间处理分支误预测
在一些实施例中,处理器20基于将在未来的分支指令处采用的分支决策的预测来推测性地提取和处理指令。分支预测由分支预测单元48执行,并且影响被提取以用于由提取单元24执行的指令。
根据实际代码和单元48的性能,分支预测可能是错误的。在其中预测条件分支采用分支但事实上该分支未被采用或者反之亦然的事件在本文中被称为分支误预测,或为了简洁而简称为误预测。在图1的实施例中,分支执行单元(BRA)将分支预测与实际的分支决策进行比较,并且在不匹配的情况下输出误预测指示。
如上所述,在一些实施例中,监控单元60在执行期间监控流控制轨迹和寄存器访问。在其他实施例中,单元60可以在并行执行期间同时监控各种段内的流控制轨迹和寄存器访问。当误预测发生在被监控的段中时,所得到的轨迹和记分板通常将是不正确的。例如,记分板可以包括在误预测的分支后并稍后将被清除的指令收集的寄存器访问信息。
在一些实施例中,单元60在发生误预测的情况下采取各种措施以用于校正记分板。下面描述的校正方法主要涉及对寄存器访问信息的校正。在一些实施例中,单元60也使用这些方法来校正所生成的流控制轨迹。
在一些实施例中,响应于检测到的误预测事件,单元60停止对该段的监控,并丢弃到目前为止在该段中收集的寄存器访问信息。通常将在另一个段中重新尝试监控。
在其他实施例中,单元60并不丢弃寄存器访问信息,而是将寄存器访问信息回滚到其在误预测之前的状态。回滚后,单元60可以沿着正确的轨迹继续监控过程。
单元60可以以各种方式回滚记分板信息。在一些实施例中,单元60追溯回在误预测后的指令,并且对寄存器访问信息进行校正以消除这些指令的影响。例如,如果寄存器访问信息包括对寄存器的写入操作的计数,则单元60可以减少计数以消除在误预测后的写入操作的影响。如果寄存器访问信息包括对寄存器的最后写入操作的位置的一些其它指示,则单元60也可以校正这些指示。
在替代实施例中,单元60通过保存记分板在条件分支指令之前具有的状态来预先准备记分板到该指令的可能的回滚。如果误预测发生在该指令中,则单元60可以恢复到记分板的已保存状态,并从该点继续监控。记分板的已保存状态通常包括在分支指令之前的寄存器访问信息和寄存器分类。该状态可以对应于确切的条件分支指令,对应于先前指令或者对应于在条件分支指令之前的另一个合适的指令。
在一些实施例中,单元60在每个条件分支指令之前保存记分板状态,从而实现在任何误预测之后的回滚。在替代实施例中,单元60仅针对段中的条件分支指令的选定子集保存记分板状态。这种技术可以减少存储器空间,但另一方面,仅针对一些可能的误预测实现了回滚。如果误预测发生在对其未保存先前记分板状态的指令中,则单元60通常必须中止监控该段并在另一个段中重新尝试监控。
单元60可以使用任何合适的标准来选择条件分支指令的子集(对其保存了记分板的先前状态)。通常,标准旨在选择可能被误预测的条件分支指令,并且排除可能被正确预测的条件分支指令。在一个实施例中,将被选择的子集在代码中被指定或由编译该代码的编译器指定。在另一个实施例中,该子集在运行时由单元60选择。例如,单元60可以累积误预测统计数字,并选择其中分支预测精度低于某一水平的条件分支指令。
上述实施例主要涉及在误预测之后对记分板中的最后写入指示的校正。另外或可替代地,单元60可以对记分板中可能受到误预测影响的任何其他合适的寄存器访问信息进行校正。例如,记分板通常包括由所监控的指令访问的寄存器的分类,其基于其中该寄存器被用作操作数或用作所监控的指令中的目的地的顺序。该分类可以例如在其首次出现是作为目的地的局部(L)寄存器、仅用作操作数的全局(G)寄存器以及其首次出现是作为操作数且随后用作目的地的全局-局部(GL)寄存器之间进行区分。
在一些实施例中,单元60可以重新分类寄存器中的一个或更多个,以便在误预测之前反映它们的正确分类。上述任何校正方法(例如,恢复到先前保存的状态或追溯指令序列)可用于此目的。
上述实施例纯粹是通过示例的方式描绘。在替代实施例中,单元60可以响应于分支误预测以任何其他合适的方式校正记分板。
例如,在一些实施例中,单元60仅执行规范的近似校正,该近似校正仅近似地补偿误预测的影响。在这些实施例中,单元60可将规范回滚到近似于在误预测之前的状态的状态,而不是回滚到精确的先前状态。该近似可以包括例如,对某些寄存器的最后写入指示的近似。在本上下文中,精确校正和近似校正都被认为是规范校正的类型,并且针对误预测的精确补偿和近似补偿都被认为是补偿的类型。
图3是根据本发明的实施例示意性地图示了用于在监控重复指令序列期间缓解分支误预测的方法的流程图。在监控步骤70,该方法始于处理器20的单元60监控重复指令序列的指令。作为监控过程的一部分,在一些实施例中,单元60生成由指令遍历的预测的流控制轨迹和相应的记分板。
在调用步骤74,单元60调用多个硬件线程来执行重复指令序列的相应段。对于至少一些段,单元60在线程中的执行期间继续监控指令。
在误预测检测步骤78,处理器20检查分支误预测是否发生在被执行的给定段中。如果没有遇到误预测,则该方法循环回到上面的步骤74。
在分支误预测的情况下,在校正步骤82,单元60校正记分板以补偿在误预测后的指令的影响。为此,单元60可以使用上述任何技术或任何其它合适的技术。在一些实施例中,校正涉及对寄存器访问信息的校正以及对所生成的流控制轨迹的校正。
缓解分支误预测中的流水线考虑
在一些实施例中,单元60通过适当选择执行流水线中生成轨迹的级以及执行流水线中收集寄存器访问信息的级来降低分支误预测的影响。通常,轨迹生成和寄存器访问信息的收集不需要在相同的流水线级处执行。
在一些实施例中,单元60从被提取的分支指令,即,基于提取单元24的输出端处的分支指令,生成轨迹。在替代实施例中,单元60从被解码的分支指令,即,基于解码单元28的输出端处的分支指令,生成轨迹。
在又一个实施例中,单元60基于解码单元28的输出端处的分支指令和提取单元24的输出端处的分支指令的组合来生成轨迹。
在一些实施例中,单元60在解码单元28的输出端处(即,从被解码的指令)收集寄存器访问信息(例如,寄存器的分类和对寄存器的最后写入操作的位置)。
在其他实施例中,单元60基于在执行单元36中执行的指令,但在最后提交指令和结果之前,收集寄存器访问信息。在该实施例中,寄存器访问信息包括在误预测后的并稍后被清除的指令的影响(与在解码单元之后收集寄存器访问信息的情况一样)。在替代实施例中,单元60仅基于提交的指令来收集寄存器访问信息,即不考虑由于误预测而被清除的指令。
在又一个实施例中,单元60在由分支执行单元评估条件分支指令的条件之后(即,在其中分支指令不再是有条件的级处)收集寄存器访问信息以及/或者生成轨迹。
此外,另外或可替代地,单元60可以基于任何其它合适的流水线级来生成流控制轨迹和/或收集寄存器访问信息。
一般来说,在流水线中较早地监控指令有助于更快速且更有效地调用并行执行,但另一方面,更多地受到误预测的影响。在流水线中较晚地监控指令导致较慢的并行化,但另一方面对误预测较不敏感。
在一些实施例中,单元60能够生成轨迹,即使监控分支预测单元48尚未已知的条件分支指令。例如,当首次遇到重复指令序列并且尚未被识别为重复时,可能会出现这种情况。然而,轨迹仍由解码单元(或由寄存器重命名单元)记录,并且单元60仍然可以能够生成轨迹。通常,将使用该指令不采用的分支来生成轨迹。
将认识到的是,以上描述的实施例是通过示例的方式引用的,并且本发明不限于上文中已经特别示出和描述的内容。相反,本发明的范围包括本文中所描述的各种特征的组合和子组合以及本发明的变型和修改,所述变型和修改将在本领域的技术人员阅读前面描述之后想到并且在现有技术中未被公开。通过引用并入本专利申请的文件被视为本申请的组成部分,除了任何术语在这些并入的文件中在某种程度上以与本说明书中明确地或隐含地作出的定义冲突的方式被定义之外,应该仅考虑本说明书中的定义。

Claims (30)

1.一种方法,包括:
在执行程序代码的指令的处理器中,监控表现出恒定的、循环的寄存器访问的重复指令序列,以及构建指定所述循环的寄存器访问的规范;
响应于检测到所监控的指令中的分支误预测,回滚在所述规范中指定的所述循环的寄存器访问,以补偿由所述分支误预测引起的所述循环的寄存器访问的偏差;以及
基于具有所回滚的循环的寄存器访问的所述规范,将所述指令中的至少一些的执行并行化。
2.根据权利要求1所述的方法,其中,监控所述指令还包括生成由所监控的指令遍历的流控制轨迹,并且包括对所述流控制轨迹进行校正以补偿所述分支误预测。
3.根据权利要求1所述的方法,并且包括在并行化的执行期间继续监控所述指令。
4.根据权利要求1所述的方法,并且包括在回滚所述循环的寄存器访问之后,继续监控所述指令并构建所述规范。
5.根据权利要求1所述的方法,其中,回滚所述循环的寄存器访问包括终止对其中发生所述分支误预测的所述指令的段的监控,以及丢弃在所述段中收集的所述循环的寄存器访问的所述规范的至少一部分。
6.根据权利要求1-5中任一项所述的方法,其中,回滚所述循环的寄存器访问包括基于所述分支误预测之后的指令,将所述循环的寄存器访问回滚到与其中发生所述分支误预测的分支指令处或其之前的指令对应的先前状态。
7.根据权利要求6所述的方法,其中,监控所述指令包括在所述规范中记录对寄存器的最后写入操作在所述序列中的位置,并且其中,回滚所述循环的寄存器访问包括对所述最后写入操作的位置进行校正。
8.根据权利要求7所述的方法,其中,记录所述最后写入操作的位置包括递增对所述寄存器的写入操作的计数,并且其中,校正所述位置包括将所述计数递减到与其中发生所述分支误预测的分支指令对应的值。
9.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括在所述规范中记录由所监控的指令访问的寄存器的分类,并且其中,回滚所述循环的寄存器访问包括对所述寄存器中的一个或更多个进行重新分类以补偿所述分支误预测。
10.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括保存在沿着所述指令的受监控的段的一个或更多个相应的分支指令处或其之前的所述规范的一个或更多个状态,并且其中,回滚所述循环的寄存器访问包括恢复到与其中发生所述分支误预测的分支指令处或其之前的指令对应的保存状态。
11.根据权利要求10所述的方法,其中,保存所述状态包括仅针对沿着所监控的段的所述分支指令的部分子集保存所述状态。
12.根据权利要求11所述的方法,并且包括根据所述程序代码中的指示或来自所述程序代码的编译器的指示,选择所述分支指令的所述部分子集。
13.根据权利要求11所述的方法,并且包括基于在运行时评估的标准,选择所述分支指令的所述部分子集。
14.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括基于在所述处理器的执行流水线中从存储器提取的分支指令,生成所监控的指令的流控制轨迹。
15.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括基于在所述处理器的执行流水线中被解码的分支指令来生成所监控的指令的流控制轨迹。
16.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括共同地基于在所述处理器的执行流水线中从存储器提取的分支指令和被解码的分支指令来生成所监控的指令的流控制轨迹。
17.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括基于在所述处理器的执行流水线中被解码的指令,在所述规范中记录对寄存器的最后写入操作在所述序列中的位置。
18.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括基于在所述处理器的执行流水线中被执行的指令,在所述规范中记录对寄存器的最后写入操作在所述序列中的位置。
19.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括基于被提交了但由于所述分支误预测而未被清除的指令,在所述规范中记录对寄存器的最后写入操作在所述序列中的位置。
20.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括仅在评估所述序列的条件分支指令的相应分支条件之后才收集所述寄存器访问。
21.根据权利要求1-5中任一项所述的方法,其中,监控所述指令包括对于所监控的指令生成流控制轨迹,包括对于所述处理器的分支预测单元未知的分支指令。
22.一种处理器,包括:
执行流水线,所述执行流水线被配置为执行程序代码的指令;以及
监控单元,所述监控单元被配置为监控表现出恒定的、循环的寄存器访问的重复指令序列,构建指定所述循环的寄存器访问的规范,响应于检测到所监控的指令中的分支误预测,回滚在所述规范中指定的所述循环的寄存器访问以补偿由所述分支误预测引起的所述循环的寄存器访问的偏差,并且基于具有回滚的循环的寄存器访问的所述规范,将所述指令的至少一些的执行并行化。
23.根据权利要求22所述的处理器,其中,所述监控单元还被配置为生成由所监控的指令遍历的流控制轨迹,并且对所述流控制轨迹进行校正,以补偿所述分支误预测。
24.根据权利要求22所述的处理器,其中,所述监控单元被配置为通过终止对其中发生所述分支误预测的指令段中的指令的监控并丢弃所述规范的在所述段中收集的所述寄存器访问来回滚所述循环的寄存器访问。
25.根据权利要求22所述的处理器,其中,所述监控单元被配置为基于所述分支误预测之后的指令,将所述循环的寄存器访问回滚到与其中发生所述分支误预测的分支指令处或其之前的指令对应的先前状态。
26.根据权利要求22所述的处理器,其中,所述监控单元被配置为在所述规范中记录由所监控的指令访问的寄存器的分类,并且通过对所述寄存器中的一个或更多个进行重新分类来回滚所述循环的寄存器访问,以补偿所述分支误预测。
27.根据权利要求22-26中任一项所述的处理器,其中,所述监控单元被配置为保存在沿着所述指令的受监控的段的一个或更多个相应的分支指令处或其之前的所述规范的一个或更多个状态,以及通过恢复到与其中发生所述分支误预测的分支指令处或其之前的指令对应的保存状态来回滚所述循环的寄存器访问。
28.根据权利要求22-26中任一项所述的处理器,其中,所述监控单元被配置为基于以下中的一个来生成所监控的指令的流控制轨迹:
在所述执行流水线中从存储器中提取的分支指令;
在所述执行流水线中被解码的分支指令;以及
从存储器中提取的分支指令和被解码的分支指令两者。
29.根据权利要求22-26中任一项所述的处理器,其中,所述监控单元被配置为基于以下中的至少一个来在所述规范中记录对寄存器的最后写入操作在所述序列中的位置:
在所述执行流水线中被解码的指令;
在所述执行流水线中被执行的指令;以及
被提交了但由于所述分支误预测而未被清除的指令。
30.根据权利要求22-26中任一项所述的处理器,其中,所述监控单元被配置为仅在评估所述序列的条件分支指令的相应分支条件之后才收集所述寄存器访问。
CN201580063636.3A 2014-12-25 2015-12-09 通过监控重复指令序列的运行时代码并行化 Pending CN107003858A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/583,119 US9135015B1 (en) 2014-12-25 2014-12-25 Run-time code parallelization with monitoring of repetitive instruction sequences during branch mis-prediction
US14/583,119 2014-12-25
PCT/IB2015/059467 WO2016103091A1 (en) 2014-12-25 2015-12-09 Run-time code parallelization with monitoring of repetitive instruction sequences

Publications (1)

Publication Number Publication Date
CN107003858A true CN107003858A (zh) 2017-08-01

Family

ID=54063505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580063636.3A Pending CN107003858A (zh) 2014-12-25 2015-12-09 通过监控重复指令序列的运行时代码并行化

Country Status (4)

Country Link
US (2) US9135015B1 (zh)
EP (1) EP3238039A4 (zh)
CN (1) CN107003858A (zh)
WO (1) WO2016103091A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10180841B2 (en) * 2014-12-22 2019-01-15 Centipede Semi Ltd. Early termination of segment monitoring in run-time code parallelization
US9996354B2 (en) 2015-01-09 2018-06-12 International Business Machines Corporation Instruction stream tracing of multi-threaded processors
US9575897B2 (en) 2015-07-09 2017-02-21 Centipede Semi Ltd. Processor with efficient processing of recurring load instructions from nearby memory addresses
US10185561B2 (en) 2015-07-09 2019-01-22 Centipede Semi Ltd. Processor with efficient memory access
US9952863B1 (en) * 2015-09-01 2018-04-24 Apple Inc. Program counter capturing
US9430244B1 (en) 2015-10-28 2016-08-30 Centipede Semi Ltd. Run-time code parallelization using out-of-order renaming with pre-allocation of physical registers
US10013255B2 (en) 2015-11-01 2018-07-03 Centipede Semi Ltd. Hardware-based run-time mitigation of conditional branches
US9858075B2 (en) 2015-12-06 2018-01-02 Centipede Semi Ltd. Run-time code parallelization with independent speculative committing of instructions per segment
US11106467B2 (en) 2016-04-28 2021-08-31 Microsoft Technology Licensing, Llc Incremental scheduler for out-of-order block ISA processors
US20180004627A1 (en) 2016-06-29 2018-01-04 Centipede Semi Ltd. Sequential monitoring and management of code segments for run-time parallelization
US10452400B2 (en) 2018-02-26 2019-10-22 Centipede Semi Ltd. Multi-thread processor with multi-bank branch-target buffer
JP7100258B2 (ja) * 2018-10-10 2022-07-13 富士通株式会社 演算処理装置及び演算処理装置の制御方法
US11860723B2 (en) * 2021-12-28 2024-01-02 Capital One Services, Llc Systems and methods for parallelizing sequential processing requests using predicted correction data
US12099642B2 (en) 2022-02-14 2024-09-24 Seagate Technology Llc No latency hardware interposer

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101449238A (zh) * 2006-06-08 2009-06-03 国际商业机器公司 本地和全局分支预测信息存储
US7571302B1 (en) * 2004-02-04 2009-08-04 Lei Chen Dynamic data dependence tracking and its application to branch prediction
EP2239657A1 (en) * 2009-04-08 2010-10-13 Intel Corporation Register checkpointing mechanism for multithreading

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0463965B1 (en) * 1990-06-29 1998-09-09 Digital Equipment Corporation Branch prediction unit for high-performance processor
US5488729A (en) 1991-05-15 1996-01-30 Ross Technology, Inc. Central processing unit architecture with symmetric instruction scheduling to achieve multiple instruction launch and execution
US6308175B1 (en) 1996-04-04 2001-10-23 Lycos, Inc. Integrated collaborative/content-based filter structure employing selectively shared, content-based profile data to evaluate information entities in a massive information network
US5974538A (en) 1997-02-21 1999-10-26 Wilmot, Ii; Richard Byron Method and apparatus for annotating operands in a computer system with source instruction identifiers
US5966537A (en) 1997-05-28 1999-10-12 Sun Microsystems, Inc. Method and apparatus for dynamically optimizing an executable computer program using input data
US6035120A (en) 1997-05-28 2000-03-07 Sun Microsystems, Inc. Method and apparatus for converting executable computer programs in a heterogeneous computing environment
US6658447B2 (en) 1997-07-08 2003-12-02 Intel Corporation Priority based simultaneous multi-threading
US6092180A (en) 1997-11-26 2000-07-18 Digital Equipment Corporation Method for measuring latencies by randomly selected sampling of the instructions while the instruction are executed
US6463522B1 (en) 1997-12-16 2002-10-08 Intel Corporation Memory system for ordering load and store instructions in a processor that performs multithread execution
US6182210B1 (en) 1997-12-16 2001-01-30 Intel Corporation Processor having multiple program counters and trace buffers outside an execution pipeline
US6772324B2 (en) 1997-12-17 2004-08-03 Intel Corporation Processor having multiple program counters and trace buffers outside an execution pipeline
US6157998A (en) 1998-04-03 2000-12-05 Motorola Inc. Method for performing branch prediction and resolution of two or more branch instructions within two or more branch prediction buffers
US6202205B1 (en) 1998-07-21 2001-03-13 Hewlett-Packard Company System and method for profile-based, on-the-fly optimization of library code
JP2000132390A (ja) 1998-10-23 2000-05-12 Toshiba Corp プロセッサ及び分岐予測器
US6826752B1 (en) 1998-12-17 2004-11-30 California Institute Of Technology Programming system and thread synchronization mechanisms for the development of selectively sequential and multithreaded computer programs
US7051192B2 (en) * 2000-05-31 2006-05-23 Sun Microsystems, Inc. Facilitating value prediction to support speculative program execution
US20020144092A1 (en) 2001-01-31 2002-10-03 Siroyan Limited. Handling of loops in processors
US7313676B2 (en) 2002-06-26 2007-12-25 Intel Corporation Register renaming for dynamic multi-threading
US7185338B2 (en) 2002-10-15 2007-02-27 Sun Microsystems, Inc. Processor with speculative multithreading and hardware to support multithreading software
US7206927B2 (en) 2002-11-19 2007-04-17 Analog Devices, Inc. Pipelined processor method and circuit with interleaving of iterative operations
US20040154010A1 (en) 2003-01-31 2004-08-05 Pedro Marcuello Control-quasi-independent-points guided speculative multithreading
US7143273B2 (en) 2003-03-31 2006-11-28 Intel Corporation Method and apparatus for dynamic branch prediction utilizing multiple stew algorithms for indexing a global history
US7478198B2 (en) 2004-05-24 2009-01-13 Intel Corporation Multithreaded clustered microarchitecture with dynamic back-end assignment
US20060095732A1 (en) 2004-08-30 2006-05-04 Tran Thang M Processes, circuits, devices, and systems for scoreboard and other processor improvements
US20060047495A1 (en) 2004-09-01 2006-03-02 Jesus Sanchez Analyzer for spawning pairs in speculative multithreaded processor
US7933405B2 (en) 2005-04-08 2011-04-26 Icera Inc. Data access and permute unit
US7401329B2 (en) 2005-04-25 2008-07-15 Arm Limited Compiling computer programs to exploit parallelism without exceeding available processing resources
US20080134196A1 (en) 2005-05-19 2008-06-05 Intel Corporation Apparatus, System, and Method of a Memory Arrangement for Speculative Multithreading
US7313675B2 (en) 2005-06-16 2007-12-25 Intel Corporation Register allocation technique
US20080320276A1 (en) 2005-08-04 2008-12-25 Heinz Gerald Krottendorfer Digital Computing Device with Parallel Processing
US7779069B2 (en) 2005-09-09 2010-08-17 Soonr Corporation Network adapted for mobile devices
KR100806274B1 (ko) 2005-12-06 2008-02-22 한국전자통신연구원 멀티 쓰레디드 프로세서 기반의 병렬 시스템을 위한 적응형실행 방법
US8677104B2 (en) 2006-05-30 2014-03-18 Arm Limited System for efficiently tracing data in a data processing system
US7882381B2 (en) 2006-06-29 2011-02-01 Intel Corporation Managing wasted active power in processors based on loop iterations and number of instructions executed since last loop
US8189468B2 (en) 2006-10-25 2012-05-29 Embarq Holdings, Company, LLC System and method for regulating messages between networks
US7596781B2 (en) 2006-10-16 2009-09-29 International Business Machines Corporation Register-based instruction optimization for facilitating efficient emulation of an instruction stream
US8261046B2 (en) 2006-10-27 2012-09-04 Intel Corporation Access of register files of other threads using synchronization
US8438370B1 (en) 2006-12-08 2013-05-07 Nvidia Corporation Processing of loops with internal data dependencies using a parallel processor
US20080163230A1 (en) 2006-12-29 2008-07-03 Fernando Latorre Method and apparatus for selection among multiple execution threads
US8141051B2 (en) 2006-12-29 2012-03-20 Intel Corporation Methods and apparatus to collect runtime trace data associated with application performance
US8196117B2 (en) 2007-01-03 2012-06-05 Hewlett-Packard Development Company, L.P. Merging sample based profiling data
US8291197B2 (en) 2007-02-12 2012-10-16 Oracle America, Inc. Aggressive loop parallelization using speculative execution mechanisms
US8667471B2 (en) 2007-03-30 2014-03-04 Sap Ag Method and system for customizing profiling sessions
US8006235B2 (en) 2007-06-11 2011-08-23 Microsoft Corporation Profiler management
US7921278B2 (en) 2008-03-10 2011-04-05 International Business Machines Corporation Early exit processing of iterative refinement algorithm using register dependency disable
US8677337B2 (en) 2008-05-01 2014-03-18 Oracle America, Inc. Static profitability control for speculative automatic parallelization
US20090327674A1 (en) 2008-06-27 2009-12-31 Qualcomm Incorporated Loop Control System and Method
WO2010060084A2 (en) 2008-11-24 2010-05-27 Intel Corporation Systems, methods, and apparatuses to decompose a sequential program into multiple threads, execute said threads, and reconstruct the sequential execution
US9952869B2 (en) * 2009-11-04 2018-04-24 Ceva D.S.P. Ltd. System and method for using a branch mis-prediction buffer
US8572359B2 (en) 2009-12-30 2013-10-29 International Business Machines Corporation Runtime extraction of data parallelism
US20110320787A1 (en) 2010-06-28 2011-12-29 Qualcomm Incorporated Indirect Branch Hint
EP2434404B1 (en) 2010-09-27 2017-08-23 Intel Deutschland GmbH Method and arrangement for streaming data profiling
US8966457B2 (en) 2011-11-15 2015-02-24 Global Supercomputing Corporation Method and system for converting a single-threaded software program into an application-specific supercomputer
US8949809B2 (en) 2012-03-01 2015-02-03 International Business Machines Corporation Automatic pipeline parallelization of sequential code
JP2014016894A (ja) 2012-07-10 2014-01-30 Renesas Electronics Corp 並列演算装置、並列演算装置を備えたデータ処理システム、及び、データ処理プログラム
US8843901B2 (en) 2013-02-12 2014-09-23 Concurix Corporation Cost analysis for selecting trace objectives
US9811342B2 (en) 2013-03-15 2017-11-07 Intel Corporation Method for performing dual dispatch of blocks and half blocks
EP2972845B1 (en) 2013-03-15 2021-07-07 Intel Corporation A method for executing multithreaded instructions grouped onto blocks
US10241793B2 (en) 2013-03-15 2019-03-26 Analog Devices Global Paralleizing loops in the presence of possible memory aliases
WO2014150971A1 (en) 2013-03-15 2014-09-25 Soft Machines, Inc. A method for dependency broadcasting through a block organized source view data structure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7571302B1 (en) * 2004-02-04 2009-08-04 Lei Chen Dynamic data dependence tracking and its application to branch prediction
CN101449238A (zh) * 2006-06-08 2009-06-03 国际商业机器公司 本地和全局分支预测信息存储
EP2239657A1 (en) * 2009-04-08 2010-10-13 Intel Corporation Register checkpointing mechanism for multithreading

Also Published As

Publication number Publication date
WO2016103091A1 (en) 2016-06-30
EP3238039A1 (en) 2017-11-01
US9135015B1 (en) 2015-09-15
WO2016103091A9 (en) 2017-04-27
US20170277544A1 (en) 2017-09-28
EP3238039A4 (en) 2018-08-22

Similar Documents

Publication Publication Date Title
CN107003858A (zh) 通过监控重复指令序列的运行时代码并行化
US20160291982A1 (en) Parallelized execution of instruction sequences based on pre-monitoring
US9208066B1 (en) Run-time code parallelization with approximate monitoring of instruction sequences
US9348595B1 (en) Run-time code parallelization with continuous monitoring of repetitive instruction sequences
US7707398B2 (en) System and method for speculative global history prediction updating
US9715390B2 (en) Run-time parallelization of code execution based on an approximate register-access specification
US8090996B2 (en) Detecting soft errors via selective re-execution
US9952871B2 (en) Controlling execution of instructions for a processing pipeline having first out-of order execution circuitry and second execution circuitry
GB2501582A (en) Issuing speculative load instructions to cache memory
EP3306468A1 (en) A method and a processor
US20170010973A1 (en) Processor with efficient processing of load-store instruction pairs
JP5403973B2 (ja) アウト・オブ・オーダ・プロセッサにおける述語型実行のための方法および装置
US9575897B2 (en) Processor with efficient processing of recurring load instructions from nearby memory addresses
US10613866B2 (en) Method of detecting repetition of an out-of-order execution schedule, apparatus and computer-readable medium
US10185561B2 (en) Processor with efficient memory access
US10296350B2 (en) Parallelized execution of instruction sequences
EP3238040A1 (en) Run-time code parallelization with continuous monitoring of repetitive instruction sequences
CN107710153B (zh) 具有有效的存储器访问的处理器
WO2016156955A1 (en) Parallelized execution of instruction sequences based on premonitoring
US10180841B2 (en) Early termination of segment monitoring in run-time code parallelization
WO2017072615A1 (en) Hardware-based run-time mitigation of conditional branches
KR102858913B1 (ko) 커밋 윈도우 이동 요소
US20170010972A1 (en) Processor with efficient processing of recurring load instructions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170801