CN106227684A

CN106227684A - 一种高性能dsp访存流水线及其实现方法

Info

Publication number: CN106227684A
Application number: CN201610627640.4A
Authority: CN
Inventors: 胡孔阳; 刘小明; 郭二辉; 刘玉; 李泉泉; 王媛
Original assignee: CETC 38 Research Institute
Current assignee: CETC 38 Research Institute
Priority date: 2016-08-03
Filing date: 2016-08-03
Publication date: 2016-12-14
Anticipated expiration: 2036-08-03
Also published as: CN106227684B

Abstract

本发明涉及一种高性能DSP访存流水线，包括：访存地址计算模块，用于根据访存指令形式产生多个有效地址；访存地址冲突解决模块，用于判断多个地址的存储器访问冲突及确定地址发射排序；访存请求发送模块；访存请求接收模块；核间访存请求发送模块，用于检测核间访存请求，并将其发送出去；读访存数据回收模块，用于拼接发生冲突的多个读地址在多周期后返回的数据；读访存数据输出模块，用于输出读访存数据。本发明以流水线形式实现数据SRAM的读写；流水线深度较短，仅为５级，即单指令执行需要５个时钟周期；核间访存指令发送与接收模块可以实现两个DSP内核的紧耦合；访存地址冲突解决方案可以实现最大的数据吞吐效率。

Description

一种高性能DSP访存流水线及其实现方法

技术领域

本发明涉及数字信号处理器技术领域，尤其是一种高性能DSP访存流水线及其实现方法。

背景技术

数字信号处理器DSP相较通用中央处理器CPU的优势之一在于其强大的数据运算能力，在DSP内核集成了数目较多的算术逻辑运算单元或是特殊处理单元，而为了最大限度的发挥这些运算部件的并行性，需要设计与之吞吐率相配套的访存通道。

目前，主流的DSP均以数据Cache取代访存功能，数据Cache的工作原理是程序运行的局部性，如果运行的程序局部性差，会造成频繁的Cache缺失，所以数据Cache难以保证实时处理的要求。同时，与数据Cache相配套的往往是分层的存储结构，数据Cache位于分层存储结构的顶端，内置的SRAM一般较小（K级），不利于多核共享数据存储。

发明内容

本发明的首要目的在于提供一种在片内设置规模较大的SRAM以取代数据Cache的功能，并具有速度更快、数据空间更大的优点的高性能DSP访存流水线。

为实现上述目的，本发明采用了以下技术方案：一种高性能DSP访存流水线，包括：

访存地址计算模块，用于根据访存指令形式产生多个有效地址；

访存地址冲突解决模块，用于判断多个地址的存储器访问冲突及确定地址发射排序；

访存请求发送模块，用于将访问邻核的访存请求发送至邻核；

访存请求接收模块，用于接收由邻核发送过来的的访存请求；

核间访存请求发送模块，用于检测核间访存请求，并将其发送出去；

读访存数据回收模块，用于拼接发生冲突的多个读地址在多周期后返回的数据，回收过程是访存地址冲突解决的逆过程；

读访存数据输出模块，用于输出读访存数据。

所述访存地址计算模块的计算访存地址的公式为：ADDR=Rn+Rm+C，其中，ADDR为访存地址；Rn为参与计算的基地址；Rm为参与计算的偏移地址；C为立即数。

所述访存地址冲突解决模块，当访存指令计算出多个地址时，不冲突的地址同时发射，冲突的地址按下标大小顺序发射。

每个DSP内核均提供一组核间访存指令发送和接收模块，A核的发送模块连接B核的接收模块，A核的接收模块连接B核的发送模块，即实现AB两核的耦合。

本发明的另一目的在于提供一种高性能DSP访存流水线的实现方法，该方法包括下列顺序的步骤：

（1）访存地址计算模块根据指令译码产生的基地址、偏移地址以及地址计算公式计算访存地址；

（2）访存地址冲突解决模块根据访存地址冲突情况决定向后级流水的发射顺序；同时，并行实现核间访存请求的接收逻辑，接收到的访存请求会参与本核访存请求的仲裁；

（3）访存请求发送模块将访存微请求发送至SRAM接口；

（4）核间访存请求发送模块获取SRAM输出数据并寄存，同时将核间访存请求发送至邻核；

（5）读访存数据回收模块收集读访存数据；

（6）读访存数据输出模块输出读访存数据。

由上述技术方案可知，本发明的优点在于：第一，以流水线形式实现数据SRAM的读写；第二，流水线深度较短，仅为５级，即单指令执行需要５个时钟周期；第三，核间访存指令发送与接收模块可以实现两个DSP内核的紧耦合；第四，访存地址冲突解决方案可以实现最大的数据吞吐效率。

附图说明

图1为访存部件流水线及主要逻辑分部框图；

图2为片内SRAM存储器示意图；

图3为访存地址计算原理示意图；

图4为访存地址冲突解决示意图；

图5为读访存数据回收原理示意图。

具体实施方式

如图1所示，一种高性能DSP访存流水线，包括访存地址计算模块，用于根据访存指令形式产生多个有效地址；访存地址冲突解决模块，用于判断多个地址的存储器访问冲突及确定地址发射排序；访存请求发送模块，用于将访问邻核的访存请求发送至邻核；访存请求接收模块，用于接收由邻核发送过来的的访存请求；核间访存请求发送模块，用于检测核间访存请求，并将其发送出去；读访存数据回收模块，用于拼接发生冲突的多个读地址在多周期后返回的数据，回收过程是访存地址冲突解决的逆过程；读访存数据输出模块，用于输出读访存数据。

如图1所示，所述访存地址计算模块的计算访存地址的公式为：ADDR=Rn+Rm+C，其中，ADDR为访存地址；Rn为参与计算的基地址；Rm为参与计算的偏移地址；C为立即数。按照一定的基地址偏移规则，可以产生１至８个有效地址。

所述访存地址冲突解决模块，当访存指令计算出多个地址时，地址之间有可能访问相同一块数据存储区域，此时需要合理安排地址之间的发射顺序。采取的最优解决方案为：不冲突的地址同时发射，冲突的地址按下标大小顺序发射。这样可以实现最小的执行周期，提高访存效率。

DSP一条执行指令可以包含多个读访存地址，这些地址是在同一周期计算出来，同样需要在相同周期内返回数据。读访存数据回收逻辑是通过统计访存地址冲突解决模块地址冲突的节拍来判断数据是否准备就绪。地址冲突节拍随流水线由访存地址冲突解决模块带至读访存数据回收模块。

如图1所示，本实现方法包括下列顺序的步骤：（1）访存地址计算模块根据指令译码产生的基地址、偏移地址以及地址计算公式计算访存地址；（2）访存地址冲突解决模块根据访存地址冲突情况决定向后级流水的发射顺序；由于发射可能需要多周期，该逻辑可能会引起流水线停顿，同时，并行实现核间访存请求的接收逻辑，接收到的访存请求会参与本核访存请求的仲裁；（3）访存请求发送模块将访存微请求发送至SRAM接口；（4）核间访存请求发送模块获取SRAM输出数据并寄存，同时将核间访存请求发送至邻核；（5）读访存数据回收模块收集读访存数据；（6）读访存数据输出模块输出读访存数据。

如图2所示，片内SRAM存储器由于规模较大，需要以较小的SRAM根据地址片选加以组合。图2中示意了以8Kx32的SRAM组合成为48Mb SRAM的原理，48Mb SRAM根据地址高位分为6个block，每个block再根据地址低位分为8个bank，中间位为bank内偏移地址。

如图3所示，访存地址计算是与指令集中定义的访存指令相匹配的，典型的访存地址计算模式包含：单字地址、双字地址、模８地址、双模8地址、位反序地址等。访存地址运算主要逻辑部件是多比特加法器与选择器。考虑到多比特加法器组合逻辑延时较大，为平衡流水线各级的时间，将访存地址计算单独设计为一级流水。

如图4所示，指令0和指令1是先后进行流水线的两条访存指令。指令0包含两条读访存请求，DSP支持SIMD，并且访问相同的block，指令0中的读访存0包含4个地址，并且需要４个时钟周期，指令0中的读访存1需要3个时钟周期，则该指令行一共需要7个时钟周期。指令1包含一条读访存指令和两条写访存指令，读访存需要1个时钟周期，写访存0需要1个时钟周期，写访存1需要3个时钟周期，两个写访存访问相同的block，该指令行一共需要4个时钟周期。

如图5所示，读访存数据回收逻辑是比较访存地址冲突解决模块地址冲突节拍与总节拍数来确认数据是否收集完毕。如果冲突节拍小于总节拍数，则更新读访存数据输出模块数据寄存器；如果冲突节拍等于总节拍数，则表示数据收集完毕。

综上所述，本发明以流水线形式实现数据SRAM的读写；流水线深度较短，仅为５级，即单指令执行需要５个时钟周期；核间访存指令发送与接收模块可以实现两个DSP内核的紧耦合；访存地址冲突解决方案可以实现最大的数据吞吐效率。

Claims

1.一种高性能DSP访存流水线，其特征在于：包括：

读访存数据输出模块，用于输出读访存数据。

2.根据权利要求1所述的高性能DSP访存流水线，其特征在于：所述访存地址计算模块的计算访存地址的公式为：ADDR=Rn+Rm+C，其中，ADDR为访存地址；Rn为参与计算的基地址；Rm为参与计算的偏移地址；C为立即数。

3.根据权利要求1所述的高性能DSP访存流水线，其特征在于：所述访存地址冲突解决模块，当访存指令计算出多个地址时，不冲突的地址同时发射，冲突的地址按下标大小顺序发射。

4.根据权利要求1所述的高性能DSP访存流水线，其特征在于：每个DSP内核均提供一组核间访存指令发送和接收模块，A核的发送模块连接B核的接收模块，A核的接收模块连接B核的发送模块，即实现AB两核的耦合。

5.根据权利要求1至4中任一项所述的高性能DSP访存流水线的实现方法，该方法包括下列顺序的步骤：

（3）访存请求发送模块将访存微请求发送至SRAM接口；

（5）读访存数据回收模块收集读访存数据；

（6）读访存数据输出模块输出读访存数据。