CN109886416A

CN109886416A - 集成人工智能模块的系统芯片及机器学习方法

Info

Publication number: CN109886416A
Application number: CN201910104560.4A
Authority: CN
Inventors: 连荣椿; 王海力; 马明
Original assignee: Jing Wei Qi Li (beijing) Technology Co Ltd
Current assignee: Jing Wei Qi Li (beijing) Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-14

Abstract

一种集成人工智能AI模块的系统芯片及机器学习方法。在实施例中，系统芯片包括：处理器，配置有总线；AI模块，通过总线接口模块连接到总线上；AI模块包括具有第一存储器的处理单元；FPGA模块，通过总线接口模块连接到总线上，为AI模块提供机器学习用的数据；非易失性存储器，通过总线接口模块连接到总线上，用于存储权重系数。通过将机器学习过程中的权重系数保存在非易失性存储器中，可以加快机器学习进程，还可以避免因为意外事件导致的学习中断。

Description

集成人工智能模块的系统芯片及机器学习方法

技术领域

本发明涉及集成电路技术领域，尤其涉及一种集成人工智能模块的系统芯片及机器学习方法。

背景技术

近年来，人工智能迎来一波发展浪潮。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。

当前，人工智能模块由处理器通过总线来进行访问控制，而总线是有一定的带宽限制，这样的架构难以适应AI模块的大带宽需求。

发明内容

根据第一方面，提供一种系统芯片，包括：处理器，配置有总线；至少一个AI模块，通过总线接口模块连接到总线上；至少一个AI模块中的各AI模块包括具有第一存储器的处理单元；至少一个FPGA模块，通过总线接口模块连接到总线上，为AI模块提供机器学习用的数据；非易失性存储器，通过总线接口模块连接到总线上，用于存储权重系数；其中，在处理器控制下，AI模块从非易失性存储器读取权重系数并且写入第一存储器，并且利用第一存储器中的权重系数进行机器学习；处理器还控制将基于机器学习后更新的权重系数写入非易失性存储器。

优选地，系统芯片包括第二存储器，所述第二存储器用作缓冲器；其中，所述权重系数可以从非易失性存储器读出经第二存储器写入第一存储器，或者从第一存储器读出经第二存储器写入非易失性存储器。

优选地，至少一个FPGA模块中的一个模块提供寄存器，用作缓冲器；其中，所述权重系数可以从非易失性存储器读出经寄存器写入第一存储器，或者从第一存储器读出经寄存器写入非易失性存储器。

优选地，FPGA模块为AI模块提供机器学习用的数据。

根据第二方面，提供一种机器学习方法，由系统芯片实施，所述系统芯片包括：处理器，配置有总线；AI模块，通过总线接口模块连接到总线上，AI模块包括具有第一存储器的处理单元；FPGA模块，通过总线接口模块连接到总线上；非易失性存储器，用于存储权重系数；所述方法包括：从非易失性存储器读取权重系数；将权重系数写入AI模块的各处理单元的第一存储器中；启动AI模块利用第一存储器中的权重系数进行机器学习。

优选地，所述方法包括在从非易失性存储器读取权重系数之后，利用处理器的存储器或者FPGA的寄存器进行数据读取的缓冲。

根据第三方面，提供一种机器学习方法，由系统芯片实施，所述系统芯片包括：处理器，配置有总线；AI模块，通过总线接口模块连接到总线上，AI模块包括具有第一存储器的处理单元，所述第一存储器存储机器学习用的权重系数；FPGA模块，通过总线接口模块连接到总线上；非易失性存储器；所述方法包括：AI模块利用其自身各处理单元的存储器中存储的权重系数进行机器学习；根据机器学习更新所述存储器中的权重系数；根据处理器的控制指令，将权重系数写入非易失性存储器。

优选地，所述方法包括在从非易失性存储器读取权重系数之后，利用处理器的存储器或者FPGA模块的寄存器进行数据读取的缓冲。

根据第四方面，提供一种机器学习方法，由系统芯片实施，所述系统芯片包括：处理器，配置有总线；AI模块，通过总线接口模块连接到总线上，AI模块包括具有第一存储器的处理单元；FPGA模块，通过总线接口模块连接到总线上；非易失性存储器，用于存储权重系数；所述方法包括：从非易失性存储器读取权重系数；将权重系数写入AI模块的各处理单元的第一存储器中；启动AI模块利用权重系数进行机器学习；AI模块利用其自身各处理单元的第一存储器中存储的权重系数进行机器学习；根据机器学习结果更新所述第一存储器中的权重系数；定期将权重系数写入非易失性存储器。

通过将机器学习过程中的权重系数保存在非易失性存储器中，可以加快机器学习进程，还可以避免因为意外事件导致的学习中断。

附图说明

图1是根据本发明实施例的集成人工智能模块的系统芯片结构示意图；

图2是FPGA电路的结构示意图；

图3是人工智能模块的结构示意图；

图4是处理单元的示意图；

图5是图4的处理单元中的存储器MEM以字式访问实现的示意图；

图6是图4的处理单元中的存储器MEM以比特式访问实现的示意图；

图7是对AI模块的各处理单元写权重和读权重的示意图。

具体实施方式

为使本发明实施例的技术方案以及优点表达的更清楚，下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

在本申请的描述中，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“东”、“南”、“西”、“北”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

图1是根据本发明实施例的集成人工智能模块的系统芯片结构示意图。如图1所示，系统芯片上集成有至少一个FPGA模块和至少一个人工智能模块。

各FPGA模块可实现逻辑、计算、控制等各种功能。FPGA利用小型查找表(例如，16×1RAM)来实现组合逻辑，每个查找表连接到一个D触发器的输入端，触发器再来驱动其他逻辑电路或驱动I/O，由此构成了既可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元模块，这些模块间利用金属连线互相连接或连接到I/O模块。FPGA的逻辑是通过向内部静态存储单元加载编程数据来实现的，存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与I/O间的联接方式，并最终决定了FPGA所能实现的功能。FPGA模块可以配置有可配置输入输出(C.IO)。

各人工智能模块可实现或加速经预先选定的特定AI功能，包括人工智能(Artificial Intelligence AI)、深度学习(Deep Learning DL)、机器学习(MachineLearning ML)等各种算法或加速算法中某一步骤的特定功能(如卷积Convolution、矩阵Matrix/张量运算Tensor Operation等)。人工智能(AI)模块可包含由多个功能模块(FU)组成的阵列，各功能模块可包含类似ALU或乘累加器(MAC)的功能单元、寄存器、复用器MUX等。人工智能模块配置有固定的输入/输出(F.IO)，当然也可以包含可配置的输出入输出(Configurable IO)。

FPGA模块和人工智能模块的大小并无限定，在设计时由实际应用决定。

在占用芯片布局方面，一般是安排FPGA模块与人工智能模块相邻。FPGA模块和AI模块可以并排放置，此时FPGA模块可以为AI模块传输数据，提供控制。AI模块也可以嵌入FPGA模块之中；比如，FPGA模块较大，人工智能模块较小的情况时，亦可在大片的FPGA模块中挖空一窗口，内置入人工智能模块；此时，AI模块需要复用FPGA模块的绕线架构，以便通过复用的FPGA模块的绕线架构接收和发送数据。

系统芯片上还集成有处理器。处理器例如采用ARM+8051、ARM+RISC_V、RISC_V+8051等架构。处理器有总线BUS，可以通过总线访问其它器件。处理器可以有片上本地存储器。

各FPGA模块用各自的总线接口模块BIM，分别连接到BUS。同样，AI模块也用各自的BIM分别连接到BUS。

在一个例子中，系统芯片上还设置有与AI模块相对应的接口，FPGA模块和AI模块通过接口模块连通。接口模块可以是绕线(XBAR)模块，XBAR模块例如由多个选择器(Multiplexer)和选择位元组成。接口模块也可以是FIFO(先进先出)。接口模块还可以是同步器(Synchronizer)，同步器例如由2个触发器(Flip-Flop或FF)串连而成。FPGA模块可以为AI模块传输数据，提供控制。接口模块可以是额外的电路模块，也可以是FPGA内带的接口模块，或者同时有两者。

在实施例中，当应用在机器学习时，根据运算结果持续更新AI模块中存储器MEM内存的权重(weight)参数，以实现学习目标。

在初始时，处理器将AI模块内的各处理单元PE的存储单元MEM设定为初始学习状态，将(权重weight写入各PE的存储器MEM模块)。

当正常学习时，经由处理大量数据，并观测输出结果，系统决定逐步更新权重，逐步优化输出结果。通常，一般应用在学习时要用大量数据，过程费时持久。

在学习时，可以定期(比如设定的checkpoint)暂停，并将AI模块的各PE内的MEM内容(权重)数据存写到NVM(非易失性存储器，Non-Volatile Memory)，如闪存FLASH、磁存储器(MRAM)、可变电阻式存储器(ReRAM)中。

在学习训练结束后，权重系数将被确定。AI模块可以基于机器学习所优化后的权重系数实施相关的计算机应用。

通常，在学习过程中如遇断电、中断等各种问题后，系统需要重新启动。由于预先将参数存储在NVM中，如果重新启动，就此时无需从头再开始学习，只需将所存最新学习结果由NVM取回，再置入AI模块的各PE的MEM内，即可回复原已学习的状态，即可再继续余下的学习过程。

在一个实施例中，实际读写NVM时可以由SRAM或寄存器文件(Register File)做缓冲(Buffer)。在一个例子中，FPGA内的EMB可用作缓冲。

在一种情形下，在处理器的控制下，从NVM读取权重参数经总线、BIM写入AI模块。也可以沿相反的路径将更新后的权重从AI模块读出写入NVM中。

在另一种情形下，在处理器的控制下，经总线从NVM读取权重参数写入SRAM，然后再写入AI模块。也可以沿相反的路径将更新后的权重从AI模块读出写入NVM中。

在另一种情形下，首先处理器将FPGA模块中的部分EMB配置为缓冲器；在处理器的控制下，经总线从NVM读取权重参数写入FPGA的EMB，然后再写入AI模块。也可以沿相反的路径将更新后的权重从AI模块读出写入NVM中。

图2是FPGA电路的结构示意图。如图2所示，FPGA电路可包含有多个可编程逻辑模块(LOGIC)、嵌入式存储块(EMB)、乘累加器(MAC)等模块和相应的绕线(XBAR)。当然，FPGA电路还设有时钟/配置模块(主干spine/支干seam)等相关资源。若需要EMB或MAC模块时，因其面积比PLB大许多，故以此EMB/MAC模块取代若干PLB模块。

LOGIC模块可以包含，例如，8个6输入查找表,18个寄存器。

EMB包含若干个可扩充的存储小块，其可连成一大块例如36Kb的存储，包含各种宽度/深度的选择。

MAC模块可以是，例如，25x18乘法器，或2个18x18乘法器。MAC模块还可以搭配例如48位的累加器。

FPGA阵列中，LOGIC、MAC、EMB各模块数量的占比并无限制，阵列的大小也根据需要，在设计时由实际应用决定。

绕线资源(XBAR)是各模块间互联的接点，均匀地分布在FPGA模块内。FPGA模块内所有的资源，PLB、EMB、MAC、IO相互之间的绕线都是经有一个相同的界面，即绕线XBAR单元来实现。由绕线方式来看，整个阵列是相同一致，整齐排列的XBAR单元形成网格，将FPGA内所有模块相连。

图3是人工智能模块的结构示意图。如图3所示，人工智能AI模块是一个二维阵列，例如包括4X4个执行单元EU。AI模块可分为两个维度，彼此垂直的第一维度和第二维度。以第一执行单元、第二执行单元和第三执行单元为例。第一执行单元和第二执行单元沿第一维度沿第一方向相邻排列；第一执行单元沿第一方向的第一输出端耦合到第二执行单元沿第一方向的相反方向的第一输入端。第一执行单元和第三执行单元沿第二维度且沿第二方向相邻排列，第一执行单元沿第二方向的第二输出端耦合到第三执行单元沿第二方向的相反方向的第二输入端。

一维数据a可以沿第一维度在同一时钟下并行输入相同第二维度值的各处理单元；数据在各处理单元中和存储在单元中的另一维数据(系数)W相乘；乘积沿第二维度沿第二方向通过各处理单元传输，并且彼此相加。为理解方便起见，下文将以水平维度为第一维度、左向右为第一方向，以垂直维度为第二维度、上向下为第二方向。

执行单元在接收数据后，对数据进行各种运算，例如加减乘除，逻辑运算等等。执行单元将运算结果沿第一维度第一方向或者第二维度第二方向输出。

当然，通过控制，同一个数据或者由其衍生的数据可以在不同的时钟下流经所有的PE单元。

需要注意，图3中的每条数据线既可代表单比特的信号，也可代表8(或16，32)比特的信号。

在一个例子中，人工智能模块可以实现矩阵乘法。在另一个例子中，二维阵列可以实现卷积算法。

虽然图3中示意了单向流动的AI模块，但是本发明实施例适用于其它类型的AI模块，比如双向数据流动的AI模块。

图4是处理单元的示意图。如图4所示，处理单元包括乘法器MUL，加法器ADD。数据沿第一维度第一方向自第一数据输入端口DI输入，在乘法器MUL处和存储在系数存储器MEM中的权重(weight)系数W相乘；然后，该乘积在加法器ADD处和来自第二数据输入端口PI的数据P相加，相加之后的和值寄存在寄存器REG1中。在下一个时钟时，和值S经第二输出端PO沿第二维度第二方向输出。和值S经第二输出端PO输出后可以经输入端口PI输入位于下方的另一个PE。

当然，数据a还可以寄存在寄存器REG2中，并且在时钟控制下经第一输出端DO沿第一维度第一方向输出到在右侧的处理单元PE。

时钟CK用于控制各处理单元同步工作。

使能信号EN用于启动或暂停处理单元的处理进程。

图5是图4的处理单元中的存储器MEM以字式访问实现的示意图。可以通过专用的路径来访问存储器。如图5所示，存储器包括多个D触发器，这些D触发器彼此级联，即前一个D触发器的输出端串联连接到后一个D触发器的输入端；系数数据按比特从第一个D触发器的D输入端输入，然后经各输出端Q输出为Q0-Q7。Q0-Q7可以北提供作为系数数据。时钟CK控制各D触发器的同步工作。使能信号EN用于确定D触发器是否启动或暂停。需要注意，不同部件的使能信号EN是不同，由此不同部件的启动或暂停也并不同步。

图6是图4的处理单元中的存储器MEM以比特式访问实现的示意图。不同于图5的地方仅在于存储器MEM的访问采用比特方式。

图7是对AI模块的各处理单元写权重和读权重的示意图。当需要写权重时，可以利用左侧的写权重模块从NVM中读取权重，然后向AI模块写入权重。当需要从AI模块中读取权重时，可以将AI模块中的权重数据依次写入读权重模块，继而写入NVM中。写权重模块和读权重模块可以采用单独的电路模块实现，也可以采用FPGA模块的子模块实现。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种系统芯片，包括：

处理器，配置有总线；

至少一个人工智能AI模块，通过总线接口模块连接到总线上；至少一个AI模块中的各AI模块包括具有第一存储器的处理单元；

至少一个FPGA模块，通过总线接口模块连接到总线上，为AI模块提供机器学习用的数据；

非易失性存储器，通过总线接口模块连接到总线上，用于存储权重系数；

其中，在处理器控制下，AI模块从非易失性存储器读取权重系数并且写入第一存储器，并且利用第一存储器中的权重系数进行机器学习；处理器还控制将基于机器学习后更新的权重系数写入非易失性存储器。

2.根据权利要求1所述的系统芯片，其特征在于，包括第二存储器，所述第二存储器用作缓冲器；其中，所述权重系数可以从非易失性存储器读出经第二存储器写入第一存储器，或者从第一存储器读出经第二存储器写入非易失性存储器。

3.根据权利要求1所述的系统芯片，其特征在于，至少一个FPGA模块中的一个模块提供寄存器，用作缓冲器；其中，所述权重系数可以从非易失性存储器读出经寄存器写入第一存储器，或者从第一存储器读出经寄存器写入非易失性存储器。

4.根据权利要求1所述的系统芯片，其特征在于，FPGA模块为AI模块提供机器学习用的数据。

5.一种机器学习方法，由系统芯片实施，所述系统芯片包括：处理器，配置有总线；AI模块，通过总线接口模块连接到总线上，AI模块包括具有第一存储器的处理单元；FPGA模块，通过总线接口模块连接到总线上；非易失性存储器，用于存储权重系数；所述方法包括：从非易失性存储器读取权重系数；将权重系数写入AI模块的各处理单元的第一存储器中；启动AI模块利用第一存储器中的权重系数进行机器学习。

6.如权利要求5所述的机器学习方法，其特征在于，所述方法包括在从非易失性存储器读取权重系数之后，利用处理器的存储器或者FPGA的寄存器进行数据读取的缓冲。

7.一种机器学习方法，由系统芯片实施，所述系统芯片包括：处理器，配置有总线；AI模块，通过总线接口模块连接到总线上，AI模块包括具有第一存储器的处理单元，所述第一存储器存储机器学习用的权重系数；FPGA模块，通过总线接口模块连接到总线上；非易失性存储器；所述方法包括：AI模块利用其自身各处理单元的存储器中存储的权重系数进行机器学习；根据机器学习更新所述存储器中的权重系数；根据处理器的控制指令，将权重系数写入非易失性存储器。

8.如权利要求7所述的机器学习方法，其特征在于，所述方法包括在从非易失性存储器读取权重系数之后，利用处理器的存储器或者FPGA模块的寄存器进行数据读取的缓冲。

9.一种机器学习方法，由系统芯片实施，所述系统芯片包括：处理器，配置有总线；AI模块，通过总线接口模块连接到总线上，AI模块包括具有第一存储器的处理单元；FPGA模块，通过总线接口模块连接到总线上；非易失性存储器，用于存储权重系数；所述方法包括：

从非易失性存储器读取权重系数；将权重系数写入AI模块的各处理单元的第一存储器中；启动AI模块利用权重系数进行机器学习；AI模块利用其自身各处理单元的第一存储器中存储的权重系数进行机器学习；根据机器学习结果更新所述第一存储器中的权重系数；定期将权重系数写入非易失性存储器。