CN113810086A

CN113810086A - 信道信息反馈方法、通信装置及存储介质

Info

Publication number: CN113810086A
Application number: CN202110181656.8A
Authority: CN
Inventors: 胡斌; 张公正; 徐晨; 王坚; 郭凯洋; 李榕
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-06-12
Filing date: 2021-02-10
Publication date: 2021-12-17

Abstract

本申请公开了一种信道信息反馈方法、通信装置及存储介质，涉及通信领域。本申请中，网络设备可以通过下行信道向终端发送信道状态信息参考信号CSI‑RS。终端可以根据接收到的CSI‑RS，测量估计下行信道的信道矩阵，根据下行信道的信道矩阵，通过第一神经网络确定下行信道对应的信道协商信息CNI，并向网络设备发送下行信道对应的CNI。网络设备可以根据接收到的下行信道对应的CNI确定下行信道对应的调制与编码策略MCS。其中，第一神经网络的参数与历史MCS相关。本申请可以减少终端在对信道矩阵进行量化时的量化误差，能够有效提高信道信息反馈的准确性。另外，终端通过第一神经网络所确定的下行信道对应的CNI的信息熵较小，还可以提高信道信息反馈的高效性。

Description

信道信息反馈方法、通信装置及存储介质

技术领域

本申请实施例涉及通信领域，尤其涉及一种信道信息反馈方法、通信装置及存储介质。

背景技术

大规模天线阵列(Massive Multiple-Input Multiple-Output，Massive MIMO)是第五代移动通信技术(fifth-generation，5G)新空口(New Radio，NR)中提高系统容量和频谱利用率的关键技术。基于Massive MIMO的通信系统中，基站可以采用波束成形的方式，将需要发送给用户设备(User Equipment，UE)的信号进行增强，以提高信号质量。例如，基站可以获取下行信道的信道信息，并根据下行信道的信道信息确定最佳的波束和对应的调制与编码策略(Modulation and Coding Scheme，MCS)。

而在频分双工(Frequency-Division Duplex，FDD)通信系统中，上行信道和下行信道占用不同的频带，且大多数上行信道和下行信道几乎独立，不满足信道互易性。所以，只能通过UE将下行信道的信道信息反馈到基站。例如，在FDD通信系统中，基站和UE可以分别存储一个相同的码本。UE可以将测量估计的下行信道的信道矩阵量化至码本中的码字进行表示，并将该码字对应的码本索引反馈给基站。基站可以根据接收到的码本索引，从存储的码本中确定对应的码字，从而获知下行信道的信道信息。

但是，上述基于码本的信道信息反馈的方式中，UE在将测量估计的下行信道的信道矩阵量化至码本中的码字进行表示时，不可避免地会存在量化误差，所确定的码字不能与下行信道精确地匹配。

发明内容

本申请实施例提供一种信道信息反馈方法、通信装置及存储介质，可以减少终端在对信道矩阵进行量化时的量化误差，能够有效提高信道信息反馈的准确性。第一方面，本申请实施例提供一种信道信息反馈方法，该方法包括：终端通过下行信道接收网络设备发送的信道状态信息参考信号。终端根据信道状态信息参考信号，测量估计下行信道的信道矩阵。终端根据下行信道的信道矩阵，通过第一神经网络确定下行信道对应的信道协商信息。终端向网络设备发送下行信道对应的信道协商信息，下行信道对应的信道协商信息用于网络设备确定下行信道对应的调制与编码策略。

其中，第一神经网络的参数与历史调制与编码策略相关。

该信道信息反馈方法中，终端通过第一神经网络确定下行信道对应的信道协商信息(Channel Negotiation Information，CNI)，可以减少终端在对信道矩阵进行量化时的量化误差，能够有效提高信道信息反馈的准确性。另外，由于第一神经网络的参数与历史MCS相关，所以终端通过第一神经网络所确定的下行信道对应的CNI的信息熵较小，可以节约反馈比特数，进而提高信道信息反馈的高效性。

在一种可能的设计中，第一神经网络的参数与历史调制与编码策略相关，可以包括：第一神经网络的参数为终端根据历史决策收益进行更新后的参数，历史决策收益为网络设备根据历史调制与编码策略所获取。

在一种可能的设计中，下行信道对应的调制与编码策略为网络设备根据下行信道对应的信道协商信息，通过第二神经网络所确定。第二神经网络的参数与历史调制与编码策略相关。

例如，第二神经网络的参数与历史调制与编码策略相关，可以包括：第二神经网络的参数为网络设备根据历史决策收益进行更新后的参数，历史决策收益为网络设备根据历史调制与编码策略所获取。

网络设备根据下行信道对应的CNI，通过第二神经网络确定下行信道对应的MCS，可以使得CNI和MCS在概率分布上可能存在的偏差更小。另外，第二神经网络的参数与历史MCS相关，可以使得历史MCS能够对根据CNI通过第二神经网络确定下行信道的MCS起到指导作用，从而可以进一步降低CNI和MCS在概率分布上可能存在的偏差。

在一种可能的设计中，该方法还包括：终端接收网络设备发送的决策收益，决策收益为网络设备根据下行信道对应的调制与编码策略所获取。终端根据决策收益，对第一神经网络的参数进行更新。

例如，终端可以根据决策收益，按照第一目标函数，对第一神经网络的参数进行更新。第一目标函数与所述决策收益相关。

终端根据决策收益，对第一神经网络的参数进行更新，可以实现对信道矩阵与CNI之间的映射关系的动态更新，进而使得终端下一次通过第一神经网络所确定的下行信道对应的CNI的信息熵能够较小。

在另外一种可能的设计中，该方法还包括：终端接收网络设备发送的第二神经网络的第一层隐藏层的参数的误差；第二神经网络的第一层隐藏层的参数的误差为网络设备根据决策收益对第二神经网络的参数进行更新前和更新后的误差，决策收益为网络设备根据下行信道对应的调制与编码策略所获取。终端根据第二神经网络的第一层隐藏层的参数的误差，对第一神经网络的参数进行更新。

例如，终端可以根据第二神经网络的第一层隐藏层的参数的误差，按照反向传播算法，对第一神经网络的参数进行更新。第二神经网络的第一层隐藏层的参数的误差可以为网络设备根据决策收益，按照第二目标函数对第二神经网络的参数进行更新前和更新后的误差，第二目标函数与决策收益相关。

相对于终端根据决策收益，对第一神经网络的参数进行更新的方式而言，终端根据第二神经网络的第一层隐藏层的参数的误差，对第一神经网络的参数进行更新的方式更加简单。

可选地，决策收益为网络设备根据下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种；或者，网络设备根据下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种与网络设备对下行信道对应的信道协商信息的评价值的组合。网络设备对下行信道对应的信道协商信息的评价值用于指示下行信道对应的信道协商信息对网络设备确定下行信道对应的调制与编码策略的指导作用的大小。

在一种可能的设计中，在终端对第一神经网络的参数进行更新之前，该方法还包括：终端根据下行信道对应的信道协商信息，获取还原后的信道矩阵。终端根据测量估计的下行信道的信道矩阵、以及还原后的信道矩阵，按照第三目标函数，对第一神经网络的参数进行更新。第三目标函数用于指示最小化测量估计的下行信道的信道矩阵与还原后的信道矩阵之间的误差。

例如，该误差可以是最小均方误差。

第二方面，本申请实施例还提供一种信道信息反馈方法，该方法包括：网络设备通过下行信道向终端发送信道状态信息参考信号。网络设备接收终端根据信道状态信息参考信号发送的下行信道对应的信道协商信息；下行信道对应的信道协商信息为终端根据信道状态信息参考信号，测量估计下行信道的信道矩阵后，根据下行信道的信道矩阵，通过第一神经网络所确定。第一神经网络的参数与历史调制与编码策略相关。网络设备根据下行信道对应的信道协商信息，确定下行信道对应的调制与编码策略。

在一种可能的设计中，网络设备根据下行信道对应的信道协商信息，确定下行信道对应的调制与编码策略，包括：网络设备根据下行信道对应的信道协商信息，通过第二神经网络确定下行信道对应的调制与编码策略。第二神经网络的参数与历史调制与编码策略相关。

可选地，第二神经网络的参数与历史调制与编码策略相关，可以包括：第二神经网络的参数为网络设备根据历史决策收益进行更新后的参数，历史决策收益为网络设备根据历史调制与编码策略所获取。

第二神经网络的参数与历史MCS相关，可以使得网络设备所确定的历史MCS，能够对根据CNI通过第二神经网络确定下行信道的MCS起到指导作用，从而可以降低CNI和MCS在概率分布上可能存在的偏差。

在一种可能的设计中，该方法还包括：网络设备根据下行信道对应的调制与编码策略，获取调制与编码策略对应的决策收益。网络设备向终端发送决策收益，决策收益用于终端对第一神经网络的参数进行更新。

在一种可能的设计中，该方法还包括：网络设备根据下行信道对应的调制与编码策略，获取调制与编码策略对应的决策收益。网络设备根据决策收益，对第二神经网络的参数进行更新。

例如，网络设备可以根据决策收益，按照第二目标函数，对第二神经网络的参数进行更新；第二目标函数与决策收益相关。

在另一种可能的设计中，该方法还包括：网络设备获取对第二神经网络的参数进行更新前和更新后，第二神经网络的第一层隐藏层的参数的误差。网络设备向终端发送第二神经网络的第一层隐藏层的参数的误差；第二神经网络的第一层隐藏层的参数的误差用于终端对第一神经网络的参数进行更新。

第三方面，本申请实施例提供一种路径信息反馈的方法，包括：第一通信装置获取第一路径的路径参数，其中该第一路径为第二通信装置向第一通信装置传输数据的路径；第一通信装置将该路径参数作为输入参数，通过第一网络确定该第一路径的第一协商信息；该第一网络是根据任务需求更新的神经网络；第一通信装置向第二通信装置发送该第一协商信息；第一协商信息用于第二通信装置得到传输决策。

第三方面提供的方法中，第一通信装置将第一路径的路径参数输入根据任务需求更新的神经网络，得到第一路径的第一协商信息，并向第二通信装置反馈该第一协商信息。通过神经网络对路径参数进行有效压缩得到第一协商信息，相比于直接反馈完整的路径参数，可以节省反馈开销。进一步的，该神经网络是根据任务需求进行更新的，可以根据实际的任务需求得到与任务匹配的第一协商信息，保证了向第二通信装置反馈的路径参数的高效性，提高传出决策的准确度。

一种可能的实现中，第一通信装置通过第一路径接收第二通信装置发送的参考信号，根据该参考信号，通过测量估计得到该第一路径的路径参数。

一种可能的实现中，第一协商信息用于第二通信装置得到传输决策，传输决策包括以下一种或多种：调制与编码策略MCS，路径选择，路径权重组合，上行调度，免授权参数集。

一种可能的实现中，第一网络的输入参数还包括上一轮的传输决策。针对一个或多个实体的合作任务，交互上一轮的传输决策信息，可以加速决策收敛。

一种可能的实现中，第一网络是根据任务需求进行更新的神经网络，具体包括：该第一网络是基于上述传输决策的决策收益更新的，其中该决策收益与任务需求相关。

一种可能的实现中，第一通信装置获取第二通信装置指示的决策收益，并根据该决策收益更新上述第一网络。

根据决策收益对第一网络进行更新，当决策收益是根据任务需求确定时，可以使得第一网络对第一路径的路径参数的压缩更高效的匹配实际的任务需求，同时可以进一步节省路径信息反馈的信令开销。

一种可能的实现中，第一路径为网络设备和终端之间的下行信道，第一路径的路径参数为下行信道的信道矩阵。

需要说明的是，第三方面及其各种可能的实现中提到的第一通信装置可以为终端，实体A，实体C，实体D，实体E，实体F或者实体H；第二通信装置可以为网络设备，实体B，实体D，实体E，实体F或者实体G；第一网络可以为第一神经网络，第三神经网络，第四神经网络，第五神经网络，第七神经网络，第八神经网络，第十三神经网络，第十四神经网络，或第十七神经网络。

第四方面，本申请实施例提供一种路径信息反馈的方法，包括：

第二通信装置接收第一通信装置发送的第一协商信息，该第一协商信息是第一通信装置将第一路径的路径参数输入第一网络得到的，其中第一网络是根据任务需求更新的神经网络；第二通信装置根据该第一协商信息得到传输决策。

第四方面提供的方法中，第二通信装置用来获取传输决策的第一协商信息是通过第一网络有效压缩得到的，相比于直接交互路径参数，可以节省信令开销。进一步地，用于得到第一协商信息的第一网络是根据任务需求进行更新的，可以根据实际任务得到与任务匹配的第一协商信息，提高传输决策的准确性。

一种可能的实现中，第二通信装置通过第一路径向第一通信装置发送参考信息，该参考信号用于第一通信装置进行测量估计得到该第一路径的路径参数。

一种可能的实现中，第二通信装置根据该第一协商信息得到传输决策，包括：第二通信装置根据第一协商信息，通过第二网络得到传输决策。第二网络是根据任务需求进行更新的神经网络。传输决策包括以下一种或多种：调制与编码策略MCS，路径选择，路径权重组合，上行调度，免授权参数集。

一种可能的实现中，第二网络的输入参数包括第一协商信息和上一轮的传输决策。

一种可能的实现中，第二网络是根据任务需求进行更新的神经网络，具体包括：该第二网络是基于上述传输决策的决策收益更新的，其中该决策收益与任务需求相关。

一种可能的实现中，决策收益根据码率、第一协商信息的评价值、吞吐量、时延、功耗、路由跳数、信道容量中的一个或多个得到。

一种可能的实现中，第一路径为网络设备和终端之间的下行信道，第一协商信息为下行信道的信道矩阵经过第一网络得到的协商信息，传输决策为调制与编码策略MCS。

需要说明的是，第四方面及其各种可能的实现中提到的第一通信装置可以为终端，实体A，实体C，实体D，实体E，实体F或者实体H；第二通信装置可以为网络设备，实体B，实体D，实体E，实体F或者实体G；第一网络可以为第一神经网络，第三神经网络，第四神经网络，第五神经网络，第七神经网络，第八神经网络，第十三神经网络，第十四神经网络，或，第十七神经网络；第二网络可以为第二神经网络，第六神经网络，第十一神经网络，第十二神经网络，第十五神经网络，第十六神经网络，或，第十八神经网络。

第五方面，本申请实施例提供一种通信装置，包括：接收单元，用于通过下行信道接收网络设备发送的信道状态信息参考信号。测量单元，用于根据信道状态信息参考信号，测量估计下行信道的信道矩阵。确定单元，用于根据下行信道的信道矩阵，通过第一神经网络确定下行信道对应的信道协商信息；第一神经网络的参数与历史调制与编码策略相关。发送单元，用于向网络设备发送下行信道对应的信道协商信息，下行信道对应的信道协商信息用于网络设备确定下行信道对应的调制与编码策略。

在一种可能的设计中，第一神经网络的参数与历史调制与编码策略相关，包括：第一神经网络的参数为确定单元根据历史决策收益进行更新后的参数，历史决策收益为网络设备根据历史调制与编码策略所获取。

在一种可能的设计中，下行信道对应的调制与编码策略为网络设备根据下行信道对应的信道协商信息，通过第二神经网络所确定；第二神经网络的参数与历史调制与编码策略相关。

在一种可能的设计中，第二神经网络的参数与历史调制与编码策略相关，包括：第二神经网络的参数为网络设备根据历史决策收益进行更新后的参数，历史决策收益为网络设备根据历史调制与编码策略所获取。

在一种可能的设计中，接收单元还用于接收网络设备发送的决策收益，决策收益为网络设备根据下行信道对应的调制与编码策略所获取；确定单元还用于根据决策收益，对第一神经网络的参数进行更新。

可选地，确定单元具体用于根据决策收益，按照第一目标函数，对第一神经网络的参数进行更新；第一目标函数与决策收益相关。

在另外一种可能的设计中，接收单元还用于接收网络设备发送的第二神经网络的第一层隐藏层的参数的误差；第二神经网络的第一层隐藏层的参数的误差为网络设备根据决策收益对第二神经网络的参数进行更新前和更新后的误差，决策收益为网络设备根据下行信道对应的调制与编码策略所获取。确定单元还用于根据第二神经网络的第一层隐藏层的参数的误差，对第一神经网络的参数进行更新。

可选地，确定单元具体用于根据第二神经网络的第一层隐藏层的参数的误差，按照反向传播算法，对第一神经网络的参数进行更新。第二神经网络的第一层隐藏层的参数的误差为网络设备根据决策收益，按照第二目标函数对第二神经网络的参数进行更新前和更新后的误差，第二目标函数与决策收益相关。

在一种可能的设计中，确定单元还用于根据下行信道对应的信道协商信息，获取还原后的信道矩阵；根据测量估计的所述下行信道的信道矩阵、以及还原后的信道矩阵，按照第三目标函数，对第一神经网络的参数进行更新。第三目标函数用于指示最小化测量估计的下行信道的信道矩阵与还原后的信道矩阵之间的误差。

以上第五方面所述的通信装置，可以应用于终端。第六方面，本申请实施例还提供一种通信装置，包括：处理器，用于执行存储器中存储的计算机指令，当所述计算机指令被执行时，使得所述装置执行如第一方面，第一方面的可能的设计，第三方面，或第三方面的各种可能的实现中任一所述的方法。

第七方面，本申请实施例还提供一种通信装置，包括：处理器和接口电路，处理器用于通过接口电路与其它装置通信，并执行第一方面，第一方面的可能的设计，第三方面，或第三方面的各种可能的实现中任一所述的方法。

第八方面，本申请实施例提供一种通信装置，包括：发送单元，用于通过下行信道向终端发送信道状态信息参考信号。接收单元，用于接收终端根据信道状态信息参考信号发送的下行信道对应的信道协商信息；下行信道对应的信道协商信息为终端根据信道状态信息参考信号，测量估计下行信道的信道矩阵后，根据下行信道的信道矩阵，通过第一神经网络所确定；第一神经网络的参数与历史调制与编码策略相关。确定单元，用于根据下行信道对应的信道协商信息，确定下行信道对应的调制与编码策略。

可选地，第一神经网络的参数与历史调制与编码策略相关，包括：第一神经网络的参数为终端根据历史决策收益进行更新后的参数，历史决策收益为确定单元根据历史调制与编码策略所获取。

在一种可能的设计中，确定单元具体用于根据下行信道对应的信道协商信息，通过第二神经网络确定下行信道对应的调制与编码策略；第二神经网络的参数与历史调制与编码策略相关。

可选地，第二神经网络的参数与历史调制与编码策略相关，包括：第二神经网络的参数为确定单元根据历史决策收益进行更新后的参数，历史决策收益为确定单元根据历史调制与编码策略所获取。

在一种可能的设计中，确定单元还用于根据下行信道对应的调制与编码策略，获取调制与编码策略对应的决策收益。发送单元还用于向终端发送决策收益；决策收益用于终端对第一神经网络的参数进行更新。

在一种可能的设计中，确定单元还用于根据下行信道对应的调制与编码策略，获取调制与编码策略对应的决策收益；根据决策收益，对第二神经网络的参数进行更新。

可选地，确定单元具体用于根据决策收益，按照第二目标函数，对第二神经网络的参数进行更新；第二目标函数与决策收益相关。

在另外一种可能的设计中，确定单元还用于获取对第二神经网络的参数进行更新前和更新后，第二神经网络的第一层隐藏层的参数的误差。发送单元还用于向终端发送第二神经网络的第一层隐藏层的参数的误差；第二神经网络的第一层隐藏层的参数的误差用于终端对第一神经网络的参数进行更新。

可选地，决策收益为该通信装置根据下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种；或者，该通信装置根据下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种与该通信装置对下行信道对应的信道协商信息的评价值的组合。该通信装置对下行信道对应的信道协商信息的评价值用于指示下行信道对应的信道协商信息对该通信装置确定下行信道对应的调制与编码策略的指导作用的大小。

以上第八方面所述的通信装置，可以应用于网络设备。

第九方面，本申请实施例还提供一种通信装置，包括：处理器，用于执行存储器中存储的计算机指令，当所述计算机指令被执行时，使得所述装置执行如第二方面，第二方面的可能的设计，第四方面，或第四方面的各种可能的实现中任一所述的方法。

第十方面，本申请实施例还提供一种通信装置，包括：处理器和接口电路，处理器用于通过接口电路与其它装置通信，并执行第二方面，第二方面的可能的设计，第四方面，或第四方面的各种可能的实现中任一所述的方法。

第十一方面，本申请实施例还提供一种通信装置，包括：收发单元和处理单元。收发单元可以用于收发信息，或者用于与其他网元通信。处理单元可以用于对数据进行处理。如：该装置可以通过收发单元和处理单元实现如第一方面，第二方面，第三方面或第四方面所述的方法。

第十二方面，本申请实施例还提供一种计算机可读存储介质，包括：计算机软件指令；当所述计算机软件指令在处理器上运行时，如第一方面所述的方法被执行；或者，如第二方面所述的方法被执行；或者，第三方面所述的方法被执行；或者，第四方面所述的方法被执行。

例如，当计算机软件指令在终端或内置在所述终端的芯片中运行时，可以使得终端执行如第一方面所述的方法。或者，当计算机软件指令在网络设备或内置在所述网络设备的芯片中运行时，使得网络设备执行如第二方面所述的方法。或者，当计算机软件指令在网络设备或内置在所述网络设备的芯片中运行时，使得网络设备执行如第三方面所述的方法。或者，当计算机软件指令在网络设备或内置在所述网络设备的芯片中运行时，使得网络设备执行如第四方面所述的方法。

第十三方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品被执行时可以实现如第一方面或第一方面的可能的设计中任一所述的方法。

第十四方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品被执行时可以实现如第二方面或第二方面的可能的设计中任一所述的方法。

第十四方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品被执行时可以实现如第三方面或第三方面的可能的设计中任一所述的方法。

第十五方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品被执行时可以实现如第四方面或第四方面的可能的设计中任一所述的方法。

第十六方面，本申请实施例还提供一种芯片系统，该芯片系统应用于终端；芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；处理器通过接口电路从电子设备的存储器接收并执行计算机指令，以实现如第一方面或第一方面的可能的设计中任一所述的方法；或者实现如第三方面或第三方面的可能的实现中任一所述的方法。

第十七方面，本申请实施例还提供一种芯片系统，该芯片系统应用于网络设备；芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；处理器通过接口电路从电子设备的存储器接收并执行计算机指令，以实现如第二方面或第二方面的可能的设计中任一所述的方法；或者实现如第四方面或第四方面的可能的实现中任一所述的方法。

可以理解地，上述提供的第五方面至第十七方面所能达到的有益效果，可参考第一方面及其任一种可能的设计方式中的有益效果，或第二方面及其任一种可能的设计方式中的有益效果，或第三方面及其任一种可能的设计方式中的有益效果，或第四方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1示出了基于大规模天线阵列技术的通信系统的组成示意图；

图2示出了一种信道信息量化示意图；

图3示出了本申请实施例提供的一种通信系统的组成示意图；

图4示出了本申请实施例提供的一种终端的组成示意图；

图5示出了本申请实施例提供的信道信息反馈方法的交互示意图；

图6示出了本申请实施例提供的信道信息反馈方法的另一交互示意图；

图7示出了本申请实施例提供的信道信息反馈方法的又一交互示意图；

图8示出了本申请实施例提供的信道信息反馈方法的又一交互示意图；

图9a示出了本申请实施例提供的路径信息反馈方法的一种应用场景示意图；

图9b示出了本申请实施例提供的路径信息反馈方法的又一交互示意图；

图10a示出了本申请实施例提供的路径信息反馈方法的又一种应用场景示意图；

图10b示出了本申请实施例提供的路径信息反馈方法的又一交互示意图；

图11示出了本申请实施例提供的路径信息反馈方法的又一交互示意图；

图12示出了本申请实施例提供的路径信息反馈方法的又一交互示意图；

图13示出了本申请实施例提供的通信装置的结构示意图；

图14示出了本申请实施例提供的通信装置的另一结构示意图；

图15示出了本申请实施例提供的通信装置的又一结构示意图。

具体实施方式

Massive MIMO是5G NR中提高系统容量和频谱利用率的关键技术。其可以通过在基站配置大量天线，实现频谱效率的大幅度提升。例如，随着天线数目的增加，多用户之间的信道趋于正交，可以使得基站覆盖范围内的多个用户在同一时频资源上利用大规模MIMO提供的空间自由度与基站同时进行通信，提升频谱资源在多个用户之间的复用能力，从而在不需要增加基站密度和带宽的条件下大幅度提高频谱效率。

基于Massive MIMO的通信系统中，基站可以采用波束成形的方式，将需要发送给终端(如：用户设备(user equipment，UE))的信号进行增强，以提高信号质量。例如，基站可以将信号调制为更窄的波束，集中辐射于更小的空间区域内，从而使基站与终端之间的射频传输链路上的能量效率更高。

而为了执行最佳波束成形，基站需要获取不断变化的下行信道的准确信道信息。然后，基站可以根据获取到的下行信道的信道信息，确定最佳的波束和对应的MCS。下面结合图1对该过程进行说明：

图1示出了基于大规模天线阵列Massive MIMO技术的通信系统的组成示意图。

如图1所示，基于Massive MIMO技术的通信系统中，基站配置有大量天线(如，图1中所示的天线1至天线M，M可以为100或大于100的数)。终端可以配置有一根或多根天线(图中示例性给出了一根)。基站可以与多个终端(如，如1中所示的终端1至终端K)进行通信。以终端1为例，基站与终端1之间的下行信道为下行信道1。基站可以调度需要发送给终端1的数据，将其以信号波束的方式通过下行信道1发送给终端1。在形成信号波束时，为了执行最佳波束成形，基站可以获取下行信道1的信道信息1，并根据信道信息1，确定最佳的波束和对应的MCS。然后，基站可以根据所确定的MCS对需要发送给终端的数据进行调制与编码。基站与终端2至终端K之间的通信，均与终端1相同，在此不再赘述。

然而，对于基于Massive MIMO技术的FDD通信系统而言，上行信道和下行信道占用不同的频带，且大多数上行信道和下行信道几乎独立，不满足信道互易性。所以，只能通过终端将下行信道的信道信息反馈给基站。例如，FDD通信系统中，终端向基站反馈下行信道的信道信息的一种具体实现方式可以如下：

1)基站通过下行信道向终端发送导频信号。

2)终端根据接收到的导频信号，测量估计下行信道的信道矩阵。

3)终端将测量估计到的下行信道的信道矩阵，作为下行信道的信道信息反馈给基站。

在上述信道信息反馈过程中，终端向基站反馈的下行信道的信道矩阵的参数与基站中发射天线的数量成正比。而基于Massive MIMO技术的FDD通信系统中，基站配置了大量天线，所以，终端向基站反馈信道矩阵时包含大量的信道矩阵参数，这会导致FDD通信系统的反馈开销增加、以及反馈的信道信息的准确性和及时性降低。

为了解决FDD通信系统的反馈开销增加、以及反馈的信道信息的准确性和及时性降低的问题，在目前的5G NR标准中，采用了基于码本的有限信道信息反馈。其基本原理如下：对信道矩阵进行预编码，并把对应的预编码变量(如波束成形矢量或矩阵)作为码字放到一个码本中，这个码本可以分别在终端和基站中进行存储。在实际应用时，终端可以对下行信道进行测量估计，得到下行信道的信道矩阵。然后，终端可以根据测量估计到的信道矩阵和存储的码本，确定出与该信道矩阵最匹配的预编码变量的码本索引，如：该码本索引可以称之为预编码矩阵指示(Precoding Matrix Indicator，PMI)。同时，终端还可以根据PMI对下行信道的信道质量进行计算，得到信道质量指示(Channel Quality Indicator，CQI)，CQI可以用于指示下行信道的信道质量的好坏。在得到上述PMI和CQI后，终端可以向基站发送包括PMI和CQI的信道状态信息(Channel State Information，CSI)。基站根据接收到的CSI，便可获知下行信道的信道信息。例如，基站可以根据接收到的CSI中的PMI(即，前述码本索引)，从存储的码本中找到对应的预编码向量(码字)，进而得到下行信道的信道矩阵。进一步，基站可以根据下行信道的信道矩阵和CQI，确定对应的MCS。

上述基于码本的有限信道信息反馈方式中，码本是事先给定的，码本中的码字只能表示有限的信道矩阵对应的预编码变量。而基于Massive MIMO技术的FDD通信系统中，由于基站的天线数量众多，测量估计到的下行信道的信道矩阵可能的状态会有很多种。所以，终端根据测量估计到的信道矩阵和存储的码本，确定与该信道矩阵最匹配的预编码变量的码本索引时，要先对测量估计到的信道矩阵进行量化(如：标量量化)，以使得码本中的码字能够表示与该信道矩阵最匹配的预编码变量。

以CQI为例：如上所述，CQI是根据量化后的信道矩阵对应的预编码变量的PMI进行计算得到的，与量化后的信道矩阵相关。假设反馈允许的CQI的最大比特数为B，则终端最多只能将L＝2B种不同预编码变量(码字)反馈到基站。也即，码本中只能包含L＝2B个不同码字，终端通过L＝2B个不同码字，最多只能向基站反馈下行信道的L＝2B种状态的信道信息。这意味着下行信道的信道空间需要在终端量化分成L个互不重叠的区域，再按照前述规则分别由一个码字来表示对应区域的信道信息。图2示出了一种信道信息量化示意图。

如图2中的(a)所示，信道信息的概率分布是一个动态变化的连续状态，而将其量化到图2中的(b)所示的L0、L1、L2、L3、以及L4这五个互不重叠的区域，且分别用一个码字来表示每个区域的信道信息时，各区域对应的码字并不能准确反映动态变化下的信道信息分布。

由此可知，上述基于码本的有限信道信息反馈方式中，终端在对信道矩阵进行量化(即，对信道信息的量化)时存在量化精度损失的问题，不可避免地会存在量化误差，所确定的预编码变量(码本中的码字)不能与下行信道精确地匹配，从而，导致终端反馈给基站的CSI并不能够准确反映动态变化下的下行信道的信道信息。

而本申请实施例可以基于强化学习(Reinforcement Learning)的思想，通过神经网络学习信道矩阵与CSI之间的关系，从而通过神经网络实现信道信息的反馈。强化学习是机器学习中的一个领域，强调智能体(Agent)根据环境的状态(State)，对环境做出行动(Action)，以取得最大化的预期奖励(Reward)。当初始环境未知时，智能体需要与环境不断交互，逐渐改善其策略。而当环境已知或近似已知时，只需根据模型(如：神经网络)进行计算即可。在本申请实施例中，可以采用一个第一神经网络作为Agent，将信道矩阵作为State，将CSI作为Action，以使得第一神经网络可以学习信道矩阵与CSI之间的关系。在训练该第一神经网络时，可以根据网络设备(如基站)根据CSI得到的MCS，确定Reward。为区别于现有技术中通过码本得到CSI，本申请实施例中可以将根据该第一神经网络所确定的CSI定义为信道协商信息(Channel Negotiation Information，CNI)。

如，本申请实施例可以提供一种信道信息反馈方法。该信道信息反馈方法中，网络设备(如：基站)可以通过下行信道向终端发送信道状态信息参考信号(Channel StateInformation-Reference Signal，CSI-RS)。终端可以根据接收到的CSI-RS，测量估计下行信道的信道矩阵。然后，终端可以根据下行信道的信道矩阵，通过第一神经网络确定下行信道对应的信道协商信息(Channel Negotiation Information，CNI)，并向网络设备发送下行信道对应的CNI。网络设备可以根据接收到的下行信道对应的CNI确定下行信道对应的调制与编码策略(Modulation and Coding Scheme，MCS)。其中，第一神经网络的参数与历史MCS相关。CNI与上述CSI类似，可以用于指示下行信道的信道信息，如：CNI可以包括CQI。

例如，第一神经网络可以通过将样本信道矩阵作为输入、样本CNI作为输出进行强化学习训练而得到。另外，可以根据历史MCS对第一神经网络的参数进行更新，以使第一神经网络的参数与历史MCS相关。

该信道信息反馈方法中，终端通过第一神经网络确定下行信道对应的CNI的方式，相对于基于码本确定CSI的方式而言，可以减少终端在对信道矩阵进行量化时的量化误差，能够有效提高信道信息反馈的准确性。另外，由于第一神经网络的参数与历史MCS相关，所以终端通过第一神经网络所确定的下行信道对应的CNI的信息熵小于传统的CSI，可以节约反馈比特数，进而提高信道信息反馈的高效性。

以下结合附图对本申请实施例提供的信道信息反馈方法进行示例性说明。

需要说明的是，在本申请的描述中，“第一”、“第二”等字样仅仅是为了区分描述，并不用于对某个特征的特别限定。本申请实施例的描述中，“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请中所涉及的至少一个是指一个或多个；多个，是指两个或两个以上。

图3示出了本申请实施例提供的一种通信系统的组成示意图。

如图3所示，本申请实施例的通信系统可以包括：至少一个终端310和至少一个网络设备320(图3示例性的给出了一个网络设备320)。终端310和网络设备320之间可以进行通信连接，例如，可以通过有线网络或无线网络进行连接。

可选地，该通信系统可以是基于Massive MIMO技术的FDD通信系统，如：宽带码分多址(Wideband Code Division Multiple Access，WCDMA)系统、长期演进(Long TermEvolution，LTE)系统、LTE频分双工(Frequency Division Duplex，FDD)系统、通用移动通信系统(Universal Mobile Tele Communication System，UMTS)、5G通信系统、以及其他应用正交频分复用(Orthogonal Frequency Division Multiplexing，OFDM)技术的无线通信系统等，本申请对该通信系统的具体类型不作限制。

可选地，该通信系统中的终端310，或者，也可以称之为用户设备(UserEquipment，UE)可以是移动电话(“蜂窝”电话)、手机、电脑，无绳电话、会话发起协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字助理(Personal Digital Assistant，PDA)、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(Set Top Box，STB)、用户驻地设备(Customer Premise Equipment，CPE)、可穿戴设备(例如智能手表、智能手环、计步器等)，车载设备(例如，汽车、自行车、电动车、飞机、船舶、火车、高铁等)、虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、智能家居设备(例如，冰箱、电视、空调、电表等)、智能机器人、车间设备、无人驾驶(self driving)中的无线终端、远程手术(remote medicalsurgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportationsafety)中的无线终端、智慧城市(smart city)中的无线终端，或智慧家庭(smart home)中的无线终端、飞行设备(例如，智能机器人、热气球、无人机、飞机)以及用于在无线系统上进行通信的其它设备等，本申请对终端310的具体表现形式也不作限制。

网络设备120可以是该通信系统的接入网设备，如：基站。可选地，本申请实施例中，网络设备120可以包括各种形式的宏基站、微基站(也称为小站)等。例如，网络设备120可以包括：前述WCDMA或LTE中的基站，下一代基站(next generation nodeB，gNB)、下一代演进的基站(next generation evolved nodeB，Ng-eNB)、传输接收点(transmissionreception point，TRP)、演进型节点B(evolved Node B，eNB)、无线网络控制器(radionetwork controller，RNC)、节点B(Node B，NB)、基站控制器(base station controller，BSC)、基站收发台(base transceiver station,BTS)、家庭基站(例如，home evolvedNodeB，或home Node B，HNB)、基带单元(base band unit，BBU)，或无线保真(wirelessfidelity，Wifi)接入点(access point，AP)等。

可以理解的，本申请实施例描述的应用场景(如前述图3所示的通信系统)，仅仅是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。例如，该通信系统中还可以包括其他设备，如：网络控制器、移动管理实体等其他网络实体。另外，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

图4示出了本申请实施例提供的一种终端的组成示意图。如图4所示，该终端可以包括：至少一个处理器41，存储器42、通信接口43、总线44。

下面结合图4对终端的各个构成部件进行具体的介绍：

处理器41是终端的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器41是一个中央处理器(Central Processing Unit，CPU)，也可以是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路，例如：一个或多个微处理器(Digital Signal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)。

其中，处理器41可以通过运行或执行存储在存储器42内的软件程序，以及调用存储在存储器42内的数据，执行终端的各种功能。例如，可以执行本申请实施例提供的信道信息反馈方法。

在具体的实现中，作为一种实施例，处理器41可以包括一个或多个CPU，例如图4中所示的CPU0和CPU1。

在具体的实现中，作为一种实施例，终端可以包括多个处理器，例如图4中所示的处理器41和处理器45。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器42用于存储执行本申请方案终端执行的方法步骤的软件程序，并由处理器41来控制执行。存储器42可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器42可以是独立存在，通过总线44与处理器41相连接。存储器42也可以和处理器41集成在一起。

通信接口43，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如：可以和核心网的网络设备进行通信。通信接口43可以是以太网接口，无线接入网(RadioAccess Network，RAN)接口，无线局域网(Wireless Local Area Networks，WLAN)接口等。通信接口43可以包括接收单元实现接收功能，以及发送单元实现发送功能。

总线44，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

当然，在实际运用中，终端中的处理器41，存储器42、以及通信接口43也可以不是通过总线结构实现连接，而可以是其他结构，例如：星型结构，本申请不作具体限定。

与上述图4所示的终端的结构类似，本申请实施例中，网络设备也可以包括：至少一个处理器，存储器、通信接口、以及总线等。与终端的不同之处在于，网络设备中的存储器用于存储执行本申请方案网络设备执行的方法步骤的软件程序，并由处理器来控制执行。其余类似或相同之处，在此不再一一赘述。

图5示出了本申请实施例提供的信道信息反馈方法的流程示意图。如图5所示，该信道信息反馈方法可以包括：

S501、网络设备通过下行信道向终端发送信道状态信息参考信号CSI-RS。

相应的，终端可以接收网络设备发送的CSI-RS。

S502、终端根据CSI-RS，测量估计下行信道的信道矩阵。

例如，CSI-RS可以为一段导频序列。终端在接收到网络设备发送的CSI-RS后，可以根据CSI-RS，对下行信道的信道参数进行测量估计，获取下行信道的信道矩阵。

S503、终端根据下行信道的信道矩阵，通过第一神经网络确定下行信道对应的信道协商信息CNI。

第一神经网络可以通过将样本信道矩阵作为输入、样本CNI作为输出进行强化学习训练而得到。终端可以将测量估计得到的下行信道的信道矩阵输入第一神经网络，第一神经网络可以输出下行信道对应的CNI。CNI可以用于指示下行信道的信道信息。

S504、终端向网络设备发送下行信道对应的CNI。

相应地，网络设备可以接收来自终端的下行信道对应的CNI。在接收到下行信道对应的CNI后，网络设备可以根据接收到的下行信道对应的CNI，确定下行信道对应的MCS。MCS可以用于基站对需要通过下行信道向终端发送的数据进行处理。例如，网络设备可以根据MCS对需要通过下行信道向终端发送的数据进行调制与编码。

相对于基于码本确定CSI并反馈给网络设备的方式而言，本申请实施例中，终端通过第一神经网络确定下行信道对应的CNI并反馈给网络设备的方式，无需将信道矩阵量化到有限的码本中进行表示，能够有效减少信道信息反馈过程中终端对信道矩阵的量化误差，从而可以提高信道信息反馈的准确性，反馈给基站的CNI能够更加准确地反映动态变化下的下行信道的信道信息。

一些实施例中，可以在网络设备侧采用一个第二神经网络作为Agent，将CNI作为State，将MCS作为Action，以使得第二神经网络可以学习CNI与MCS之间的关系。在训练该第二神经网络时，也可以根据网络设备(如基站)根据CSI得到的MCS，确定Reward。

请继续参考图5所示，网络设备根据接收到的下行信道对应的CNI，确定下行信道对应的MCS的步骤，可以包括S505。

S505、网络设备根据下行信道对应的CNI，通过第二神经网络确定下行信道对应的调制与编码策略MCS。

例如，第二神经网络可以通过将样本CNI作为输入、样本MCS作为输出，对神经网络进行训练而获取。网络设备可以将下行信道对应的CNI输入第二神经网络，第二神经网络可以输出下行信道对应的MCS。

现有技术中，网络设备在接收到终端反馈的CSI后，根据CSI中的信道质量指示CQI确定MCS时，一般为查询CQI和MCS之间的映射关系表，以确定CQI对应的MCS。但受到频谱效率的限制，在CQI和MCS之间的映射关系表中，CQI与MCS并不是一一对应的，所以，CQI和MCS在概率分布上可能存在偏差。

而本申请实施例中，CNI与MCS之间的映射关系可以通过第二神经网络实现。相对于根据固定的CQI和MCS之间的映射关系表确定MCS的方式而言，网络设备根据下行信道对应的CNI，通过第二神经网络确定下行信道对应的MCS的方式中，CNI和MCS在概率分布上可能存在的偏差会更小，所确定的MCS与CNI所指示的下行信道的信道信息能够更匹配。

在一种可能的设计中，第一神经网络的参数可以与历史MCS相关。其中，历史MCS是指网络设备根据终端上一次发送的CNI(可以称之为历史CNI)所确定的MCS。

例如，网络设备可以根据历史MCS，获取历史MCS对应的历史决策收益，并将历史决策收益发送给终端。终端可以根据该历史决策收益，对第一神经网络的参数进行更新，从而使得第一神经网络的参数与历史MCS相关。

也即，该设计中，第一神经网络的参数与历史MCS相关可以是指：第一神经网络的参数为终端根据历史决策收益进行更新后的参数，而历史决策收益为网络设备根据历史MCS所获取。

该设计中，第一神经网络的参数可以与历史MCS相关，所以，网络设备所确定的历史MCS，能够对终端通过第一神经网络确定下行信道对应的CNI起到指导作用，终端通过第一神经网络所确定的下行信道对应的CNI的信息熵能够小于传统的CSI的信息熵，可以节约反馈比特数，进而提高信道信息反馈的高效性。

可选地，上述图5所示的信道信息反馈方法中，网络设备根据接收到的下行信道对应的CNI，确定出下行信道对应的MCS后，也可以根据确定出的下行信道对应的MCS，获取MCS对应的决策收益，并将MCS对应的决策收益发送给终端。终端可以根据MCS对应的决策收益，对第一神经网络的参数进行更新，从而使得第一神经网络的参数能够随着网络设备每次确定的MCS动态更新，以实现对信道矩阵和CNI之间的映射关系的动态更新。

本申请实施例中，历史决策收益和决策收益为同一类型的数据。其区别仅仅在于，历史决策收益为网络设备根据历史MCS所获取，而决策收益为网络设备根据当前确定的下行信道对应的MCS所获取。

下面结合图6，对网络设备根据下行信道对应的MCS，获取MCS对应的决策收益的过程，以及终端根据MCS对应的决策收益，对第一神经网络的参数进行更新的过程进行说明。网络设备根据历史MCS，获取历史MCS对应的历史决策收益的过程，以及终端根据历史决策收益，对第一神经网络的参数进行更新的过程，与此类似，不再赘述。

图6示出了本申请实施例提供的信道信息反馈方法的另一流程示意图。如图6所示，在上述图5所示的信道信息反馈方法的基础上，S505之后，该信道信息反馈方法还可以包括S601-S603，S601-S603为该信道信息反馈方法中对第一神经网络的参数进行更新的过程。

S601、网络设备根据下行信道对应的MCS，获取MCS对应的决策收益。

可选地，网络设备可以根据下行信道对应的MCS，给终端发送数据包。终端可以根据接收到的数据包，向网络设备回复确认消息(Acknowledge，ACK)或否定应答(NegativeAcknowledgement，NACK)。网络设备可以根据终端回复的ACK或NACK，获取MCS对应的决策收益。

需要说明的是，终端若无上行调度，则可以使用物理上行控制信道(PhysicalUplink Control Channel，PUCCH)回复ACK或NACK；若有上行调度，则可以使用物理上行共享信道(Physical Uplink Shared Channel，PUSCH)或PUCCH回复ACK或NACK。

一种实施方式中，决策收益可以是网络设备根据下行信道对应的MCS进行调度时的决策码率。决策码率是指网络设备根据下行信道对应的MCS，向终端发送数据包时，终端可以成功接收到的码率。

另一种实施方式中，决策收益可以是网络设备根据下行信道对应的MCS进行调度时的决策码率与基准码率的码率差。

又一种实施方式中，决策收益也可以是网络设备根据下行信道对应的MCS进行调度时的吞吐量。例如，吞吐量可以是网络设备根据下行信道对应的MCS进行调度时，单位时间内成功传输的数据量。

又一种实施方式中，决策收益还可以是网络设备根据下行信道对应的MCS进行调度时的决策码率或吞吐量中的任意一种与网络设备对下行信道对应的CNI的评价值的组合。网络设备对下行信道对应的CNI的评价值可以用于指示下行信道对应的CNI对网络设备确定下行信道对应的MCS的指导作用的大小，可以用于度量CNI是否能有效和网络设备合作解决调度任务。网络设备对下行信道对应的CNI的评价值越大，指导作用越大。网络设备对下行信道对应的CNI的评价值越小，指导作用越小。网络设备根据下行信道对应的CNI，确定下行信道对应的MCS时，可以对CNI的指导作用进行评价，给定一个评价值。例如：评价值可以是0至10之间的数值，当可以根据CNI确定出MCS时，评价值可以1、3.5、6、10等数值。无法根据CNI确定出MCS时，评价值可以为0等。

但需要说明的是，前述评价值的范围仅仅为示例性说明。在其他实施方式中，评价值也可以是其他更大或更小的数值范围。在评价值可以用于指示CNI对MCS的指导作用的大小的前提下，本申请对评价值的范围或具体实现方式并不作限制。例如，还有一些实施方式中，评价值的范围也可以是根据CNI与MCS之间的交互信息，划分的某个百分比区间等。

按照上述任一实施方式中所述，网络设备可以根据下行信道对应的MCS，获取MCS对应的决策收益，并向终端发送该决策收益。终端可以根据接收到的决策收益，对第一神经网络的参数进行更新。如：请参考S602-S603。

S602、网络设备向终端发送决策收益。

相应地，终端可以接收来自网络设备的决策收益。

S603、终端根据决策收益，对第一神经网络的参数进行更新。

可选地，终端可以根据决策收益，按照第一目标函数，对第一神经网络的参数进行更新。第一神经网络的参数可以是指第一神经网络中各神经元的连接权重和偏置值。终端根据决策收益，按照第一目标函数，对第一神经网络的参数进行更新是指：终端根据决策收益，按照第一目标函数，对第一神经网络中各神经元的连接权重和偏置值进行调整，使得第一神经网络的误差越来越小。

一些实施例中，第一目标函数可以为基于策略的目标函数。例如，假设第一神经网络的参数为θ，则第一目标函数可以如下：

其中，J(θ)表示第一目标函数；s表示终端测量估计的下行信道的信道矩阵；a表示终端根据测量估计的下行信道的信道矩阵，通过第一神经网络确定的CNI；π_θ(s，a)表示包含第一神经网络的参数θ的策略函数；

指对所有策略求期望；R(s，a)表示决策收益；

表示终端通过第一神经网络确定的CNI的熵，该熵作为正则项可以增加第一目标函数的探索能力，提高第一神经网络的鲁棒性；

可以通过系数β控制探索权重，β大于或等于0、且小于或等于1。基于该第一目标函数更新第一神经网络的参数时，优化目标(或可以称之为更新策略)可以为最大化第一目标函数。

第一目标函数可以用于增大决策收益大于0的CNI的选择概率，减小决策收益小于0的CNI的选择概率。

基于上述第一目标函数，终端可以对上述第一目标函数的参数θ进行更新，从而实现对第一神经网络的参数进行更新。

例如，可以先初始化参数θ和步长α(如：可以随机生成θ和α的初始值)。然后，终端可以根据测量估计的下行信道的信道矩阵(第一目标函数中的s)、通过第一神经网络确定的CNI(第一目标函数中的a)、以及网络设备发送的决策收益(第一目标函数中的R(s，a))，使用梯度上升法，采用下述策略更新函数对参数θ进行更新：

如上S601的相关解释中所述，在不同实施方式中，决策收益可以是不同类型的数据。针对不同类型的决策收益，本申请实施例可以采用不同的第一目标函数。也即，第一目标函数与决策收益相关。

举例说明：

1)若决策收益(R(s，a))为网络设备根据下行信道对应的MCS进行调度时的决策码率，则第一目标函数可以表示为：

其中，Rate(a)·ACK表示决策码率。

该种情况下，网络设备的任务需求可以为提高决策码率。

2)若决策收益(R(s，a))为网络设备根据下行信道对应的MCS进行调度时的决策码率与基准码率的码率差，则第一目标函数可以表示为：

其中，Rate(a)·ACK-Rate(baseline)表示决策码率与基准码率的码率差；Rate(a)·ACK表示决策码率；Rate(baseline)表示基准码率。例如，基准码率可以为10％误块率。

该种情况下，网络设备的任务需求可以为获得比基准码率更优的决策码率。

3)若决策收益(R(s，a))为网络设备根据下行信道对应的MCS进行调度时的决策码率与网络设备对下行信道对应的CNI的评价值的组合，则第一目标函数可以表示为：

其中，Rate(a)·ACK表示决策码率；I(a_BS；a_UE)表示网络设备对下行信道对应的CNI的评价值，评价值可以是指下行信道对应的CNI与MCS的互信息；p和q均为常数。

该种情况下，网络设备的任务需求可以为提高码率的同时提高CNI的评价值。

类似地，若决策收益为网络设备根据下行信道对应的MCS进行调度时的吞吐量，或网络设备根据下行信道对应的MCS进行调度时的吞吐量与网络设备对下行信道对应的CNI的评价值的组合，则第一目标函数可以参考上述示例性说明，在此不再一一赘述。

可选地，第一神经网络可以是卷积神经网络、长短期记忆的循环神经网络等。第一神经网络的具体结构和维度可以根据输入数据的类型进行确定。例如，对于前述实施例所述的Massive MIMO通信系统中的大量参数的信道矩阵，可以采用卷积神经网络。而对于一些预测信道矩阵的场景，则可以通过输入前一段时间的信道信息，采用长短期记忆的循环神经网络。本申请实施例对第一神经网络的具体类型不作限制。

由上所述，本申请实施例中，终端可以根据网络设备发送的决策收益，对第一神经网络的参数进行更新，从而可以实现对信道矩阵与CNI之间的映射关系的动态更新，进而使得终端下一次通过第一神经网络所确定的下行信道对应的CNI的信息熵能够较小。

类似的，在一种可能的设计中，第二神经网络的参数也可以与历史MCS相关。

例如，网络设备根据历史MCS，获取历史MCS对应的历史决策收益后，也可以根据历史决策收益，对第二神经网络的参数进行更新，从而使得第二神经网络的参数与历史MCS相关。其中，历史决策收益的获取方式可以参考前述实施例中所述，在此不再赘述。

也即，该设计中，第二神经网络的参数与历史MCS相关可以是指：第二神经网络的参数为网络设备根据历史决策收益进行更新后的参数，而历史决策收益为网络设备根据历史MCS所获取。

该设计中，第二神经网络的参数可以与历史MCS相关，所以，网络设备所确定的历史MCS，能够对根据CNI通过第二神经网络确定下行信道的MCS起到指导作用，从而可以进一步降低CNI和MCS在概率分布上可能存在的偏差。

可选地，上述信道信息反馈方法中，网络设备根据确定出的下行信道对应的MCS，获取MCS对应的决策收益后，也可以根据MCS对应的决策收益，对第二神经网络的参数进行更新。从而使得第二神经网络的参数能够随着网络设备每次确定的MCS动态更新，以实现对CNI和MCS之间的映射关系的动态更新。

例如，图7示出了本申请实施例提供的信道信息反馈方法的又一流程示意图。如图7所示，在上述图5所示的信道信息反馈方法的基础上，S505之后，该信道信息反馈方法还可以包括S701-S702，S701-S702为该信道信息反馈方法中对第二神经网络的参数进行更新的过程。

S701、网络设备根据下行信道对应的MCS，获取MCS对应的决策收益。

网络设备根据下行信道对应的MCS，获取MCS对应的决策收益的步骤，与前述实施例中所述的S601相同，在此不再赘述。

S702、网络设备根据决策收益，对第二神经网络的参数进行更新。

可选地，网络设备可以根据决策收益，按照第二目标函数，对第二神经网络的参数进行更新。第二神经网络的参数可以是指第二神经网络中各神经元的连接权重和偏置值。网络设备根据决策收益，按照第二目标函数，对第二神经网络的参数进行更新是指：网络设备根据决策收益，按照第二目标函数，对第二神经网络中各神经元的连接权重和偏置值进行调整，使得第二神经网络的误差越来越小。

第二目标函数的形式与前述实施例中所述的第一目标函数类似。假设将第二神经网络的参数也表示为θ，则第二目标函数可以为：

与第一目标函数的不同之处在于，第二目标函数中：J(θ)表示第二目标函数；s表示网络设备接收到的下行信道对应的CNI；a表示网络设备根据下行信道对应的CNI，通过第二神经网络确定的MCS；π₀(s，a)表示包含第二神经网络的参数θ的策略函数；

指对所有策略求期望；R(s，a)表示决策收益；

表示网络设备通过第二神经网络确定的MCS的熵，该熵作为正则项可以增加第二目标函数的探索能力，提高第二神经网络的鲁棒性；

可以通过系数β控制探索权重，β大于或等于0、且小于或等于1。基于该第二目标函数更新第二神经网络的参数时，优化目标(或可以称之为更新策略)可以为最大化第二目标函数。

第二目标函数可以用于增大决策收益大于0的MCS的选择概率，减小决策收益小于0的MCS的选择概率。

基于上述第二目标函数，网络设备可以对上述第二目标函数的参数θ进行更新，从而实现对第二神经网络的参数进行更新。

例如，可以参照对前述第一神经网络的参数进行更新的方式，先初始化参数θ和步长α(如：可以随机生成θ和α的初始值)。然后，终端可以根据下行信道对应的CNI(第二目标函数中的s)、通过第二神经网络确定的MCS(第二目标函数中的a)、以及网络设备获取的决策收益(第二目标函数中的R(s，a))，使用梯度上升法，采用下述策略更新函数对参数θ进行更新：

另外，与前述对第一神经网络的参数进行更新的实施例相同，对第二神经网络的参数进行更新时，在不同实施方式中，决策收益也可以是不同类型的数据。针对不同类型的决策收益，也可以采用不同的第二目标函数。也即，第二目标函数也与决策收益相关。在此不再进行举例说明。

可选地，第二神经网络也可以是卷积神经网络、长短期记忆的循环神经网络等，本申请实施例对第二神经网络的具体类型同样不作限制。

一些实施例中，本申请实施例所述的信道信息反馈方法可以是如前述图6所示，只包含对第一神经网络的参数进行更新的方案。

另外一些实施例中，本申请实施例所述的信道信息反馈方法也可以是如前述图7所示，只包含对第二神经网络的参数进行更新的方案。

还有一些实施例中，本申请实施例所述的信道信息反馈方法还可以结合前述图6和图7所示，同时包含对第一神经网络的参数进行更新的方案和对第二神经网络的参数进行更新的方案。

需要说明的是，当同时包含对第一神经网络的参数进行更新的方案和对第二神经网络的参数进行更新的方案时，网络设备对第二神经网络的参数进行更新的时间，可以在终端对第一神经网络的参数进行更新之前，也可以在终端对第一神经网络的参数进行更新之后，本申请在此不作限制。

由上可知，本申请实施例中，终端可以根据测量估计的下行信道的信道矩阵，通过第一神经网络确定下行信道对应的CNI，并向网络设备发送下行信道对应的CNI。网络设备可以根据接收到的下行信道对应的CNI，通过第二神经网络确定下行信道对应的MCS。网络设备在确定出下行信道对应的MCS后，可以根据所确定的MCS，获取MCS对应的决策收益。然后，网络设备可以将决策收益发送给终端，终端可以根据决策收益对第一神经网络的参数进行更新，以实现动态更新信道矩阵与CNI之间的映射关系。另外，网络设备也可以根据决策收益，对第二神经网络的参数进行更新，以实现动态更新CNI与MCS之间的映射关系。

对于终端和网络设备组成的通信系统而言，第一神经网络和第二神经网络一起实现了信道矩阵与MCS之间的映射。当对第一神经网络的参数和第二神经网络的参数均按照上述方式进行更新时，即相当于实现了信道矩阵与MCS之间的映射关系的动态更新。

基于这样的理解，本申请实施例还提供一种信道信息反馈方法，该信道信息反馈方法中，网络设备可以按照前述实施例中所述的方式，根据决策收益对第二神经网络的参数进行更新。而终端则可以根据网络设备对第二神经网络的参数进行更新前和更新后，第二神经网络的第一层隐藏层的参数的误差，对第一神经网络的参数进行更新。

例如，图8示出了本申请实施例提供的信道信息反馈方法的又一流程示意图。如图8所示，在上述图5所示的信道信息反馈方法的基础上，S505之后，该信道信息反馈方法还可以包括S801-S805，S801-S805为对第一神经网络的参数和第二神经网络的参数均进行更新的过程。

S801、网络设备根据下行信道对应的MCS，获取MCS对应的决策收益。

S802、网络设备根据决策收益，对第二神经网络的参数进行更新。

网络设备根据决策收益，对第二神经网络的参数进行更新的步骤，与前述实施例中所述相同，在此亦不再赘述。

S803、网络设备获取对第二神经网络的参数进行更新前和更新后，第二神经网络的第一层隐藏层的参数的误差。

例如，网络设备可以获取对第二神经网络的第一层隐藏层中各神经元的连接权重和偏置值进行更新前和更新后的误差。

S804、网络设备向终端发送第二神经网络的第一层隐藏层的参数的误差。

相应地，终端可以接收来自网络设备的第二神经网络的第一层隐藏层的参数的误差。

S805、终端根据第二神经网络的第一层隐藏层的参数的误差，对第一神经网络的参数进行更新。

可选地，终端可以根据第二神经网络的第一层隐藏层的参数的误差，按照反向传播算法，对第一神经网络的参数进行更新。

需要说明的是，若终端通过第一神经网络输出CNI时需要考虑二进制表示，则根据第二神经网络的第一层隐藏层的参数的误差，按照反向传播算法，对第一神经网络的参数进行更新时，需要对第二神经网络的第一层隐藏层的参数的误差做离散采样处理。例如，可以通过Gumbel-Softmax估算器，保证网络设备到终端的梯度反向传播。

可以理解的，本实施例中，终端需要根据网络设备对第二神经网络的参数进行更新前和更新后，第二神经网络的第一层隐藏层的参数的误差，对第一神经网络的参数进行更新。所以，网络设备对第二神经网络的参数进行更新的时间，必须在终端对第一神经网络的参数进行更新之前。

相对于前述实施例中，终端根据决策收益对第一神经网络的参数进行更新、以及网络设备根据决策收益对第二神经网络的参数进行更新的方式而言，本实施例可以简化对第一神经网络的参数的更新方式。

可选地，本申请实施例中，训练获取第一神经网络和第二神经网络时，也可以结合前述任一实施例中所述的对第一神经网络和第二神经网络的参数进行更新的方式，对第一神经网络和第二神经网络进行训练。

在一些可能的设计中，前述实施例中所述的第一目标函数，还可以基于值函数实现。例如，第一目标函数可以通过下述值函数的方式实现：

其中，J(θ)表示第一目标函数；θ表示第一神经网络的参数；s表示终端测量估计的下行信道的信道矩阵；a表示终端通过第一神经网络确定的下行信道对应的CNI；R(s，a)表示网络设备发送给终端的决策收益，例如，可以是前述实施例中所述的决策码率、吞吐量等；Q(s，a)为动作价值函数，表示近似在s(终端测量估计的下行信道的信道矩阵)下选择a(终端通过第一神经网络确定的下行信道对应的CNI)的价值；

表示对所有值求期望。基于该第一目标函数更新第一神经网络的参数时，优化目标(或可以称之为更新策略)可以为最小化第一目标函数，使得动作价值函数Q(s，a)与决策收益R(s，a)的均方误差最小。

类似地，前述实施例中所述的第二目标函数，也可以基于值函数实现。例如，第二目标函数也可以通过下述值函数的方式实现：

与上述第一目标函数不同的是，该第二目标函数中，J(θ)表示第二目标函数；θ表示第二神经网络的参数；s表示网络设备接收到的下行信道对应的CNI；a表示网络设备通过第二神经网络确定的下行信道对应的MCS；R(s，a)表示网络设备获取的MCS对应的决策收益；Q(s，a)为动作价值函数，表示近似在s(网络设备接收到的下行信道对应的CNI)下选择a(网络设备通过第二神经网络确定的下行信道对应的MCS)的价值；

表示对所有值求期望。基于该第二目标函数更新第二神经网络的参数时，优化目标同样(或可以称之为更新策略)可以为最小化第二目标函数，使得动作价值函数Q(s，a)与决策收益R(s，a)的均方误差最小。

需要说明的是，本申请实施例中所述的基于策略函数的第一目标函数和第二目标函数，或者，基于值函数的第一目标函数和第二目标函数，均为示例性说明，本申请对第一目标函数和第二目标函数的具体类型并不作限制。

综上所述，本申请实施例通过采用强化学习的方式训练了一种面向任务的信道信息反馈量，定义为信道协商信息(Channel Negotiation Information，CNI)，可以使得信道信息反馈过程中，终端和网络设备能够根据当前信道信息的分布(即根据MCS对应的决策收益)，动态调整测量的信道矩阵到MCS的映射关系。

其中，关于面向任务的信道信息反馈是指：网络设备会根据自身任务的需要，给终端提供先验信息，而终端在有先验信息的情况下，可以有针对性的对当前信道信息进行压缩反馈。本申请实施例中，先验信息即为前述决策收益或第二神经网络的第一层隐藏层的误差。

可以理解，与传统CSI反馈相比，CNI在概念上和CSI相同，都是对信道信息的一种量化。但在反馈的实现上，现有标准中信道信息到CSI的映射以及CSI到MCS的映射是固定的。而本申请实施例中，由于第一神经网络更新过程中会接收到网络设备反馈的奖励信息(决策收益或第二神经网络的第一层隐藏层的误差)，而这个奖励信息可以理解成网络设备MCS分布的先验信息，进而调整终端对信道信息的量化，故CNI所包含的信息熵要小于CSI，等价于相同比特数约束下的精度更高。

可选地，基于前述实施例所述的信道信息反馈方法，本申请实施例还提供一种信道信息反馈方法。该信道信息反馈方法中，终端对第一神经网络的参数进行更新、以及网络设备对第二神经网络的参数进行更新之前，终端可以根据下行信道对应的CNI，获取还原后的信道矩阵。例如，终端中还可以部署有还原网络。终端中，第一神经网络可以作为编码网络，根据测量估计到的下行信道的信道矩阵，输出下行信道对应的CNI；而该还原网络，可以根据下行信道对应的CNI，输出还原后的信道矩阵。然后，终端可以根据测量估计的下行信道的信道矩阵、以及还原后的信道矩阵，按照第三目标函数，对第一神经网络的参数进行更新。

第三目标函数可以如下：

其中，J(θ，ξ)表示第三目标函数；θ为第一神经网络的参数；ξ为还原网络的参数；H表示终端测量估计到的下行信道的信道矩阵；f(·；θ)表示第一神经网络，可以作为编码器对H进行压缩量化；f(H；θ)表示终端通过f对H进行压缩量化后的量化信息，即，下行信道对应的CNI；g(·；ξ)表示还原网络，可以作为解码器对f(H；θ)进行还原；g(f(H；θ)；ξ)表示终端通过g(·；ξ)对f(H；θ)进行还原后，得到的还原后的信道矩阵。

第三目标函数可以用于指示最小化测量估计的下行信道的信道矩阵与还原后的信道矩阵之间的误差。

例如，误差可以是最小均方误差，终端可以基于该第三目标函数，对第一神经网络中各神经元的连接权重和偏置值进行调整，使得测量估计的下行信道的信道矩阵与还原后的信道矩阵之间的最小均方误差最小。

可选地，本申请实施例中，基于第三目标函数对第一神经网络进行更新的更新步长，远远大于基于第一目标函数对第一神经网络进行更新的更新步长、以及基于第二目标函数对第二神经网络进行更新的更新步长，以保证测量梯度能跟踪Markov链变化。例如，基于第一目标函数对第一神经网络进行更新的更新步长、以及基于第二目标函数对第二神经网络进行更新的更新步长，可以为10-5。而基于第三目标函数对第一神经网络进行更新的更新步长，则需要为远远大于前述10-5的值，如：可以是10-2。但需要说明的，本申请对基于第三目标函数对第一神经网络进行更新的更新步长、基于第一目标函数对第一神经网络进行更新的更新步长、以及基于第二目标函数对第二神经网络进行更新的更新步长的具体大小均不作限制，前述更新步长的值仅为示例性说明。

本申请实施例提供的将强化学习等AI技术应用于通信系统的一种测量、反馈、控制的框架，不限于上述下行信道的测量和反馈，同样适用于其他应用场景。互相通信的实体也不限于是终端和网络设备之间的通信，可以是终端与终端之间的通信、网络设备与网络设备之间的通信。进行通信的网络实体之间，第一实体可以根据自身任务的需求，给第二实体提供先验信息，第二实体根据该先验信息对当前的信道信息进行压缩反馈。

本申请实施例提供又一种信道信息反馈的方法，应用于无线网状网络(WirelessMesh Network)，也称为“多跳”网络。

在无线网状网络中，任何无线设备节点都可以同时作为接入点和路由器，网络中每个节点都可以发送和接收信号，减少节点故障和干扰对整体网络运行的影响。由于无线网状网络是网状的拓扑结构，因此节点间需要交互实现动态配置功能，为业务选择一条最佳传输路径，并且在无线网状网络中可以执行多种具有不同服务质量要求的任务，例如语音服务，数据服务，根据不同任务需求确定最佳路径。

以下以三个节点构成的无线网状网络的传输为例进行说明。图9a为本申请实施例提供的路径信息反馈方法的应用场景图。如图9a所示，当实体A需要发送信息至实体B以完成实体B处特定服务质量需求的任务时，实体A可以直接向实体B发送信息，还可以借由实体C作为转发节点向实体B转发信息，从而调节无线网状网络的效率。也就是网络中存在两条路径，分别为路径A-B和路径A-C-B。经过每个路径传输时，路径上的网络实体可以采用其部署的神经网络根据任务需求和先验信息对需要传输的信息进行压缩。图9a中实线箭头表示传输压缩的路径信息，虚线表示传输决策收益等信息。

如图9b所示，图9b为本申请实施例提供的路径信息反馈方法的交互示意图，其适用于图9a所示的应用场景。其中，实体A、B、C均为智能体。

S1201a、实体B向实体A发送参考信号，相应的，实体A接收实体B发送的参考信号。

一种可能的实现中，该参考信号可以是CSI-RS

S1201b、实体B向实体C发送参考信号，相应的，实体A接收实体C发送的参考信号。

一种可能的实现中，该参考信号可以是CSI-RS

S1202a、实体A测量估计路径B-A的路径参数。

该路径参数包括但不限于路径B-A的信道矩阵、误码率、路由跳数。

其中，路径B-A的信道矩阵是实体A接收参考信号后根据该参考信号测量估计获得的；误码率是通过衡量一定时间下行数据传输准确性计算得到；信道矩阵可作为短期信道质量的评估，误码率可作为长期信道质量的评估。

路由跳数由自身的网络拓扑信息计算得到；具体地，可在每个节点上存储WMN网络的拓扑信息，每当拓扑结构发生变化(增加，减少节点或节点间可否通信)时，各节点将统一更新WMN的网络拓扑信息。当发送端与接收端确定时，每个节点可估计出自身的网络拓扑信息。

一种可能的实现中，参照路由信息协议(Routing Information Protocol，RIP)的设定，路由跳数可以定义为发送端到接收端经过路由器的数量。如图9a所示的场景中，有2条路径，A-B，A-C-B。则路段A-B由A给出的路由跳数为1；路径A-C-B由A给出的路由跳数为2，由C给出的路由跳数为1。再例如，若存在5条路径，A-C-B；A-C-D-B；A-D-C-B；A-D-B；A-B。其中路径A-D-C-B中各节点估计出的路由跳数分别为A：3，D：2，C:1；路径A-D-B中各节点估计出的路由跳数分别为A：2，D：1。

S1202b、实体C测量估计路径B-C的路径参数。

该路径参数包括但不限于路径B-C的信道矩阵、误码率、路由跳数。

其中，路径B-C的信道矩阵是实体C接收参考信号后根据该参考信号测量估计获得的；各路径的误码率通过衡量一定时间下行数据传输准确性计算得到；路由跳数是通过网络拓扑信息获得的。

需要指出的是，本申请不限定步骤S1201a、S1202a和步骤S1201b、S1202b的顺序。

S1203、实体A根据路径B-A的路径参数，通过第三神经网络确定路径B-A的CNI。

第三神经网络可以通过将样本路径参数作为输入、样本CNI作为输出进行强化学习训练而得到。终端可以将测量估计得到的路径B-C的路径参数输入第三神经网络，第三神经网络可以输出路径B-A的CNI(CNI_BA表示实体B到实体A的CNI)。

路径B-A的CNI具体可以为，根据实体B所执行的任务需求，对路径B-A的参数信息进行压缩得到的信息。

S1204、实体A向实体B发送路径B-A的CNI，相应的，实体B接收实体A发送的路径B-A的CNI。

S1205、实体C向实体A发送参考信号，相应的，实体A接收实体C发送的参考信号。

一种可能的实现中，该参考信号可以是CSI-RS。

S1206、实体A测量估计路径C-A的路径参数

该路径参数包括但不限于路径C-A的信道矩阵、误码率、路由跳数。

其中，路径C-A的信道矩阵是实体A接收参考信号后根据该参考信号测量估计获得的；

误码率是通过衡量一定时间下行数据传输准确性计算得到；

路由跳数由自身的网络拓扑信息计算得到。S1207、实体A根据路径C-A的路径参数，通过第四神经网络确定路径C-A的CNI。

第四神经网络可以通过将样本路径参数作为输入、样本CNI作为输出进行强化学习训练而得到。终端可以将测量估计得到的路径C-A的路径参数输入第四神经网络，第四神经网络可以输出路径C-A的CNI(CNI_CA表示实体C到实体A的CNI)。

路径C-A的CNI具体可以为根据实体B所执行的任务需求，对路径C-A的参数信息进行压缩得到的信息。

S1208、实体A向实体C发送路径C-A的CNI，相应的，实体C接收实体A发送的路径C-A的CNI。

需要说明的是上述步骤S1205-S1208可以在步骤S1201a-S1204之后、之前或者中间执行，本申请不做限定。

S1209、实体C根据路径B-C的路径参数、路径C-A对应的CNI，通过第五神经网络确定路径B-C-A的CNI。

第五神经网络可以通过将样本路径参数作为输入、样本CNI作为输出进行强化学习训练而得到。实体C可以将测量估计的路径B-C的路径参数以及接收到的路径C-A对应的CNI输入第五神经网络，第五神经网络可以输出路径B-C-A的CNI(CNI_BCA表示实体B到经过实体C到实体A的CNI)。

路径B-C-A的CNI具体可以为根据实体B所执行的任务需求，整合B-C路径参数信息与接收到的A-C的CNI信息所得到的压缩信息。

S1210、实体C向实体B发送路径B-C-A的CNI，相应的，实体B接收实体C发送的路径B-C-A的CNI。

S1211、实体B根据各个路径对应的CNI，通过第六神经网络确定传输路径。

第六神经网络可以通过将样本路径参数作为输入、样本调度决策作为输出进行强化学习训练而得到。实体B可以将各个路径的CNI(如CNI_BA、CNI_BCA)输入第六神经网络，第六神经网络可以输出调度决策，例如实体B选择的路径、路径组合的权重、预编码矩阵等。

其中预编码矩阵指为分布式(多路径)信道反馈的多用户预编码的预编码矩阵，用于分配发送功率和传输速率，以获得最优性能。

S1212、实体B根据确定的传输路径进行数据传输。

具体地，实体B根据路径组合权重分别向实体A和/或实体C发送数据，并接收实体A和/或实体C向实体B回复的ACK或NACK。

举例来说，其中实体B发送的总体数据为Data，其根据路径权重被分为Data 1和Data 2。实体B向实体A发送Data 1，接收实体A发送的ACK_AB或NACK_AB；实体B并向实体C发送发送Data 2，实体C向实体A转发Data 2；实体C接收实体A发送的ACK_AC或NACK_AC，并向实体B返回ACK_CB或NACK_CB。需要说明的是，Data1或者Data 2可以为空，例如，Data 1为空是指，实体B不经过路径B-A向实体A发送数据，总体数据Data全部通过路径B-C-A发送。

S1213、实体B根据传输路径，获得该传输路径对应的第一决策收益。

具体地，实体B根据实体A和/或实体C回复的ACK或NACK，获取传输路径对应的第一决策收益。

第一决策收益包括但不限于以下一种或多种：吞吐量、信道容量、功耗。第一决策收益的计算准则与实体B执行的具体任务相关。一种可能的实现中，任务为：通过确定路径组合的权重，最大化某一场景下(例如，语音服务)的性能指标。则路径组合权重的决策收益的计算准则可有如下关系：

设吞吐量为T，功耗为P，α，β≥0分别为任务对应的路由跳数H和误码率E(或者时延，带宽等其他性能指标)的需求比重，决策的路径组合权重设为λ_i，i代表可选择的路径，且有∑λ_i＝1,则总的任务决策收益R₁可定义为：

吞吐量是指单位时间内成功地传送数据的数量；信道容量是指在一个信道中能够可靠传输时可达速率的最小上界；功耗是指在单位时间中设备所消耗的能源的数量，以上吞吐量、信道容量、功耗等可以根据所选择的路径，通过信道矩阵信息、路径上路由器的自身功耗等计算得到。

另一种可能的实现中，任务为：确定传输服务的最优路径，最大化多样通信场景(语音服务与数据服务)下的均衡性能指标，满足不同业务的质量需求。针对上述任务，决策收益的计算准则可有如下关系：

其中，R₂为统计N轮任务决策的平均收益，路径i为每次任务所选择的特定路径，T_n(i为第n次选择路径i所对应的吞吐量，P_n(i)为第n次选择路径i对应的功耗，α_n,β_n≥0分别为针对第n次选择的，任务对应的路由跳数H_n(i)和误码率E_n(i)(或者时延，带宽等其他性能指标)的需求比重。

此任务下，CNI为根据通信场景变化与网络拓扑结构变化，对路径参数信息做自适应压缩得到的路径参数信息，以使得不同业务的质量都达到最好的。

一种可能的实现中，实体B根据获取的第一决策收益更新第六神经网络。具体地，实体B根据第一决策收益，按照目标函数对第六神经网络的参数进行更新。第六神经网络的参数可以是指第六神经网络中各神经元的连接权重和编制值。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s，a)可根据实际任务需求替换为上述R₁或R₂。此处不再赘述。

S1214a、实体B向实体A指示第一决策收益，相应的，实体A获取实体B指示的第一决策收益。

S1214a、实体B向实体C指示第一决策收益，相应的，实体C获取实体B指示的第一决策收益。

S1215、实体C根据传输路径，获取第二决策收益。

具体地，当实体B确定的传输路径中包含实体C时，实体C获取第二决策收益。

第二决策收益包括但不限于以下一种或多种：吞吐量、信道容量、功耗。第二决策收益的计算准则与第一决策收益的计算准则相似。区别在于，第一决策收益中的考虑了各个路径合并组合后的吞吐量、功耗等，而第二决策收益仅考虑路径C-A之间的吞吐量、功耗等。

S1216、实体C向实体A指示第二决策收益，相应的，实体A获取实体C指示的第二决策收益。

S1217a、实体A根据决策收益更新神经网络。

一种可能的实现中，实体A根据第一决策收益更新第三神经网络。具体地，实体A根据第一决策收益，按照目标函数对第三神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₁或R₂。此处不再赘述。

一种可能的实现中，实体A根据第一决策收益和第二决策收益更新第四神经网络。具体地，实体A根据第一决策收益和第二决策收益，按照目标函数对第四神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为第一决策收益和第二决策收益的组合。第一决策收益和第二决策收益的组合可以是，实体A根据实际需求对第一决策收益和第二决策收益进行合并的结果，例如，第一决策收益和第二决策收益分别乘以一定的比重得到合并的决策收益。

S1217b、实体C根据决策收益更新第五神经网络。

实体C根据第一决策收益和第二决策收益更新第五神经网络。具体地，实体C根据第一决策收益和第二决策收益，按照目标函数对第五神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为第一决策收益和第二决策收益的组合。第一决策收益和第二决策收益的组合可以是，实体C根据实际需求对第一决策收益和第二决策收益进行合并的结果，例如，第一决策收益和第二决策收益分别乘以一定的比重得到合并的决策收益。此处不再赘述。

图12所示的方法中，实体A和实体C接收实体B的参考信号，测量并估计路径B-A以及C-A的路径参数，并分别根据不同的任务需求通过神经网络对路径参数进行压缩对应的信道协商信息CNI，并向实体B反馈不同路径(路径B-A，B-C-A)的CNI，使得实体B根据不同路径的CNI通过神经网络做调度决策，确定传输路径，进行数据传输以及计算决策收益。实体A、B、C根据决策收益进行神经网络的更新，其中，决策收益的计算考虑了不同的任务需求，使得各个实体处的神经网络根据任务需求对路径参数做自适应的压缩，实现根据实际任务需求选择传输路径的同时，减少路径信息反馈的开销。

本申请实施例提供又一种信道信息反馈的方法，应用于协作多点传输(Coordinated Multi-Point,CoMP)，包括联合处理(joint processing，JP)协作多点传输(JP-CoMP)和协同调度(coordinated scheduling，CS)、协同波束赋形(coordinatedbeamforming,CB)协作多点传输(CS/CB-CoMP)。

CoMP技术的特点是相邻的几个网络设备同时为一个终端服务，提高用户的数据率，改善边缘终端性能的同时提高系统的整体性能，是一种多小区多用户MIMO系统。对于JP-CoMP，协作小区内所有的网络设备都拥有该终端发送的相同数据包，要求网络设备间共享数据信息和信道信息，例如非相干联合传输(Non-coherent Joint Transmission,NCJT)，网络设备给终端发送不同层的数据；对于CS/CB-CoMP,每个终端同时只与一个网络设备传输数据，故不要求共享数据信息，但需要共享信道信息。对于JP-CoMP的实现需要降低协作小区频率复用率，而CS/CB-CoMP对边缘终端的提升有限，仅降低了干扰而并不能获得额外的分集增益。

若多个网络设备与终端均为智能体，上述两种CoMP系统可视为智能体间交互反馈内容程度不同，为将两种方案的优势结合起来，可通过本申请实施例提供的强化学习训练方法，通过调节交互信令实现两种传输方式的自适应调整，减小网络设备间交互的回程(backhaul)开销和各网络设备与终端间的通信开销。

以下以如图10a所示的三个智能体为例进行说明，图10a为本申请实施例提供的路径信息反馈方法的应用场景图。实体D、E为网络设备，负责对同一个终端的传输任务，可以将这些网络设备归为同一组(cluster)。组内交互反馈的CNI信息与向终端反馈的信息不同，不仅包括由接收到终端的压缩信道信息，也可以包括与具体任务相关的决策信息，决策奖励等。包含数据信息的决策信息则为JP-CoMP；不包含数据信息的决策信息则为CS/CB-CoMP)；实体F为终端，其采用神经网络对信道信息进行压缩得到相应的CNI并反馈。该场景下任务目标为网络设备间协作最大化对终端的下行传输性能。图10a中300表示组内交互压缩的路径信息；在下行通信场景中200表示传输压缩的路径信息，100表示反馈决策收益等信息；在上行通信场景中，100表示传输决策信息，200表示反馈决策收益等信息。

如图10b所示，图10b为本申请实施例提供的路径信息反馈方法的交互示意图，其适用于图10a所示的应用场景。其中，实体D、E、F均为智能体。

S1301、实体D向实体F发送参考信号，相应的，实体F接收实体D发送的参考信号。

一种可能的实现中，该参考信号可以是CSI-RS。

S1302、实体F测量估计路径D-F的路径参数。

该路径参数包括但不限于路径D-F的信道矩阵、实体F所在的位置、所属小区或扇区、直连链路天线增益。

其中，路径D-F的信道矩阵是实体F接收参考信号后根据该参考信号测量估计获得的；实体F所在的位置、所属小区或扇区可以通过实体F的定位业务获得；直连链路天线增益是指天线朝特定方向收发信号的能力，可以由网络设备提供。

S1303、实体F根据路径D-F的路径参数，通过第七神经网络确定路径D-F的CNI。

第七神经网络可以通过将样本路径参数作为输入、样本CNI作为输出进行强化学习训练而得到。实体F可以将测量估计得到的路径D-F的路径参数输入第七神经网络，第七神经网络可以输出路径D-F的CNI(CNI_DF表示实体D到实体F的CNI)。

路径D-F的CNI具体可以为针对网络设备端的任务需求，对测量估计得到的路径参数有效压缩得到的反馈信息。

S1304、实体F向实体D发送路径D-F的CNI，相应的，实体D接收实体F发送的路径D-F的CNI。

S1305、实体E向实体F发送参考信号，相应的，实体F接收实体E发送的参考信号。

一种可能的实现中，该参考信号可以是CSI-RS

S1306、实体F测量估计路径E-F的路径参数。

该路径参数包括但不限于路径E-F的信道矩阵、实体F所在的位置、所属小区或扇区、直连链路天线增益。

其中，路径E-F的信道矩阵是实体F接收参考信号后根据该参考信号测量估计获得的；实体F所在的位置、所属小区或扇区可以通过实体F的定位业务获得；直连链路天线增益是指天线朝特定方向收发信号的能力，可以由网络设备提供。

S1307、实体F根据路径D-F的路径参数，通过第七神经网络确定路径D-F的CNI。

第八神经网络可以通过将样本路径参数作为输入、样本CNI作为输出进行强化学习训练而得到。实体F可以将测量估计得到的路径D-F的路径参数输入第八神经网络，第八神经网络可以输出路径E-F的CNI(CNI_DF表示实体E到实体F的CNI)。

路径E-F的CNI具体可以为针对网络设备端的任务需求，对测量估计得到的路径参数有效压缩得到的反馈信息。

S1308、实体F向实体E发送路径E-F的CNI，相应的，实体E接收实体F发送的路径E-F的CNI。

需要说明的是，本申请不对步骤S1301-S1304与步骤S1305-S1308的前后顺序做限定。也就是说，步骤S1305-S1308也可以在步骤S1301-S1304之前执行，或者与步骤S1301-S1304同时执行。一种可能的实现中，实体F首先与服务该实体F所在位置的实体进行交互，或者是首先与该实体F所属小区或扇区对应的实体进行交互。

S1309、实体D根据路径D-F的CNI以及上轮传输决策的结果，通过第九神经网络确定路径D-E的CNI。

第九神经网络为服务于通信的神经网络、也可以称为交互神经网络或通信神经网络。

实体D可以将接收到的路径D-F的CNI以及上轮传输决策的结果输入第九神经网络，第九神经网络可以输出路径D-E的CNI(CNI_DE表示实体D到实体E的CNI)。

其中，上轮传输决策可以是实体D在当前决策之前一段时间内所做的传输决策，具体可以为一定长度的数据表记录。首次决策时，上轮传输决策为空。

路径D-E的CNI具体可以为针对最优化对终端传输性能的任务目标，对接收到的CNI与上轮传输的决策信息进行压缩的结果。

S1310、实体E根据路径E-F的CNI以及上轮传输决策的结果，通过第十神经网络确定路径E-D的CNI。

第十神经网络为服务于交互通信的神经网络、也可以称为交互神经网络或通信神经网络。

实体E可以将接收到的路径E-F的CNI以及上轮传输决策的结果输入第十神经网络，第九神经网络可以输出路径E-D的CNI(CNI_ED表示实体E到实体D的CNI)。

其中，上轮传输决策可以是实体E在当前决策之前一段时间内所做的传输决策，具体可以为一定长度的数据表记录。首次决策时，上轮传输决策为空。

路径E-D的CNI具体可以为针对最优化对终端传输性能的任务目标，对接收到的CNI与上轮传输的决策信息进行压缩的结果。

S1311、实体D向实体E发送路径D-E的CNI，相应的，实体E接收实体D发送的路径E-D的CNI。

S1312、实体E向实体D发送路径E-D的CNI，相应的，实体E接收实体D发送的路径E-D的CNI。

需要说明的是，本申请不对步骤S1311和S1312的顺序做限定。

S1313、实体D根据路径D-F的CNI以及路径E-D的CNI，通过第十一神经网络确定传输决策。

第十一神经网络为服务于任务策略的神经网络、也可以称为策略网络或动作网络，其可以通过将样本CNI作为输入、样本传输决策作为输出进行强化学习训练而得到。

实体D可以将接收到的路径D-F的CNI以及路径E-D的CNI输入第十一神经网络，第十一神经网络可以输出传输决策。传输决策结果可以包括采用JP-CoMP方式或者CS/CB-CoMP方式。其中，采用JP-CoMP的决策还包括预编码矩阵，预编码矩阵用于分配发送功率和传输速率，以实现优化对终端传输性能的任务目标；采用CS/CB-CoMP方式的决策还包括：确定实体D是否与实体F进行数据传输。

S1314、实体E根据路径E-F的CNI以及路径D-E的CNI，通过第十二神经网络确定传输决策。

第十二神经网络为服务于调度策略的神经网络、也可以称为策略网络或动作网络，其可以通过将样本CNI作为输入、样本传输决策作为输出进行强化学习训练而得到。

实体E可以将接收到的路径E-F的CNI以及路径D-E的CNI输入第十二神经网络，第十二神经网络可以输出传输决策。传输决策结果可以包括采用JP-CoMP方式或者CS/CB-CoMP方式。其中，采用JP-CoMP的情况还包括预编码矩阵。预编码矩阵，用于分配发送功率和传输速率，以实现优化对终端传输性能的任务目标；采用CS/CB-CoMP方式的决策还包括：确定实体E是否与实体F进行数据传输。

需要说明的是，完成步骤S1311和S1312后，可以采用定时器的方式，同时输出传输决策结果。

S1315、实体D根据传输策略与实体F进行数据传输。

举例来说，实体D向实体F发送数据Data_DF，实体F接收数据Data_DF后，向实体D发送ACK_FD或NACK_FD，实体D接收ACK_FD或NACK_FD。

一种可能的实现中，传输策略为采用CS/CB-CoMP方式，且实体D不与实体F进行数据传输，则该步骤S1315省略。

S1316、实体E根据传输策略与实体F进行数据传输。

举例来说，实体E向实体F发送数据Eata_EF，实体F接收数据Eata_EF后，向实体E发送ACK_FE或NACK_FE，实体E接收ACK_FE或NACK_FE。

一种可能的实现中，传输策略为采用CS/CB-CoMP方式，且实体E不与实体F进行数据传输，则该步骤S1316省略。

S1315、S1316中实体D、实体E根据传输策略与实体F进行数据传输包括：当传输策略决策结果为CS/CB-CoMP方式，则由确定传输数据的实体与实体F进行数据传输，另一个实体不与实体F进行数据传输，并由实体F和与其交互数据的实体共同确定是否重新启动实体F与其他实体的通信，即切换到JP-CoMP方式。

S1317、实体D根据传输决策结果，获得相应的第三决策收益。

一种可能的实现中，实体D基于最大化信道容量的准则，根据下行/上行传输性能指标，获得相应的第三决策收益。第三决策收益包括但不限于以下一种或多种：系统的吞吐量、信道容量、功耗。该种情况下，实体D的任务目标为通过实体D和实体E间协作最大化对终端的下行传输性能。

举例来说，设吞吐量为T，功耗为P，决策的路径组合权重设为λ_i，i代表可选择的路径，且有∑λ_i＝1,则总的任务决策收益R₁可定义为：

R₃＝∑λ_i[(T_i-P_i)]

当传输策略决策结果为CS/CB-CoMP方式，则仅有一条路径传输数据。λ_i的取值可以为0或1，即λ_i∈{0，1}；

当传输策略决策结果为JP-CoMP方式，则可以有多条路径传输数据。λ_i的取值可以为0和1之间的值，即λ_i∈(0，1)。

S1318、实体E根据传输决策结果，获得相应的第四决策收益。

一种可能的实现中，实体E基于最大化信道容量的准则，根据下行/上行传输性能指标，获得相应的第四决策收益。第四决策收益包括但不限于以下一种或多种：系统的吞吐量、信道容量、功耗。该种情况下，实体E的任务目标为通过实体D和实体E间协作最大化对终端的下行传输性能。

可选的，可以通过S1317中公式获得第四决策收益R₃。

S1319、实体D向实体F指示第三决策收益，相应的，实体F获取实体D指示的第三决策收益。

一种可能的实现中，实体D向实体F发送第三决策收益信息。

S1320、实体E向实体F指示第四决策收益，相应的，实体F获取实体E指示的第四决策收益。

一种可能的实现中，实体E向实体F发送第四决策收益信息。

S1321、实体D根据获取的决策收益更新第九神经网络和第十一神经网络。

具体地，实体D根据第三决策收益，按照目标函数对第九神经网络和第十一神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₃。此处不再赘述。

S1322、实体E根据获取的决策收益更新第十神经网络和第十二神经网络。

S1323、实体F根据决策收益更新第七神经网络和第八神经网络。

实体F获取实体D和实体E指示的第三决策收益和第四决策收益后，对第七神经网络和第八神经网络进行更新。

具体地，实体F根据第三决策收益，按照目标函数对第七神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₃。实体F根据第四决策收益，按照目标函数对第八神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₃。

一种可能的实现中，第七神经网络和第八神经网络是同一个神经网络。

图10b所述的信道信息反馈的方法中，终端(实体F)根据CoMP技术定义的同一组网络设备(实体D、E)的参考信号通过神经网络分别对两个路径的参数进行压缩，并分别反馈给两个网络设备，同一组的两个网络设备之间通过交互得到对端网络设备与终端之间的路径参数以及上轮传输决策的压缩信息，并各自通过神经网络输出传输决策，根据传输决策与终端进行数据传输，后续根据系统的吞吐量、信道容量、功耗等决策收益更新神经网络，从而通过网络设备之间的合作交互，提升了网络设备对终端下行传输的效率。

本申请的另一个实施例中，提供了上行通信场景的信道信息反馈的方法。在上行接收CoMP场景中，包含联合接收和协作调度；联合接收指通过不同网络设备间的协调，可形成虚拟的天线阵列，由此提高上行信号接收质量；协作调度指通过协调网络设备间的调度决策来降低干扰。该技术的关键点也在于减少网络设备间大量的数据传输，类似的可以用本发明的信道信息反馈来减少通信开销。

如图11所示，图11为本申请实施例提供的路径信息反馈方法的交互示意图，其适用于图10a所示的应用场景。

S1401、实体F向实体D发送参考信号，相应的，实体D接收实体F发送的参考信号。

一种可能的实现中，该参考信号可以是信道探测参考信号(sounding referencesignal，SRS)。

S1402、实体F向实体E发送参考信号，相应的，实体E接收实体F发送的参考信号。

一种可能的实现中，该参考信号可以是探测参考信号SRS。

本申请对步骤S1401和S1402的顺序不做限制。可能的，实体F发送参考信号，实体D和实体E分别接收该参考信号，用于进行信道估计。

S1403、实体D测量估计路径F-D的路径参数。

该路径参数可以是实体F和实体D之间的信道矩阵。实体D根据实体F发送的SRS测量估计信道矩阵。

S1404、实体E测量估计路径F-E的路径参数。

该路径参数可以是实体F和实体E之间的信道矩阵。实体D根据实体F发送的SRS测量估计信道矩阵。

S1405、实体D根据路径F-D的路径参数以及上轮传输的决策结果，通过第十三神经网络确定路径D-E对应的CNI。

第十三神经网络可以通过将样本路径参数作为输入、样本CNI作为输出进行强化学习训练而得到。实体D可以将测量估计得到的路径F-D的路径参数以及上轮的传输决策结果输入第十三神经网络，第十三神经网络可以输出路径D-E的CNI(CNI_DE表示实体D到实体E的CNI)。

可选的，第十三神经网络的的输入参数还包括路径D-E上的观测参数，即还考虑实体D与实体E之间的交互的过程。

路径D-E的CNI具体可以为针对网络设备端的任务需求，对测量估计得到的路径参数有效压缩得到的反馈信息。

S1406、实体E根据路径F-E的路径参数以及上轮传输的决策结果，通过第十四神经网络确定路径E-D对应的CNI。

第十四神经网络可以通过将样本路径参数作为输入、样本CNI作为输出进行强化学习训练而得到。实体E可以将测量估计得到的路径F-E的路径参以及上轮的传输决策结果数输入第十四神经网络，第十四神经网络可以输出路径E-D的CNI(CNI_ED表示实体F到实体D的CNI)。

可选的，第十四神经网络的的输入参数还包括路径E-D上的观测参数，即还考虑实体E与实体D之间的交互的过程。

路径E-D的CNI具体可以为针对网络设备端的任务需求，对测量估计得到的路径参数有效压缩得到的反馈信息。

S1407、实体D向实体E发送路径D-E的CNI，相应的，实体D接收实体F发送的路径D-E的CNI。

S1408、实体F向实体E发送路径E-D对应的CNI，相应的，实体E接收实体F发送的路径E-D的CNI。

S1409、实体D根据路径F-D对应的路径参数以及路径E-D对应的CNI，通过第十五神经网络确定传输决策。

第十五神经网络可以通过将样本CNI作为输入、样本传输决策作为输出进行强化学习训练而得到。实体D可以将第十三神经网络输出的路径F-D对应的CNI以及接收到的路径E-D的CNI输入第十五神经网络，第十五神经网络可以输出传输决策。

该传输决策可以是上行调度的决策，用于确定是否发送上行(uplink)调度授权(UL grant)，该种情况下，实体D和实体E中的一个接收实体F的上行数据；或者确定上行调度中分配的时频资源、MCS等，该种情况下，实体D和实体E联合接收实体F的上行数据。

S1410、实体E根据路径F-E对应的CNI以及路径D-E对应的CNI，通过第十六神经网络确定传输决策

第十六神经网络可以通过将样本CNI作为输入、样本传输决策作为输出进行强化学习训练而得到。实体D可以将第十四神经网络输出的路径D-E对应的CNI以及接收到的路径D-E的CNI输入第十五神经网络，第十五神经网络可以输出传输决策。

S1411、实体D和实体F根据传输决策进行数据传输。

举例来说，实体D向实体F发送UL grant。实体F根据接收到的UL grant传输上行数据，并接收实体D反馈的ACK或NACK。例如向实体D发送数据Data_FD，实体D接收数据Data_FD后向实体F反馈ACK_DF或NACK_DF。

S1412、实体F和实体D根据传输决策进行数据传输。

举例来说，实体E向实体F发送UL grant。实体F根据接收到的UL grant传输上行数据，并接收实体E反馈的ACK或NACK。例如向实体E发送数据Data_FE，实体E接收数据Data_FE后向实体F反馈ACK_EF或NACK_EF。

S1413、实体D根据上行调度结果，获得相应的第五决策收益。

一种可能的实现中，实体D根据上行传输性能指标，获得相应的第五决策收益。第五决策收益包括但不限于以下一种或多种：系统的吞吐量、信道容量、功耗。该种情况下，实体D的任务目标为通过实体D和实体E间协作最优化终端的上行传输性能。

举例来说，设吞吐量为T，功耗为P，决策的路径组合权重设为λ_i，i代表可选择的路径，且有∑λ_i＝1,则总的任务决策收益R₄可定义为：

R₄＝∑λ_i[(T_i-P_i)]

当传输决策结果为是否发送UL grant，则λ_i的取值可以为0或1，即λ_i∈{0，1}；

当传输决策结果为实体D和实体E联合传输，则λ_i的取值可以为0和1之前的值，即λ_i∈(0，1)。λ_i可以根据传输决策确定的上行调度中分配的时频资源、MCS得到。

S1414、实体E根据上行调度结果，获得相应的第六决策收益。

一种可能的实现中，实体E根据上行传输性能指标，获得相应的第六决策收益。第六决策收益包括但不限于以下一种或多种：系统的吞吐量、信道容量、功耗。该种情况下，实体E的任务目标为通过实体D和实体E间协作最优化终端的上行传输性能。

可选的，可以通过S1413中公式获得第六决策收益R₄。

S1415、实体D根据获得的决策收益更新第十三神经网络和第十五神经网络。

具体地，实体D根据第五决策收益，按照目标函数对第十三神经网络和第十五神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₄。此处不再赘述。

S1416、实体E根据获得的第六决策收益更新第十四神经网络和第十六神经网络。

具体地，实体E根据第六决策收益，按照目标函数对第十四神经网络和第十六神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₄。此处不再赘述。

图11所示的信道信息反馈方法中，终端向CoMP场景的同一组网络设备发送上行参考信号，网络设备根据终端的参考信号测量估计出网络设备与终端之间的路径参数，并通过神经网络对该路径参数进行压缩得到路径对应的CNI，同一组的网络设备之间交互各路径的CNI，各自根据自身获得的以及接收到的CNI，通过神经网络输出传输决策，根据传输决策结果向终端发送上行传输授权，并根据终端上行传输的吞吐量、信道容量、功耗等决策收益更新神经网络，也就是说，根据信道变化，自适应地选择上行传输的网络设备及路径，提升了终端上行传输性能。

本申请实施例提供又一种信道信息反馈的方法，应用于上行免授权传输(grantfree transmission)场景中。上行免授权传输方式中，终端无需通过调度请求网络设备分配资源，终端通常基于竞争方式在预先配置的资源上进行数据传输。故在终端和网络设备间需要进行相关的参数调整或信息获取，使得终端对自身传输过程进行合理调整。终端和网络设备均为智能体的情况下，可以采用本申请的信道信息反馈方法，减少交互开销，提高通信效率。

如图12所示，图12为本申请实施例提供的路径信息反馈方法的交互示意图，其适用于上行免授权传输的场景。图12中的实体G可以为终端，实体H可以为网络设备，其均为智能体。

S1501、实体G向实体H发送导频和/或数据，相应的，实体H接收实体G发送的导频和/或数据。

具体地，实体G在免授权传输资源上发送导频和/或数据。

S1502、实体H检测接收到的导频。

具体地，导频用于进行信道估计。该导频也可以视为上述实施例中的路径参数。

S1503、实体H根据检测到的导频和/或数据，通过第十七神经网络确定路径G-H对应的CNI。

第十七神经网络可以通过将样本导频和/或数据作为输入、样本CNI作为输出进行强化学习训练而得到。实体D可以将检测到的导频、数据输入第十七神经网络，第十七神经网络可以输出路径G-H的CNI(CNI_GH表示实体G到实体H的CNI)。

路径G-H的CNI具体可以为针对上传任务，实体H对免授权传输接收到的导频、数据等进行压缩的信息。

S1504、实体H向实体G发送路径G-H对应的CNI，相应的，实体G接收实体H发送的路径G-H对应的CNI。

S1505、实体G根据路径G-H对应的CNI，通过第十八经神经网络确定免授权参数集。

该免授权参数集包括但不限于MCS、导频、时频资源等。

S1506、实体G根据免授权参数集中的参数进行免授权传输数据。

具体地，实体G根据免授权参数集中的参数向实体H发送数据Data_GH，实体H接收实体G发送的数据Data_GH，并向实体G反馈ACK_GH或NACK_GH，实体G接收实体G反馈的ACK_GH或NACK_GH。

S1507、实体G根据确定的免授权参数集，获取相应的第七决策收益。

实体G针对第十八神经网络确定的免授权参数集，根据上行传输性能指标，获得相应的第七决策收益。第七决策收益包括但不限于系统的吞吐量和时延等。

举例来说，设吞吐量为T，时延为D，α为任务对应时延的需求比重。

R₅＝T-αD

S1508、实体G向实体H指示第七决策收益，相应的，实体H获取实体G指示的第七决策收益。

S1509、实体G根据第七决策收益更新第十八神经网络。

具体地，实体G根据第七决策收益，按照目标函数对第十八神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₅。此处不再赘述。

S1510、实体H根据第七决策收益更新第十七神经网络。

具体地，实体H根据第七决策收益，按照目标函数对第十七神经网络进行更新。目标函数的形式可以是参照上文中的第一目标函数或第二目标函数的各种可能的形式。其中，第一目标函数和第二目标函数中的R(s,a)可根据实际任务需求替换为上述R₅。此处不再赘述。

以上描述了不同应用场景下信道信息反馈的方法，其可以扩展到除了MIMO系统中的终端和网络设备以外的，收发两端具有智能体的通信交互场景。

一种可能的实现中，本申请提供的信道信息反馈的方法适用于Massive MIMO的预编码矩阵(非正交码本)生成：终端智能体将估计的信道矩阵输入到神经网络中，输出相应的CNI信息，并向网络设备反馈该CNI，网络设备处智能体接收CNI信息作为神经网络的输入状态，输出对应的预编码矩阵(非正交码本)，并将得到的信道容量作为奖励，用来给网络设备和终端的智能体进行更新。

另一种可能的实现中，本申请提供的信道信息反馈方法适用于Massive MIMO的时频资源调度场景：终端智能体将估计的信道矩阵和累积吞吐、时延等统计量输入神经网络中，输出相应的CNI，并向网络设备反馈该CNI；网络设备处智能体收集多个终端反馈的CNI信息作为神经网络的输入，输出调度决策，并将得到的公平性，吞吐量等的组合作为奖励，用来给网络设备和终端的智能体进行更新。

又一种可能的实现中，本申请提供的信道信息反馈方法同样适用于Massive MIMO的终端之间的交互场景：例如联邦学习中多终端对同一网络设备的上行传输场景。具体实现方式类似于图11中的描述，此处不再赘述。

上述主要从各个网元之间交互的角度对本申请实施例提供的方案进行了介绍。可以理解的是，各个网元，例如终端或网路设备，为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。

如：本申请实施例还可以提供一种可以应用于终端的通信装置。图12示出了本申请实施例提供的通信装置的结构示意图。如图12所示，该通信装置可以包括：接收单元901，用于通过下行信道接收网络设备发送的信道状态信息参考信号。测量单元902，用于根据信道状态信息参考信号，测量估计下行信道的信道矩阵。确定单元903，用于根据下行信道的信道矩阵，通过第一神经网络确定下行信道对应的信道协商信息；第一神经网络的参数与历史调制与编码策略相关。发送单元904，用于向网络设备发送下行信道对应的信道协商信息，下行信道对应的信道协商信息用于网络设备确定下行信道对应的调制与编码策略。

在一种可能的设计中，第一神经网络的参数与历史调制与编码策略相关，包括：第一神经网络的参数为确定单元903根据历史决策收益进行更新后的参数，历史决策收益为网络设备根据历史调制与编码策略所获取。

在一种可能的设计中，接收单元901还用于接收网络设备发送的决策收益，决策收益为网络设备根据下行信道对应的调制与编码策略所获取；确定单元903还用于根据决策收益，对第一神经网络的参数进行更新。

可选地，确定单元903具体可以用于根据决策收益，按照第一目标函数，对第一神经网络的参数进行更新；第一目标函数与决策收益相关。

在另外一种可能的设计中，接收单元901还用于接收网络设备发送的第二神经网络的第一层隐藏层的参数的误差；第二神经网络的第一层隐藏层的参数的误差为网络设备根据决策收益对第二神经网络的参数进行更新前和更新后的误差，决策收益为网络设备根据下行信道对应的调制与编码策略所获取。确定单元903还用于根据第二神经网络的第一层隐藏层的参数的误差，对第一神经网络的参数进行更新。

可选地，确定单元903具体可以用于根据第二神经网络的第一层隐藏层的参数的误差，按照反向传播算法，对第一神经网络的参数进行更新。第二神经网络的第一层隐藏层的参数的误差为网络设备根据决策收益，按照第二目标函数对第二神经网络的参数进行更新前和更新后的误差，第二目标函数与决策收益相关。

在一种可能的设计中，确定单元903还用于根据下行信道对应的信道协商信息，获取还原后的信道矩阵；根据测量估计的所述下行信道的信道矩阵、以及还原后的信道矩阵，按照第三目标函数，对第一神经网络的参数进行更新。第三目标函数用于指示最小化测量估计的下行信道的信道矩阵与还原后的信道矩阵之间的误差。

本申请实施例还提供一种应用于网络设备的通信装置，图13示出了本申请实施例提供的通信装置的另一结构示意图。如图13所示，该通信装置可以包括：发送单元1001，用于通过下行信道向终端发送信道状态信息参考信号。接收单元1002，用于接收终端根据信道状态信息参考信号发送的下行信道对应的信道协商信息；下行信道对应的信道协商信息为终端根据信道状态信息参考信号，测量估计下行信道的信道矩阵后，根据下行信道的信道矩阵，通过第一神经网络所确定；第一神经网络的参数与历史调制与编码策略相关。确定单元1003，用于根据下行信道对应的信道协商信息，确定下行信道对应的调制与编码策略。

在一种可能的设计中，确定单元1003具体可以用于根据下行信道对应的信道协商信息，通过第二神经网络确定下行信道对应的调制与编码策略；第二神经网络的参数与历史调制与编码策略相关。

可选地，第二神经网络的参数与历史调制与编码策略相关，包括：第二神经网络的参数为确定单元1003根据历史决策收益进行更新后的参数，历史决策收益为确定单元1003根据历史调制与编码策略所获取。

在一种可能的设计中，确定单元1003还用于根据下行信道对应的调制与编码策略，获取调制与编码策略对应的决策收益。发送单元1001还用于向终端发送决策收益；决策收益用于终端对第一神经网络的参数进行更新。

在一种可能的设计中，确定单元1003还用于根据下行信道对应的调制与编码策略，获取调制与编码策略对应的决策收益；根据决策收益，对第二神经网络的参数进行更新。

可选地，确定单元1003具体可以用于根据决策收益，按照第二目标函数，对第二神经网络的参数进行更新；第二目标函数与决策收益相关。

在另外一种可能的设计中，确定单元1003还用于获取对第二神经网络的参数进行更新前和更新后，第二神经网络的第一层隐藏层的参数的误差。发送单元1001还用于向终端发送第二神经网络的第一层隐藏层的参数的误差；第二神经网络的第一层隐藏层的参数的误差用于终端对第一神经网络的参数进行更新。

可选地，本申请实施例还提供一种应用于终端或网络设备的通信装置，图14示出了本申请实施例提供的通信装置的又一结构示意图。如图14所示，该通信装置可以包括：收发单元1101和处理单元1102。收发单元1101可以用于收发信息，或者用于与其他网元通信。处理单元1102可以用于对数据进行处理。当该装置应用于终端时，可以通过收发单元1101和处理单元1102实现如前述实施例所述的终端执行的方法。当该装置应用于网络设备时，可以通过收发单元1101和处理单元1102实现如前述实施例所述的网络设备执行的方法。

应理解以上装置中单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且装置中的单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元以软件通过处理元件调用的形式实现，部分单元以硬件的形式实现。

例如，各个单元可以为单独设立的处理元件，也可以集成在装置的某一个芯片中实现，此外，也可以以程序的形式存储于存储器中，由装置的某一个处理元件调用并执行该单元的功能。此外这些单元全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件又可以称为处理器，可以是一种具有信号的处理能力的集成电路。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路实现或者以软件通过处理元件调用的形式实现。

在一个例子中，以上任一装置中的单元可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integratedcircuit，ASIC)，或，一个或多个微处理器(digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)，或这些集成电路形式中至少两种的组合。

再如，当装置中的单元可以通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，CPU)或其它可以调用程序的处理器。再如，这些单元可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

以上用于接收的单元是一种该装置的接口电路或者输入电路，用于从其它装置接收信号。例如，当该装置以芯片的方式实现时，该接收单元是该芯片用于从其它芯片或装置接收信号的接口电路或者输入电路。当通信装置包括用于发送的单元时，该用于发送的单元是一种该装置的接口电路或者输出电路，用于向其它装置发送信号。例如，当该装置以芯片的方式实现时，该发送单元是该芯片用于向其它芯片或装置发送信号的接口电路或者输出电路。

例如，本申请实施例还可以提供一种应用于终端的通信装置，该通信装置可以包括：处理器和接口电路，处理器用于通过接口电路与其它装置通信，并执行以上方法中终端所执行的各个步骤。该处理器可以包括一个或多个。

或者，本申请实施例还可以提供一种应用于网络设备的通信装置，该通信装置也可以包括：处理器和接口电路，处理器用于通过接口电路与其它装置通信，并执行以上方法中网络设备所执行的各个步骤。该处理器也可以包括一个或多个。

在一种实现中，终端或网络设备分别实现以上方法中各个对应步骤的单元可以通过处理元件调度程序的形式实现。例如，用于终端的装置可以包括处理元件和存储元件，处理元件调用存储元件存储的程序，以执行以上方法实施例中终端执行的方法。或者，用于网络设备的装置也可以包括处理元件和存储元件，处理元件调用存储元件存储的程序，以执行以上方法实施例中网络设备执行的方法。存储元件可以为与处理元件处于同一芯片上的存储元件，即片内存储元件。

在另一种实现中，用于执行以上方法中终端或网络设备所执行的方法的程序可以在与处理元件处于不同芯片上的存储元件，即片外存储元件。此时，处理元件从片外存储元件调用或加载程序于片内存储元件上，以调用并执行以上方法实施例中终端或网络设备执行的方法。

例如，本申请实施例还可以提供一种通信装置，该通信装置可以包括处理器，用于执行存储器中存储的计算机指令，当所述计算机指令被执行时，使得所述装置执行以上终端或网络设备所执行的方法。该存储器可以位于该通信装置之内，也可以位于该通信装置之外。且该处理器包括一个或多个。

在又一种实现中，终端实现以上方法中各个步骤的单元可以是被配置成一个或多个处理元件，这些处理元件可以设置于终端上，这里的处理元件可以为集成电路，例如：一个或多个ASIC，或，一个或多个DSP，或，一个或者多个FPGA，或者这些类集成电路的组合。这些集成电路可以集成在一起，构成芯片。

类似地，网络设备实现以上方法中各个步骤的单元也可以被配置成一个或多个处理元件，这些处理元件可以设置于网络设备上，这里的处理元件也可以为集成电路，例如：一个或多个ASIC，或，一个或多个DSP，或，一个或者多个FPGA，或者这些类集成电路的组合。这些集成电路可以集成在一起，构成芯片。

终端或网络设备实现以上方法中各个步骤的单元可以集成在一起，以SOC的形式实现，该SOC芯片，用于实现对应的方法。该芯片内可以集成至少一个处理元件和存储元件，由处理元件调用存储元件的存储的程序的形式实现对应的方法；或者，该芯片内可以集成至少一个集成电路，用于实现对应的方法；或者，可以结合以上实现方式，部分单元的功能通过处理元件调用程序的形式实现，部分单元的功能通过集成电路的形式实现。

这里的处理元件同以上描述，可以是通用处理器，例如CPU，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个ASIC，或，一个或多个微处理器DSP，或，一个或者多个FPGA等，或这些集成电路形式中至少两种的组合。

存储元件可以是一个存储器，也可以是多个存储元件的统称。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，如：程序。该软件产品存储在一个程序产品，如计算机可读存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

例如，本申请实施例还可以提供一种计算机可读存储介质，包括：计算机软件指令；当计算机软件指令在终端或内置在所述终端的芯片中运行时，可以使得终端执行如前述实施例所述的终端执行的方法。或者，当计算机软件指令在网络设备或内置在所述网络设备的芯片中运行时，使得网络设备执行如前述实施例所述的网络设备执行的方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信道信息反馈方法，其特征在于，所述方法包括：

终端通过下行信道接收网络设备发送的信道状态信息参考信号；

所述终端根据所述信道状态信息参考信号，测量估计所述下行信道的信道矩阵；

所述终端根据所述下行信道的信道矩阵，通过第一神经网络确定所述下行信道对应的信道协商信息；所述第一神经网络的参数与历史调制与编码策略相关；

所述终端向所述网络设备发送所述下行信道对应的信道协商信息，所述下行信道对应的信道协商信息用于所述网络设备确定所述下行信道对应的调制与编码策略。

2.根据权利要求1所述的方法，其特征在于，所述第一神经网络的参数与历史调制与编码策略相关，包括：

所述第一神经网络的参数为所述终端根据历史决策收益进行更新后的参数，所述历史决策收益为所述网络设备根据所述历史调制与编码策略所获取。

3.根据权利要求1或2所述的方法，其特征在于，所述下行信道对应的调制与编码策略为所述网络设备根据所述下行信道对应的信道协商信息，通过第二神经网络所确定；所述第二神经网络的参数与所述历史调制与编码策略相关。

4.根据权利要求3所述的方法，其特征在于，所述第二神经网络的参数与所述历史调制与编码策略相关，包括：

所述第二神经网络的参数为所述网络设备根据历史决策收益进行更新后的参数，所述历史决策收益为所述网络设备根据所述历史调制与编码策略所获取。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

所述终端接收所述网络设备发送的决策收益，所述决策收益为所述网络设备根据所述下行信道对应的调制与编码策略所获取；

所述终端根据所述决策收益，对所述第一神经网络的参数进行更新。

6.根据权利要求5所述的方法，其特征在于，所述终端根据所述决策收益，对所述第一神经网络的参数进行更新，包括：

所述终端根据所述决策收益，按照第一目标函数，对所述第一神经网络的参数进行更新；所述第一目标函数与所述决策收益相关。

7.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

所述终端接收所述网络设备发送的所述第二神经网络的第一层隐藏层的参数的误差；所述第二神经网络的第一层隐藏层的参数的误差为所述网络设备根据决策收益对所述第二神经网络的参数进行更新前和更新后的误差，所述决策收益为所述网络设备根据所述下行信道对应的调制与编码策略所获取；

所述终端根据所述第二神经网络的第一层隐藏层的参数的误差，对所述第一神经网络的参数进行更新。

8.根据权利要求7所述的方法，其特征在于，所述终端根据所述第二神经网络的第一层隐藏层的参数的误差，对所述第一神经网络的参数进行更新，包括：

所述终端根据所述第二神经网络的第一层隐藏层的参数的误差，按照反向传播算法，对所述第一神经网络的参数进行更新；

所述第二神经网络的第一层隐藏层的参数的误差为所述网络设备根据所述决策收益，按照第二目标函数对所述第二神经网络的参数进行更新前和更新后的误差，所述第二目标函数与所述决策收益相关。

9.根据权利要求5-8任一项所述的方法，其特征在于，所述决策收益为所述网络设备根据所述下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种；或者，

所述网络设备根据所述下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种与所述网络设备对所述下行信道对应的信道协商信息的评价值的组合；所述网络设备对所述下行信道对应的信道协商信息的评价值用于指示所述下行信道对应的信道协商信息对所述网络设备确定所述下行信道对应的调制与编码策略的指导作用的大小。

10.根据权利要求5-9任一项所述的方法，其特征在于，在所述终端对所述第一神经网络的参数进行更新之前，所述方法还包括：

所述终端根据所述下行信道对应的信道协商信息，获取还原后的信道矩阵；

所述终端根据测量估计的所述下行信道的信道矩阵、以及所述还原后的信道矩阵，按照第三目标函数，对所述第一神经网络的参数进行更新；

所述第三目标函数用于指示最小化测量估计的所述下行信道的信道矩阵与所述还原后的信道矩阵之间的误差。

11.一种信道信息反馈方法，其特征在于，所述方法包括：

网络设备通过下行信道向终端发送信道状态信息参考信号；

所述网络设备接收所述终端根据所述信道状态信息参考信号发送的所述下行信道对应的信道协商信息；所述下行信道对应的信道协商信息为所述终端根据所述信道状态信息参考信号，测量估计所述下行信道的信道矩阵后，根据所述下行信道的信道矩阵，通过第一神经网络所确定；所述第一神经网络的参数与历史调制与编码策略相关；

所述网络设备根据所述下行信道对应的信道协商信息，确定所述下行信道对应的调制与编码策略。

12.根据权利要求11所述的方法，其特征在于，所述第一神经网络的参数与历史调制与编码策略相关，包括：

13.根据权利要求11或12所述的方法，其特征在于，所述网络设备根据所述下行信道对应的信道协商信息，确定所述下行信道对应的调制与编码策略，包括：

所述网络设备根据所述下行信道对应的信道协商信息，通过第二神经网络确定所述下行信道对应的调制与编码策略；所述第二神经网络的参数与所述历史调制与编码策略相关。

14.根据权利要求13所述的方法，其特征在于，所述第二神经网络的参数与所述历史调制与编码策略相关，包括：

15.根据权利要求11-14任一项所述的方法，其特征在于，所述方法还包括：

所述网络设备根据所述下行信道对应的调制与编码策略，获取所述调制与编码策略对应的决策收益；

所述网络设备向所述终端发送所述决策收益；所述决策收益用于所述终端对所述第一神经网络的参数进行更新。

16.根据权利要求13或14所述的方法，其特征在于，所述方法还包括：

所述网络设备根据所述决策收益，对所述第二神经网络的参数进行更新。

17.根据权利要求16所述的方法，其特征在于，所述网络设备根据所述决策收益，对所述第二神经网络的参数进行更新，包括：

所述网络设备根据所述决策收益，按照第二目标函数，对所述第二神经网络的参数进行更新；所述第二目标函数与所述决策收益相关。

18.根据权利要求16或17所述的方法，其特征在于，所述方法还包括：

所述网络设备获取对所述第二神经网络的参数进行更新前和更新后，所述第二神经网络的第一层隐藏层的参数的误差；

所述网络设备向所述终端发送所述第二神经网络的第一层隐藏层的参数的误差；所述第二神经网络的第一层隐藏层的参数的误差用于所述终端对所述第一神经网络的参数进行更新。

19.根据权利要求15-18任一项所述的方法，其特征在于，所述决策收益为所述网络设备根据所述下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种；或者，

所述网络设备根据所述下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种与所述网络设备对所述下行信道对应的信道协商信息的评价值的组合，所述网络设备对所述下行信道对应的信道协商信息的评价值用于指示所述下行信道对应的信道协商信息对所述网络设备确定所述下行信道对应的调制与编码策略的指导作用的大小。

20.一种通信装置，其特征在于，包括：

接收单元，用于通过下行信道接收网络设备发送的信道状态信息参考信号；

测量单元，用于根据所述信道状态信息参考信号，测量估计所述下行信道的信道矩阵；

确定单元，用于根据所述下行信道的信道矩阵，通过第一神经网络确定所述下行信道对应的信道协商信息；所述第一神经网络的参数与历史调制与编码策略相关；

发送单元，用于向所述网络设备发送所述下行信道对应的信道协商信息，所述下行信道对应的信道协商信息用于所述网络设备确定所述下行信道对应的调制与编码策略。

21.根据权利要求20所述的装置，其特征在于，所述第一神经网络的参数与历史调制与编码策略相关，包括：

所述第一神经网络的参数为所述确定单元根据历史决策收益进行更新后的参数，所述历史决策收益为所述网络设备根据所述历史调制与编码策略所获取。

22.根据权利要求20或21所述的装置，其特征在于，所述下行信道对应的调制与编码策略为所述网络设备根据所述下行信道对应的信道协商信息，通过第二神经网络所确定；所述第二神经网络的参数与所述历史调制与编码策略相关。

23.根据权利要求22所述的装置，其特征在于，所述第二神经网络的参数与所述历史调制与编码策略相关，包括：

24.根据权利要求20-23任一项所述的装置，其特征在于，所述接收单元还用于接收所述网络设备发送的决策收益，所述决策收益为所述网络设备根据所述下行信道对应的调制与编码策略所获取；

所述确定单元还用于根据所述决策收益，对所述第一神经网络的参数进行更新。

25.根据权利要求24所述的装置，其特征在于，所述确定单元具体用于根据所述决策收益，按照第一目标函数，对所述第一神经网络的参数进行更新；所述第一目标函数与所述决策收益相关。

26.根据权利要求22或23所述的装置，其特征在于，所述接收单元还用于接收所述网络设备发送的所述第二神经网络的第一层隐藏层的参数的误差；所述第二神经网络的第一层隐藏层的参数的误差为所述网络设备根据决策收益对所述第二神经网络的参数进行更新前和更新后的误差，所述决策收益为所述网络设备根据所述下行信道对应的调制与编码策略所获取；

所述确定单元还用于根据所述第二神经网络的第一层隐藏层的参数的误差，对所述第一神经网络的参数进行更新。

27.根据权利要求26所述的装置，其特征在于，所述确定单元具体用于根据所述第二神经网络的第一层隐藏层的参数的误差，按照反向传播算法，对所述第一神经网络的参数进行更新；

28.根据权利要求24-27任一项所述的装置，其特征在于，所述决策收益为所述网络设备根据所述下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种；或者，

29.根据权利要求24-28任一项所述的装置，其特征在于，所述确定单元还用于根据所述下行信道对应的信道协商信息，获取还原后的信道矩阵；根据测量估计的所述下行信道的信道矩阵、以及所述还原后的信道矩阵，按照第三目标函数，对所述第一神经网络的参数进行更新；

30.一种通信装置，其特征在于，包括：

发送单元，用于通过下行信道向终端发送信道状态信息参考信号；

接收单元，用于接收所述终端根据所述信道状态信息参考信号发送的所述下行信道对应的信道协商信息；所述下行信道对应的信道协商信息为所述终端根据所述信道状态信息参考信号，测量估计所述下行信道的信道矩阵后，根据所述下行信道的信道矩阵，通过第一神经网络所确定；所述第一神经网络的参数与历史调制与编码策略相关；

确定单元，用于根据所述下行信道对应的信道协商信息，确定所述下行信道对应的调制与编码策略。

31.根据权利要求30所述的装置，其特征在于，所述第一神经网络的参数与所述历史调制与编码策略相关，包括：

所述第一神经网络的参数为所述终端根据历史决策收益进行更新后的参数，所述历史决策收益为所述确定单元根据所述历史调制与编码策略所获取。

32.根据权利要求30或31所述的装置，其特征在于，所述确定单元具体用于根据所述下行信道对应的信道协商信息，通过第二神经网络确定所述下行信道对应的调制与编码策略；所述第二神经网络的参数与所述历史调制与编码策略相关。

33.根据权利要求32所述的装置，其特征在于，所述第二神经网络的参数与所述历史调制与编码策略相关，包括：

所述第二神经网络的参数为所述确定单元根据历史决策收益进行更新后的参数，所述历史决策收益为所述确定单元根据所述历史调制与编码策略所获取。

34.根据权利要求30-33任一项所述的装置，其特征在于，所述确定单元还用于根据所述下行信道对应的调制与编码策略，获取所述调制与编码策略对应的决策收益；

所述发送单元还用于向所述终端发送所述决策收益；所述决策收益用于所述终端对所述第一神经网络的参数进行更新。

35.根据权利要求32或33所述的装置，其特征在于，所述确定单元还用于根据所述下行信道对应的调制与编码策略，获取所述调制与编码策略对应的决策收益；根据所述决策收益，对所述第二神经网络的参数进行更新。

36.根据权利要求35所述的装置，其特征在于，所述确定单元具体用于根据所述决策收益，按照第二目标函数，对所述第二神经网络的参数进行更新；所述第二目标函数与所述决策收益相关。

37.根据权利要求35或36所述的装置，其特征在于，所述确定单元还用于获取对所述第二神经网络的参数进行更新前和更新后，所述第二神经网络的第一层隐藏层的参数的误差；

所述发送单元还用于向所述终端发送所述第二神经网络的第一层隐藏层的参数的误差；所述第二神经网络的第一层隐藏层的参数的误差用于所述终端对所述第一神经网络的参数进行更新。

38.根据权利要求34-37任一项所述的装置，其特征在于，所述决策收益为所述通信装置根据所述下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种；或者，

所述通信装置根据所述下行信道对应的调制与编码策略进行调度时的决策码率或吞吐量中的任意一种与所述通信装置对所述下行信道对应的信道协商信息的评价值的组合，所述通信装置对所述下行信道对应的信道协商信息的评价值用于指示所述下行信道对应的信道协商信息对所述通信装置确定所述下行信道对应的调制与编码策略的指导作用的大小。

39.一种通信装置，其特征在于，包括：处理器，用于执行存储器中存储的计算机指令，当所述计算机指令被执行时，使得所述装置执行权利要求1-10任一项所述的方法。

40.一种通信装置，其特征在于，包括：处理器，用于执行存储器中存储的计算机指令，当所述计算机指令被执行时，使得所述装置执行权利要求11-19任一项所述的方法。

41.一种计算机可读存储介质，其特征在于，包括：计算机软件指令；

当所述计算机软件指令在处理器上运行时，

如权利要求1-10任一项所述的方法被执行；或者，

如权利要求11-19任一项所述的方法被执行。