CN118827604A

CN118827604A - 音频数据的生成方法、即时通信方法及相关装置

Info

Publication number: CN118827604A
Application number: CN202411275220.5A
Authority: CN
Inventors: 金信冬; 朱科宇; 潘金龙
Original assignee: Ali Health Technology China Co ltd
Current assignee: Ali Health Technology China Co ltd
Priority date: 2024-09-12
Filing date: 2024-09-12
Publication date: 2024-10-22
Anticipated expiration: 2044-09-12
Also published as: CN118827604B

Abstract

本申请实施方式提供了一种音频数据的生成方法、即时通信方法及相关装置。所述方法包括：将接收的文字流，按照接收顺序逐字存入文字缓冲区；其中，所述文字流包括多个文字；在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据。本申请实施方式可以使一定程度上提升音频带给用户的收听体验。

Description

音频数据的生成方法、即时通信方法及相关装置

技术领域

本申请中实施方式涉及即时通信技术领域，特别涉及一种音频数据的生成方法、即时通信方法及相关装置。

背景技术

现实生活中，人们在生活、工作中可能会需要将文本数据转换为音频数据，或者，将音频数据转换为文本数据。

通常，在将文本数据转换为音频数据时，会将文本数据的全文提供给音频数据转换工具，以使得音频数据转换工具可以较好的对应文本数据生成音频数据。

在一些情况下，文本数据本身是文字流的形式，该文字流是被逐渐生成的，此时现有的音频数据转换工具难以较好的提供相应的音频数据。

因此，现有技术中存在针对文字流生成的音频数据，给用户收听体验较差的问题。

发明内容

有鉴于此，本申请多个实施方式致力于提供一种音频数据的生成方法、即时通信方法及相关装置，可以一定程度上提升文字流对应的音频带给用户的收听体验。

本申请的一个实施方式提供一种音频数据的生成方法，包括：将接收的文字流，按照接收顺序逐字存入文字缓冲区；其中，所述文字流包括多个文字；在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据。

本申请的一个实施方式提供一种即时通信方法，包括：接收咨询账户在目标即时通信消息会话项中发出的问题信息；依照大语言模型针对所述问题信息生成的文字流，展示所述文字流包括的文字；在接收到对应所述文字流中句子的音频数据的情况下，播放所述音频数据；其中，所述音频数据是前述所述音频数据的生成方法生成的。

本申请的一个实施方式提供一种音频数据的生成装置，包括：文字流接收模块，用于将接收的文字流，按照接收顺序逐字存入文字缓冲区；其中，所述文字流包括多个文字；生成模块，用于在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据。

本申请的一个实施方式提供一种即时通信装置，包括：信息接收模块，用于接收咨询账户在目标即时通信消息会话项中发出的问题信息；文字展示模块，用于依照大语言模型针对所述问题信息生成的文字流，展示所述文字流包括的文字；播放模块，用于在接收到对应所述文字流中句子的音频数据的情况下，播放所述音频数据；其中，所述音频数据是根据前述所述音频数据的生成方法生成的。

本申请的一个实施方式提供一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现上述实施方式所述的音频数据的生成方法，或者实现前述实施方式所述的即时通信方法。

本申请的一个实施方式提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序被处理器执行时能够实现上述实施方式所述的音频数据的生成方法，或者，实现前述实施方式所述的即时通信方法。

本申请提供的多个实施方式，通过将文字流中的文字存入文字缓冲区，划分为适当的句子之后，再整体对应句子生成音频数据，如此，使得生成的音频数据可以较好的对应句子适配语气和速度，实现最终播放的音频具有较好的收听体验。

附图说明

图1为本申请的一个实施方式提供的文字流转音频数据的处理过程示意图。

图2为本申请的一个实施方式提供的音频数据的生成方法的流程示意图。

图3为本申请的一个实施方式提供的音频数据的生成系统的模块示意图。

图4为本申请的一个实施方式提供的即时通信装置的模块示意图。

图5为本申请的一个实施方式提供的计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，大语言模型得到了广泛的推广使用，可以通过大量训练样本训练大语言模型之后，使得大语言模型可以具有较好的专业知识储备，较为深入的理解世界知识。进而，可以使用大语言模型实现答复用户的问题。具体的，可以通过构建提示指令调用大语言模型，以指示大语言模型输出对应用户问题的答案。大语言模型通常会以文字流的形式输出答案文本。即，大语言模型会逐个输出文字，按照文字的顺序形成文字流。

例如，在一个具体的应用场景中，可以将大语言模型应用于即时通信技术领域。即，在即时通信技术中，可以通过智能问答机器人账户与用户之间进行沟通，解答用户提出的问题。具体的，可以通过大语言模型生成用户提出问题的回答内容。

在一些情况下，用户可能并不方便通过观察电子终端中的文字了解信息，比如用户年纪较大，视觉有一些受损。此时，用户更加倾向通过收听音频的方式了解信息。

研发人员经过对即时通信软件改进，实现了即时通信客户端对应显示的文字播放音频。具体的，在大语言模型输出文字流的过程中，每收到一个文字，就调用文字转音频工具，得到对应文字的音频数据，并将该音频数据发送给即时通信客户端播放，如此满足的用户的使用需求。

然而，研发人员进一步发现，将每个文字生成对应的音频数据，并发送给即时通信客户端播放，带给用户的用户体验不够好。具体的，每个文字都是独立生成的音频数据，使得客户端播放的音频，听起来较为生硬，难以有语气的情感变化，带给用户的收听体验不佳。

因此，有必要提供一种音频数据的生成方法、即时通信方法及相关装置，可以提升音频带给用户的收听体验。

本申请的一个实施方式提供一种音频数据的生成方法。该音频数据的生成方法可以应用于音频数据生成系统。音频数据生成系统可以包括客户端和服务器。客户端可以是具有网络访问能力的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于电子设备中的软件。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。或者，随着科学技术的发展，服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如，可以是基于量子计算实现的新形态的“服务器”。

在一些实施方式中，音频数据的生成系统可以包括多个功能模块，各功能模块之间可以实现互相通信和数据共享。

本申请的一个实施方式提供一种即时通信方法。该即时通信方法可以应用于即时通信系统。即时通信系统可以包括客户端和服务器。客户端可以是具有网络访问能力的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于电子设备中的软件。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。或者，随着科学技术的发展，服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如，可以是基于量子计算实现的新形态的“服务器”。

在一些实施方式中，即时通信系统可以包括多个功能模块，各功能模块之间可以实现互相通信和数据共享。

请参阅图1和图2。本申请实施方式提供一种音频数据的生成方法。所述音频数据的生成方法可以用于音频数据的生成系统，当然也可以仅用于音频数据的生成系统的服务器中，下文仅以音频数据的生成系统作为主体介绍。所述音频数据的生成方法可以包括以下步骤。

步骤S110：将接收的文字流，按照接收顺序逐字存入文字缓冲区；其中，所述文字流包括多个文字。

在一些情况下，可以通过调用大语言模型等人功智能模块，实现生成文字流。并且依照调用大语言模型时所使用的提示指令的内容，该文字流包括的多个文字可以作为指定问题的答案，或者，指定主题内容的介绍等。

在本实施方式中，文字流可以为多个文字按照顺序形成的流式文字。文字流中的多个文字按照一定的顺序生成。例如，大语言模型会依照概率逐个输出文字。将该多个文字按照被输出的顺序，可以组成句子、段落或文章等。

在本实施方式中，文字缓冲区可以是用来临时存储文字的缓冲模块。文字缓冲区可以采用软件数据结构实现，例如采用先进先出的队列。当然，在一些实施方式中，文字缓冲区也可以采用硬件缓存存储器实现。

在本实施方式中，可以为逐字接收文字流的内容，相应的可以逐字存入文字缓冲区内。例如，大语言模型输出的文字流内容为“饭后可以缓慢的散步，有利于身体健康”。音频数据的生成系统可以先后收到文字“饭”、“后”……“健”和“康”，音频数据的生成系统可以按照接收到文字的先后顺序，将文字存入文字缓冲区内。

步骤S120：在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据。

在一些情况下，针对文字流对应的音频数据生成时间有着一定的响应要求，例如在即时通信领域中，通常会要求越快越好。然而，由于文字流为逐个字接收的特性，对于文字流中后续的文字是未知的，结合时间响应要求，使得难以整体针对全部文字形成的文本进行分析之后，划分句子。相关技术中，通过逐字生成音频数据的方式，虽然提升了响应速度，但也使得用户的收听体验欠佳。

在本实施方式中，指定字数阈值可以为作为划分一个句子的最少字数。音频数据的生成系统在逐字接收到文字流中的文字之后，在将文字放入文字缓冲区的过程中，也可以针对文字进行计数，并在认定文字的数量大于指定字数阈值之后，逐字针对接收的文字是否为指定文字。如果，接收的文字是指定文字，便可以将文字缓冲区中的文字组合成句子。如果，接收的文字不是指定文字，便将接收的文字继续存入文字缓冲区。如此，通过指定字数阈值控制了划分成句子的字数。可以避免句子过短，导致语义表达不完成，或者句子过长，不符合正常的阅读习惯。当然，指定字数阈值可以用于控制文字流包括的文字被划分句子的字数，但由于文字流后续文字的未知特点，使得文字流的最后一个句子可以不受到该指定字数阈值约束，即文字流对应的最后一个句子的字数，可以小于指定字数阈值。在一些实施例中，指定字数阈值可以为13个字、14个字、15个字、16个字、17个字……20个字、21个字等等不再赘述。在一些实施方式中，针对文字流中划分第一个句子时的指定字数阈值，小于划分后续句子时的指定字数阈值。例如，划分第一个句子时的指定字数阈值为15个字，划分后续句子时的指定字数阈值为18个字。由于，音频数据的生成系统会将整个句子转化为音频数据，如果第一个句子的长度较长，综合文字流的生成时间、得到整个句子以及整个句子转换成音频数据的时间等，使得用户等待播放音频的时间会很久，通过减少第一个句子的指定字数阈值，可以一定程度上减少用户的等待时长，提升用户的体验。

在本实施方式中，指定文字可以是用于作为句子结尾的文字。在本实施方式中，文字可以包括语言中表达语义的字符和符号。例如，以汉语为例，文字可以包括每个汉语文字和标点符号。指定文字可以用于划分句子，使得指定文字通常作为句子的结尾。例如，指定文字可以是表达句子结尾的标点符号，如句号“。”，分号“；”，感叹号“！”，问号“？”或逗号“，”。本实施方式中，在文字缓冲区中的文字数量超过指定字数阈值之后，并在认为接收的文字为指定文字时，才将文字缓冲区中的文字组合成句子，使得通过指定文字，确定文字缓冲区中文字能够作为一个表达恰当语义的句子。使得，针对句子的划分更加准确。

例如，文字流包括的文字包括“感冒伴随咳嗽是常见的症状，通常由病毒感染引起，如流感或普通感冒”。音频数据的生成系统逐字接收上述文字流，“感”、“冒”……“通”、“常”，在接收到文字“常”并存入文字缓冲区后，在文字缓冲区中的文字数量达到指定字数阈值15个字，此时，音频数据的生成系统继续接收文字“由”、“病”、“毒”、“感”、“染”、“引”、“起”、“，”，音频数据的生成系统在接收到“，”时，可以将文字缓冲区中的文字组成句子“感冒伴随咳嗽是常见的症状，通常由病毒感染引起”，整体生成句子的音频数据。

在本实施方式中，可以通过调用音频转换模块，并一次性的将整个句子提供给该音频转换模块，实现将整个句子转换为音频数据。在本实施方式中，通过将整个句子提供给音频转换，使得音频转换模块可以通过句子本身携带的较为完整的语义内容，分析整个句子的情感倾向，以使得生成的音频数据中可以结合句子的内容，实现音频可以更加富有情感，接近真人说话的语音。在本实施方式中，音频转换模块可以为基于大量训练样本训练后得出的实现音频转换功能的机器学习模型。当然，音频转换模块也可以是第三方提供的音频转换服务，并通过调用该音频转换服务的服务接口，将整个句子提供给该音频转换服务，并接收该音频转换服务反馈的音频数据。在一些实施方式中，音频转换模块生成的音频数据，也可以模仿指定人员的音色，以及模仿指定人员的说话语气。例如，一个医生的咨询账户可以设定的自动答复功能，以针对患者咨询的问题进行解答，在生成语音数据的过程中，可以使得该语音数据模仿医生的音色和说话语气，以使得患者可以具有更好的体验。

在一些实施方式中，音频数据的生成系统可以获取目标即时通信消息会话项中咨询账户的问题信息；基于所述问题信息构建提示指令，所述提示指令用于指示大语言模型生成对应所述问题信息的答案信息的文字流；接收使用所述提示指令调用大语言模型后，由所述大语言模型输出的文字流。

在一些情况下，可以基于即时通信技术作为音频数据的生成系统的入口，如此将音频数据的生成系统与即时通信技术相结合，提升即时通信过程中用户的体验。

在本实施方式中，账户之间可以通过建立即时通信消息会话项，通过即时通信消息会话项汇集进行即时通信的账户信息和沟通内容，实现账户之间进行即时通信。即时通信消息会话项也可以作为一种数据集合，记录即时通信的参与账户产生的即时通信数据。该即时通信数据可以包括但不限于文字、图片、音频数据或视频数据等。再者，即时通信消息会话项也指明了进行即时通信的账户。即，属于同一个即时通信消息会话项的账户之间，可以基于该即时通消息会话进行文字沟通、语音或视频沟通等。目标即时通信消息会话项可以是指针对该即时通信消息会话项中咨询账户的问题信息的答复内容，需要转换为音频数据后，将音频数据提供给该咨询账户。

在本实施方式中，在咨询用户登录即时通信客户端之后，该咨询用户的账户可以为所述咨询账户。咨询用户可以用咨询账户的身份操作即时通信客户端发送即时通信消息。该即时通信消息的内容可以为文本信息、图片信息、音频信息或视频信息等。在一些情况下，咨询用户可以通过咨询账户发出需要接收方给出回答的即时通信消息，该即时通信消息中可以携带有问题信息。例如，咨询账户发出的即时通信消息为“风寒感冒后，如何恢复健康？”，该句子就是问题信息。在一些情况下，咨询用户可能会通过音频发出即时通信消息，可以针对相应音频消息进行语音识别得出文本的问题信息。

在本实施方式中，音频数据的生成系统可以在接收问题信息之后，构建提示指令，以通过该提示指令调用大语言模型。具体的，音频数据的生成系统内可以集成有提示指令模版，在接收到问题信息之后，将问题信息加入提示指令模块中形成提示指令。例如，提示指令为“你是一名医生，请针对问题“风寒感冒后，如何恢复健康？”，给出专业回答。”

在本实施方式中，大语言模型接收到提示指令之后，会根据提示指令的要求，生成作为答案，并将答案发送给音频数据的生成系统。在一些实施方式中，大语言模型通常会采用逐字输出的技术方案，使得逐字发送给音频数据的生成系统形成文字流。当然，大语言模型也可以采用输出多个文字之后，再将该多个文字发送给音频数据的生成系统，音频数据仍旧会以文字流的形式接收

在本实施方式中，大语言模型可以是指具有庞大参数量的人工智能模型，并具有较好的世界知识的学习能力。大语言模型可以是生成式模型，并可以理解并生成自然语言。

在一些实施方式中，音频数据的生成系统可以在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中缓冲的文字，按照存入所述文字缓冲区中的顺序组成句子；将对应所述句子生成的音频数据生成任务加入音频任务队列；其中，所述音频任务队列中包括有需要生成音频数据的任务。

在一些情况下，文字流中的文字，按照顺序组成在一起，才能够准确的表达原本的语义。如此，在生成音频数据的过程中，需要控制音频数据的顺序，避免音频数据的顺序错乱，导致用户难以理解含义。

在本实施方式中，音频数据的生成系统在划分得出句子之后，可以对应句子生成音频数据生成任务。如此，每个句子都可以对应至一个音频数据生成任务，以确保每个句子都会对应生成音频数据。再者，通过建立音频任务队列，利用了“队列”先进先出的特性，使得先进入音频任务队列中的音频数据生成任务会被先执行，实现按照句子在文字流中的顺序，生成相应的音频数据。如此实现准确的按照文字流中句子的顺序生成音频数据。

在一些实施方式中，音频数据的生成系统在对应句子生成音频数据生成任务之后，会清空所述文字缓冲区中的文字；继续将接收的文字流，按照接收顺序逐字存入所述文字缓冲区。

在一些情况下，音频数据生成任务需要相对较长的执行时间，才能够生成句子对应的音频数据。如果，音频数据的生成系统在调用音频转换模块生成音频数据的过程中，等待音频转换模块的反馈结果，会使得文字流的接收被打断或者出现文字流的文字丢失。

在本实施方式中，音频数据的生成系统在对应句子生成音频数据生成任务之后，将文字缓冲区清空，便可以利用文字缓冲区接收新的文字，并可以基于文字缓冲区中的文字作为句子生成音频数据生成任务实现循环处理。再者，音频数据生成系统通过构建音频数据生成任务，并将音频数据生成任务加入音频认为队列，并清空文字缓冲区后重新存入接收的文字，实现，音频数据的生成和句子的划分，二者并行执行，整体上提升的效率，也兼顾了接收文字流的时效性，生成的音频数据的顺序准确性。

在一些实施方式中，音频数据的生成系统可以将所述文字流包括的文字发送给目标即时通信客户端；在所述句子对应的音频数据完成生成之后，再将所述音频数据发送给所述目标即时通信客户端。

在一些情况下，在进行即时通信的过程中，用户往往期望可以尽快的得到答复信息。

在本实施方式中，音频数据的生成系统接收到文字流包括的文字之后，可以将接收的文字发送至目标即时通信客户端。具体的，音频数据的生成系统可以每接到一个文字，就逐字发送至目标即时通信客户端，也可以在音频数据的生成系统划分出句子之后，将句子发送给目标即时通信客户端。目标即时通信客户端可以是咨询用户使用的即时通信客户端，或者，是登录咨询账户的即时通信客户端。如此，目标即时通信客户端可以在用户发出问题信息之后，尽早得到反馈。

在本实施方式中，音频数据的生成系统先将文字提供给目标即时通信客户端之后，可以在句子对应的音频数据完成生成之后，将音频数据也发送给目标即时通信客户端，如此目标即时通信客户端可以根据音频数据播放音频。如此，可以在用户阅读文字存在困难的情况下，收听音频内容，给用户带来了便利。再者，音频数据的整个句子生成的，使得音频内容较为连贯，较为接近真人的表达，提升了用户体验。

在一些实施方式中，音频数据的生成系统可以执行所述音频任务队列中的音频数据处理任务，得到所述句子对应的音频数据；将所述音频数据存入指定音频数据库。进一步的，音频数据的生成系统可以将所述指定音频数据库中对应所述音频数据的访问标识，写入所述文字流中文字所属于的即时通信消息的扩展字段中；在接收到所述目标即时通信客户端发出的针对所述访问标识的访问请求的情况下，将所述音频数据发送给所述目标即时通信客户端。

在一些情况下，音频数据的生成系统生成音频数据之后，如果直接将生成的音频数据发送给即时通信客户端，如果发生发送失败的情况，可能会导致音频数据丢失的情况，会导致需要重新生成音频数据，而多个句子的音频数据需要按照准确的顺序提供给目标即时通信客户端，如此，会导致较多的问题。

在本实施方式中，音频数据的生成系统执行音频数据处理任务之后，会得到句子对应的音频数据。音频数据的生成系统会将所述音频数据存入指定音频数据库，如此使得句子对应的音频数据不会轻易丢失。进一步的，指定音频数据库中存入的音频数据可以对应有访问标识，可以通过访问标识获得该音频数据。具体的，在音频数据存入指定音频数据库之后，指定音频数据库可以提供音频数据在指定音频数据库中的访问标识。文字流包括的文字被通过即时通信消息发送给目标即时通信客户端，以使得目标即时通信客户端可以展示该即时通消息的内容，音频数据的生成系统可以将音频数据的访问标识写入该即时通信消息的扩展字段中。该扩展字段可以无需在目标即时通信客户端的界面中显示。

在本实施例中，目标即时通信客户端可以在获得访问标识之后，可以向指定音频数据库发出针对该访问标识的访问请求，以获得相应的音频数据，并可以在得到音频数据之后播放音频。进一步的，在一些实施方式中，目标即时通信客户端会逐字接收文字流中的文字，并可以在每接收到一个文字之后，在即时通信会话界面中增加显示一个文字，实现了该即时通信消息的动态增加文字的显示效果，减少了用户整体等待时间，并增加了阅读的趣味性，提升了用户的体验。再者，在目标即时通信客户端动态增加文字显示即时通信消息的过程中，即时通信消息的扩展字段被写入了访问标识的情况下，目标即时通信客户端可以依照访问标识获取相应的音频数据，并可以实现在以动态增加文字方式显示即时通信消息的过程中，播放文字流中形成的句子对应的音频数据。如此，用户可以在视觉上和听觉上了解即时通信消息的内容，提供给用户较佳的使用体验。

在本实施方式中，指定音频数据库可以存储数据对象。音频数据可以作为数据对象存入指定音频数据库中。

本申请的实施方式还提供一种即时通信方法。所述即时通信方法可以包括：接收咨询账户发出的问题信息；依照大语言模型针对所述问题信息生成的文字流，展示所述文字流包括的文字；在接收到对应所述文字流中句子的音频数据的情况下，播放所述音频数据；其中，所述音频数据是根据前述任一所述音频数据的生成方法生成的。

在本实施方式中，即时通信方法可以应用于即时通信客户端。即时通信客户端可以登陆有机器人账户。例如，机器人账户可以为问答机器人账户。咨询账户可以为与所述机器人账户之间建立即时通信消息会话项的账户。咨询账户可以基于该即时通信消息会话项与机器人账户进行即时通信。

在本实施方式中，问题信息携带有咨询账户提出的问题内容。咨询账户可以通过文字信息或语音信息等发出该问题信息。即时通信客户端可以接收大语言模型对应问题信息生成的文字流，并展示文字流包括的文字。具体的，即时通信客户端可以逐字接收文字流包括的文字，并逐字增加显示在界面中。当然，即时通信客户端也可以接收到多个文字，例如一个句子之后，才在界面中显示相应句子。

在本实施方式中，即时通信客户端接收到对应文字流中句子的音频数据的情况下，可以播放相应音频数据，如此，给用户带来了便利。

在一些实施方式中，在咨询账户以音频方式发出问题信息的情况下，即时通信客户端才需要对应文字流包含的句子转换成音频数据。可以理解，可以对应咨询账户发出问题信息的数据形式，反馈相应数据形式的即时通信消息。例如，咨询账户的用户可能不方便通过文字形式发出问题信息，与此同时用户也可能对于阅读存在一定的困难，比如用户视觉方面存在一定损伤。对应咨询账户采用音频方式发出问题信息，在答复该咨询账户的即时通信消息时，也提供了音频播放的形式，如此用户可以无需查看文字，给用户带来了便利。

请参阅图3。本申请实施方式还提供一种音频数据的生成系统，包括：文字流接收模块，用于将接收的文字流，按照接收顺序逐字存入文字缓冲区；其中，所述文字流包括多个文字；生成模块，用于在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据。

关于音频数据的生成系统实现的具体功能和效果，可以参照本申请其他实施方式对照解释，在此不再赘述。所述音频数据的生成系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图4。本申请实施方式还提供一种即时通信装置，包括：信息接收模块，用于接收咨询账户在目标即时通信消息会话项中发出的问题信息；文字展示模块，用于依照大语言模型针对所述问题信息生成的文字流，展示所述文字流包括的文字；播放模块，用于在接收到对应所述文字流中句子的音频数据的情况下，播放所述音频数据；其中，所述音频数据是根据前述任一实施方式所述音频数据的生成方法生成的。

关于即时通信装置实现的具体功能和效果，可以参照本申请其他实施方式对照解释，在此不再赘述。所述即时通信装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施方式还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时使得，该处理器实现任一项所述的音频数据的生成方法，或者，实现任一项所述的即时通信方法。

本申请实施方式还提供一种包含指令的计算机程序产品，该指令被处理器执行时使得计算机实现上述任一所述的音频数据的生成方法，或者，实现任一所述的即时通信方法。

请参阅图5。本说明实施方式可以提供一种计算机设备，所述计算机设备包括：存储器，以及与所述存储器通信连接的一个或多个处理器；所述存储器中存储有可被所述一个或多个处理器执行的指令，该指令被该一个或多个处理器执行，以使该一个或多个处理器实现上述任一实施方式中的音频数据的生成方法，或者实现上述任一实施方式中的即时通信方法。

在一些实施方式中，所述计算机设备可以包括被系统总线连接的处理器、非易失性存储介质、内存储器、通信接口、显示装置和输入装置。所述非易失性存储介质可以存储有操作系统和相关的计算机程序。

本申请多个实施方式中所涉及的用户信息或者用户账户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据等），均为经过用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律规定和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

可以理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施方式，而非限制本发明的范围。

可以理解，在本申请中的各种实施方式中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施方式的实施过程构成任何限定。

可以理解，本申请中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施方式对此并不限定。

除非另有说明，本申请实施方式所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本申请的范围。本申请所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本申请实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解，本申请实施方式的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施方式中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施方式描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本申请所提供的几个实施方式中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种音频数据的生成方法，其特征在于，包括：

将接收的文字流，按照接收顺序逐字存入文字缓冲区；其中，所述文字流包括多个文字；

在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标即时通信消息会话项中咨询账户的问题信息；

基于所述问题信息构建提示指令，所述提示指令用于指示大语言模型生成对应所述问题信息的答案信息的文字流；

接收使用所述提示指令调用大语言模型后，由所述大语言模型输出的文字流。

3.根据权利要求1所述的方法，其特征在于，在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据的步骤，包括：

在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中缓冲的文字，按照存入所述文字缓冲区中的顺序组成句子；

将对应所述句子生成的音频数据生成任务加入音频任务队列；其中，所述音频任务队列中包括有需要生成音频数据的任务。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

清空所述文字缓冲区中的文字；

继续将接收的文字流，按照接收顺序逐字存入所述文字缓冲区。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述文字流包括的文字发送给目标即时通信客户端；

在所述句子对应的音频数据完成生成之后，再将所述音频数据发送给所述目标即时通信客户端。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

执行所述音频任务队列中的音频数据处理任务，得到所述句子对应的音频数据；

将所述音频数据存入指定音频数据库；

在所述句子对应的音频数据完成生成之后，再将所述音频数据发送给所述目标即时通信客户端的步骤，包括：

将所述指定音频数据库中对应所述音频数据的访问标识，写入所述文字流中文字所属于的即时通信消息的扩展字段中；

在接收到所述目标即时通信客户端发出的针对所述访问标识的访问请求的情况下，将所述音频数据发送给所述目标即时通信客户端。

7.一种即时通信方法，其特征在于，包括：

接收咨询账户发出的问题信息；

依照大语言模型针对所述问题信息生成的文字流，展示所述文字流包括的文字；

在接收到对应所述文字流中句子的音频数据的情况下，播放所述音频数据；其中，所述音频数据是根据权利要求1至6任一所述音频数据的生成方法生成的。

8.一种音频数据的生成系统，其特征在于，包括：

文字流接收模块，用于将接收的文字流，按照接收顺序逐字存入文字缓冲区；其中，所述文字流包括多个文字；

生成模块，用于在所述文字缓冲区中的文字数量超过指定字数阈值后，并接收到指定文字的情况下，将所述文字缓冲区中的文字作为句子，整体生成所述句子的音频数据。

9.一种即时通信装置，其特征在于，包括：

信息接收模块，用于接收咨询账户在目标即时通信消息会话项中发出的问题信息；

文字展示模块，用于依照大语言模型针对所述问题信息生成的文字流，展示所述文字流包括的文字；

播放模块，用于在接收到对应所述文字流中句子的音频数据的情况下，播放所述音频数据；其中，所述音频数据是根据权利要求1至6任一所述音频数据的生成方法生成的。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至6中任一项所述的音频数据的生成方法，或者，实现如权利要求7所述的即时通信方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序被处理器执行时能够实现如权利要求1至6中任一项所述的音频数据的生成方法，或者，实现如权利要求7所述的即时通信方法。

12.一种计算机程序产品，其特征在于，计算机程序产品用于实现如权利要求1至6中任一项所述的音频数据的生成方法，或者，实现如权利要求7所述的即时通信方法。