WO2026012240A1 - 信息处理方法、装置和电子设备 - Google Patents
信息处理方法、装置和电子设备Info
- Publication number
- WO2026012240A1 WO2026012240A1 PCT/CN2025/106282 CN2025106282W WO2026012240A1 WO 2026012240 A1 WO2026012240 A1 WO 2026012240A1 CN 2025106282 W CN2025106282 W CN 2025106282W WO 2026012240 A1 WO2026012240 A1 WO 2026012240A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- voice
- contact
- target
- target contact
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例适用于信息技术领域,提供了一种信息处理方法、装置和电子设备。应用该方法,电子设备可以在接收到联系人发送的信息时,基于用户指令或通过对信息的分析,获取联系人信息,确定发送信息的目标联系人。同时,综合考虑前一条信息与本条信息的来源、用户与目标联系人的熟悉程度、信息类型及复杂度等因素,可以确定相应的播报控制策略。在此基础上,通过权限控制获得目标联系人使用其声音特征的授权,可以合成与其相同或相似的声音用于语音播报按照上述播报控制策略处理后的信息。应用本方法,不仅可以方便用户从听觉层面对联系人产生具象的熟悉感,也可以提高用户获取信息内容的效率和及时性。
Description
本申请要求于2024年07月10日提交至国家知识产权局、申请号为202410926760.9、申请名称为“智能传递信息内容的方法、装置和电子设备”的中国发明专利申请的优先权,以及要求于2024年11月01日提交至国家知识产权局、申请号为202411562369.1、申请名称为“信息处理方法、装置和电子设备”的中国发明专利申请的优先权。
本申请实施例涉及信息技术领域,尤其涉及一种信息处理方法、装置和电子设备。
电子设备通过语音向用户播报接收到的信息,丰富了用户获取信息的方式。在一些场景中,当用户不方便直接查看电子设备上的信息时,电子设备通过语音播报信息提高了用户获取信息的及时性。示例性地,用户在开车、跑步、骑行等过程中,可能无法及时通过视觉查看电子设备上接收到的系统消息或各类应用程序(application,APP)发送的信息。例如,用户不方便查看社交类APP接收到的联系人发来的消息等。此时,电子设备通过语音将接收到的信息转录并播报给用户,可以方便用户了解信息的内容。
现有技术中,电子设备语音播报信息通常使用系统默认的或者自定义的特定音源。无论是系统消息,还是各类APP传输的信息,电子设备都是使用相同的声音数据来进行播报。在一种示例中,对于通信类或社交类APP不同联系人发来的消息,电子设备都使用相同的声音进行播报,容易给用户带来困扰,用户无法从听觉层面建立起播报的信息内容与发送信息的联系人之间的直接关联,降低了用户获取信息的效率。另一方面,电子设备接收到的信息来源广泛,需要播报的信息内容形式多样。例如,电子设备接收到需要播报的信息可能是长文本或者包含链接、特殊字符等内容,现有技术在语音播报信息时将会对这些内容进行播报,不仅播报时间较长,也不利于用户快速了解信息的具体内容。
本申请实施例提供的一种信息处理方法、装置和电子设备,可以采用与目标联系人的真实声音相同或相似的声音对接收到的信息内容进行语音播报,方便用户从听觉层面对目标联系人产生具象的熟悉感;同时,本申请实施例还可以对接收到的信息进行处理,例如可以对信息进行简化、保留信息中的关键或重要内容;根据本条信息与前一条信息的差异,补充信息来源和/或联系人来源;对于非文本信息,可以根据信息类型的不同,转换为相应的可播报的文本信息等,通过上述各种方式的处理,可以提高用户获取信息内容的效率和及时性。
为达到上述目的,本申请实施例采用如下技术方案:
本申请实施例的第一方面提供了一种信息处理方法,包括:
响应于接收的第一信息,确定发送所述第一信息的目标联系人;
检索所述目标联系人的语音消息,并基于所述语音消息生成与所述目标联系人的声音相似的目标声音,所述语音消息可以包括第一页面中的语音消息;
生成与所述第一信息相对应的目标信息;
采用目标声音对所述目标信息进行语音播报。
应理解,第一信息可以是当前接收到的信息,目标联系人是发送第一信息的联系人,目标联系人可以通过应用程序发送第一信息。应用本申请实施例提供的信息处理方法,电子设备可以采用与发送第一信息的目标联系人相同或相似的声音,对接收到的第一信息进行播报,从而方便用户从听觉层面建立起信息与目标联系人之间的熟悉感,有助于用户高效、及时地获取信息内容。
同时,电子设备在接收到第一信息后,还可以按照相应的播报策略对第一信息进行处理。例如,将非文本信息转换为文本信息,对文本信息进行精简,根据相邻信息间的差异,补充或省略信息来源和/或联系人来源等。电子设备采用与目标联系人的真实声音相同或相似的目标声音所播报的目标信息可以是按照上述播报策略处理后的信息。这样,可以提高进一步提高用户获取信息的效率。
在本申请实施例的第一方面的一种可能的实现方式中,该方法还包括:检索所述目标联系人的语音消息;基于所述目标联系人的语音消息,生成与所述目标联系人的真实声音相同或相似的目标声音。
其中,检索目标联系人的语音消息可以在第一页面中进行,第一页面可以包括当前用户与目标联系人进行会话的会话页面。示例性地,会话页面可以是即时通信应用等提供的聊天页面。
应理解,目标声音是与发送信息的目标联系人的真实声音相同或相似的声音,目标声音可以是基于目标联系人的声音特征生成的。本申请实施例通过检索目标联系人的语音消息,可以从检索到的语音消息中提取目标联系人的声音特征,合成与目标联系人的真实声音相同或相似的目标声音,用于后续的信息播报。本申请实施例无需开发第三方应用接口,可以通过系统实现自动化无感的声音检索。
作为本申请实施例的第一方面的一种示例,检索所述目标联系人的语音消息可以通过打标检索的方式实现。在进行打标检索时,电子设备可以确定检索所述目标联系人的语音消息的检索要素,所述检索要素至少包括所述目标联系人的联系人信息;根据所述检索要素,在标记信息数据库中进行检索,得到所述目标联系人的语音消息。其中,所述标记信息数据库可以是对接收到的各个联系人的语音消息进行信息标记后,通过存储相应的标记信息构成的。
作为本申请实施例的第一方面的另一种示例,检索所述目标联系人的语音消息还可以通过翻页检索的方式实现。在进行翻页检索时,电子设备可以打开应用程序中与所述目标联系人关联的第一页面,例如,上述会话页面。然后,从所述第一页面中检索由所述目标联系人发送的语音消息。
其中,上述第一页面可以包括打开所述应用程序后直接呈现的所述目标联系人的当前会话页面;或者,第一页面还可以包括当前用户与目标联系人的历史会话页面。可以通过滑动当前会话页面显示历史会话页面。
示例性地,第一页面可以包括当前用户与目标联系人的会话页面。在进行翻页检索时,可以显示与目标联系人关联的第一页面,即当前用户与目标联系人的会话页面,在会话页面中检索由目标联系人发送的语音消息。
或者,第一页面也可以包括当前用户与目标联系人的历史会话页面。可以响应于第一操作,显示当前用户与目标联系人的历史会话页面,在历史会话页面中检索由目标联系人发送的语音消息。上述第一操作可以是滑动会话页面或其他能够实现上述功能的操作。以滑动会话页面为例,电子设备响应于滑动会话页面的操作,可以显示当前用户与目标联系人的历史会话页面,再在历史会话页面中检索语音消息。
在本申请实施例的第一方面的一种可能的实现方式中,上述第一页面还包括与所述目标联系人直接会话的个人会话页面和/或包含所述目标联系人的群组会话页面。因此,从所述第一页面中检索由所述目标联系人发送的语音消息,包括:在所述个人会话页面和/或所述群组会话页面中检索由所述目标联系人发送的语音消息。这样,通过在个人会话页面以及群组会话页面中分别进行检索,可以提高准确检索到目标联系人的语音消息的可能性。
在本申请实施例的第一方面的另一种可能的实现方式中,所述语音消息还包括第二页面中的语音消息,第二页面可以包括历史消息记录检索页面,因此在检索目标联系人的语音消息时,可以响应于第二操作,显示与所述目标联系人关联的第二页面,并在第二页面中检索由目标联系人发送的语音消息。
在一种示例中,第二操作可以是对历史消息入口执行的操作。例如,电子设备可以通过执行对历史消息入口的操作,显示历史消息记录检索页面,并在历史消息记录检索页面中检索由目标联系人发送的语音消息。电子设备对历史消息入口进行的操作,可以通过调用相应接口或模拟用户行为来实现。上述通过应用程序提供的历史消息入口显示与所述目标联系人关联的历史消息记录检索页面,进而在历史消息记录检索页面中进行检索的方式为搜索检索。
本申请实施例可以通过多种检索方式检索目标联系人的语音消息,扩大了目标联系人的语音消息的来源,有助于获得更有用的语音消息。
在本申请实施例的第一方面的一种可能的实现方式中,电子设备在基于所述目标联系人的语音消息,生成与所述目标联系人的真实声音相同或相似的目标声音时,可以从所述目标联系人的语音消息中提取所述目标联系人的声音特征;根据所述声音特征和接收的第一信息进行声音合成,得到与所述目标联系人的真实声音相同或相似的目标声音。
作为本申请实施例的第一方面的一种示例,从所述目标联系人的语音消息中提取所述目标联系人的声音特征,可以通过模拟播放检索到的语音消息,并在模拟播放语音消息的过程中抓取音频数据用于声音特征的提取。即,可以通过模拟点击并播放检索到的所述目标联系人的语音消息;在模拟播放所述目标联系人的语音消息的过程中,抓取音频数据;从所述音频数据中提取所述目标联系人的声音特征。
这样,可以在用户无感的情况下,快速提取得到目标联系人的声音特征,用于后续的声音合成或克隆。
应理解,在某些场合或某些场景下,提取和抓取所表述的含义是相同的。
在本申请实施例的第一方面的一种可能的实现方式中,所述语音消息还可以包括所述目标联系人预先录制或在与所述目标联系人通话的过程中录制并存储的语音消息。因此,所述检索所述目标联系人的语音消息,还包括:根据所述目标联系人的联系人信息,在存储有所述目标联系人的语音消息的数据库中检索所述目标联系人的语音消息。
本申请实施例可以允许联系人自行录制参考音频,供他人使用;也可以在获取联系人授权的情况下,在用户与联系人通话的过程中录制参考音频。参考音频可以上传至云端数据库,也可以保存在本地。
在本申请实施例的第一方面的一种可能的实现方式中,若检索到的所述语音消息中包含多个联系人的声音,则可以通过确定用于声音筛选的因素;根据所述因素,从所述语音消息中提取属于所述目标联系人的声音。其中,所述因素可以包括但不限于如下中的至少一项:联系人声音的频谱信息、声强信息或持续时间信息。示例性地,电子设备可以根据联系人声音的频谱信息筛选目标联系人的声音,或者根据联系人声音的声强信息筛选目标联系人的声音,也可以同时根据频谱信息和声强信息筛选目标联系人的声音。
这样,在获取到的语音消息包含多个人声时,本申请实施例通过目标人声的识别与筛选,可以保证获得优质的语音消息用于声音特征的提取,进而根据提取得到的声音特征进行目标声音的合成或克隆,提高了播报目标信息时所使用的目标声音的质量。
在本申请实施例的第一方面的一种可能的实现方式中,所述生成与所述第一信息相对应的目标信息,包括:确定信息来源;根据所述信息来源和接收到的所述第一信息的内容,生成目标信息。即,电子设备可以根据相应的播报策略,对接收到的第一信息进行处理,得到待播报的目标信息。上述信息来源可以是在语音播报目标信息时需要进行播报的来源,它可以是按照播报策略进行处理后得到的。例如,上述信息来源可以包括第一信息完整的来源,也可以包括省略或简化其中部分内容后得到的来源内容。
其中,所述确定信息来源,包括:确定所述第一信息与相邻的前一条信息之间的差异;所述差异包括接收时间间隔、所属平台、会话类型、所属群组、所属联系人;根据所述差异确定待播报的信息来源的具体内容。
应理解,上述接收时间间隔可以是指接收到两条信息的时间间隔。例如,接收到前一条信息的时间为t1,接收到本条消息的时间为t2,则接收时间间隔=t2-t1。所属平台可以是指接收到信息的应用程序平台。例如短信平台或社交应用平台。如果两条信息均是通过短信平台发送和接收的短消息,则这两条信息所属平台相同;如果其中一条信息是通过短信平台接收的短消息,另一条信息是通过某一社交应用接收到的即时消息,则这两条信息所属的平台不同。会话类型可以是指当前会话是属于个人会话或群组会话,上述个人会话可以是用户与联系人之间一对一的私聊会话,群组会话可以是指包含用户与多个联系人的群组中的会话,如群聊等。所属群组的差异可以是在确定信息属于群组会话中的消息时,信息所属的群组是否相同,即信息是否来自同一个群聊。所属联系人的差异则是指通过应用程序发送信息的联系人是否为同一个联系人。
所述根据所述差异确定待播报的信息来源的具体内容,包括:若所述第一信息与相邻的前一条信息之间的接收时间间隔大于预设间隔,则确定待播报的信息来源的内容包括完整的信息来源;
若所述第一信息与相邻的前一条信息之间的接收时间间隔小于或等于所述预设间隔,则依次判断所述第一信息与相邻的前一条信息之间的所属平台、会话类型、所属群组、所属联系人的变化情况;根据所述变化情况确定待播报的信息来源的具体内容。
在本申请实施例的第一方面的一种可能的实现方式中,所述根据所述变化情况确定待播报的信息来源的具体内容,包括:若所述第一信息与相邻的前一条信息之间的所属平台、会话类型、所属群组、所属联系人中任一项发生变换,则确定待播报的信息来源的内容包括发生变换的相应内容。
本申请实施例通过依次基于相邻消息的间隔时间、所属平台、所属群组、所属联系人,判定二者在来源上的差异,从而可以在信息来源相同时,省略对信息来源的播报,减少冗余信息播报带来的时长增加,提高信息播报效率,有助于用户快了解信息内容。
在本申请实施例的第一方面的一种可能的实现方式中,所述根据所述差异确定待播报的信息来源的具体内容,还包括:确定当前用户与所述目标联系人的熟悉程度;根据所述熟悉程度确定待播报的信息来源中包括的所述目标联系人的名称的具体内容。
应理解,对于熟悉联系人,用户可以根据声音特征分辨发送信息的该联系人是谁,因此采用与联系人相同或相似的声音播报信息时,可以省略对熟悉联系人的名称的播报,提高信息播报效率。
在本申请实施例的第一方面的一种可能的实现方式中,可以根据用户与联系人的互动行为特征来判断某一联系人是否为用户的熟悉联系人。因此,所述确定用户与所述目标联系人的熟悉程度,包括:获取所述当前用户与所述目标联系人的互动行为特征;根据所述互动行为特征,确定所述用户与所述目标联系人的熟悉程度。上述互动行为特征可以包括聊天行为特征。
作为本申请实施例的第一方面的一种示例,如果基于所述熟悉程度确定所述目标联系人为所述当前用户的熟悉联系人,则可以确定待播报的信息来源中可省略所述目标联系人的名称。
如果基于所述熟悉程度确定所述目标联系人为所述当前用户的非熟悉联系人,则可以对所述目标联系人的名称进行简化,确定待播报的信息来源中包括的所述目标联系人的名称为简化后的所述目标联系人的名称。
在本申请实施例的第一方面的一种可能的实现方式中,所述根据所述信息来源和接收到的所述第一信息的内容,生成待播报的目标信息,包括:预估语音播报所述第一信息的时长;若所述时长超过预设值,对所述第一信息进行精简;根据所述信息来源和精简后的所述第一信息的内容,生成待播报的目标信息。
应理解,内容较多或较冗余的信息将会占用大量的播报时长,不利于用户快速了解信息内容。因此,本申请实施例在生成目标信息的过程中,可以对第一信息的播报时长进行预估。当预估得到的播报时长超过预设值时,电子设备可以对第一信息进行精简,简化需要播报的信息的内容,减少播报时长,方便用户快速了解信息内容。
其中,电子设备对第一信息的精简可以是文字数量上的精简,精简后的信息相较于未精简的原始信息,文字数量更少,但精简后的信息仍然包含原始信息中较为关键、核心的内容,通过对信息的精简,不会使得用户漏掉其中的关键信息。
作为本申请实施例的一种示例,电子设备对第一信息的精简可以是对原始内容的概括、保留原始内容中的关键或重要信息,删减连接词或重复、无实际意义的词语等处理。
在本申请实施例的第一方面的一种可能的实现方式中,所述第一信息还可以包括非文本信息,所述根据所述信息来源和接收到的所述第一信息的内容,生成待播报的目标信息,还包括:确定所述非文本信息的信息类型;根据所述信息类型对所述非文本信息进行文本转换;根据所述信息来源和文本转换后的所述第一信息,生成待播报的目标信息。
作为本申请实施例的第一方面的一种示例,所述非文本信息可以包括链接信息、图片、文件、表情包、文章推送、小程序、卡片信息等所有不是纯文本类型的信息。电子设备可以根据非文本信息的具体类型,对其进行文本转换,得到转换后的文本信息。以链接信息为例,链接信息可以包括网址以及基于网址对应的内容生成的其他形式的信息,例如包含文本的卡片等等。因此,所述根据所述信息类型对所述非文本信息进行文本转换,包括:确定所述链接信息对应的链接内容,并对所述链接内容进行概括得到文本形式的概括文本。即,电子设备可以通过模拟打开该链接,获取链接对应的内容,并通过概括等处理方式,得到文本形式的信息。例如,链接信息为某一新闻对应的网址,在对该链接信息进行处理时,电子设备可以模拟打开该网址读取新闻内容,并概括出新闻的主要内容,作为文本转换后的信息。
作为本申请实施例的第一方面的另一种示例,在根据所述信息类型对所述非文本信息进行文本转换之后,还包括:确定接收到所述非文本信息的会话类型;根据所述会话类型为文本转换后的所述信息添加过渡语,所述过渡语的句式可以是主谓宾句式或谓宾句式或其他句式,如主谓句式、主谓宾补句式等。
本申请实施例可以根据信息类型对接收到的非文本信息进行处理,转换得到可用于语音播报的文本信息,提高信息传递的效率和准确性。
在本申请实施例的第一方面的一种可能的实现方式中,所述第一信息可以包括在预设时间段内发送的多条信息,所述生成与所述第一信息相对应的待播报的目标信息,还包括:对在预设时间段内发送的多条信息进行合并;生成与合并后的所述多条信息相对应的待播报的目标信息。电子设备对多条信息的合并,可以根据实际情况的不同,采用不同的原则来进行。例如,可以对同一联系人发送的多条信息进行拼接,或者,对于多个联系人发送的包含有相似内容的信息,可以筛选出信息中相似的内容,在保持语义不变的情况下合并为一条信息,等等。
其中,所述对在预设时间段内发送的多条信息进行合并,包括:确定所述目标联系人在预设时间段内发送的多条信息的会话类型;分别将所述目标联系人在预设时间段内发送且属于相同会话类型的多条信息进行合并。
在本申请实施例的第一方面的另一种可能的实现方式中,所述第一信息还可以包括多个关联联系人在预设时间段内发送的多条群组会话信息,所述对在预设时间段内发送的多条信息进行合并,包括:分别确定多个所述关联联系人在预设时间段内发送的多条信息的内容;将多个所述关联联系人在预设时间段内发送的且内容相似的多条信息进行合并。
本申请实施例可以对目标联系人连续发送的多条信息进行合并,也可以对多个关联联系人发送的多条内容相似的信息进行合并,进一步简化了需要播报的信息的内容,避免了逐条对接收到的信息进行播报,减少了播报时长,提高了信息传递的效率。
在本申请实施例的第一方面的一种可能的实现方式中,所述第一信息还可以包括非即时信息,所述方法还包括:响应于用户指令,检索所述用户指令对应的一条或多条非即时信息;生成与一条或多条所述非即时信息相对应的待播报的目标信息,并对所述目标信息进行语音播报。
应理解,用户指令可以是用户发出的请求获取相关信息的指令。本申请实施例通过响应用户指令来检索满足用户需求的相关信息,可以实现信息检索与播报过程中的人机交互,有助于基于用户实际需求筛选信息,避免了手动检索信息时操作繁琐的问题,提高了用户获取信息的效率。
本申请实施例的第二方面提供了一种信息处理装置,包括:
联系人确定模块,用于响应于接收的第一信息,确定发送所述第一信息的目标联系人;
语音消息检索模块,用于检索所述目标联系人的语音消息;
目标声音生成模块,用于基于所述语音消息生成与所述目标联系人的声音相似的目标声音,所述语音消息包括第一页面中的语音消息;
目标信息生成模块,用于生成与所述第一信息相对应的目标信息;
语音播报模块,用于采用所述目标声音对所述目标信息进行语音播报。
本申请实施例的第三方面提供了一种电子设备,该电子设备可以包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序。其中,处理器执行计算机程序时可以实现如上述第一方面所述的信息处理方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述第一方面所述的信息处理方法。
本申请实施例的第五方面提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述第一方面所述的信息处理方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
图1是本申请实施例提供的一种信息处理方法的整体流程示意图;
图2是本申请实施例提供的一种信息处理方法所适用的电子设备的结构示意图;
图3是本申请实施例提供的一种目标联系人识别以及声音特征检测的示意图;
图4是本申请实施例提供的一种声音数据授权管理流程的示意图;
图5是本申请实施例提供的一种在进行声音数据授权的过程中电子设备操作页面的示意图;
图6是本申请实施例提供的另一种声音数据授权管理流程的示意图;
图7是本申请实施例提供的另一种在进行声音数据授权的过程中电子设备操作页面的示意图;
图8是本申请实施例提供的又一种声音数据授权管理流程的示意图;
图9是本申请实施例提供的又一种在进行声音数据授权的过程中电子设备操作页面的示意图;
图10是本申请实施例提供的一种声音数据处理流程的示意图;
图11是本申请实施例提供的一种打标检索的示意图;
图12是本申请实施例提供的一种翻页检索的示意图;
图13是本申请实施例提供的一种搜索检索的示意图;
图14是本申请实施例提供的一种语音音频数据流抓取的示意图;
图15是本申请实施例提供的另一种语音音频数据流抓取的示意图;
图16是本申请实施例提供的一种目标人声识别筛选的示意图;
图17是本申请实施例提供的一种声音特征提取与存储的示意图;
图18是本申请实施例提供的一种信息处理方法的示意图;
图19是本申请实施例提供的另一种信息处理方法的示意图;
图20是本申请实施例提供的一种生成播报控制策略的示意图;
图21是本申请实施例提供的一种信息来源判断流程的示意图;
图22是本申请实施例提供的一种联系人来源判断流程的示意图;
图23是本申请实施例提供的一种信息精简判断流程的示意图;
图24是本申请实施例提供的一种非文本信息处理流程的示意图;
图25是本申请实施例提供的一种非文本信息处理的示意图;
图26是本申请实施例提供的一种即时信息合并处理流程的示意图;
图27是本申请实施例提供的一种即时信息合并处理的示意图;
图28是本申请实施例提供的另一种即时信息合并处理的示意图;
图29是本申请实施例提供的一种信息检索与摘要汇总处理流程的示意图;
图30是本申请实施例提供的一种信息检索与摘要汇总处理的示意图;
图31是本申请实施例提供的一种信息处理装置的示意图。
需要说明的是,本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例描述的业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
本申请实施例提供的一种信息处理方法、装置和电子设备中所涉及到的步骤仅仅作为示例,并非所有的步骤均是必须执行的步骤,或者并非各个步骤中的内容均是必选的,在使用过程中可以根据需要酌情增加或减少。本申请实施例中同一个步骤或者具有相同功能的步骤或者内容在不同实施例之间可以互相参考借鉴。
通常,电子设备语音播报接收到的信息可以包括播报来电信息和播报其他通知消息等。对于播报来电信息,电子设备通常默认开启该功能。并且,在电子设备连接耳机,或者与汽车连接时(例如,用户处于驾驶状态),当接收到来电信息,电子设备将通过语音直接播报该来电信息。示例性地,在接收到来电信息时,电子设备可以使用系统音源播报“来自Tom的通话,要接听吗?”用户可以与电子设备交互,从而确定接听该来电或挂掉该来电。对于其他通知消息,用户可以通过在电子设备上的设置,选择性地开启电子设备播报特定类型或特定APP的通知消息的功能。示例性地,用户可以在电子设备上进行设置,开启电子设备播报各类社交应用接收到的消息的功能。对于系统消息,通过设置可以关闭播报该类型消息的功能。这样,当产生系统消息时,电子设备不会对其进行语音播报;而对于社交应用接收到的消息,电子设备可以在接收到相关消息时,直接通过系统音源进行播报。播报时,电子设备还可以对信息的接收来源进行提示。例如,电子设备接收到某一社交应用,例如社交应用APP1中的联系人Tom发来的消息时,其播报内容可以是“来自应用APP1 Tom的消息:周末一起吃饭怎么样?”对于消息中存在链接等内容时,电子设备播报的内容可以是“来自应用APP1,Tom-第一公司-应用工程师,我给你找了相关的信息,这是网址:https://happy.valley……”此外,对于内容较长的消息,电子设备在进行播报时通常只对长文本的开头部分进行播报,不能对文本内容进行概括性播报。当接收到的多条消息均为长文本时,电子设备也只会对每条长文本的开头部分进行播报,导致用户获取消息内容的效率较低。
针对上述问题,本申请实施例提供了一种信息处理方法、装置和电子设备。一方面,电子设备在接收到信息时,可以首先确定发送信息的目标联系人。这样,电子设备可以采用与该目标联系人真实声音相同或相似的声音对接收到的信息进行语音播报,从而方便用户根据播报信息所使用的声音来快速判断发送信息的联系人是谁,从用户听觉层面建立起对该目标联系人的熟悉感。另一方面,对于接收到的信息,电子设备可以按照一定的播报控制策略对其进行处理。例如,电子设备可以将接收到的非文本形式的信息处理成文本信息;或者,对于较多内容的文本信息,电子设备可以对其内容进行概括,简化后续需要播报的信息内容。这样,电子设备可以仅播报按照相应策略处理得到的信息,无需对冗余的文本信息或非文本信息进行直接播报,提高了用户获取信息内容的效率和及时性。
如图1所示,是本申请实施例提供的一种信息处理方法的整体流程示意图。按照图1所示的流程,电子设备可以基于用户指令或在满足自动播报条件时,执行本申请实施例提供的信息处理方法,通过确定目标联系人,从而按照一定的播报控制策略采用与该目标联系人的真实声音相同或相似的声音对信息进行语音播报。如图1所示,在接收到用户指令或满足自动播报条件时,电子设备可以首先确定目标联系人,该目标联系人也即是发送信息的联系人。具体地,电子设备可以基于用户指令或通过对接收到的信息进行分析,获取联系人信息。例如,联系人ID、备注名称、昵称、头像等信息。电子设备通过对上述各种类型的联系人信息进行处理,可以确定发送信息的目标联系人。然后,如图1所示,电子设备可以检测系统中是否存在目标联系人的声音特征,以及当前是否已经获得目标联系人的授权,允许使用其声音特征。如果系统中不存在目标联系人的声音特征,则电子设备可以在获得目标联系人授权的前提下,检索目标联系人的语音消息,并从检索到的语音消息中提取出该目标联系人的声音特征,用于声音合成。或者,如果系统中存在目标联系人的声音数据但并未获得目标联系人使用其声音的授权,则电子设备可以执行权限控制步骤,请求获得目标联系人使用其声音的授权。在获得目标联系人的授权后,电子设备可以对系统中已存储的目标联系人的声音数据进行处理,例如检索目标联系人的语音消息,并基于检索到的语音消息进行声音特征的提取,从而得到目标联系人的声音特征,用于合成与目标联系人真实声音相同或相似的目标声音。在此基础上,如图1所示,电子设备可以执行确定播报控制策略的步骤,通过考虑前一条信息的播报和本条信息的来源、用户与目标联系人的熟悉程度、信息的类型和复杂度、用户指令的播报需求等,生成播报控制策略,并按照相应策略进行语音播报。在进行语音播报时,电子设备可以采用与目标联系人真实声音相同或相似的目标声音播报按照相应策略处理后的信息。需要说明的是,声音特征包括多个维度的特征,例如音色、音调、语气、韵律等,因此与目标联系人真实声音相同或相似的目标声音可以是指音色、音调、语气、韵律等其中一项或多项特征相同或相似的声音。
作为应用本申请实施例的信息处理方法的一种示例,用户正在开车/做家务/跑步时,收到了某一社交应用中某个联系人发送的信息。用户可以主动问询电子设备收到了什么信息,并且请电子设备进行播报。或者,在用户预先设置自动播报接收到的信息的情况下,电子设备在接收到某个联系人发送的信息时,采用本申请实施例提供的方法对信息进行处理,自动对接收到的信息进行播报。电子设备语音播报的信息可以是采用本申请实施例提供的方法中的播报控制策略对原始信息进行处理后的信息。在播报时,电子设备可以采用与发送该信息的目标联系人的真实声音相同或相似的目标声音进行播报。上述目标声音可以是指基于目标联系人的声音特征合成得到的声音,合成得到的目标声音与目标联系人的真实声音具有一定的相似性。在合成目标声音的过程中,电子设备可以根据实际需要确定目标声音与目标联系人的真实声音之间的相似度。例如,目标声音和目标联系人的真实声音的相似度可以是70%或者90%等,本申请实施例对此不作限定。
本申请实施例提供的信息处理方法可以应用于电子设备。该电子设备可以是手机、平板电脑、智能穿戴设备、车载移动设备等等。本申请实施例对电子设备的类型不作限定。
示例性地,图2示出了一种电子设备200的结构示意图。上述电子设备的结构可以参考图2中电子设备200的结构。
如图2所示,电子设备200可以包括处理器210、外部存储器接口220、内部存储器221、通用串行总线(universal serial bus,USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器270A、受话器270B、麦克风270C、耳机接口270D、传感器模块280、按键290、马达291、指示器292、摄像头293、显示屏294,以及用户标识模块(subscriber identification module,SIM)卡接口295等。其中,传感器模块280可以包括压力传感器280A、陀螺仪传感器280B、气压传感器280C、磁传感器280D、加速度传感器280E、距离传感器280F、接近光传感器280G、指纹传感器280H、温度传感器280J、触摸传感器280K、环境光传感器280L、骨传导传感器280M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器210可以包括一个或多个处理单元。例如,处理器210可以包括应用处理器(application processor,AP)、调制解调处理器、图形处理器(graphics processing unit,GPU)、图像信号处理器(image signal processor,ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor,DSP)、基带处理器,和/或,神经网络处理器(neural-network processing unit,NPU)等。不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。示例性地,控制器可以在电子设备200接收到某个联系人通过某一应用程序,例如社交类应用发送的信息时,对信息进行处理,确定出发送该信息的目标联系人。
处理器210中还可以设置存储器,用于存储指令和数据。示例性地,存储器可以用于在电子设备200本地存储联系人的声音数据。这样,当需要采用与某个联系人相同或相似的声音对信息进行播报时,电子设备200可以直接在本地的存储器中进行检索,获得目标联系人的声音特征。
电子设备200可以通过音频模块270、扬声器270A、受话器270B、麦克风270C、耳机接口270D,以及应用处理器等实现音频功能。例如音乐播放、录音、信息的语音播报等。
扬声器270A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备200可以通过扬声器270A收听音乐,或收听免提通话。在本申请实施例中,电子设备200可以通过扬声器270A将处理后的信息以语音形式播报给用户。
受话器270B和/或麦克风270C可以用于接收用户语音。例如,用户可以主动向电子设备200询问当前接收到了何种信息,并请电子设备200进行播报。在上述用户与电子设备200的交互过程中,用户的指令可以以语音的形式传递给电子设备200,电子设备200可以通过受话器270B和/或麦克风270C接收用户的语音,并将其转换为可供处理器210处理的信号。
耳机接口270D可以用于连接耳机,耳机接口270D连接的耳机可以是有线耳机,也可以是无线耳机。在将耳机与耳机接口270D连接后,上述扬声器270A、受话器270B、麦克风270C可实现的功能均可以通过耳机实现。
本申请实施例提供的信息处理方法可以在具有上述硬件结构的电子设备上实现。
在本申请实施例中,当电子设备接收到信息,电子设备可以根据信息中携带的联系人信息,确定发送该信息的目标联系人。示例性地,电子设备可以根据接收到的信息中携带的联系人ID、备注名、昵称,和/或头像信息等确定目标联系人。其中,电子设备接收的信息可以是第一信息。响应于接收的第一信息,电子设备可以确定发送第一信息的目标联系人。
为了实现采用与目标联系人的真实声音相同或相似的声音对接收到的信息进行语音播报,电子设备需要在确定发送信息的目标联系人后,获取该目标联系人的声音特征,用于声音合成,得到目标声音,该目标声音也即是与目标联系人的真实声音相同或相似的声音。在此过程中,电子设备需要根据多种类型的联系人信息对系统中已存储的声音特征进行识别,确认相关声音特征是否属于目标联系人。
如图3所示,是本申请实施例提供的一种目标联系人识别以及声音特征检测的示意图,图3示出了根据多种类型的联系人信息对系统中已存储的声音特征进行检测的过程。
在图3所示的流程中,联系人信息可以包括联系人ID、备注名、昵称,和头像信息等,电子设备可以通过对系统中的联系人ID、备注名、昵称,和头像信息等能够标记和识别目标联系人的多种信息进行顺序判断,确定系统中的声音特征与目标联系人的声音特征的一致性。
具体地,电子设备在接收到信息后,可以获取信息中携带的联系人信息,例如图3中所示的联系人ID、备注名、昵称,和头像信息等。电子设备首先可以检测系统中是否存在目标联系人ID对应的声音特征。如果存在,电子设备可以判断当前是否获得了目标联系人使用其声音特征的授权。电子设备只有在获得目标联系人授权的情况下,才可以使用其声音特征,用于对接收到的信息的语音播报。否则,电子设备应当尝试请求目标联系人进行授权。
如果系统中并不存在目标联系人ID对应的声音特征,电子设备可以继续检测系统中是否存在目标联系人的备注名,是否存在目标联系人的昵称,是否存在目标联系人的头像信息;以及是否存在上述备注名对应的声音特征,是否存在目标联系人的昵称对应的声音特征,是否存在目标联系人的头像信息对应的声音特征。
如图3所示,如果系统中存在目标联系人的备注名,电子设备可以检测系统中是否存在该备注名对应的声音特征。如果系统中存在该备注名对应的声音特征,电子设备还需要确认该备注名是否被修改,当前的备注名是否能够唯一地指代目标联系人。若是,则电子设备可以确定当前是否获得了目标联系人使用其声音特征的授权,电子设备可以根据判断结果决定是否使用其声音特征合成得到与目标联系人的真实声音相同或相似的目标声音,并采用目标声音对接收到的信息的语音播报;或者,在获取目标联系人的授权后,合成目标声音并采用目标声音对信息进行播报。
如果系统中并不存在目标联系人的备注名,或者虽然存在目标联系人的备注名但并不存在该备注名对应的声音特征,则电子设备可以检测系统中是否存在目标联系人的昵称以及是否存在该昵称对应的声音特征。如果系统中也不存在目标联系人的昵称,或者虽然存在目标联系人的昵称但并不存在该昵称对应的声音特征,则电子设备可以继续检测系统中是否存在目标联系人的头像信息以及是否存在该头像信息对应的声音特征。
如图3所示,在确认系统中存在目标联系人的声音特征后,电子设备可以在获得目标联系人授权的情况下,使用目标联系人的声音特征,用于合成与该目标联系人的真实声音相同或相似的目标声音。
如图4和图5所示,是本申请实施例提供的一种声音数据授权管理的示意图。其中,图4示出了声音数据授权管理流程的示例,图5示出了在进行声音数据授权的过程中电子设备操作页面的示例。按照图4和图5所示的授权管理流程,用户可以通过相关设置,针对某个具体应用进行本方案使用的授权。在完成授权后,相关应用接收到的信息能够按照本方案提供的各个步骤进行处理,并使用目标声音对其进行语音播报。示例性地,按照图4和图5所示的授权管理流程,用户可以将声音数据授权给应用程序使用,例如授权给图5中所示的社交应用A使用,或者授权给短信这一应用使用。这样,当该应用程序接收到用户发送的信息时,可以使用该用户的声音特征合成得到与其相同或相似的目标声音,并采用目标声音对接收到的信息进行语音播报。上述社交应用A可以是即时通信应用、聊天应用或其他具备通信功能的应用。
具体地,参见图5,在一种示例中,上述采用与发送信息的联系人的真实声音相同或相似的声音来播报信息的功能可以被称为声音信使功能。在使用声音信使功能时,用户可以在电子设备上操作,进入相应的设置页面,例如图5中的(a)所示的声音信使设置页,并通过打开声音信使功能开关511开启该功能。声音信使功能开启后,如图5中的(a)所示的,用户可以通过打开开关512,选择在电子设备连接耳机时,采用该功能自动播报接收到的信息。通过点击声音数据授权管理开关513,电子设备可以跳转至如图5中的(b)所示的授权管理页面,该页面中可以显示存在过授权记录的各个应用,如图5中的(b)中显示的社交应用A和电话应用。当用户点击社交应用A对应的控件521后,电子设备跳转至图5中的(c)所示的页面,该页面中显示有用户授权社交应用A使用声音数据的授权记录,例如授权记录1、授权记录2和授权记录3。用户可以在图5中的(c)所示的页面进行操作,例如点击授权记录2对应的控件531,查看本条授权记录的具体情况。如图5中的(d)所示,可以是授权记录2对应的具体情况,在本次授权中,用户打开了“允许一年内可以使用我的声音”的开关541,这表示在完成本次授权后,用户将允许社交应用A在一年内使用其声音数据用于实现声音信使功能。上述被授权使用的声音数据可以是用户的声音特征,也可称为声音特征数据。
如图6和图7所示,是本申请实施例提供的另一种声音数据授权管理的示意图,图6和图7示出了用户主动请求目标联系人授权使用其声音数据的具体流程。具体地,参照图6和图7,当用户希望获得使用某一联系人声音数据的授权时,用户可以在电子设备上进行操作,打开相关设置页面确认包含该联系人的应用。用户可以通过与该联系人的会话页面,将复制的请求授权的信息发送给该联系人,向该联系人请求获得使用其声音的授权。
具体地,参见图7,在一种示例中,当用户请求联系人进行声音数据的授权时,用户可以在如图7中的(a)所示的设置页面中进行操作,例如点击社交应用A对应的授权管理开关711,此时电子设备可以跳转至如图7中的(b)所示的授权管理页面,该页面中显示了如何进行声音数据授权请求的操作信息,例如该页面中显示有可通过点击复制授权链接并跳转至相应APP的信息721,用户可以根据页面上显示的信息进行操作,点击该信息721并复制得到相应链接。这样,电子设备可以自动调用对应的APP,例如如图7中的(d)所示,调用社交应用A,并自动将授权请求信息741发送给对方用户。
如图8和图9所示,是本申请实施例提供的又一种声音数据授权管理的示意图,图8和图9所示的授权管理流程是与图6和图7所示的授权管理流程相对应的。图6和图7示出了用户主动请求目标联系人授权使用其声音数据的具体流程,也即图6和图7示出的是用户端的相关操作流程;图8和图9则是示出了联系人端对用户发送的授权请求进行处理的流程,也即图8和图9示出的是联系人端在接收到用户端发送的授权请求信息后的相关操作流程。按照图8和图9所示的流程,联系人可以对用户发送的授权请求进行确认并选择需要授权的类型,从而对用户端使用其声音数据进行授权。
具体地,图9所示的是在用户点击接收到的授权请求信息后,电子设备自动跳转显示的授权设置页面。例如,图7中的(d)中的对方用户Tom点击用户发送的授权请求信息741后,本端电子设备可以自动打开如图9所示的授权设置页面。用户Tom可以通过选择其中一种授权类型,例如图9中所示的“允许一直可以使用我的声音”,并打开相应的开关911,即可以将自己的声音数据授权给对端用户,允许对端用户使用声音信使功能。这样,当Tom使用授权了的应用给对端用户发送信息,对端用户设备上的应用接收到该信息时,该应用可以自动获取用户Tom的声音特征,在合成与Tom本人的真实声音相同或相似的目标声音后,采用目标声音向对端用户播报Tom发送的信息。
在完成目标联系人的识别并获得使用其声音特征的相关权限后,电子设备可以使用目标联系人的声音特征合成得到与该用户的真实声音相同或相似的目标声音,采用目标声音对目标联系人发送的信息进行语音播报。在实现上述目的的过程中,如图1所示,电子设备还需要获得目标联系人的声音特征。
在本申请实施例的一种可能的实现方式中,电子设备可以通过检索目标联系人的语音消息,从中提取目标联系人的声音特征,通过声音合成或克隆的方式得到与目标联系人的真实声音相同或相似的目标声音,从而可以采用目标声音对接收到的信息进行语音播报。
如图10所示,是本申请实施例提供的一种声音数据处理流程的示意图,图10示出了检索目标联系人的语音消息并提取得到目标联系人的声音特征的流程。图10所示的流程包括目标联系人语音消息检索、语音音频数据流抓取、目标联系人声音特征提取及存储等步骤。此外,在检索目标联系人的语音消息过程中,还可以对检索到的语音消息的时长进行判断,保证后续的语音音频数据流是从符合一定时长要求的语音消息中抓取得到的。在提取目标联系人的声音特征前,电子设备还可以对抓取到的语音音频数据流进行质量检测,确保符合质量要求的语音音频数据流才能够被用于后续的声音特征提取,保证合成得到的目标声音尽可能接近目标联系人的真实声音。
在本申请实施例的一种可能的实现方式中,电子设备可以采用自动化检索的方式,得到目标联系人的语音消息。电子设备采用的自动化检索方式可以包括打标检索、翻页检索、搜索检索以及直接检索中的一种或多种。
其中,打标检索可以是一种电子设备基于检索要素,从标记信息数据库中检索到标记信息,进而根据标记信息快速定位检索到目标联系人的语音消息的检索方式。在电子设备每次接收到联系人通过应用程序发送的语音消息后,通过对语音消息进行后台打标,标记出联系人信息、消息长度、日期以及应用程序名称等信息并存储相应的标记信息后,电子设备可以将标记信息存储至数据库。在使用打标检索时,电子设备可以根据检索要素从标记信息数据库中确定出相应的标记信息,从而快速地检索到需要的语音消息。在一种示例中,打标检索时使用的检索要素可以是上述标点信息,该检索要素至少应当包括目标联系人的联系人ID和应用程序名称。
如图11所示,是本申请实施例提供的一种打标检索的示意图,图11示出了电子设备采用打标检索的方式检索出目标联系人的语音消息的过程,以及构造标记信息数据库的过程。
在构造标记信息数据库的过程中,如图11所示,电子设备在接收到目标联系人通过应用程序发送的每一条语音消息时,可以识别发送该条语音消息的联系人,例如通过联系人ID来识别每条语音消息的发送人。通常,时长过短的语音消息对于构造标记信息数据库作用有限,因此电子设备可以对接收到的语音消息进行时长判断,仅仅处理持续时间超过一定时长,例如超过10秒的语音消息。需要说明的是,电子设备对接收到的语音消息进行时长判断的步骤,可以在识别发送语音消息的联系人这一步骤之前进行,也可以在该步骤之后进行。即,电子设备可以首先识别发送语音消息的联系人,再对该条语音消息的时长进行判断;或者,电子设备在接收到一条语音消息后,也可以首先判断该条语音消息的时长,当时长满足相应要求时,电子设备再对该条语音消息进行联系人识别。
如图11所示,电子设备可以获取接收到语音消息的时间,该时间可以作为该条语音消息的标记信息之一即接收时间。此外,标记信息还可以包括联系人信息、消息时长以及应用程序名称等。电子设备在确定相应的信息后,可以对该条语音消息进行打标,并将打标完成的标记消息存储至标记信息数据库。
在本申请实施例的一种可能的实现方式中,如图11所示,电子设备使用打标检索的方式从标记信息数据库中检索标记信息,进而获得目标联系人的语音消息的过程,可以是在电子设备中并不存在目标联系人的声音特征的情况下进行的。当电子设备中已经存在目标联系人的声音特征时,电子设备可以直接采用该声音特征合成目标声音,进而采用目标声音对接收到的信息进行播报,无需重复执行声音特征提取的流程以及打标检索等各类语音消息的检索流程。当电子设备中不存在目标联系人的声音特征时,电子设备可以确定相应的检索要素。例如,检索要素可以包括联系人信息、消息时长、接收时间以及应用程序的名称等。图11中示出的检索要素包括联系人信息即Tom、消息时长即大于10秒、日期即最近一个月,应用程序名称为社交应用A,上述检索要素表示本次打标检索的目的,是从标记信息数据库中检索出相应的标记信息,然后根据标记信息为导航,快速定位查找到符合上述标记信息,也即满足最近一个月接收到的由联系人Tom通过社交应用A发送且消息持续时间大于10秒的语音消息。在采用打标检索的方式检索到符合上述要求的语音信息后,电子设备可以将其用于后续的特征提取过程;否则,本次打标检索失败。
在本申请实施例中,翻页检索可以是电子设备通过打开用户与目标联系人关联的第一页面,并从该第一页面中自主检索得到目标联系人的语音消息的一种检索方式。其中,与目标联系人关联的第一页面可以是电子设备上接收到信息的应用程序的会话页面或消息页面,例如第一页面可以是用户使用社交软件与目标联系人聊天时的聊天页面,该聊天页面也可称为聊天框。在一种示例中,第一页面还可以是历史会话页面。因此,在翻页检索的过程中,电子设备可以滑动会话页面,并从滑动后展示的历史会话页面中检索目标联系人的语音消息。
如图12所示,是本申请实施例提供的一种翻页检索的示意图,图12示出了电子设备采用翻页检索的方式从消息页面中检索出目标联系人的语音消息的过程。
与打标检索类似,翻页检索也可以是在电子设备中并不存在目标联系人的声音特征的情况下进行的。当电子设备中并不存在目标联系人的声音特征时,电子设备可以打开用户与目标联系人关联的消息页面。例如,电子设备打开用户与目标联系人的聊天框。上述电子设备打开消息页面的过程可以是通过模拟操作实现的。
在打开用户与目标联系人的消息页面后,电子设备可以在当前消息页面中进行检索,判断是否存在由目标联系人发送的语音消息。如果当前消息页面中存在目标联系人发送的语音消息,电子设备还可以对该语音消息的时长进行判断,例如如图12所示,判断该条语音消息是否大于10秒。如果语音消息的时长大于10秒,电子设备可以将该条语音消息作为检索到的目标联系人的语音消息,用于后续的声音特征提取。如果当前消息页面中并不存在由目标联系人发送的语音消息,或者虽然存在由目标联系人发送的语音消息但该条语音消息的时长并不满足相关要求,例如消息时长小于10秒。此时,电子设备可以通过在消息页面进行翻页的形式,例如向上滑动页面,再次从消息页面中对目标联系人的语音消息进行检索。电子设备翻页后得到的消息页面可以看作是这一时刻的当前消息页面,电子设备可以按照与前述相同的方式,在翻页后的消息页面中检索目标联系人的语音消息。
在本申请实施例的一种可能的实现方式中,如图12所示,如果当前消息页面无法翻页,也即当前消息页面无法向上滑动,说明当前消息页面的所有消息已检索完成,电子设备可以从包含目标联系人的会话群组中检索该目标联系人的语音消息。上述会话群组可以是包含目标联系人的群聊。
如图12所示,电子设备可以打开包含目标联系人的会话群组,即群聊聊天框,并在会话群组的当前消息页面中进行检索,确定是否存在由目标联系人发送的语音消息。类似地,如果会话群组的当前消息页面中存在由目标联系人发送的语音消息,电子设备可以对语音消息的时长进行判断,将时长满足相关要求的语音消息作为后续进行声音特征提取的消息。否则,如果会话群组的当前消息页面中存在由目标联系人发送的语音消息,或者虽然存在由目标联系人发送的语音消息但该条语音消息的时长并不满足相关要求,此时电子设备可以通过翻页的形式,在新呈现的消息页面中继续进行检索。电子设备在会话群组中进行翻页的方式与前述介绍的在用户与目标联系人进行会话的页面中进行翻页的方式相同。如果在用户与目标联系人进行会话的页面中以及在存在目标联系人的会话群组中均未检索到由目标联系人发送的语音消息,则本次翻页检索失败。
在本申请实施例中,打标检索与翻页检索可以是一种直接从电子设备的消息页面中检索语音消息的检索方式,该种检索方式针对的对象属于用户与联系人,或者联系人在会话群组中的历史会话记录。在一种示例中,历史会话记录可以是指历史聊天记录,即该聊天记录可以是用户与目标联系人之间的聊天记录,也可以是包括目标联系人的会话群组中的聊天记录即群聊记录。在另一种示例中,电子设备也可以通过应用程序提供的历史会话记录入口进入历史会话记录检索页面,并采用相应的检索方式来实现上述目的。其中,搜索检索即是一种可以从应用程序提供的历史会话记录入口进入历史会话记录检索页面,并在历史会话记录检索页面中直接搜索目标联系人的语音消息的检索方式。
如图13所示,是本申请实施例提供的一种搜索检索的示意图,采用搜索检索的方式检索语音消息可以是在第二页面中进行的,第二页面可以是历史会话记录检索页面。图13示出了电子设备采用搜索检索的方式从历史会话记录中直接搜索目标联系人的语音消息的过程。
与翻页检索类似,当电子设备中并不存在目标联系人的声音特征时,电子设备可以打开用户与目标联系人关联的消息页面并在通过该消息页面上提供的历史会话记录入口进入历史会话记录检索页面,并在历史会话记录检索页面中采用搜索检索的方式检索目标联系人的语音消息。如图13所示,当电子设备打开用户与目标联系人的消息页面后,电子设备可以继续打开历史会话记录,例如该历史会话记录可以是历史聊天记录会话框中存储的会话记录。电子设备可以在历史会话记录中进行搜索,判断是否存在语音聊天记录。如果通过在该历史会话记录检索页面中的搜索,能够搜索到目标联系人的语音聊天记录,电子设备可以对语音聊天记录进行筛选,直到搜索出时长满足相关要求的语音消息,例如时长大于10秒的语音消息,用于后续的声音特征提取。
与翻页检索过程中在会话群组中进行检索的过程类似,当用户与目标联系人的历史会话记录中并不存在满足相关要求的语音消息时,电子设备可以在存在目标联系人的会话群组的历史会话记录中进行检索,上述会话群组的历史会话记录可以是群聊历史记录。如图13所示,电子设备可以打开存在目标联系人的群组的消息页面,接着打开该群组的历史会话记录检索页面,例如该群组的历史聊天记录检索页面,并在其中对群组的历史聊天记录进行搜索。如果在群组的历史聊天记录中搜索到语音消息,电子设备可以通过联系人信息筛选出属于目标联系人的语音消息,并将时长满足相关要求的语音消息作为后续特征提取所要使用的消息。如果会话群组的历史聊天记录中也未搜索到属于目标联系人的语音消息,则本次搜索检索失败。
在本申请实施例的一种可能的实现方式中,对目标联系人的语音消息进行检索还可以采用直接检索的方式进行。上述直接检索可以是基于目标联系人的联系人信息,例如目标联系人的ID、账户信息、电话号码等信息,直接在电子设备本地或云端进行检索,以此来获得目标联系人的语音信息。
在本申请实施例的一种可能的实现方式中,上述打标检索、翻页检索、搜索检索以及直接检索可以择一进行,也可以同时进行。示例性地,电子设备可以采用其中一种检索方式对目标联系人的语音消息进行检索,当采用该种检索方式能够检索得到目标联系人的语音消息时,电子设备可以停止检索;当电子设备采用某种检索方式无法检索得到目标联系人的语音消息时,电子设备可以采用另一种检索方式继续进行检索,直到获得目标联系人的语音消息。在一种示例中,电子设备也可以同时采用其中的多种检索方式对目标联系人的语音消息进行检索。当采用至少两种检索方式进行检索获得目标联系人的语音消息时,电子设备可以采用任意一种检索得到的语音消息,作为后续声音特征提取所要使用的语音消息。
如图10所示,电子设备在检索得到目标联系人的语音消息并且该语音消息也符合相关时长要求时,电子设备可以从中进行语音音频数据流抓取。上述语音音频数据流抓取的过程可以采用自动化抓取的方式,在模拟播放检索到的语音消息的过程中,从电子设备后台抓取到相应的语音数据流。
如图14所示,是本申请实施例提供的一种语音音频数据流抓取的示意图,图14示出了通过模拟播放语音消息,从电子设备后台抓取语音音频数据流的过程。
在电子设备检索得到目标联系人的语音消息后,电子设备可以模拟播放该条语音消息,从而在语音消息模拟播放的过程中抓取得到相关的语音音频数据流。在此过程中,如图14,电子设备首先可以控制扬声器或虚拟扬声器静音。通过控制扬声器或虚拟扬声器静音,避免了语音音频数据流抓取过程对用户的打扰。当扬声器或虚拟扬声器静音后,电子设备可以模拟点击播放检索到的目标联系人的语音消息,并在播放的过程中抓取语音音频数据流。当语音消息播放结束后,电子设备抓取语音音频数据流的过程也随之结束。此时,电子设备可以恢复扬声器功能。抓取得到的语音音频数据流可以在进行质量检测合格后,用于声音特征的提取。
在本申请实施例的一种可能的实现方式中,用于抓取语音音频数据流的目标联系人的语音消息还可以是电子设备从电子设备本地或云端数据库中检索得到的。其中,云端数据库中存储的目标联系人的语音消息可以是目标联系人预先录制并上传至云端数据库,或者在用户与目标联系人通话过程中在目标联系人授权的情况下,通过录制通话过程中的语音消息得到的。用户与目标联系人通话过程中录制得到的语音消息也可以存储于电子设备本地。
如图15所示,是本申请实施例提供的另一种语音音频数据流抓取的示意图,图15示出了从云端获取目标联系人的语音音频数据流的过程。
在一种示例中,如图15所示,目标联系人可以使用自己持有的电子设备,例如使用自己的手机采录一段音频并将该音频与自己的账户信息绑定。其中,账户信息可以是唯一标识目标联系人的信息,如联系人信息。上述绑定有联系人信息的音频数据可以被目标联系人上传至云端数据库,用于开放给其他用户用作通信过程中声音的合成或克隆。
在另一种示例中,如图15所示,在用户与目标联系人通话的过程中,电子设备可以判断是否已存储该目标联系人的声音特征,如果电子设备中并未存储该目标联系人的声音特征,电子设备可以在目标联系人授权同意的情况下,截取一定时长的通话录音。例如,电子设备可以在通话过程中截取10秒长的录音,并将截取得到的音频数据与该目标联系人的账户信息相绑定,从而上传至云端数据库或直接存储于电子设备本地,用于后续通信过程中声音的合成或克隆。
电子设备在需要抓取目标联系人的语音音频数据流时,可以在电子设备本地,或者从上述被上传至云端数据库中的音频数据中进行检索,检索得到的音频数据即可作为电子设备抓取得到的目标联系人的语音音频数据流。
在本申请实施例的另一种可能的实现方式中,存储于电子设备本地或云端数据库中的音频数据还可以是通过录屏的方式获得的。用户可以通过录屏采集得到目标联系人的音频数据并从中提取得到目标联系人的声音特征,在获得目标联系人授权使用其声音的情况下,电子设备可以根据目标联系人的声音特征合成得到与目标联系人的真实声音相同或相似的目标声音。
在一种示例中,当用户使用电子设备与联系人进行视频通话时,用户可以在获得联系人授权的情况下,在电子设备上录屏,得到录屏文件,该录屏文件可以是一种视频格式的文件,其中包含有联系人的音频数据。电子设备可以从音频数据中提取得到联系人的声音特征,并将声音特征与对应的联系人绑定,存储于电子设备本地,或将音频数据与联系人绑定,存储至云端数据库。上述授权过程可以包括允许用户对视频通话过程进行录屏的授权,以及从录屏文件中提取出联系人的声音特征,用于实现本申请实施例提供的相关方案的授权。
在另一种示例中,用户可以在电子设备上进行操作,自行查找由联系人发送的语音消息。在用户点击播放该语音消息的过程中,用户可以执行录屏操作得到录屏文件。这样,录屏文件中包含有联系人的音频数据。电子设备可以在获得联系人授权的情况下,执行本申请实施例提供的相关方案的步骤,从音频数据中提取得到联系人的声音特征,并将声音特征与对应的联系人绑定,存储于电子设备本地,或者将音频数据与联系人绑定,存储至云端数据库。上述两种示例中存储于云端数据库的音频文件,可以在后续实现本申请实施例提供的相关方案的过程中,供电子设备从中提取出联系人的声音特征,用于合成得到与对应联系人的真实声音相同或相似的目标声音。
在本申请实施例的一种可能的实现方式中,如图10所示,为了保证后续合成或克隆得到的目标声音与目标联系人真实的声音数据尽可能相同或相似,电子设备在抓取得到目标联系人的语音音频数据流后,可以进行音频质量检测,判断抓取到的语音音频数据流是否满足质量要求。对于满足质量要求的音频数据,电子设备可以继续执行声音特征提取的步骤;否则,电子设备可以重新检索目标联系人的语音消息。
在本申请实施例中,对音频数据的质量检测可以包括对抓取得到的语音音频数据流本身的音频质量的检测,以及当语音音频数据流中存在多个联系人的声音时,对目标人声的识别筛选的过程。上述目标人声即是目标联系人的声音。
如图16所示,是本申请实施例提供的一种目标人声识别筛选的示意图,图16中示出了对于抓取得到的语音音频数据流进行质量检测以及目标人声的识别筛选的全过程。
当电子设备开始对语音音频数据流进行质量检测时,如图16所示,电子设备可以首先判断当前待检测的语音音频数据流的信噪比是否满足后续声音特征提取的要求,即判断语音音频数据流是否达标。如果语音音频数据流并不满足要求,则电子设备可以对语音音频数据流进行降噪处理,直至信噪比达标。当语音音频数据流信噪比达标后,电子设备可以判断语音音频数据流中是否存在人声。如果经过多次降噪处理,语音音频数据流的信噪比均无法达标;或者达标后的语音音频数据流中并不存在人声,则电子设备可以根据联系人信息,重新检索目标联系人的语音消息。
如果达标后的语音音频数据流中存在人声,则为了识别出目标联系人的声音,电子设备首先可以判断语音音频数据流中是否存在不同的人声,即判断语音音频数据流中的人声仅属于目标联系人或是包含目标联系人在内的多个联系人。如果语音音频数据流中的人声属于多个联系人,如图16所示,电子设备可以对不同人声进行分离与拼接,并基于频谱、声强、持续时间等信息,评估得到属于目标联系人的声音即目标人声。在经过人声分离与拼接后,电子设备可以判断属于目标人声的语音音频数据流是否超过一定时长,例如是否超过5秒时长。如果目标人声超过上述要求的5秒时长,则电子设备可以将其用于声音特征提取;否则,如果目标人声短于要求的5秒时长,进行特征提取可能无法获得有效的声音特征,此时电子设备可以根据联系人信息重新检索语音消息。
在本申请实施例中,如图10所示,对于经过质量检测的语音音频数据流,电子设备可以从中提取声音特征并存储。被存储的声音特征可以在后续经合成或克隆处理,得到与目标联系人的真实声音相同或相似的目标声音,从而使得电子设备可以采用目标声音,按照与目标联系人相同相似或相近的声音对目标联系人发送的信息进行语音播报。
如图17所示,是本申请实施例提供的一种声音特征提取与存储的示意图。对于经过质量检测的语音音频数据流,电子设备可以从中提取得到目标联系人的声音特征,该声音特征可以包括音频特征和文本特征。其中,音频特征可以包括HuBERT(hidden-unit BERT)特征,频谱特征等;文本特征可以包括BERT(bidirectional encoder representations from transformers)特征等。上述文本特征可以是采用自动语音识别(automatic speech recognition,ASR)技术对质量合格的语音音频数据流进行处理,在获得其中包含的文本数据的基础上进行特征提取得到的。电子设备可以基于目标联系人的联系人信息,对上述音频特征和文本特征进行存储,用于后续的目标声音的克隆或合成。基于联系人信息对提取得到的声音特征进行存储,也有助于在后续检索相关特征时能够快速地根据联系人信息找到所需的目标联系人的声音特征,加快目标声音克隆或合成的速度。
为了便于理解,下面结合详细流程,以具体的示例,对本申请实施例提供的信息处理方法进行介绍。如图18和图19所示,是本申请实施例提供的两种不同的处理方式的示意图。其中,图18是以社交应用为例,对电子设备中社交类应用程序接收到的信息进行处理并语音播报的示意图。图19是以畅联消息/短消息为例,对电子设备接收到的信息进行处理并语音播报的示意图。
如图18所示,电子设备可以是用户使用的手机,手机上安装有社交类应用程序。当应用程序接收到联系人发送的消息时,电子设备可以通过执行本申请实施例提供的方法的各个步骤,对信息进行处理,并生成相应的语音信息,然后使用通过声音合成或克隆得到的与目标联系人声音相同或相似的声音,播报上述语音信息。通过声音合成或克隆,使用与联系人真实声音相同或相似的声音播报对应联系人发送的信息,可以在用户没有查看该信息来源的情况下,快速地确定发送信息的联系人,从而在用户听觉层面建立播报的语音信息与联系人之间的关联。下面,对上述过程具体进行说明。
如图18所示,当应用程序接收到目标联系人发送的消息时,可以首先确定系统中是否存储有目标联系人的声音特征,上述过程可以通过本申请前述相关步骤来实现,包括通过对系统中的联系人ID、备注名、昵称、头像等能够标记和识别联系人的要素进行判断、对比和/或标记等处理,确定和判断系统中预存的声音特征是否是属于发送当前信息的目标联系人的声音特征。如果系统中存储有目标联系人的声音特征,则手机可以直接使用目标联系人的声音特征合成与目标联系人的真实声音相同或相似的目标声音,采用目标声音对接收到的信息进行语音播报。如果手机中没有目标联系人的声音特征,则手机需要通过前述各个实施例中介绍的步骤,在获得授权的基础上,检索获得目标联系人的语音消息,并通过特征提取等处理,获得目标联系人的声音特征,然后采用提取出的声音特征生成与该目标联系人的真实声音相同或相似的目标声音,并使用该目标声音播报语音信息。上述授权包括获得用户的授权以及目标联系人的授权,授权的过程可以参见本申请前述各个步骤的相关介绍。
在本申请实施例的一种可能的实现方式中,电子设备在提取出联系人对应的声音特征后,可以将该声音特征与系统中各个平台中的同一联系人绑定。示例性地,电子设备根据在社交软件中检索到的语音消息,并从中提取出声音特征后,可以将该声音特征与电子设备中其他平台或应用中属于同一联系人的各个联系人进行绑定。例如,确定社交类应用程序中的联系人“张三”、通讯录应用中的联系人“张JACK”、短信应用中的联系人“张JACK”、工作应用软件中的联系人“研发组张三”属于同一联系人,电子设备在基于某一应用程序中检索到的语音消息并提取出该联系人的声音特征后,可以将声音特征与上述各个平台或应用中的同一联系人建立绑定关系,从而在后续各个平台或应用接收到该联系人发送的信息时,均可以通过提取该声音特征用于合成与目标联系人的真实声音相同或相似的目标声音,进而采用目标声音播报语音信息。
在检索联系人的语音消息时,可以使用前述介绍的打标检索、翻页检索、搜索检索或直接检索中的任意一种或多种检索方式。示例性地,手机可以从用户与该联系人的历史聊天记录中检索到联系人的语音消息,并建立起该联系人与检索到的语音消息之间的对应关系。
如图18所示,在进行联系人的语音消息检索时,手机可以模拟打开应用程序上用户与该联系人的聊天对话框,并逐一检索二人的历史聊天记录。为了提高后续声音合成或克隆的准确性,检索到的语音消息应当满足一定的时长要求。例如,可以从聊天记录中检索一条时长大于10秒的由该联系人发送的语音消息。
在本申请实施例的一种可能的实现方式中,手机可以按照接收到消息的时间,倒序检索历史聊天记录。当检索到消息时长不满足时长要求的历史语音消息时,手机可以不对该条消息进行处理。例如,检索到时长为5秒的语音消息时,手机可以不处理该条消息,而继续进行检索,直到检索到时长大于10秒的语音消息。
另一方面,手机可以对检索到的语音消息进行特征提取,抓取出的特征可以用于后续的声音合成或克隆处理。
在本申请实施例的一种可能的实现方式中,手机在提取语音消息中的特征时,可以通过模拟播放该语音消息的方式来实现。具体地,手机可以模拟点击该条语音消息,在后台播放该条语音消息的过程中,抓取语音音频数据流,用于后续的特征提取以及声音合成或克隆。这样,整个过程对用户是无感的,不会影响用户在手机上的其他操作,也不会真实地播放检索到的该语音消息。
对于提取出的相关声音特征,手机可以将其与联系人信息,例如联系人的ID进行绑定,并存储,以便后续在接收到该联系人发送的信息时,使用相关声音特征合成与该联系人真实声音相同或相似的目标声音,用于播报对信息进行转换得到的语音信息。
如图19所示,是本申请实施例提供的另一种播报方式的示意图。在图19所示的示例中,可以采用目标联系人的声音特征合成目标声音,目标联系人的声音特征可以是从云端数据库中存储的该目标联系人的参考音频中提取得到的。如图19所示,联系人Tom可以通过手机自行采录一段个人的音频数据作为参考音频,参考音频可以被上传至云端数据库并与该联系人Tom的账户信息绑定,用于后续的特征提取与声音合成。另一方面,参考音频也可以来自于用户与联系人的通话过程。示例性地,在用户与联系人Tom通话的过程中,可以在获得联系人Tom授权的情况下,采集通话过程中的一段音频作为参考音频,上述参考音频可以被上传至云端数据库并与该联系人Tom的账户信息绑定,用于后续的特征提取与声音合成。通话过程中采录的参考音频也可以存储于电子设备本地,后续在需要使用时,电子设备可以直接从本地获取参考音频。
如图19所示,当系统中并不存在联系人Tom的声音特征时,电子设备可以在云端数据库中检索与该联系人Tom的账户信息绑定的参考音频文件。对检索到的参考音频文件,电子设备可以按照前述各个实施例中介绍的方式对其进行质量检测与处理。处理后的音频数据可以用于进行声音特征提取。提取出的声音特征可以与联系人Tom的账户信息进行绑定并存储。当后续需要使用与联系人Tom的声音相同或相似的目标声音播报其发送的信息时,电子设备可以使用上述已提取并存储的声音特征进行声音合成或克隆,得到目标声音,用于播报联系人Tom发送的信息。
在本申请实施例中,电子设备确定发送信息的目标联系人并通过声音克隆或合成等处理获得与该目标联系人的真实声音相同或相似的目标声音后,可以采用目标声音,对接收到的信息进行语音播报。这样,用户可以通过听觉直观地建立与目标联系人的熟悉感。
返回参见图1,在获取目标联系人的声音特征并获得该目标联系人允许使用其声音特征的授权后,电子设备可以按照一定的播报控制策略对接收到的信息进行处理,得到待播报的目标信息。电子设备生成播报控制策略的过程可以综合考虑前一条信息与本条信息的来源、用户与目标联系人的熟悉程度、接收到的信息的类型和复杂度等因素。也即,电子设备可以基于上述一种或多种因素对接收到的信息进行处理,生成目标信息。电子设备可以采用目标声音对目标信息进行语音播报。下面,结合相应的示例,对电子设备按照播报控制策略对接收到的信息进行处理的过程进行详细介绍。
如图20所示,是本申请实施例提供的一种生成播报控制策略的示意图,图20所示的过程也即是电子设备对接收到的信息进行处理,生成目标信息的过程。在该过程中,电子设备可以针对即时信息和非即时信息分别进行处理。其中,电子设备对即时信息的处理过程可以包括信息来源判断、联系人来源判断、即时信息合并处理、非文本信息处理,以及信息精简判断等步骤。
在信息来源判断步骤中,电子设备可以根据相邻信息间的差异性判断下一条信息的来源播报方式。其中,相邻信息可以是在接收信息的时间上具有前后顺序的信息。示例性地,电子设备接收到某一联系人发送的一条信息后,再次接收到另一条信息,这两条信息即是相邻信息。相邻信息间的差异性可以包括接收到相邻信息的间隔时间、所属平台、所属会话群组、所属联系人等。
如图21所示,是本申请实施例提供一种信息来源判断流程示意图。按照图21所示的判断流程,电子设备可以根据相邻信息间的差异性判断下一条信息的来源播报方式,例如是否播报信息来源、是否简化播报信息来源等等。当信息流中出现群组信息、联系人变换、信息来源变换等情况时,通过对信息来源进行判断,可以在避免歧义的前提下,较少地播报信息来源,提高了信息传递的效率。
作为本申请实施例的一种示例,信息来源判断过程可以通过相邻信息的时间间隔,是否属于相同的平台,是否来自会话群组以及是否属于同一群组或同一联系人等,来确定播报时是否携带信息来源。
示例性地,电子设备在接收到一条信息,并按照本申请实施例提供的方法进行播报时,可以携带该条信息的来源,即播报信息内容前首先播报该条信息的来源。例如,来自社交应用APP1中工作沟通群中的Tom,或者来自联系人Tom。前一示例中表明此条信息为会话群组信息也即群聊信息,而后一示例则表明该条信息为个人信息也即私聊消息。
如图21所示,在电子设备接收到下一条信息时,电子设备可以判断最新接收到的信息与上一条信息的差异性。例如,首先判断两条信息的时间间隔是否小于预设间隔,如1分钟。如果时间间隔大于预设间隔,电子设备可以按照新接收到信息的处理方式,播报该条信息的来源。如果两条信息的时间间隔小于预设间隔,电子设备可以判断两条信息是否来自相同的平台,是否来自同一群聊以及是否来自群聊中的同一位联系人等。如果这些判断结果均为相同,即本条信息与上一条信息来自同一平台,且来自同一群聊中的同一联系人,例如均来自上述示例中社交应用APP1中工作沟通群中的Tom,则电子设备在播报最新接收到的消息时,可以在避免歧义的前提下省略信息来源,直接播报信息内容。当上述判断结果存在不一致,例如两条信息虽然都来自联系人Tom,但前一条信息的来源为社交应用APP1中工作沟通群,另一条信息属于私人对话,则为了避免歧义,电子设备应当播报新信息的来源。
在本申请实施例的一种可能的实现方式中,电子设备进行信息来源判断的过程可以由信息来源判断模块实现。
在联系人来源判断步骤中,电子设备可以根据信息所属联系人与用户的互动行为特征,推测用户对其熟悉度,决定是否播报联系人的标记名;或者,按照规则对联系人标记名进行简化播报。
如图22所示,是本申请实施例提供的一种联系人来源判断流程示意图。在该过程中,电子设备可以查询信息所属联系人及其与用户的互动行为特征,推测用户对其熟悉度,进而确认当前发送信息的目标联系人是否为用户熟悉的联系人。如果该目标联系人属于用户熟悉的联系人,则电子设备可以不对该目标联系人的标记名进行播报,例如不播报该联系人的名称;如果该目标联系人不属于用户熟悉的联系人,则电子设备应当播报该目标联系人的标记名,例如播报该联系人的名称。在一种示例中,目标联系人的标记名可能较长,例如联系人名称中包含多个字符,则电子设备可以按照规则对联系人的名称进行简化,尽可能提高信息播报的效率。
作为本申请实施例的一种示例,如果联系人名称为“Tom-人机交互项目-0522”,其中“Tom”为该联系人的姓名,“人机交互项目”为该联系人的工作组,0522可以是联系人的工号。则对上述较长的联系人名称进行简化后可以仅保留该联系人的姓名,或者保留联系人的姓名及具体的工作组。例如,简化后的联系人名称可以是“Tom”,或者“Tom-人机交互”。对于在日常沟通中作用有限的工号“0522”则可以被简化。电子设备在后续播报时仅可播报简化后的联系人名称。
在本申请实施例的一种可能的实现方式中,电子设备可以根据当前用户与目标联系人之间的互动行为特征,判断目标联系人是否为当前用户的熟悉联系人。上述互动行为特征可以包括聊天行为特征,即根据当前用户与目标用户之间的聊天行为形成的行为特征。
作为本申请实施例的一种示例,判断目标联系人是否为当前用户的熟悉联系人可以按照如下步骤S1-S3,通过对不同维度的特征进行赋分来进行。
S1:获取聊天行为特征。
在本申请实施例中,可以获取多种聊天行为特征。示例性地,电子设备获取的聊天行为特征可以包括成为联系人的时长、聊天频率、对话内容主题、回复延迟以及主动性等特征中的一项或多项。上述各项特征分别被赋予的分值可以如下示例所示。
F1:成为联系人的时长
<1个月:0分;
1-6个月:3分;
6-12个月:6分;
12个月以上:10分。
F2:聊天频率
每天:10分;
每周几次:8分;
每月几次:5分;
每几个月一次:2分;
更少:0分。
F3:对话内容主题
主要是个人生活和情感:10分;
既有生活也有工作:7分;
主要是工作和礼节性对话:4分;
很少涉及个人话题:0分。
F4:回复延迟
即时回复(几分钟内):10分;
较快回复(1小时内):7分;
较慢回复(几小时内):4分;
很少回复(超过一天):0分。
F5:主动性
双方都主动:10分;
大部分时间双方主动:7分;
单方主动:4分;
一方几乎从不主动:0分。
S2:对所有有声音特征的联系人进行评分与汇总并按降序排列。
在本申请实施例中,任一项的聊天行为特征分别可以具有不同的权重,根据每项聊天行为特征的分值,结合相应的权重,可以计算得到联系人的熟悉程度得分。
在一种示例中,每项聊天行为特征的权重可以是相同的,即上述F1-F5每项聊天行为特征的权重相同,均为20%,因此,联系人的熟悉程度得分可以按照0.2×F1+0.2×F2+0.2×F3+0.2×F4+0.2×F5来计算得到。
对于计算得到的全部联系人的熟悉程度得分,电子设备可以按照得分的降序对各个联系人进行排序。
S3:取评分靠前的多个联系人,作为“熟悉联系人”。
在本申请实施例中,根据熟悉程度得分降序排列的各个联系人,电子设备可以取得分靠前的多个联系人,作为是当前用户的熟悉联系人。示例性地,可以取熟悉程度得分靠前的7个联系人,作为用户的熟悉联系人。而其他联系人则属于当前用户的非熟悉联系人。
在本申请实施例的一种可能的实现方式中,电子设备接收到信息时,可以判断联系人是否属于用户熟悉的联系人。示例性地,在接收到信息时,电子设备可以查询该信息对应的目标联系人,并查询用户与该目标联系人的聊天行为特征。例如,按照上述示例的步骤,判断目标联系人是否为用户熟悉的联系人。对于熟悉联系人,电子设备在播报转换后的目标信息时,可以直接使用与该联系人声音相同或相似的声音播报信息内容,不播报联系人信息。对于不熟悉的联系人,电子设备则可以首先播报联系人信息,再播报相应的消息内容。
通过对联系人来源的判断,对于熟悉联系人,用户可以通过其声音判断出信息来自于谁,省略联系人的播报可以缩短整体播报时长,提高信息获取效率;对于不熟悉的联系人,电子设备在播报目标信息时首先播报联系人来源信息,可避免用户难以通过声音判断来源导致的信息理解偏差,保证了信息传递的准确性;此外,对于不熟悉的联系人,通过简化该联系人的标记信息(例如备注名等),可以提高信息的获取效率。
在本申请实施例的一种可能的实现方式中,电子设备进行联系人来源判断的过程可以通过联系人来源判断模块实现。
在信息精简判断步骤中,电子设备可以根据文本内容或转换成文本内容的信息的预计播报时长,决定是否进一步对信息进行精简。
如图23所示,是本申请实施例提供的一种信息精简判断流程示意图。在该流程中,电子设备可以预估文本内容或转换成文本内容的信息的播报时长,决定是否进一步对信息进行精简。示例性地,电子设备预估当前接收到的信息如果采用语音的方式进行播报,播报时长可能超过20秒,此时电子设备可以对该信息作进一步的精简。例如,对信息中的文本内容进行简化,如减少介词、主谓宾句子结构、简洁说法替换、删除引见性文字、考虑语境的内容弱化等。
作为本申请实施例的一种示例,电子设备接收到的原始信息可以是如下信息:
“嘿,老朋友,好久不见!最近怎么样?前段时间我去了趟云南,真是太美了!我们去了丽江、大理和香格里拉,每个地方都有自己独特的魅力。丽江的古城真是让人流连忘返,大理的洱海也很美,我们租了自行车环湖骑行,虽然有点累,但看到那碧蓝的湖水和周围的田园风光,感觉一切都值得了。
对了,还有一件重要的事要跟你说,我打算换工作了。之前的工作虽然不错,但是感觉没有什么发展的空间。我最近面试了一家互联网企业,职位是产品经理,工作内容听起来挺有挑战性也很有趣。
另外,我们班的同学聚会你还记得吗?时间定在下个月的第一个周末,大家都很期待见到你呢!这次可一定要来呀!”
电子设备通过信息精简判断,确定上述信息超过预设的播报时长,应当对其内容进行精简。对内容的精简可以是对内容进行概括、保留原始内容中的关键或重要信息,删减连接词或重复、无实际意义的词语等处理。因此,在按照一定规则对上述原始信息进行精简后得到的信息可以是如下信息:
“嘿,老朋友,好久不见!最近怎么样?我刚去了云南,丽江、大理和香格里拉都很美,特别是大理的洱海,骑行环湖风景超赞。
对了,我准备换工作了,最近面试了一家互联网企业,职位是产品经理,希望能有好消息。
另外,下个月第一个周末我们班同学聚会,大家都期待见到你,这次一定要来呀!”
在本申请实施例的一种可能的实现方式中,当电子设备语音播报的信息不是原始信息时,为了方便用户知道播报的信息是精简后的信息,电子设备在播报精简后的信息前可以加入提示音效,即通过首先播放提示音效提前告知用户,接下来所播报的信息并非接收到的原始信息的内容,而是经过一定处理后得到的信息。通过信息精简判断处理,避免了冗长的信息的播报时间过长,导致用户不耐烦以及长久地占据用户注意力的问题;通过替换消息内的非自明信息,避免了直接播报这些无意义信息对用户的困扰;加入提示音效,方便用户了解已对收到的信息的进行了修改。
在本申请实施例的一种可能的实现方式中,电子设备的信息精简判断过程,可以通过信息精简判断模块实现。
在非文本信息处理步骤中,电子设备可以根据非文本信息的类型进行内容理解,决定如何对非文本信息进行文本化转换。
如图24所示,是本申请实施例提供的一种非文本信息处理流程示意图。在该流程中,电子设备可以根据非文本信息的类型进行内容理解,决定文本化转换的方法。
图24中所示的非文本信息可以包括链接、图片、文件、表情包、文章推送、小程序、卡片信息等所有不是纯文本类型的信息。对于接收到的非文本信息,电子设备可以依据信息类型选择相应的过渡语,上述过渡语可以是与特定类型的非文本信息相适配的语句。示例性地,在接收到的非文本信息为文章推送时,与文章推送这一类型的非文本信息相适配的过渡语可以是主谓宾句式的语句,即主语+谓语+宾语格式的句式,如“我给你分享了一篇文章推送”,也可以是谓宾句式的语句,即谓语+宾语格式的句式,如“给你分享了一篇文章推送”。相较于主谓宾句式的过渡语,谓宾句式的语句省略了主语。在一种可能的实现方式中,使用省略主语的谓宾句式的过渡语可以使用在主语明确的场景中。例如,在用户与联系人一对一私聊的场景中。而在多人聊天的场景中,例如群聊场景,则可以选择使用主谓宾句式的过渡语,从而方便用户快速确定信息来源。例如,在群聊场景中,联系人张三在群聊中分享了一篇文章推送,则在对该类型的非文本信息进行处理后,电子设备可以使用主谓宾句式的过渡语,形成“Tom给你们分享了一篇推送”的语音信息。除使用上述主谓宾句式或谓宾句式的过渡语外,还可以根据实际需要采用其他句式的过渡语,例如主谓句式即主语+谓语格式的语句,或者主谓宾补即主语+谓语+宾语+补语格式的句式等,本申请实施例对此不作限定。
如图24所示,电子设备在处理接收到的非文本信息时,可以根据信息所处的场景来添加相应的衔接语。示例性地,可以根据信息是否在群聊中,添加衔接语“你”或者“你们”。其中,当信息为群聊中的信息时,衔接语可以为“你们”,而在私聊中,衔接语可以为“你”。从而形成上述示例中“给你分享了一篇文章推送”或“Tom给你们分享了一篇推送”的语音信息。
在本申请实施例的一种可能的实现方式中,非文本信息的类型可以包括分享链接类、文件类、小程序类,以及交易信息类等。上述各种类型的非文本信息对应的过渡语及相应的转换策略可以如下表一所示。
表一、各种类型的非文本信息对应的过渡语及相应的转化策略的示例
非文本信息可以是文件或链接。对于文件或链接形式的信息,电子设备可以推送链接对应的内容的摘要,形成可用于语音播报的信息;或者依据文件扩展名对应的规则,模拟打开该文件并对文件中的内容进行提取,总结为摘要,形成可用于语音播报的信息;又或者,电子设备还可以模拟打开文件或链接,结合上下文及文件名对内容进行概括,形成可用于语音播报的信息。
作为本申请实施例的一种示例,如果非文本信息为链接,则电子设备可以模拟打开该链接对应的网页,并提取或概括网页中的内容,生成相应的可播报的信息,并使用与联系人的真实声音相同或相似的声音播报该信息。例如,在接收到链接形式的非文本信息时,按照本方法处理后播报的语音信息可以是“Jack推送了一个全国研究生创新大赛的投票链接,链接中包括进入全国十佳的创新作品,投票的截止时间为7月10日24点”。
结合表一所示的示例,当接收到的信息包含链接类型的非文本信息时,电子设备在对信息进行处理时,可以获取链接对应内容的摘要。示例性地,电子设备接收到的信息为:“我找到一篇相关的文献:doi:10.xxx/3491102.xxxx,觉得和你的研究挺相关的,你看看对你有没有帮助”,上述信息中包含链接类型的非文本信息,即上述信息中的“doi:10.xxx/3491102.xxxx”部分。电子设备在对上述信息进行处理时,可以推送链接对应的内容的摘要。因此,基于上述包含链接的信息进行处理所得到的目标信息可以是:“我找到一篇相关的文献:标题是语音助手响应行为比较,觉得和你的研究挺相关的,你看看对你有没有帮助。”也即,电子设备将前述信息中的链接部分替换为了“标题是语音助手响应行为比较”。
在另一种示例中,如果非文本信息为文件,例如word格式的文件,则电子设备可以提取该文件的文件名,并播报该文件名,如“Tom发送了一份文件名为考勤说明的word文件”。或者,电子设备也可以模拟打开该文件,提取文件中的摘要或主要内容,并播报提取出的摘要或文件主要内容,如“Tom发送了一份word文件,文件中的主要内容是最新修订的公司考勤说明”。
在本申请实施例的一种可能的实现方式中,为了方便用户了解播报的内容是经过改写的,并非是联系人发送的信息的原始内容,在播报涉及改写部分的内容前,电子设备可以加入相应的提示音效。例如,在播报上述改写后的“我找到一篇相关的文献:标题是语音助手响应行为比较,觉得和你的研究挺相关的,你看看对你有没有帮助。”这一信息时,可以在播报“标题是语音助手响应行为比较”前加入提示音效,以告知用户接下来播报的内容属于改写的内容。
在本申请实施例的另一种可能的实现方式中,对于不同类型的非文本信息进行的改写,电子设备在播报时加入的提示音效可以是不同的。示例性地,在对接收到的分享链接类的非文本信息进行改写并播报时加入的提示音效,与对接收到的文件类或小程序类非文本信息进行改写并播报时加入的提示音效不同。
电子设备在对处理后得到的目标信息进行播报时,可以采用与发送该消息的联系人的真实声音相同或相似的声音播报。例如,使用与联系人Tom声音相同或相似的声音播报“Tom给你们分享了一篇推送”的语音信息。
如图25所示,是本申请实施例提供的一种非文本信息处理的示例。在图25所示的示例中,联系人Tom发送的信息为一篇推送的文章,即图25中的(a)中示出的推文2501,该推文2501的标题为“2024音箱耳机展看点”。经过电子设备的处理,可以形成与该推送内容对应的可用于语音播报的信息。并且,针对信息场景的不同,语音播报的内容可以不同。例如,在一对一的聊天场景中,也即私聊场景中,对联系人推送的内容进行处理后,语音播报的内容可以是“我给你分享了篇推送”;而在多人聊天场景中,也即群聊场景中,语音播报的内容可以是“我给你们分享了篇推送”。
以此,在图25所示的示例中,对图25中的(a)中示出的推文2501进行处理后形成的可用于语音播报的文本信息可以如图25中的(b)所示。如果上述推文2501为私人会话中的信息,则处理后得到的信息可以如图25中的(b)中的信息2502所示,即为“我给你分享了一篇推送:2024音箱耳机展看点”;如果上述推文2501为群组会话即群聊中的信息,则处理后得到的信息可以如图25中的(b)中的信息2503所示,即为“我给你们分享了一篇推送:2024音箱耳机展看点”。
通过电子设备对非文本信息的处理,可以为非文本信息添加过渡语,降低了直接使用联系人声音播报的突兀感,补充了背景信息,增强了用户对信息的理解;考虑联系人发送信息的语境(例如私聊还是群聊),使过渡语更符合当前的语境,避免了语境与过渡语的不一致性。
在即时信息合并处理步骤中,电子设备可以根据相邻信息的接收时间间隔、信息数量以及是否有正在播报的信息,决定是否对多条信息进行合并以及合并方式。
如图26所示,是本申请实施例提供的一种即时信息合并处理流程的示意图。按照图26所示的流程,当电子设备接收到一条新的信息时,可以判断是否存在已有信息在播报流程中且未结束播报。如果当前并没有在先接收到的信息在进行播报,则对于此时新接收到的信息,电子设备可以按照正常播报流程进行播报,上述正常播报流程可以包括前述各个实施例中介绍的各个流程,如图1中确定目标联系人、检索声音特征及权限管理,以及播报控制策略生成等流程。
如果电子在接收到新信息时,正在播报在先接收到的信息,则电子设备可以判断新信息与播报中的信息是否存在共同点。例如,判断信息是否来自同一联系人,信息内容是否相同或相似等。如果新信息与播报中的信息并不存在共同点,则电子设备可以采用正常播报流程对新信息进行播报。如果新信息与正在播报中的信息存在共同点,则电子设备对未播报的信息进行汇总,通过信息精简判断处理流程得到待播报的信息。上述未播报的信息包括本次接收到的信息以及在先接收到但并未完成播报的信息。
如图27和图28所示,是即时信息合并的两种示例。在图27所示的群聊场景中,多个联系人分别发送的多条雷同信息,通过合并处理,可以将多条雷同信息合并为一条信息,形成相应的语音播报信息。
具体地,图27中的(a)所示的示例中,联系人Tom在工作沟通群中发出了红包2701。此后,其他的多个联系人发送了信息。例如,图27中联系人Mike发送了一条“谢谢Tom的红包”的信息2702,联系人Lucy和Bella则分别发送了表情包,即图27中的信息2703和2704,用于表示对Tom发出的红包2701的感谢。电子设备通过判断可以确定联系人Mike、Lucy和Bella所发送的信息均是表达对Tom发出的红包2701的感谢。因此,上述联系人Mike、Lucy和Bella可以认为是关联联系人。电子设备对上述信息2702、2703和2704进行判断处理后,可以将上述多个关联联系人发送的信息合并为图27中的(b)所示的信息2705,即“大家纷纷在感谢Tom的红包”这一条信息。
在图28所示的聊天场景中,如图28中的(a)所示,同一联系人Lucy在短时间内发送了多条信息,即信息2801-2804,通过对上述多条信息进行归纳、概括或合并,可以形成一条完整的语音播报信息。例如,形成如图28中的(b)所示的信息2805,该信息2805即是对图28中的(a)中的多条信息2801-2804进行合并、概括后得到的。
通过电子设备对即时信息的合并处理,当同一联系人或关联联系人在短时间内发送了多条信息时,通过汇总合并操作,能够避免播放信息与信息之间的提示音带来的时间消耗,提高了信息获取效率;将同一联系人或关联联系人的信息汇总在一起,可以便于用户对信息的全面理解,减少了遗漏对信息理解的影响。
在本申请实施例的一种可能的实现方式中,对于非即时信息,电子设备可以通过信息检索与摘要汇总等步骤的处理,根据用户指令提取信息需求特征,生成检索式筛选信息,对缺失的特征进行隐式补全,相应地摘要播报信息,并可触发主动提问。
如图29所示,是本申请实施例提供的一种信息检索与摘要汇总处理流程示意图,该流程示出了对非即时信息进行处理的相关步骤。如图29所示,上述流程可以基于用户请求获取信息的指令触发。在一种示例中,用户发出的上述指令可以是语音指令。示例性地,用户可以通过语音,主动向电子设备发送指令,请求获取相关信息。电子设备在接收到用户的指令后,可以提取用户请求中的需求特征,该需求特征可以用于表示用户所请求获取的信息的具体内容。电子设备可以通过判断请求中的需求特征是否全面,来执行后续的信息检索与摘要汇总处理流程。如果从用户请求中可以提取出全面或完整的需求特征,电子设备可以根据所提取出的特征,在相应范围内进行检索并筛选出满足上述需求特征的一条或多条信息。如果从用户请求中提取出的需求特征并不全面或者并不完整,无法直接根据提取出的需求特征检索及筛选信息,电子设备可以根据其他相关信息对缺失的特征进行补全。例如,电子设备可以根据近期接收到的信息,来对缺失的特征进行补全,得到全面或完整的需求特征,从而在相应范围内进行检索并筛选出满足上述需求特征的一条或多条信息。
如图29所示,在筛选出一条或多条信息后,电子设备可以判断筛选出的信息中是否包括非文本信息。对于非文本信息,电子设备可以将其转换为文本信息。电子设备将非文本信息转换为文本信息的过程可以参见本申请前述各个实施例中的相关介绍,在此不再赘述。
对于筛选出的文本信息,以及经转换后得到的文本信息,电子设备可以对这些信息进行汇总处理,并概括出相关的摘要。在此基础上,电子设备还可以判断接收到的非即时信息中是否存在与汇总得到的摘要相关联的重要信息。如果存在,电子设备可以通过主动向用户提问的方式,根据用户的反馈确认是否需要将关联的重要信息一并播报给用户。电子设备在向用户播报信息后,还可以接收用户针对所播报信息进一步的提问,从而实现电子设备与用户之间的互动。
如图30所示,是本申请实施例提供的一种信息检索与摘要汇总的示例。图30示出了基于语义理解检索到特定范围的消息并汇总摘要的示例。
具体地,图30所示的场景为群聊场景,在图30中的(a)所示的工作沟通群中,联系人Tom发送了多条信息3001-3003,其中,信息3001和3002为联系人Tom转发的两篇推文,信息3003则是该联系人Tom发送的一条文本信息。在电子设备接收到上述多条信息后,用户可以主动询问电子设备联系人Tom发送的消息的内容。例如,如图30中的(b)中所示的,用户可以通过语音的形式询问电子设备“Tom在工作沟通群里说了什么?”针对用户的上述请求,电子设备可以提取出相关的需求特征,包括联系人Tom、工作沟通群等。基于提取出的需求特征,电子设备可以在相关范围内进行检索,即在工作沟通群中检索联系人Tom发送的信息。电子设备检索得到的结果即为图30中的(a)所示的联系人Tom发送了多条信息3001-3003。此时,电子设备可以通过对上述多条信息进行处理,形成如图30中的(b)中信息3005所示的待播报的目标信息。电子设备采用与联系人Tom的真实声音相同或相似的目标声音对信息3005进行语音播报。
在本申请实施例的一种可能的实现方式中,当电子设备从用户的请求中提取出的需求特征并不全面或者并不完整时,电子设备可以对不全面或不完整的需求进行补全。
作为本申请实施例的一种示例,例如用户可以主动询问电子设备“Jack上午说了什么”。电子设备在对上述请求进行处理后,可以知道用户希望获取的信息是联系人Jack上午发送的信息。上述需求并不全面,电子设备通过补全需求特征可以确定检索联系人Jack上午发送的信息的范围可以群聊中的信息,以及私聊中的信息。因此,在上述示例中,电子设备按照补全后的需求特征进行检索并得到的信息可以包括联系人Jack在周六团建群中发送的信息“周六团建的目的地是大梅沙”以及联系人Jack单独给用户发送的信息“晚上有空一起吃饭吗?”。对于上述两条信息,电子设备最终处理得到的待播报的目标信息可以是文本“我在周六团建群中给大家讲了团建的目的地,去大梅沙。我还单独给你发了条消息,问你晚上有空一起吃饭吗?”该文本信息可以采用与联系人Jack的真实声音相同或相似的声音来播报。
通过信息检索与摘要汇总处理,对非即时信息,电子设备可以通过语义理解获取用户感兴趣的信息的范围,对范围内的信息进行汇总操作,避免逐条播报耗时、手动检索浏览繁琐的问题,提高了用户获取信息的效率。
应用本申请,通过减少不必要的信息来源和联系人名称播报,可以在避免歧义的前提下减少播报时间,并通过汇总多条信息、添加过渡语、替换无意义信息和精简冗长信息的播报,提高信息传递的效率和准确性,优化和提升了用户听的体验。对非即时信息,通过检索用户需要信息的范围并汇总,避免逐条播报耗时、手动检索浏览繁琐等问题,提高了用户获取信息的效率。尽可能地使用与联系人相同或相似的声音播报信息,可以拉进用户与信息的心理距离,帮助用户更准确地理解信息,提高用户的好感度。
作为本申请实施例的一种具体的应用示例,本方法还可以应用于无障碍阅读场景中。示例性地,当电子设备接收到相关用户的某一联系人发来的信息时,电子设备可以通过执行本申请实施例提供的方法,将信息转换为目标信息,并使用通过声音合成或克隆得到的与该联系人相同或相似的声音播报上述目标信息,方便相关用户及时获取信息,达到闻声识人的效果。这样,相关用户可以根据播报语音信息使用的声音数据,直观地确定信息来源,快速分辨发送信息的联系人是谁。在一种示例中,上述相关用户可以包括盲人用户。在另一示例中,电子设备在将接收到的信息转换为目标信息时,可以按照前述介绍的播报控制策略的相关内容,对信息进行处理,提高信息播报的效率。
作为本申请实施例的另一种具体的应用示例,本方法还可以应用于使用智能家居的场景中。
在智能家居场景的一种示例中,使用电子设备的用户可以是儿童用户或未成年人用户,本方法可以应用于儿童模式下的电子设备控制过程。示例性地,儿童用户可以使用电子设备进行学习、游戏或其他娱乐活动。儿童模式下的儿童用户使用电子设备的信息可以被发送至父母或该儿童用户的其他监护人。父母或其他监护人可以根据实际需要向该儿童用户发送消息。例如,在儿童用户使用电子设备超过一定时长后,父母或其他监护人可以接收到相关提示信息。这样,父母或其他监护人可以向儿童用户发送消息,以提醒该儿童用户停止使用电子设备。此时,接收到消息的电子设备可以通过执行本申请实施例提供的方法,使用与发送消息的父母或某一监护人相同或相似的声音,语音播报消息,提醒儿童用户停止使用电子设备。
在另一种可能的实现方式中,电子设备中可以内置相关提示信息。在儿童模式下,当儿童用户使用电子设备满足相应的提示条件时,电子设备可以自动提取相关提示信息,并使用与父母或该儿童用户某一监护人的相同或相似的声音播报提示信息。
在智能家居场景的另一种示例中,电子设备可以是具有语音播报功能的任一智能家居设备。任一智能家居设备在接收到用户的某一联系人发送的消息时,可以通过执行本申请实施例提供的方法,将消息转换为语音信息,并使用与该联系人相同或相似的声音播报语音信息。示例性地,用户在家中使用智能电视观看视频的过程中,家庭成员发送给该用户的消息可以通过智能电视进行播报,并且播报过程中可以使用与该家庭成员相同或相似的声音。例如,妻子在家看电视,丈夫发送至妻子手机的消息可以在智能家居场景下通过智能电视进行播报,如播报的语音信息可以是“我还有10分钟到家,帮我泡一壶茶。”又或者,在用户使用智能电饭煲做好饭后,用户可以通过语音或按键操作向智能电饭煲发送指令,提示智能电饭煲提醒其他家庭成员到餐厅吃饭。智能电饭煲可以将上述“到餐厅吃饭”的信息发送给各个家庭成员,每个家庭成员使用的电子设备在接收到上述信息后,可以通过执行本申请实施例的方法,将该信息转换为语音消息,并使用与前述做饭的用户相同或相似的声音进行播报,提醒各个家庭成员到餐厅吃饭。在上述示例中,各个家庭成员使用的电子设备的类型可以是不同的。例如,在室外的家庭成员A可以是由手机执行本方法,播报到餐厅吃饭的语音消息;正在客厅看电视的家庭成员B可以是由智能电视向其播报到餐厅吃饭的语音消息;而正在室内某个房间内的家庭成员C则可以是由佩戴的智能手表或智能手环或者房间内的智能音箱来执行本方法,向家庭成员C语音播报到餐厅吃饭的消息。
上述提醒家庭成员到餐厅吃饭的示例中,整个过程也可以通过智能音箱来实现。示例性地,用户做好饭后,可以直接对智能音箱说“叫大家过来吃饭了”,智能音箱可以对上述语音进行处理,并将处理后的信息发送至家庭内其他房间的智能音箱,这些房间内的智能音箱可以使用与该用户相同或相似的声音提醒大家到餐厅吃饭。对于所处环境无法通过其他智能音箱传递信息的,例如前述示例中处于室外的家庭成员A,智能音箱处理后的信息可以被发送至与家庭成员A关联的其他智能电子设备,如手机、智能手表、智能手表等,由关联的这些电子设备执行本方法,再使用与该用户相同或相似的声音提醒家庭成员A到餐厅吃饭。
在智能家居场景的又一种示例中,电子设备可以是智能闹钟。这样,智能闹钟可以在设定的时间,或者根据其他用户的指令,使用与某一联系人相同或相似的声音对用户进行提醒。例如,学生用户可以使用智能闹钟进行叫早服务,智能闹钟在早上6点可以使用其父亲或母亲的声音提醒该学生用户“赶紧起床了”。或者,智能闹钟也可以在其他需要定时处理的场景中提供提醒服务。例如,智能闹钟可以在学生用户进行作业测试的场景中,使用老师的声音提醒该学生“可以开始答题”或者“答题结束”。
本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应每一个功能划分每一个功能模块,也可以将一个或多个的功能集成在一个功能模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以对应每一个功能划分每一个功能模块为例进行说明。
对应于上述各个实施例,参照图31,示出了本申请实施例提供的一种信息处理装置的结构框图,该装置可以应用于前述各个实施例中的电子设备,该装置具体可以包括如下模块:联系人确定模块3101、语音消息检索模块3102、目标声音生成模块3103、目标信息生成模块3104和语音播报模块3105,其中:
联系人确定模块3101,用于响应于接收的第一信息,确定发送所述第一信息的目标联系人;
语音消息检索模块3102,用于检索所述目标联系人的语音消息;
目标声音生成模块3103,用于基于所述语音消息生成与所述目标联系人的声音相似的目标声音,所述语音消息包括第一页面中的语音消息;
目标信息生成模块3104,用于生成与所述第一信息相对应的目标信息;
语音播报模块3105,用于采用所述目标声音对所述目标信息进行语音播报。
上述装置可以是前述各个实施例中的电子设备,或者,该装置也可以是上述电子设备中能够实现相应功能的单元或组件。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本申请实施例还提供一种电子设备,电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当处理器执行计算机程序时,可以实现前述各个实施例中的信息处理方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤可以实现前述各个实施例中的信息处理方法。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现前述各个实施例中的信息处理方法。
本申请实施例还提供一种芯片,该芯片可以为处理器,或者,该芯片包括处理器。处理器可以为通用处理器,也可以为专用处理器;其中,处理器用于支持折叠屏设备执行上述相关步骤,以实现前述各个实施例中的信息处理方法。
可选地,该芯片还包括收发器,收发器用于接受处理器的控制,用于支持电子设备执行上述相关步骤,以实现前述各个实施例中的信息处理方法。
可选地,该芯片还可以包括存储介质。
该芯片可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmable logic device,PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。
Claims (25)
- 一种信息处理方法,其特征在于,包括:响应于接收的第一信息,确定发送所述第一信息的目标联系人;检索所述目标联系人的语音消息,并基于所述语音消息生成与所述目标联系人的声音相似的目标声音,所述语音消息包括第一页面中的语音消息;生成与所述第一信息相对应的目标信息;采用所述目标声音对所述目标信息进行语音播报。
- 根据权利要求1所述的方法,其特征在于,所述检索所述目标联系人的语音消息,包括:显示与所述目标联系人关联的第一页面,所述第一页面包括所述目标联系人的会话页面;在所述第一页面中检索由所述目标联系人发送的语音消息。
- 根据权利要求2所述的方法,其特征在于,所述第一页面还包括所述目标联系人的历史会话页面,所述显示与所述目标联系人关联的第一页面,包括:响应于第一操作,显示所述目标联系人的历史会话页面。
- 根据权利要求1所述的方法,其特征在于,所述语音消息还包括第二页面中的语音消息,所述检索所述目标联系人的语音消息,包括:响应于第二操作,显示与所述目标联系人关联的第二页面,所述第二页面包括历史会话记录检索页面;在所述第二页面中检索由所述目标联系人发送的语音消息。
- 根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述语音消息生成与所述目标联系人的声音相似的目标声音,包括:从所述目标联系人的语音消息中提取所述目标联系人的声音特征;根据所述声音特征和接收的所述第一信息进行声音数据合成,得到与所述目标联系人的声音相似的目标声音。
- 根据权利要求5所述的方法,其特征在于,所述从所述目标联系人的语音消息中提取所述目标联系人的声音特征,包括:点击播放检索到的所述目标联系人的语音消息;在播放所述目标联系人的语音消息的过程中,抓取音频数据;从所述音频数据中提取所述目标联系人的声音特征。
- 根据权利要求1至6任一项所述的方法,其特征在于,所述语音消息还包括所述目标联系人预先录制或在与所述目标联系人通话的过程中录制并存储的语音消息,所述检索所述目标联系人的语音消息,还包括:根据所述目标联系人的联系人信息,在存储有所述目标联系人的语音消息的数据库中检索所述目标联系人的语音消息。
- 根据权利要求1至7任一项所述的方法,其特征在于,在检索所述目标联系人的语音消息之后,还包括:若检索到的所述语音消息中包含多个联系人的声音,则确定用于声音筛选的因素;其中,所述因素包括如下至少一项:联系人声音的频谱信息、声强信息或持续时间信息;根据所述因素,从所述语音消息中提取属于所述目标联系人的声音。
- 根据权利要求1至8任一项所述的方法,其特征在于,所述生成与所述第一信息相对应的目标信息,包括:确定信息来源;根据所述信息来源和接收到的所述第一信息的内容,生成所述目标信息。
- 根据权利要求9所述的方法,其特征在于,所述确定信息来源,包括:确定所述第一信息与相邻的前一条信息之间的差异;所述差异包括接收时间间隔、所属平台、会话类型、所属群组、所属联系人;根据所述差异确定待播报的信息来源的具体内容。
- 根据权利要求10所述的方法,其特征在于,所述根据所述差异确定待播报的信息来源的具体内容,包括:若所述第一信息与相邻的前一条信息之间的接收时间间隔大于预设间隔,则确定待播报的信息来源的内容包括完整的信息来源;若所述第一信息与相邻的前一条信息之间的接收时间间隔小于或等于所述预设间隔,则依次判断所述第一信息与相邻的前一条信息之间的所属平台、会话类型、所属群组、所属联系人的变换情况;根据所述变换情况确定待播报的信息来源的具体内容。
- 根据权利要求11所述的方法,其特征在于,所述根据所述变换情况确定待播报的信息来源的具体内容,包括:若所述第一信息与相邻的前一条信息之间的所属平台、会话类型、所属群组、所属联系人中任一项发生变化,则确定待播报的信息来源的内容包括发生变化的相应内容。
- 根据权利要求10至12任一项所述的方法,其特征在于,所述根据所述差异确定待播报的信息来源的具体内容,还包括:确定当前用户与所述目标联系人的熟悉程度;根据所述熟悉程度确定待播报的信息来源中包括的所述目标联系人的名称的具体内容。
- 根据权利要求13所述的方法,其特征在于,所述确定用户与所述目标联系人的熟悉程度,包括:获取所述当前用户与所述目标联系人的互动行为特征;根据所述互动行为特征,确定所述用户与所述目标联系人的熟悉程度。
- 根据权利要求13或14所述的方法,其特征在于,所述根据所述熟悉程度确定待播报的信息来源中包括的所述目标联系人的名称的具体内容,包括:若基于所述熟悉程度确定所述目标联系人为所述当前用户的熟悉联系人,则确定待播报的信息来源中可省略所述目标联系人的名称;若基于所述熟悉程度确定所述目标联系人为所述当前用户的非熟悉联系人,则对所述目标联系人的名称进行简化,确定待播报的信息来源中包括的所述目标联系人的名称为简化后的所述目标联系人的名称。
- 根据权利要求9至15任一项所述的方法,其特征在于,所述根据所述信息来源和接收到的所述第一信息的内容,生成所述目标信息,包括:预估语音播报所述第一信息的时长;若所述时长超过预设值,对所述第一信息进行精简;根据所述信息来源和精简后的所述第一信息的内容,生成所述目标信息。
- 根据权利要求9至16任一项所述的方法,其特征在于,所述第一信息还包括非文本信息,所述根据所述信息来源和接收到的所述第一信息的内容,生成所述目标信息,还包括:确定所述非文本信息的信息类型;根据所述信息类型对所述非文本信息进行文本转换;根据所述信息来源和文本转换后的所述第一信息,生成所述目标信息。
- 根据权利要求17所述的方法,其特征在于,所述非文本信息包括链接信息;所述根据所述信息类型对所述非文本信息进行文本转换,包括:确定所述链接信息对应的链接内容,并对所述链接内容进行概括得到文本形式的概括文本。
- 根据权利要求17或18所述的方法,其特征在于,在根据所述信息类型对所述非文本信息进行文本转换之后,还包括:确定接收到所述非文本信息的会话类型;根据所述会话类型为文本转换后的所述第一信息添加过渡语。
- 根据权利要求1至19任一项所述的方法,其特征在于,所述第一信息包括在预设时间段内发送的多条信息,所述生成与所述第一信息相对应的目标信息,还包括:对在预设时间段内发送的多条信息进行合并;生成与合并后的所述多条信息相对应的所述目标信息。
- 根据权利要求20所述的方法,其特征在于,所述对在预设时间段内发送的多条信息进行合并,包括:确定所述目标联系人在预设时间段内发送的多条信息的会话类型;分别将所述目标联系人在预设时间段内发送且属于相同会话类型的多条信息进行合并。
- 根据权利要求20所述的方法,其特征在于,所述第一信息包括多个关联联系人在预设时间段内发送的多条群组会话信息,所述对在预设时间段内发送的多条信息进行合并,包括:分别确定多个所述关联联系人在预设时间段内发送的多条信息的内容;将多个所述关联联系人在预设时间段内发送的且内容相似的多条信息进行合并。
- 根据权利要求1至22任一项所述的方法,其特征在于,所述第一信息还包括非即时信息,所述方法还包括:响应于用户指令,检索所述用户指令对应的一条或多条非即时信息;生成与一条或多条所述非即时信息相对应的目标信息,并对所述目标信息进行语音播报。
- 一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至23任一项所述的信息处理方法。
- 一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至23任一项所述的信息处理方法。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410926760.9 | 2024-07-10 | ||
| CN202410926760 | 2024-07-10 | ||
| CN202411562369.1A CN121334292A (zh) | 2024-07-10 | 2024-11-01 | 信息处理方法、装置和电子设备 |
| CN202411562369.1 | 2024-11-01 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2026012240A1 true WO2026012240A1 (zh) | 2026-01-15 |
Family
ID=98350286
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/CN2025/106282 Pending WO2026012240A1 (zh) | 2024-07-10 | 2025-06-30 | 信息处理方法、装置和电子设备 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN121334292A (zh) |
| WO (1) | WO2026012240A1 (zh) |
-
2024
- 2024-11-01 CN CN202411562369.1A patent/CN121334292A/zh active Pending
-
2025
- 2025-06-30 WO PCT/CN2025/106282 patent/WO2026012240A1/zh active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| CN121334292A (zh) | 2026-01-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6640384B2 (ja) | メッセージ交換スレッドへの選択可能アプリケーションリンクの組込み | |
| KR102100742B1 (ko) | 디지털 어시스턴트 서비스의 원거리 확장 | |
| US9576569B2 (en) | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis | |
| JP6505117B2 (ja) | 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア | |
| US20200106726A1 (en) | Suggested responses based on message stickers | |
| CN102017585B (zh) | 用于通知和电信管理的方法和系统 | |
| EP3611724A1 (en) | Voice response method and device, and smart device | |
| CN115668957B (zh) | 音频检测和字幕呈现 | |
| US20170277993A1 (en) | Virtual assistant escalation | |
| JP2021012384A (ja) | 会議能力を有する自動アシスタント | |
| CN114765597A (zh) | 自动消息回复 | |
| KR20200039030A (ko) | 디지털 어시스턴트 서비스의 원거리 확장 | |
| CN109309751B (zh) | 语音记录方法、电子设备及存储介质 | |
| CN111565143B (zh) | 即时通信方法、设备及计算机可读存储介质 | |
| KR20150038375A (ko) | 음성 기반 미디어 검색 | |
| CN111666059B (zh) | 提醒信息播报方法、装置,以及电子设备 | |
| JP2018513511A (ja) | メッセージ送信方法、メッセージ処理方法及び端末 | |
| WO2014154097A1 (en) | Automatic page content reading-aloud method and device thereof | |
| CN109460265A (zh) | 一种激活应用程序的方法、用户终端和服务器 | |
| WO2016203805A1 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
| US10965629B1 (en) | Method for generating imitated mobile messages on a chat writer server | |
| CN110677377B (zh) | 录音处理、播放方法、装置、服务器、终端及存储介质 | |
| CN111935348A (zh) | 提供通话处理服务的方法和装置 | |
| CN111158838B (zh) | 一种信息处理方法及装置 | |
| WO2026012240A1 (zh) | 信息处理方法、装置和电子设备 |