CN104011718B

CN104011718B - 用于选择识别的消息组的方法、计算机可读介质和计算机

Info

Publication number: CN104011718B
Application number: CN201280062968.6A
Authority: CN
Inventors: 伊川洋平; 榎美纪; R.H.P.鲁迪; 那须川哲哉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-12-19
Filing date: 2012-11-16
Publication date: 2018-01-23
Anticipated expiration: 2032-11-16
Also published as: WO2013094352A1; US20150067078A1; GB2511235A; US9705837B2; JPWO2013094352A1; GB201409114D0; DE112012005344T5; CN104011718A; JP5602958B2

Abstract

[问题]为了更精确地并在较早的阶段检测社交媒体中的突发信息(以不同于正常的规模散布的信息)。[解决方案]提出一种方法，其中在社交媒体中，从由多个用户传送的多个消息选择特定消息组。这里，在消息中包括其中由一个用户传送的消息由另一用户引用和重新传送的消息。本方法具有下列步骤：对于其中由一个用户传送的消息由另一用户引用和重新传送的消息，执行进一步重新传送的可能性的初级评估；识别已经传送了其中初级评估结果高于预定第一阈值的消息的一个用户；基于其中由一个用户传送的消息已被引用和重新传送的消息组，识别与已重新传送的消息组相似的消息组；执行将进一步重新传送相似消息组的可能性的次级评估；以及选择其中次级评估结果高于预定第二阈值的消息组。

Description

用于选择识别的消息组的方法、计算机可读介质和计算机

技术领域

本发明涉及一种信息处理技术，并且更具体地,其涉及一种用于更快速和更精确地检测社交媒体中的突发信息(以不同于正常的规模散布的信息)的技术。

背景技术

存在一种现象，其中当自然灾害或重要社会问题出现时，社交媒体上的信息以极快的速度和庞大的规模散布，并且该现象有时被称为“突发(burst)”现象。在这种突发信息中包括了与事实不同的信息(例如错误信息、谣言)并且取决于情况该信息可能成为企业活动的威胁。因此，寻求可以快速和精确地检测“突发”现象的技术。

响应于该需要，提供了各种先前的技术。作为示例，在专利文献1中，对于称为“提供能够从网络上公开的信息取得谣言信息，同时提取与这种谣言信息相关的信息，并且同时将其呈现给用户的技术”的问题，提供了一种技术，其“包括数据收集装置，用于接收由网络上的服务器设备公开的数据，以及用于在收集数据存储器装置中将所述数据存储为各种收集数据；谣言信息判断装置，用于提取包括在收集数据中的字符串，并且用于基于字符串获得收集数据是否是谣言信息的判断结果；相关信息数据提取装置，用于从网络上的服务器设备或从预先累积的相关信息数据库提取被判断为谣言信息的谣言信息数据和至少是谣言信息数据的作者、或谣言信息数据的内容、或存储数据的服务器设备的名称或网络地址或者谣言信息数据的文件信息的相关信息数据；以及输出装置，用于同时输出谣言信息数据和相关信息数据。”此外，在非专利文献1中，提供了一种用于通过评估关键字的增加程度而检测信息是否是突发信息的技术。

引用列表

背景技术

专利文献

专利文献1：日本公开待审No.2008-165598

非专利文献

非专利文献1：

J.Kleinberg:Bursty and Hierarchical Structure in Streams,Proceedingof the8th ACM SIGKDD International Conference on Knowledge Discovery and DataMining,(2002).

发明内容

技术问题

然而，存在改进快速和精确地检测“突发”现象的空间。

本发明考虑了这种现象，并且其目的是提供能够通过考虑发送信息的人和信息的内容的特征而快速和精确地检测“突发”现象的技术。

问题的解决方案

具体地，通过发明人的研究，在获得下列知识之后创造出本发明：1.散布可能性根据发送用户的影响程度而不同(由高影响力的用户发送的信息更可能被重新发送)。2.散布可能性根据用户重新发送的频率而不同(对于经常重新发送的用户和很少重新发送的用户重新发送的重要性不同)。3.重新散布可能性根据信息的独特性而不同(当重新发送的信息的内容不同于正常时，信息散布可能性高)。

具体地，本发明提供一种用于通过使用计算机从由多个用户通过社交网络发送的多个消息选择识别的消息组的方法。在消息内，包括由与原始消息用户不同的用户发送的消息，并且这些消息引用由原始消息用户发送的消息。所述方法包括下列步骤：对于由与原始消息用户不同的用户发送的引用由原始消息用户发送的消息的消息，执行进一步重新发送的可能性的初级评估；识别已经发送了初级评估结果高于预定第一阈值的消息的单个用户；基于引用由单个用户发送的消息的重新发送消息组，识别与重新发送消息组相似的消息组；执行将进一步重新发送相似消息组的可能性的次级评估；以及选择次级评估结果高于预定第二阈值的消息组。

这里，在执行初级评估和次级评估的步骤，可以作为其他用户的影响力的递增函数而计算进一步重新发送的可能性。更具体地，可以作为关注其他用户的用户数量的递增函数而计算其他用户的影响力程度。此外，在执行初级评估和次级评估的步骤，可以作为其他用户过去重新发送引用第一用户的消息的消息的程度的递减函数而计算进一步重新发送的可能性。更具体地，可以作为在过去固定时段内其他用户重新发送引用第一用户的消息的消息的次数而计算已重新发送的程度。此外，在执行初级评估和次级评估的步骤，可以作为由其他用户重新发送的消息内容和由其他用户过去进一步重新发送的消息的相似度的递减函数而计算进一步重新发送的可能性。更具体地，可以通过将由其他用户重新发送的消息和由其他用户过去进一步重新发送的消息进行文本串匹配而计算相似度。

此外，消息可以是在规定条件下从在社交媒体上发布的消息采样的消息。此外，消息可以是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样的消息。此外，社交媒体可以是微博。

此外，可以构架为使得向社交媒体发布的计算机通过网络连接到选择识别的消息组的计算机，并且进一步包括选择计算机接收响应于来自选择计算机的规定条件请求而从发布计算机发送的消息的步骤。还可以进一步包括在选择计算机的存储器装置中存储接收的消息的步骤。

显然，在其中本发明被理解为计算机程序和计算机系统的情况下，其提供与其中本发明被理解为上面描述的方法的情况基本上相同的技术特征。

本发明的有利效果

通过使用本发明，通过考虑发送信息的人和信息的内容的特征，能够快速和精确地检测“突发”现象。

附图说明

图1是解释微博(microblog)系统的概略图。

图2是解释微博的关注者和被关注的关系的概略图。

图3是用作用户终端的智能电话和相关屏幕显示的说明图。

图4是存储在微博服务器的硬盘设备中的数据的数据结构的说明图。

图5是发送的消息的类型的说明图。

图6是解释计算机的硬件结构的框图。

图7是解释由计算机执行的处理的流程图。

图8是重新发送的可能性的计算的公式的说明图。

图9是时间段T过去的时间段Tp(T)的说明图。

具体实施方式

实施例

下列部分基于附图详细描述执行本发明的最佳模式，但下列实施例并未限制根据权利要求的范围的本发明，并且在实施例内描述的特征的整个组合对本发明的解决方式并非必要。可以通过许多不同模式执行本发明，并且没有理由其应被解释为限于对于实施例记录的内容。此外，应注意在实施例内描述的特征的整个组合对本发明的解决方式并非必要。贯穿实施例的整个描述相同标号应用于相同元件(当未另外指定时)。

图1是解释微博系统的概略图。该系统包括微博服务器2和用户终端，并且它们相互连接用于通过因特网4通信。用户终端可以是提供通信功能的任何模式的计算机。例如，附图中示出智能电话31、平板32和个人计算机(笔记本型)33，但是此外，虽然未示出，可以利用例如个人数字助理(PDA，移动信息设备)、车载计算机或笔记本计算机。

图2是解释微博的关注者和被关注的关系的概略图。微博的用户可以提前登记分享相同爱好或兴趣的其他用户，并且用户可以自动接收由那些其他用户发送的消息。该登记过程被称为“关注(to follow)”，并且相关关系可以是下列两种类型：其中涉及的用户都彼此关注，以及其中仅用户之一单方面关注其他用户。例如，图2中的箭头示出用户AAA和用户BBB彼此相互关注，而用户BBB单方面关注CCC，并且用户CCC单方面关注用户AAA。

图3是用作用户终端的智能电话31和相关屏幕显示的说明图。微博应用的屏幕显示在智能电话31的触摸屏上，并且应用屏幕从顶部顺序分成主页组件311、时间轴(timeline)组件312和操作组件313。在主页组件311内显示菜单按钮和时间轴组件312是用户AAA的时间轴的指示符。在时间轴组件312内从顶部顺序显示来自用户AAA的消息组件312a和312b以及来自用户BBB的消息组件312c。这些消息组件312a-312c沿时间序列显示。具体地，在最高位置处的消息组件312a对应于最新消息。

图4是存储在微博服务器2的硬盘设备20和21中的数据的数据结构的说明图。在存储在硬盘设备20中的消息表(图4(a))内，提供示出发送每一个消息的日期和时间的发送时间(created_at)、识别每一个消息的消息ID(id)、识别发送消息的用户的用户ID(user_id)和作为消息的内容的文本(text)。此外，可以设置文本的字符计数限制(例如140个字符或更少)。同时，在存储在硬盘设备21中的用户关系表(图4(b))内，提供示出登记关注关系的日期和时间的登记时间(registered_at)、识别作为关注来源(origin)的用户的关注来源用户ID(following_user_id)和识别作为关注目标的用户的关注目标用户ID(followed_user_id)。

图5是发送的消息类型的说明图。图5(a)描述正常消息。这里，用户AAA向她自己的时间轴发送消息，并且这些消息不仅显示在用户AAA的时间轴中，而且显示在关注用户AAA的那些用户的(在图2的示例中，用户BBB和用户CCC)时间轴中。图5(b)描述回复消息。回复消息是对特定消息的响应，并且其被显示在响应者的时间轴中以及关注响应者的那些用户的时间轴中。这里，用户BBB发送回复消息“嗯，你好。”作为对用户AAA的消息的响应，并且该回复消息显示在用户BBB的时间轴中以及关注用户BBB的用户(在图2的示例中，用户AAA)的时间轴中。

图5(c)和5(d)都描述复制消息的类型，并且它们示出作为复制消息重新发送显示在用户CCC的时间轴中的用户AAA来源消息“我第一次上微博”的形式。在两种情况下，复制消息显示在关注用户CCC的用户(在图2的示例中，用户BBB)的时间轴中，但是在图5(c)中示出的模式中，其以原始发布者用户AAA的名字显示在关注用户CCC的用户的时间轴中，并且在图5(d)中示出的第二模式中，其以转发发布者用户CCC的名字显示。图5(e)描述引用消息，这示出作为引用原始消息并且还包括用户CCC的新评论“欢迎！”的消息重新发送在用户CCC的时间线中显示的用户AAA起源消息“我第一次上微薄”的形式。所引用的消息显示在关注用户CCC的用户的时间轴中。

图6是解释计算机的硬件结构的框图。计算机1的硬件结构包括(低速或高速)总线10、连接到总线10的CPU(中央处理单元)11、RAM(随机存取存储器、存储器设备)12、ROM(只读存储器、存储器设备)13、HDD(硬盘驱动器、存储器设备)14、通信接口15和输入-输出接口16。进一步提供连接到输入-输出接口16的鼠标17、平板显示器(显示设备)18和键盘19。计算机1被描述为采用通用个人计算机架构，但在更高数据处理性能和可用性的情况下可以倍增例如CPU 11和HDD 14的组件。还可以利用各种其他类型的计算机系统代替桌面型计算机。

计算机1的软件结构包括提供基本功能的操作系统(OS)、利用OS的功能的应用软件和用于输入-输出设备的驱动器软件。这些软件中的每一个与各种数据一起被加载到RAM12中，并且由例如CPU 11执行。计算机1作为一个单元执行图7中示出的处理。

图7是解释由计算机执行的处理的流程图。首先，从计算机1向微博服务器2发送条件(S1)。这可以是指定在期间发送消息的时间段的条件、指定在消息内包括特定关键字的条件、指定仅重新发送消息的条件或结合这些参数的条件。然后，计算机1从微博服务器2接收符合上述条件的一组消息的数据(S2)。此时，与符合条件的消息组的数据(图4(a))一起同时接收关于与这些消息相关的用户的数据(图4(b))是可以接受的。

然后，对于每一个消息，处理计算其要被重新发送的可能性(S3)。图8是重新发送的可能性的计算的公式的说明图。这里，发送时间ti、发送用户ui、信息参考来源用户si和内容ci的四个集合用于将消息mi定义为mi＝(ti,ui,si,ci)(i＝1,2…)。将被重新发送的消息表示先前描述的复制消息(图5(c)和5(d))和引用消息(图5(e))。图5(c)中示出的第一模式复制消息和引用消息都体现在微博服务器2侧上准备的公共函数，从而通过设置消息ID以反映它，例如在消息ID(参见图4(a))内包括信息参考来源用户si的用户ID，能够指示第一模式复制消息或引用消息。作为比较，图5(d)中示出的第二模式复制消息不体现在微博服务器2侧上准备的公共函数，从而使用例如“RT@”的将要显示在第二模式复制消息的内容中的唯一串以指示它，这使得能够识别其是第二模式复制消息以及信息参考来源用户si。

图9是用于评估在时间段T期间的散布可能性的、时间段T过去的时间段Tp(T)的说明图。这里，做出在时间段T期间微博上的关注关系的有向图G(T)＝(V(T),E(T))。V(T)是时间段T期间的用户集合，并且E(T)是{e(u,s)|在时间段T内用户u关注用户s}。

然后，对于消息mi定义散布可能性burst[m](mi)。这里，由用户si发送的信息被假设为作为消息mi由用户ui在时间段T期间重新发送，并且通过下面的等式定义散布可能性burst[m](mi)。

等式1

m_i＝(t_i,u_i,s_i,c_i)

t_i∈T

这里，centrality(u,T)示出用户u在时间段T内的中心性。具体地，centrality(u,T)可以通过使用每一种类型的中心性(接近中心性等)来计算。采用自然对数用于次数(degree)中心性(关注每一个用户的其他用户的数量)，并且centrality(u,T)取log[e](#关注者)。此外，ref(u-->s,T)示出用户u在时间段T期间参考由用户s发送的信息的程度。具体地，ref(u-->s,T)表示用户u在时间段T期间是否参考和重新发送用户s，取[0,1]。如果用户u在时间段T期间参考和重新发送用户s，则值为1，如果否，则值为0。这使得能够设置任意函数以根据参考程度增加，但数值范围不需要是从0至1。sim(C,c)示出内容集合C(大写)和内容c(小写)之间的相似度的程度。具体地，sim(C,c)可以通过使用向量空间模型中余弦相似度来计算，取[0,1]。简而言之，其将文本表示为向量空间模型中单词(名词等)的多维向量。结果是使得两个文档的相似度能够作为向量的相似度计算。余弦相似度是由两个文档向量形成的角度θ的余弦(cosθ)。当两个向量完全匹配时，余弦相似度取1。这使得能够设置任意函数以根据相似度程度增加，但数值范围不需要从0至1。此外，C(u,T)示出用户y在时间段T期间发送的博客内容的集合。此外，α是设置ref的影响力的常数，并且在该情况下，α＝5。β是设置sim的影响力的常数，并且在该情况下，β＝5。

根据在时间段T期间发送的消息mi的散布程度burst[m](mi)，在时间段T中由用户s发送的信息的散布程度burst[s](s,T)可以使用下列等式求出。

等式2

m_i＝(t_i，u_i，s_i，c_i)

然后，识别变为具有第一异常阈值的散布可能性的消息的参考来源的用户(S4)。具体地，根据对于时间段Ti(i＝1,2,…)获得的burst[s](s,Ti)系列，使用在非专利文献1中公开的现有方法执行突发检测，从而识别发送突发信息的用户s。换句话说，基于具有对于隐藏模型的活动程度并且对于给定系列如果频率变得更高则改变为更高的活动程度的模型判断突发程度。

然后，基于最初由识别用户发送的重新发送消息的消息集合，聚类(clustering)到相似消息组(S5)。具体地，检测用户S[b]是否在时间段Tb发送突发信息。相对于时间段T重新发送消息集合M(s,T)＝{m[i]|t[i]∈T,s[i]＝s}，对于由用户s发送的信息，对于每一个相同内容创建聚类在该过程期间可以应用下列两种方法。首先是使用字符串匹配的方法。这使用字符串匹配来比较在消息m∈M(s,T)的内容中包括的由用户s[b]发送的内容(图8中“漱口水好像对辐射暴露有效”)，并且匹配的消息被放置在相同聚类(cluster)中。另一方法是通过文档聚类。其使用现有文件聚类方法(例如，k-均值方法)聚类在M(s[b],T[b])中包括的内容集合。

然后，对于每一个聚类，计算进一步重新发送的可能性(S6)。具体地，使用下列等式求出聚类M[j]的内容的散布程度burst[M](M[j])。

等式3

可能性输出在第二阈值之上的消息组(S7)。具体地，如果burst[M](M[j])处于阈值(第二阈值)或之上，其检测到突发。

本发明能够采用完全硬件的实施例、或完全软件的实施例或包括硬件和软件两者的元件的实施例的形式。在优选实施例中，虽然未限于下列内容，本发明由包括固件、永久软件、微代码或语法解析微码的软件执行。

此外，本发明可以采用计算机、或任意命令执行系统、或计算机程序或提供用于与此相关的用途的程序代码的计算机可读介质的模式。在实现本发明的目的时，计算机可读介质可以是能够保存、存储、传送或传播用于任意命令执行系统、装置或设备或用于相关用途的程序的任意设备。具体地，上述语法解析控制模块结构化该任意命令执行系统或“计算机”。

介质可以是电子、磁、光、电磁、红外或半导体系统(或装置或设备)或传播介质。作为计算机可读介质的示例，可以提供半导体或固态存储器、磁带、可安装可拆卸计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性电磁盘、或光盘。作为光盘的当前示例，可以提供致密盘只读存储器(CD-ROM)、致密盘可读-可写存储器(CD-R/W)和DVD。

对于适用于存储、执行或存储和执行程序代码的数据处理系统，可以提供直接或通过系统总线间接链接到存储器元件的至少一个处理器。对于该存储器元件，可以提供在程序代码的实际执行过程期间使用的本地存储器或大容量存储器，或者为了减少在执行期间必须从大容量存储器设备读取的次数，可以提供为程序代码的至少部分提供临时存储的高速缓冲存储器。

输入-输出设备或I/O设备(例如键盘、显示器和指示设备，但不限于此)可以直接或通过中间I/O控制器链接到系统。

此外，网络适配器可以链接到系统，并且数据处理系统可以被布置为通过专用或公共网络的中介连接到另一数据处理系统、或远程打印机或存储器设备。当前可获得的网络适配器的部分是调制解调器、电缆调制解调器和以太网(R)卡。

参考标号列表

1：个人计算机。11：CPU(中央处理单元)。12：RAM(随机存取存储器、存储器设备)。13：ROM(只读存储器、存储器设备)。14：HDD(硬盘驱动器、存储器设备)。15：通信接口。16：输入-输出接口。17：鼠标。18：平板显示器(显示设备)。19键盘。2：微博服务器。20、21：硬盘驱动器。31：智能电话。32：平板。33：个人计算机(笔记本型计算机)。

Claims

1.一种用于通过使用计算机从由多个用户通过社交网络发送的多个消息选择识别的消息组的方法，其中，在消息内，包括由与原始消息用户不同的用户发送的消息，并且这些消息引用由原始消息用户发送的消息，并且所述方法包括下列步骤：

对于由与原始消息用户不同的用户发送的引用由原始消息用户发送的消息的消息，执行进一步重新发送的可能性的初级评估；

识别已经发送了初级评估结果高于预定第一阈值的消息的单个用户；

基于引用由单个用户发送的消息的重新发送消息组，识别与重新发送消息组相似的消息组；

执行将进一步重新发送相似消息组的可能性的次级评估；以及

选择次级评估结果高于预定第二阈值的消息组。

2.如权利要求1所述的方法，其中，在执行初级评估和次级评估的步骤，计算其他用户的影响力的递增函数以将其作为进一步重新发送的可能性。

3.如权利要求2所述的方法，其中，计算关注其他用户的用户数量的递增函数以将其作为其他用户的影响力。

4.如权利要求1所述的方法，其中，在执行初级评估和次级评估的步骤，计算其他用户过去重新发送引用第一用户的消息的消息的程度的递减函数以将其作为进一步重新发送的可能性。

5.如权利要求4所述的方法，其中，计算在过去固定时段内其他用户重新发送引用第一用户的消息的消息的次数以将其作为已重新发送的程度。

6.如权利要求1所述的方法，其中，在执行初级评估和次级评估的步骤，计算由其他用户重新发送的消息内容和由其他用户过去进一步重新发送的消息的相似度的递减函数以将其作为进一步重新发送的可能性。

7.如权利要求6所述的方法，其中，通过将由其他用户重新发送的消息和由其他用户过去进一步重新发送的消息进行文本串匹配而计算相似度。

8.如权利要求6所述的方法，其中，通过对于由其他用户重新发送的消息和对于由其他用户过去进一步重新发送的消息进行语句聚类而计算相似度。

9.如权利要求1所述的方法，其中，所述消息是在规定条件下从在社交网络上发布的消息采样的消息。

10.如权利要求1所述的方法，其中，所述消息是从在包括规定关键字的条件下在社交网络上在规定时间段内发布的消息采样的消息。

11.如权利要求10所述的方法，其中，向社交网络发布的计算机通过网络连接到选择识别的消息组的计算机，

并且所述方法进一步包括选择计算机接收响应于来自选择计算机的规定条件请求而从发布计算机发送的消息的步骤。

12.如权利要求11所述的方法，进一步包括在选择计算机的存储器装置中存储接收的消息的步骤。

13.如权利要求1所述的方法，其中，社交网络是微博。

14.一种计算机可读介质，所述计算机可读介质包括由计算机执行的计算机程序，所述计算机程序使得计算机执行根据权利要求1-13的任何方法的全部步骤。

15.一种用于从由多个用户通过社交网络发送的多个消息选择识别的消息组的计算机，其中，在消息内，包括由与原始消息用户不同的用户发送的消息，并且这些消息引用由原始消息用户发送的消息，所述计算机包括存储器装置和计算控制装置，所述存储器装置用于存储所述多个消息，所述计算控制装置用于执行：

识别发送了初级评估结果高于预定第一阈值的消息的单个用户；

选择次级评估结果高于预定第二阈值的消息组。

16.如权利要求15所述的计算机，其中，存储在存储器装置内的多个消息是从发布到社交网络的消息采样的消息。