CN104603779A

CN104603779A - 文本挖掘设备、文本挖掘方法和计算机可读记录介质

Info

Publication number: CN104603779A
Application number: CN201380045560.2A
Authority: CN
Inventors: 土田正明; 石川开; 大西贵士; 丹尼尔·乔治·安德拉德西尔瓦
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-08-31
Filing date: 2013-08-23
Publication date: 2015-05-06
Also published as: JPWO2014034557A1; US10140361B2; US20150205859A1; JP6281491B2; WO2014034557A1

Abstract

使用一种文本挖掘设备(2)，其中，由包括属性值和文本数据的记录集合的数据用作分析对象数据。文本挖掘设备(2)包括：分析视角候选生成单元(20)，从分析对象数据提取属性值，并且使用所提取的属性值来生成分析视角候选；以及特征度计算单元(21)，将在包括作为分析视角候选提取的属性值的记录中的文本数据与在至少包括除了包括分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较，并且基于比较的结果来计算特征度，该特征度指示在分析视角候选和分析对象数据之间的关系。

Description

文本挖掘设备、文本挖掘方法和计算机可读记录介质

技术领域

本发明涉及能够通过文本数据的分析来向分析者提供有用知识的文本挖掘系统。具体地，本发明涉及向分析者提出分析的视角作为有用知识的文本挖掘设备和文本挖掘方法以及记录有用于实现该方法和设备的程序的计算机可读记录介质。

背景技术

通常，为了通过文本挖掘获取有用知识，从多个视角进行分析是必要的。例如，在文本挖掘中，基于特定的视角来针对对象文本数据执行集群，并且确定在通过集群划分的部分中的文本的内容是否有特征。如果确定的结果指示存在有特征部分，则这导致有用知识的发现。

专利文件1公开了用于执行这样的文本挖掘的传统文本挖掘系统。在专利文件1中公开的文本挖掘系统使用由多个记录构成的数据作为分析对象数据。在分析对象数据中的记录的每一个包括属性值和文本数据。

一旦分析者指定了特定属性(例如，工作类别)，则在专利文件1中公开的文本挖掘系统首先使用指定的属性(例如，学生、雇员等)的属性值来针对属性值中的每一个从分析对象数据中提取适用记录。在此，所提取的记录被称为“子集”。

接下来，在专利文件1中公开的文本挖掘系统通过向在分析对象数据中的文本数据应用文本分类来生成多个文本组。此后，对于属性值中的每一个，在专利文件1中公开的文本挖掘系统对在子集和文本组之间的关联编索引，并且显示指示在子集和文本组之间的关联的信息。

即，根据在专利文件1中公开的文本挖掘系统，通过将属性指定为分析的视角，分析者可以针对其属性值的每一个查看与文本组的关联。换言之，通过使用这样的文本挖掘系统，分析者可以设置公知的视角以及从分析者的经验或感觉推测的视角，并且基于所设置的视角来进行分析。

引用列表

专利文件

专利文件1：JP 2004-164137A

发明内容

本发明要解决的问题

然而，在专利文件1中公开的文本挖掘系统中，分析者需要基于例如他本身/她本身的经验或感觉来设置视角，并且因此，往往在分析者的视角的范围内进行分析。为此，除非分析者在反复试验后设置分析的视角，否则将难以有效地设置导致发现对于分析者出人意料但是有益的知识的分析的视角。

本发明的目的

本发明的目的是提供一种文本挖掘设备、文本挖掘方法和计算机可读记录介质，该文本挖掘设备、文本挖掘方法和计算机可读记录介质解决上述问题，并且使得能够有效设置导致在文本挖掘中发现对于分析者出人意料但是有用的知识的分析的视角。

解决问题的手段

为了实现上面的目的，根据本发明的一个方面的文本挖掘设备使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，并且包括：分析视角候选生成单元，所述分析视角候选生成单元从所述分析对象数据中提取属性值，并且使用所提取的属性值来生成分析视角候选；以及特征度计算单元，所述特征度计算单元将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较，并且基于比较的结果来计算特征度，所述特征度指示在分析视角候选和分析对象数据之间的关系。

而且，为了实现上面的目的，根据本发明的一个方面的一种文本挖掘方法使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，并且包括：步骤(a)从所述分析对象数据中提取属性值，并且使用所提取的属性值来生成分析视角候选；以及步骤(b)将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较，并且基于比较的结果来计算特征度，所述特征度指示在分析视角候选和分析对象数据之间的关系。

而且，为了实现上面的目的，根据本发明的一个方面的计算机可读记录介质在记录有程序，该程序用于通过计算机执行文本挖掘，其中，包括属性值和文本数据的记录集合构成的数据被用作分析对象数据，该程序包括用于使得计算机执行下述步骤的指令：(a)从所述分析对象数据中提取属性值，并且使用所提取的属性值来生成分析视角候选；以及步骤(b)将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较，并且基于比较的结果来计。

本发明的效果

如上所述，本发明使得能够有效设置导致在文本挖掘中发现对于分析者出人意料但是有用的知识的分析的视角。

附图说明

图1是示出根据本发明的第一实施例的文本挖掘设备的配置的框图。

图2示出了在本发明的第一实施例中使用的分析对象数据的一个示例。

图3是示出根据本发明的第一实施例的文本挖掘设备的操作的流程图。

图4是示出根据本发明的第二实施例的文本挖掘设备的操作的流程图。

图5是示出根据本发明的第三实施例的文本挖掘设备的配置的框图。

图6是示出根据本发明的第三实施例的文本挖掘设备的操作的流程图。

图7是示出实现根据本发明的第一至第三实施例的文本挖掘设备的计算机的一个示例的框图。

具体实施方式

(第一实施例)

下面参考图1至3描述根据本发明的第一实施例的文本挖掘设备、文本挖掘方法和程序。

设备配置

首先，参考图1给出根据本第一实施例的文本挖掘设备的配置的说明。图1是示出根据本发明的第一实施例的文本挖掘设备的配置的框图。

如图1中所示，根据本第一实施例的文本挖掘设备2使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据来执行文本挖掘。

而且，如图1中所示，文本挖掘设备2包括分析视角候选生成单元20和特征度计算单元21。其中，分析视角候选生成单元20从分析对象数据中提取属性值，并且使用所提取属性值来生成分析视角候选。

特征度计算单元21首先将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较。然后，特征度计算单元21基于比较结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度。

以该方式，根据本第一实施例的文本挖掘设备2独立于分析者的意图来机械地提取用作分析视角候选的属性值，并且计算该属性值的特征度。因此，分析者可以识别出人意料但是具有高特征度的分析视角候选，即，具有使得能够发现有用知识的高可能性的分析视角候选。因此，文本挖掘设备2使得能够有效设置导致在文本挖掘中发现对于分析者出人意料但是有用的知识的分析的视角。

现在参考图2来更详细地描述根据本第一实施例的文本挖掘设备2的配置。图2示出了在本发明的第一实施例中使用的分析对象数据的一个示例。

如图1中所示，在本第一实施例中，文本挖掘设备2连接到数据存储设备1，并且与数据存储设备1一起构成文本挖掘系统3。数据存储设备1包括分析对象数据存储单元10和分析视角数据存储单元11。

分析对象数据存储单元10存储分析对象数据。在图2的示例中，分析对象数据是关于个人计算机的问卷的结果。而且，在图2的示例中，构成分析对象数据的记录中的每一个包括七种类型的属性的属性值(性别、年龄组、结婚、使用的主要目的、制造商、产品和满意度)和与不同的文本属性相关的两种类型的文本数据(自由描述(1)、自由描述(2))。应当注意，在本实施例中，不对在分析对象数据中的属性的类型的数目和文本数据的类型的数目施加具体限制。

而且，分析视角数据存储单元11存储由文本挖掘设备2输出的分析视角数据。在本实施例中，分析视角数据由与分析视角候选一对一地对应地计算的特征度构成。

而且，在本第一实施例中，分析视角候选生成单元20可以从分析对象数据中提取一个属性值，并且仅使用所提取的属性值来生成分析视角候选，并且可以提取多个属性值，并且使用该多个属性值来生成分析视角候选。具体地，在图3的示例中，分析视角候选生成单元20可以生成仅包括“男”的分析视角候选，并且可以生成包括组合“男、20多岁”的分析视角候选。

而且，在本第一实施例中，在分析视角候选生成单元20生成分析视角候选之后，识别包括提取为分析视角候选的属性值的记录，并且生成识别的记录集合(以下称为“记录子集”)。应当注意，包括提取为分析视角候选的属性值的记录的数目可以是1。在该情况下，记录子集仅由一个记录构成。

而且，在本第一实施例中，使“至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合”包括除了包括属性值的记录之外的至少一个记录。该记录集合可以是在分析对象数据中的所有记录，并且可以是从在分析对象数据中的所有记录当中随机选择的记录集合。而且，“至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合”可以是已经基于预设的分析视角选择的记录集合。

设备操作

现在参考图3来给出根据本发明的第一实施例的文本挖掘设备2的操作的说明。图3是示出根据本发明的第一实施例的文本挖掘设备的操作的流程图。在下面的说明中，将适当参考图1和图2。而且，在本第一实施例中，通过使得文本挖掘设备2进行操作来实现文本挖掘方法。因此，文本挖掘设备2的操作的以下说明适用于根据本第一实施例的文本挖掘方法。

如图3中所示，分析视角候选生成单元20首先从分析对象数据存储单元10读取分析对象数据，并且通过从读取的分析对象数据获得用作分析视角候选的属性值来生成分析视角候选(步骤S1)。此时，单个属性值或两个或更多属性值的组合可以被获得为一个分组视角候选。

而且，在本第一实施例中，在步骤S1中，分析视角候选生成单元20从构成分析对象数据的记录的每一个检索属性值的所有可能的组合，并且使用所有的检索到的组合作为分析视角候选。在该情况下，列出了使得能够生成包括至少一个记录的记录子集的分析视角候选。

例如，在图2的示例中，基于属性“性别、年龄组”的组合，分析视角候选生成单元20从具有ID 1的记录生成分析视角候选“男，20多岁”，并且从具有ID 2的记录生成分析视角候选“女，30多岁”。如此生成的分析视角候选用作在下述步骤S2中生成的记录子集的元素。

而且，在步骤S1中，为了减少要列出的分析视角候选的量，分析视角候选生成单元20可以限制要组合的属性值的数目，并且可以消除可应用的记录的数目不大于也不等于特定数目的分析视角候选。

接下来，对于在步骤S1中获得的分析视角候选中的每一个，分析视角候选生成单元20将包括分析视角候选的记录识别为元素，并且进一步生成识别的记录集合(记录子集)(步骤S2)。分析视角候选生成单元20还向特征度计算单元11输出记录子集。

在步骤S2中，分析视角候选生成单元20可以进一步确定在针对一个分析视角候选识别的记录(记录子集)和针对另一分析视角候选识别的记录(记录子集)之间是否存在特定相似度关系。如果确定的结果指示存在特定相似度关系，则分析视角候选生成单元20可以合并一个分析视角候选和另一分析视角候选。

这里，用于合并多个分析视角候选的方法的一个示例是下述方法：其中，找出在要合并的分析视角候选中所包括的属性值的并集或交集，并且将其用作新的分析视角候选。用于合并多个分析视角候选的方法的另一示例是下述方法：其中，仅留下要合并的分析视角候选中的一个，并且删除剩余部分。应当注意，在采用涉及删除的方法的情况下，分析视角候选生成单元20可以仅留下具有最高特征度的分析视角候选，并且在执行下述步骤S3之后删除剩余部分。

经常有下述情况：在类似的记录子集中的文本数据的内容的趋势之间不存在大的差异。因此，以上分析视角候选的合并在减少对分析者呈现分析视角候选时的冗余中是有效的。而且，如果具有类似记录子集的分析视角候选被集体地呈现为显示相同趋势的分析视角，则改善由分析者进行的分析的效率。

接下来，对于分析视角候选中的每一个，特征度计算单元21将在步骤S2中生成的记录子集中的文本数据与至少包括除了包括属性值的在步骤S2中识别的记录之外的记录的记录集合作比较，并且基于比较的结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度(步骤S3)。应当注意，在图3的说明中，假定“至少包括除了包括属性值的在步骤S2中识别的记录之外的记录的记录集合”是“在分析对象数据中的所有记录”，并且以下描述了使用“在分析对象数据中的所有记录”的示例。

在步骤S3中，例如，特征度计算单元21计算特征度，使得在记录子集中的文本数据的内容的趋势与在所有记录中的文本数据的内容的趋势越不同，则特征度的值越大。

在本第一实施例中，关于在分析对象数据中的记录的每一个，特征度计算单元21首先通过对整个文本数据应用作为现有技术的文本集群来将记录中的整个文本数据划分成标题。然后，特征度计算单元21找出在每个分析视角候选的记录子集中的文本数据中的话题分布以及在分析对象数据中的所有记录中的文本数据中的话题分布。特征度计算单元21可以基于在找出的话题分布之间的非相似度来计算特征度。在以上述方式来计算特征度的情况下，将整体的话题分布与和特定分析视角候选相关的话题分布作比较，并且因此，趋势之间的总体差异被计算为特征度。

具体地，例如，假定通过文本集群来将整个文本数据划分为三个话题T1、T2、T3，在用于分析视角候选A的记录子集中的话题的频率分布x是“T1：10％，T2：30％，T3：60％”，并且在整个记录中的话题的频率分布y是“T1：20％，T2：20％，T3：60％”。

在将余弦相似度的导数用作特征度的情况下，根据下面的表达式1来计算特征度1.02。应当注意，导数用作特征度，因为较大值的余弦相似度指示更相同的趋势，即，更大的相似度。

(表达式1)

特征度＝1/(x·y/|x||y|)

另一方面，在用于分析视角候选B的记录子集中的话题的频率分布是“T1：60％，T2：20％，T3：30％”的情况下，根据上面的表达式1来计算特征度1.57。在该情况下，当用于分析视角候选B的特征度大于用于分析视角候选A的特征度时，认为分析视角候选B比分析视角候选A更容易点导致有用知识的发现。

而且，代替余弦相似度，可以从频率分布向量计算的任何相似度的导数或可以从频率分布向量类似地计算的距离可以被用作特征度。

而且，特征度计算单元21可以通过执行统计测试来计算特征度，在统计测试中，当分析视角候选A的话题出现比率和所有记录的话题出现比率相同时，虚假设成立，使得其p值越小，特征度的值越大。可以将卡方检验和作为一种类型的似然比测试的的G测试等等用作统计测试。

在另一示例中，在步骤S3中，特征度计算单元21针对话题中的每一个从在文本集群之后的整个记录中识别包括话题的记录集合。然后，特征度计算单元21计算在识别的每话题集合和每个分析视角候选的记录子集之间的相似度。特征度计算单元21可以使用该相似度来计算特征度。在该示例中，特征度指示在整个记录和与特定话题相关的分析视角候选的记录子集之间的比较的结果。

具体地，例如，假定在整个记录中，包括话题T1的记录的数目是1000，并且在用于两个分析视角候选C和D的记录子集中的记录的数目分别是500和700。还假定在用于分析视角候选C和D的记录子集当中，包括话题T1的记录的数目和相互记录的数目分别是400和200。

在该情况下，使用Dice系数，与话题T1相关的分析视角候选C的特征度是0.53(＝2×400/(1000+500))。另一方面，与话题T1相关的分析视角候选D的特征度是0.24(＝2×200/(1000+700))。应当注意，在该情况下，可以使用用于计算在记录集合之间的相似度而不是Dice的任何方法来计算特征度。

特征度计算单元21还可以从用于分析视角候选的记录子集中提取特征字，并且使用例如提取的特征字的分数(例如，出现频率)的特征字的提取的结果来计算特征度。具体地，特征度计算单元21可以以分数值的降序来从提取的特征字中识别N个特征字，并且使用所识别的特征字的分数的和作为特征度。

此外，特征度计算单元21可以从分析视角候选的记录子集和在分析对象数据中的所有记录二者中提取特征字，计算在所提取的特征字之间的相似度，并且使用该相似度来计算特征度。

具体地，特征度计算单元21首先从分析视角候选的记录子集和在分析对象数据中的所有记录二者中以分数值的降序来提取N个特征字。随后，特征度计算单元21计算在N个提取的特征字的集合之间的相似度。特征度计算单元21可以使用该相似度来计算特征度，使得相似度越低，特征度的值越大。

以上已经描述了在特征度的计算中利用特征字的提取的两个示例。虽然这些示例的优点在于没有必要设置文本集群所需要的参数，但是使其难以理解逐个话题的基础上的综合趋势。

而且，与基于话题出现比率的上述方法类似地，特征度计算单元21可以通过执行统计测试来计算特征度，在统计测试中，当分析视角候选A的特征字出现比率和所有记录的特征字出现比率相同时，虚假设成立，使得其p值越小，特征度的值越大。

接下来，特征度计算单元21向分析视角数据存储单元11输出已经在步骤S3中与分析视角候选一对一地对应地计算的特征度作为分析视角数据的(步骤S4)。一旦执行了步骤S4，分析视角数据存储单元11就存储分析视角数据。在执行步骤S4之后，结束文本挖掘设备2的处理。应当注意，在本第一实施例中，分析视角数据是分析视角候选及其特征度的组合。

程序

根据本发明的第一实施例的程序足以使得计算机执行在图3中所示的步骤S1至S4。可以通过将该程序安装在计算机中并且执行所安装的程序来实现根据本第一实施例的文本挖掘设备2和文本挖掘方法。在该情况下，计算机的CPU(中央处理单元)用作分析视角候选生成单元20和特征度计算单元21，并且相应地执行处理。

而且，在本第一实施例中，数据存储设备1可以由在计算机中提供的诸如硬盘的存储设备来实现，其中安装有根据本第一实施例的程序。而且，数据存储设备1可以由另一计算机的存储设备来实现，该另一计算机经由网络等连接到安装有根据本第一实施例的程序的计算机。

第一实施例的效果

如上所述，在本第一实施例中，在不根据分析者的经验和感觉的情况下，从分析对象数据自动地设置分析视角候选。因此，本第一实施例使得能够有效设置分析视角，该分析视角包括对于分析者出人意料的分析的视角，并且具有获得特征结果的高概率。

(第二实施例)

下面参考图4来描述根据本发明的第二实施例的文本挖掘设备、文本挖掘方法和程序。

根据本第二实施例的文本挖掘设备具有与在图1中所示的根据第一实施例的文本挖掘设备1的配置类似的配置，但是在分析视角候选和特征度计算单元的操作上与其不同。参考图4，下面在提供根据本第二实施例的文本挖掘设备的操作的说明的同时描述与第一实施例的差异。

图4是示出根据本发明的第二实施例的文本挖掘设备的操作的流程图。应当注意，在下面的说明中，将适当参考在第一实施例中使用的图1和图2，并且将使用图1中使用的附图标记。而且，在本第二实施例中，通过使得文本挖掘设备进行操作来实现文本挖掘方法。

如图4中所示，分析视角候选生成单元20首先从分析对象数据存储单元10读取分析对象数据，并且通过从所读取的分析对象数据获得用作分析视角候选的属性值来生成分析视角候选(步骤S11)。应当注意，在步骤S11中，没有如在图3中所示的根据第一实施例的步骤S1中那样综合地列出分析视角候选。在步骤S11中，随机生成多个分析视角候选。

接下来，对于在步骤S11中获得的分析视角候选中的每一个，分析视角候选产生单元20将包括分析视角候选的记录识别为元素，并且进一步生成识别的记录集合(记录子集)(步骤S12)。步骤S12类似于在图3中所示的步骤S2。分析视角候选生成单元20还向特征度计算单元输出记录子集。

接下来，对于分析视角候选中的每一个，特征度计算单元21将在步骤S12中生成的记录子集中的文本数据与至少包括除了包括属性值的在步骤S12中识别的记录之外的记录的记录集合作比较，并且基于比较的结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度(步骤S13)。步骤S13类似于在图3中所示的步骤S3。而且在本第二实施例中，假定“至少包括除了包括属性值的在步骤S12中识别的记录之外的记录的记录集合”是“在分析对象数据中的所有记录”，并且下面描述使用“在分析对象数据中的所有记录”的示例。

接下来，特征度计算单元21计数对在步骤S13中计算的其特征度高于或等于预设阈值的分析视角候选的数目进行计数，并且确定所计数的数目是否已经达到对象数目(步骤S14)。

如果在步骤S14中的确定的结果指示计数的数目还没有达到对象数目，则特征度计算单元21使得分析视角候选生成单元20再次执行步骤S11。即，重复分析视角候选的生成和特征度的计算，直到通过在步骤S14中的确定来找到被认为至少具有特定的特征水平的特定数目或更多的分析视角候选。

另一方面，如果在步骤S14中的确定的结果指示计数数目已经达到对象数目，则特征度计算单元21向分析视角数据存储单元11输出已经在步骤S13中与分析视角候选一对一地对应地计算的特征度作为分析视角数据(步骤S15)。在执行步骤S15之后，结束文本挖掘设备的处理。步骤S15类似于在图3中所示的步骤S4。

程序

根据本发明的第二实施例的程序足以使得计算机执行在图4中所示的步骤S11至S15。可以通过在计算机中安装该程序并且执行所安装的程序来实现根据本第二实施例的文本挖掘设备和文本挖掘方法。在该情况下，计算机的CPU(中央处理单元)用作分析视角候选生成单元20和特征度计算单元21，并且相应地执行处理。

而且在本第二实施例中，数据存储设备1可以由在安装有根据本第二实施例的程序的计算机中提供的诸如硬盘的存储设备来实现。而且，数据存储设备1可以通过另一计算机的存储设备来实现，该另一计算机经由网络等连接到安装有根据本第二实施例的程序的计算机。

第二实施例的效果

如上所述，在本第二实施例中，限制分析视角候选的数目。这在下述情况下是实用的：存在多个类型属性及其属性值，并且难以在计算的时间段和存储容量上提前列出分析视角候选。本第二实施例使得能够减少计算的时间段和所需要的存储容量。利用本第二实施例，可以实现与由第一实施例实现的效果类似的效果。

(第三实施例)

下面参考图5和图6来描述根据本发明的第三实施例的文本挖掘设备、文本挖掘方法和程序。

设备配置

首先，参考图5来给出根据本第三实施例的文本挖掘设备的配置的说明。图5是示出根据本发明的第三实施例的文本挖掘设备的配置的框图。

如图5中所示，根据本第三实施例的文本挖掘设备23与在图1中所示的根据第一实施例的文本挖掘2的不同之处在于：除了分析视角候选20和特征度计算单元21之外还包括验证信息提取单元22。

在其他方面中，以与在图1中所示的根据第一实施例的文本挖掘设备2类似的方式来配置文本挖掘设备23。在图5中所示的分析视角候选20和特征度计算单元21是与在图1中所示的分析视角候选20和特征度计算单元21相同的功能块。下面的描述集中在与第一实施例的差异。

首先，验证信息提取单元22从包括作为分析视角候选提取的属性值的记录(记录子集)中的文本数据提取特征字和代表性文本中的一个或二者作为用于分析视角候选的验证信息。应当注意，在本第一实施例中，任何公开的技术被用作用于从文本数据提取特征字或代表性文本的技术。

随后，验证信息提取单元22向分析视角候选附加所提取的验证信息。验证信息提取单元22还使得分析视角数据存储单元11存储附加有验证信息的分析视角候选。

设备操作

现在参考图6来给出根据本发明的第三实施例的文本挖掘设备23的操作的说明。图6是示出根据本发明的第一实施例的文本挖掘设备的操作的流程图。在下面的说明中，将适当参考图5。而且在本第三实施例中，通过使得文本挖掘设备23进行操作来实现文本挖掘方法。因此，文本挖掘设备23的操作的下面的说明适用于根据本第三实施例的文本挖掘方法。

如图6中所示，分析视角候选生成单元20首先从分析对象数据存储单元10读取分析对象数据，并且通过从所读取的分析对象数据获得用作分析视角候选的属性值来生成分析视角候选(步骤S21)。

接下来，对于在步骤S21中获得的分析视角候选中的每一个，分析视角候选生成单元20识别包括作为元素的分析视角候选的记录，并且进一步生成识别的记录集合(记录子集)(步骤S22)。

接下来，对于分析视角候选的每一个，特征度计算单元21将在步骤S22中生成的记录子集中的文本数据与至少包括除了包括属性值的在步骤S22中识别的记录之外的记录的记录集合作比较，并且基于比较的结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度(步骤S23)。而且在本第三实施例中，假定“至少包括除了包括属性值的在步骤S22中识别的记录之外的记录的记录集合”是“在分析对象数据中的所有记录”，并且下面描述了使用“在分析对象数据中的所有记录”的示例。

上述步骤S21至S23类似于在图3中所示的步骤S1至S3。一旦已经执行了步骤S21至S23，则验证信息提取单元22从在记录子集中的文本数据提取特征字和代表性文本中的一个或二者作为用于分析视角候选的验证信息(步骤S24).

接下来，验证信息提取单元22向分析视角候选附加在步骤S24中提取的验证信息(步骤S25)。然后，验证信息提取单元22向分析视角数据存储单元11输出附加有验证信息的分析视角候选以及在步骤S23中计算的特征度作为分析视角数据(步骤S26)。

一旦已经执行了步骤S26，则分析视角数据存储单元11存储分析视角数据。在执行步骤S26之后，结束文本挖掘设备23的处理。步骤S24和S25的执行定时足以在分析视角候选的生成之后发生，并且在这方面不期望有任何特定限制。

程序

根据本发明的第三实施例的程序足以使得计算机执行在图6中所示的步骤S21至S26。可以通过在计算机中安装该程序并且执行所安装的程序来实现根据本第二实施例的文本挖掘设备和文本挖掘方法。在该情况下，计算机的CPU(中央处理单元)用作分析视角候选生成单元20、特征度计算单元21和验证信息提取单元22，并且相应地执行处理。

而且在本第三实施例中，数据存储设备1可以由在安装有根据本第三实施例的程序的计算机中提供的诸如硬盘的存储设备来实现。而且，数据存储设备1可以由另一计算机的存储设备来实现，该另一计算机经由网络等连接到安装有根据本第三实施例的程序的计算机。

第三实施例的效果

如上所述，在本第三实施例中，提供了用于验证分析视角候选是否有希望的信息(验证信息)，并且分析者可以容易地综合所呈现的分析视角候选的特征。换言之，所提供的信息使得分析者能够预测是否可以在使用分析视角候选进行分析的情况下获得有意义的结果。因此，本第三实施例使得能够更有效地设置具有获得特征结果的高概率的分析视角，包括对于分析者出人意料的分析视角。

特定配置

现在参考图7给出根据第一至第三实施例的通过执行程序来实现文本挖掘设备的计算机的说明。图7是示出根据本发明的第一至第三实施例的实现文本挖掘设备的计算机的一个示例的框图。

如图7中所示，计算机110包括CPU 111、主存储器112、存储设备113、输入接口114、显示控制器115、数据读取器/写入器116和通信接口117。这些组件以使得其可以经由总线121彼此执行数据通信的方式来连接。

CPU 111通过向主存储器112布置在存储设备113中存储的根据本实施例的程序(代码)并且以预定顺序来执行所布置的程序来执行各种类型的操作。主存储器112通常是诸如DRAM(动态随机存取存储器)的易失性存储设备。该程序在被存储在计算机可读记录介质120中的同时被提供。该程序可以在经由通信接口117连接的因特网上分布。

存储设备113的特定示例包括硬盘驱动器和诸如闪速存储器的半导体存储设备。输入接口114在CPU 111和诸如键盘和鼠标的输入设备118之间传达数据传输。显示控制器115连接到显示设备119，并且控制在显示设备119上的显示。数据读取器/写入器116传达在CPU 111和记录介质12之间的数据传输。数据读取器/写入器116从记录介质12读取程序，并且将在计算机110中的处理的结果写入到记录介质120中。通信接口117传达在CPU 111和其他计算机之间的数据传输。

记录介质12的特定示例包括诸如CF(紧凑式闪存，注册商标)和SD(安全数字)的通用半导体存储设备、诸如软盘的磁存储介质和诸如CD-ROM(紧凑式磁盘只读存储器)的光存储介质。

上述实施例的一部分或全部可以被描述为但是不限于下面的注释1至30。

(注释1)

一种文本挖掘设备，该文本挖掘设备使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，并且包括：分析视角候选生成单元，该分析视角候选生成单元从分析对象数据中提取属性值，并且使用所提取的属性值来生成分析视角候选；以及特征度计算单元，该特征度计算单元将在包括作为分析视角候选提取的属性值的记录中的文本数据与在至少包括除了包括分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较，并且基于比较的结果来计算特征度，该特征度指示在分析视角候选和分析对象数据之间的关系。

(注释2)

根据注释1的文本挖掘设备，其中，该分析视角候选生成单元从分析对象数据中提取多个属性值，并且使用所提取的多个属性值来生成分析视角候选。

(注释3)

根据注释1或2所述的文本挖掘设备，其中，特征度计算单元找出在包括作为分析视角候选提取的属性值的记录中的文本数据中的话题分布以及在至少包括除了包括分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据中的话题分布，并且计算特征度使得所找到的话题分布彼此越不同，特征度的值越大。

(注释4)

根据注释1至3的任何一项所述的文本挖掘设备，其中，特征度计算单元计算在包括作为分析视角候选提取的属性值的记录中的文本数据和在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据之间的相似度，并且使用该相似度来计算特征度。

(注释5)

根据注释1或2的文本挖掘设备，其中，特征度计算单元从包括作为分析视角候选提取的属性值的记录中提取特征字，并且使用所提取的特征字的分数来计算特征度。

(注释6)

根据注释1或2的文本挖掘设备，其中，特征度计算单元从包括作为分析视角候选提取的属性值的记录和至少包括除了包括在分析对象数据中至的属性值的记录之外的记录的记录集合二者中提取特征字，计算在所提取的特征字之间的相似度，并且使用该相似度来计算特征度。

(注释7)

根据注释1至6的任何一项所述的文本挖掘设备，其中，分析视角候选生成单元生成多个分析视角候选，针对多个分析视角候选中的每一个识别包括作为分析视角候选提取的属性值的记录，确定在针对一个分析视角候选识别的记录和针对另一分析视角候选识别的记录之间是否存在特定相似关系，并且如果确定的结果指示存在特定相似关系，则合并一个分析视角候选和另一分析视角候选。

(注释8)

根据注释1至7的任何一项所述的文本挖掘设备，进一步包括验证信息提取单元，该验证信息提取单元从在包括作为分析视角候选提取的属性值的记录中的文本数据中提取特征字和代表性文本中的一个或二者作为用于分析视角候选的验证信息，并且向分析视角候选附加所提取的验证信息。

(注释9)

根据注释1或2所述的文本挖掘设备，其中，特征度计算单元执行统计测试，其中，当在包括作为分析视角候选提取的属性值的记录中的文本数据的话题的出现比率与至少包括除了包括在分析对象数据中的属性值的记录的记录的记录集合中的文本数据中的话题出现比率相同时，虚假设成立，并且计算特征度，使得通过统计测试获得的p值越小，特征度的值越大。

(注释10)

根据注释1或2所述的文本挖掘设备，其中，特征度计算单元执行统计测试，其中，当在包括作为分析视角候选提取的属性值的记录中的文本数据中出现的特征字的出现比率与在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据中出现的特征字的出现比率相同时，虚假设成立，并且计算特征度，使得通过统计测试获得的p值越小，则特征度的值越大。

(注释11)

一种文本挖掘方法，该文本挖掘方法使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，并且包括下述步骤：(a)从分析对象数据提取属性值，并且使用所提取的属性值来生成分析视角候选；以及(b)将在包括作为分析视角候选提取的属性值的记录中的文本数据与在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据作比较，并且基于比较的结果来计算特征度，该特征度指示在分析视角候选和分析对象数据之间的关系。

(注释12)

根据注释11的文本挖掘方法，其中，在步骤(a)中，从分析对象数据中提取多个属性值，并且使用所提取的多个属性值来生成分析视角候选。

(注释13)

根据注释11或12的文本挖掘方法，其中，在步骤(b)中，找出在包括作为分析视角候选提取的属性值的记录中的文本数据中的话题分布以及在至少包括除了包括分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据中的话题分布，并且计算特征度使得所找到的话题分布彼此越不同，特征度的值越大。

(注释14)

根据注释11至13的任何一项的文本挖掘方法，其中，在步骤(b)中，计算在包括作为分析视角候选提取的属性值的记录中的文本数据和在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据之间的相似度，并且使用该相似度来计算特征度。

(注释15)

根据注释11或12的文本挖掘方法，其在，在步骤(b)中，从包括作为分析视角候选提取的属性值的记录中提取特征字，并且使用所提取的特征字的分数来计算特征度。

(注释16)

根据注释11或12的文本挖掘方法，其中，在步骤(b)中，从包括作为分析视角候选提取的属性值的记录和至少包括除了包括在分析对象数据中至的属性值的记录之外的记录的记录集合二者中提取特征字，计算在所提取的特征字之间的相似度，并且使用该相似度来计算特征度。

(注释17)

根据注释11至16的任何一项所述的文本挖掘方法，其中，在步骤(a)中，生成多个分析视角候选，针对多个分析视角候选中的每一个识别包括作为分析视角候选提取的属性值的记录，确定在针对一个分析视角候选识别的记录和针对另一分析视角候选识别的记录之间是否存在特定相似关系，并且如果确定的结果指示存在特定相似关系，则合并一个分析视角候选和另一分析视角候选。

(注释18)

根据注释11至17的任何一项所述的文本挖掘方法，进一步包括步骤(c)：从在包括作为分析视角候选提取的属性值的记录中的文本数据中提取特征字和代表性文本中的一个或二者作为用于分析视角候选的验证信息，并且向分析视角候选附加所提取的验证信息。

(注释19)

根据注释11或12所述的文本挖掘方法，其中，在步骤(b)中，执行统计测试，其中，当在包括作为分析视角候选提取的属性值的记录中的文本数据的话题的出现比率与至少包括除了包括在分析对象数据中的属性值的记录的记录的记录集合中的文本数据中的话题出现比率相同时，虚假设成立，并且计算特征度，使得通过统计测试获得的p值越小，特征度的值越大。

(注释20)

根据注释11或12所述的文本挖掘方法，其中，在步骤(b)中，执行统计测试，其中，当在包括作为分析视角候选提取的属性值的记录中的文本数据中出现的特征字的出现比率与在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据中出现的特征字的出现比率相同时，虚假设成立，并且计算特征度，使得通过统计测试获得的p值越小，则特征度的值越大。

(注释21)

一种计算机可读记录介质，该计算机可读记录介质记录有程序，该程序用于通过计算机执行文本挖掘，其中，使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，该程序包括用于使得计算机执行下述步骤的指令：(a)从分析对象数据提取属性值，并且使用所提取的属性值来生成分析视角候选；以及(b)将在包括作为分析视角候选提取的属性值的记录中的文本数据与在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据作比较，并且基于比较的结果来计算特征度，该特征度指示在分析视角候选和分析对象数据之间的关系。

(注释22)

根据注释21的计算机可读记录介质，其中，在步骤(a)中，从分析对象数据中提取多个属性值，并且使用所提取的多个属性值来生成分析视角候选。

(注释23)

根据注释21或22的计算机可读记录介质，其中，在步骤(b)中，找出在包括作为分析视角候选提取的属性值的记录中的文本数据中的话题分布以及在至少包括除了包括分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据中的话题分布，并且计算特征度使得所找到的话题分布彼此越不同，特征度的值越大。

(注释24)

根据注释21至23的任何一项所述的计算机可读记录介质，其中，在步骤(b)中，计算在包括作为分析视角候选提取的属性值的记录中的文本数据和在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据之间的相似度，并且使用该相似度来计算特征度。

(注释25)

根据注释21或22所述的计算机可读记录介质，其中，在步骤(b)中，从包括作为分析视角候选提取的属性值的记录中提取特征字，并且使用所提取的特征字的分数来计算特征度。

(注释26)

根据注释21或22所述的计算机可读记录介质，其中，在步骤(b)中，从包括作为分析视角候选提取的属性值的记录和至少包括除了包括在分析对象数据中至的属性值的记录之外的记录的记录集合二者中提取特征字，计算在所提取的特征字之间的相似度，并且使用该相似度来计算特征度。

(注释27)

根据注释21至26的任何一项所述的计算机可读记录介质，其中，在步骤(a)中，生成多个分析视角候选，针对多个分析视角候选中的每一个识别包括作为分析视角候选提取的属性值的记录，确定在针对一个分析视角候选识别的记录和针对另一分析视角候选识别的记录之间是否存在特定相似关系，并且如果确定的结果指示存在特定相似关系，则合并一个分析视角候选和另一分析视角候选。

(注释28)

根据注释21至27的任何一项所述的计算机可读记录介质，其中，所述程序进一步包括用于使得计算机执行下述步骤(c)的指令：从在包括作为分析视角候选提取的属性值的记录中的文本数据中提取特征字和代表性文本中的一个或二者作为用于分析视角候选的验证信息，并且向分析视角候选附加所提取的验证信息。

(注释29)

根据注释21或22所述的计算机可读记录介质，其中，在步骤(b)中，执行统计测试，其中，当在包括作为分析视角候选提取的属性值的记录中的文本数据的话题的出现比率与至少包括除了包括在分析对象数据中的属性值的记录的记录的记录集合中的文本数据中的话题出现比率相同时，虚假设成立，并且计算特征度，使得通过统计测试获得的p值越小，特征度的值越大。

(注释30)

根据注释21或22所述的计算机可读记录介质，其中，在步骤(b)中，执行统计测试，其中，当在包括作为分析视角候选提取的属性值的记录中的文本数据中出现的特征字的出现比率与在至少包括除了包括分析对象数据中的属性值的记录的记录的记录集合中的文本数据中出现的特征字的出现比率相同时，虚假设成立，并且计算特征度，使得通过统计测试获得的p值越小，则特征度的值越大。

虽然已经参考上述实施例描述了本申请的发明，但是本申请的发明不限于上述实施例。本申请的发明的配置和细节可以进行可以由本领域的技术人员在本申请的发明的范围内理解的各种改变。

本申请要求2012年8月31日提交的日本专利申请No.2012-191067的优先权的权益，其全部公开内容通过引用合并于此。

工业实用性

如上所述，本发明使得能够有效设置导致在文本挖掘中发现对于分析者出人意料但是有用的知识的分析的视角。本发明在诸如营销领域的要求文本挖掘的各种领域中是实用的。

附图标记列表

1 数据存储设备

2 文本挖掘设备

3 文本挖掘系统

10 分析对象数据存储单元

11 分析视角数据存储单元

20 分析视角候选生成单元

21 特征度计算单元

110 计算机

111 CPU

112 主存储器

113 存储设备

114 输入接口

115 显示控制器

116 数据读取器/写入器

117 通信接口

118 输入设备

119 显示设备

120 记录介质

121 总线

Claims

1.一种文本挖掘设备，所述文本挖掘设备使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，所述文本挖掘设备包括：

分析视角候选生成单元，所述分析视角候选生成单元从所述分析对象数据中提取属性值，并且使用所提取的属性值来生成分析视角候选；以及

特征度计算单元，所述特征度计算单元将在包括作为所述分析视角候选提取的属性值的记录中的文本数据与在至少包括除了包括所述分析对象数据中的属性值的记录的记录的记录集合中的文本数据作比较，并且基于所述比较的结果来计算特征度，所述特征度指示在所述分析视角候选和所述分析对象数据之间的关系。

2.根据权利要求1所述的文本挖掘设备，其中，

所述特征度计算单元找出在包括作为所述分析视角候选提取的所述属性值的所述记录中的所述文本数据中的话题分布和至少包括除了所述分析对象数据中的所述属性值的所述记录的记录的记录集合中的所述文本数据中的话题分布，并且计算所述特征度，使得所找到的话题分布彼此越不同，所述特征度的值越大。

3.根据权利要求1或2所述的文本挖掘设备，其中，

所述特征度计算单元

找出在包括作为所述分析视角候选提取的所述属性值的记录中的文本数据中的话题出现比率以及在至少包括除了包括所述分析对象数据中的所述属性值的记录的记录的所述记录集合中的文本数据中的话题出现比率，并且执行统计测试，其中，当所发现的话题出现比率相同时，虚假设成立，并且

计算所述特征度，使得通过所述统计测试获得的p值越小，所述特征度的值越大。

4.根据权利要求1或2所述的文本挖掘设备，其中，

所述特征度计算单元计算在包括作为所述分析视角候选提取的所述属性值的记录中的文本数据和在至少包括除了包括分析对象数据中的所述属性值的记录的记录的所述记录集合中的文本数据之间的相似度，并且使用所述相似度来计算所述特征度。

5.根据权利要求1或2所述的文本挖掘设备，其中，

所述特征度计算单元从包括作为所述分析视角候选提取的所述属性值的所述记录中提取特征字，并且使用所提取的特征字的分数来计算所述特征度。

6.根据权利要求1或2所述的文本挖掘设备，其中，

所述特征度计算单元从包括作为所述分析视角候选提取的所述属性值的记录和至少包括除了包括在所述分析对象数据中的所述属性值的记录的记录的所述记录集合二者中提取特征字，计算在所提取的特征字之间的相似度，并且使用所述相似度来计算所述特征度。

7.根据权利要求1至6中的任何一项所述的文本挖掘设备，其中，

所述分析视角候选生成单元生成多个分析视角候选，针对所述多个分析视角候选中的每一个识别包括作为所述分析视角候选提取的所述属性值的记录，确定在针对一个分析视角候选识别的记录和针对另一分析视角候选识别的记录之间是否存在特定相似关系，并且如果所述确定的结果指示存在所述特定相似关系，则合并一个分析视角候选和另一分析视角候选。

8.根据权利要求1至7中的任何一项所述的文本挖掘设备，进一步包括：

验证信息提取单元，所述验证信息提取单元从在包括作为所述分析视角候选提取的所述属性值的记录中的文本数据中提取特征字和代表性文本中的一个或二者作为用于所述分析视角候选的验证信息，并且向所述分析视角候选附加所提取的验证信息。

9.一种文本挖掘方法，所述文本挖掘方法使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，所述文本挖掘方法包括下述步骤：

(a)从所述分析对象数据提取属性值，并且使用所提取的属性值来生成分析视角候选；以及

(b)将在包括作为所述分析视角候选提取的属性值的记录中的文本数据与在至少包括除了包括所述分析对象数据中的属性值的记录的记录的记录集合中的文本数据作比较，并且基于所述比较的结果来计算特征度，所述特征度指示在所述分析视角候选和所述分析对象数据之间的关系。

10.一种计算机可读记录介质，所述计算机可读记录介质记录有程序，所述程序用于使用计算机执行文本挖掘，其中，使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据，所述程序包括用于使得所述计算机执行下述步骤的指令：