JP2015062117A - Entity linking method and entity linking apparatus - Google Patents
Entity linking method and entity linking apparatus Download PDFInfo
- Publication number
- JP2015062117A JP2015062117A JP2014188486A JP2014188486A JP2015062117A JP 2015062117 A JP2015062117 A JP 2015062117A JP 2014188486 A JP2014188486 A JP 2014188486A JP 2014188486 A JP2014188486 A JP 2014188486A JP 2015062117 A JP2015062117 A JP 2015062117A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- text
- entity reference
- potential link
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、データベースの分野に関し、具体的に、実体のリンク付け方法及び装置に関する。 The present invention relates to the field of databases, and in particular to a method and apparatus for linking entities.
インターネットの語意及び知識ライブラリ、及びミニブログ、ショットメッセージサービス(SMS)などのようなショットテキストの上方プラットフォームの急速な発展に伴い、どうやってショットメッセージにおける「実体言及(mention)」とインターネットの語意及び知識ライブラリにおける実体(entity)とを関連付け、ショットテキストの内容を語彙化するのかは、言語情報処理の分野の問題点となる。 With the rapid development of the Internet vocabulary and knowledge library, and the upper platform of shot texts such as miniblogs, shot message service (SMS), etc., how “mention” in shot messages and Internet vocabulary and knowledge It is a problem in the field of linguistic information processing whether the content of shot text is lexicalized by associating with entities in the library.
本発明の実施形態は、ショットテキストの内容における実体言及にそれと一致する実体へのリンクを付けることができる実体のリンク付け方法及び装置を提供することを目的とする。 An embodiment of the present invention aims to provide an entity linking method and apparatus capable of attaching a link to an entity matching the entity reference in the content of the shot text.
本発明の一の態様では、実体言及(mention)の潜在的リンク実体を取得するステップと、前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップと、前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む、実体のリンク付け方法を提供する。 In one aspect of the invention, obtaining a potential link entity of an entity reference, extending the original text where the entity reference is located to obtain a first text corresponding to the entity reference; A step of calculating a text similarity between the first text and a second text corresponding to the potential link entity; and a degree of coincidence between the potential link entity and the entity reference based on the text similarity And linking the entity reference to a potential link entity having a degree of coincidence that satisfies a predetermined condition.
本発明の他の態様では、実体言及(mention)の潜在的リンク実体を取得する取得手段と、前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理手段と、前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するマッチング処理手段と、前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け手段と、を含む、実体のリンク付け装置を提供する。 In another aspect of the present invention, acquisition means for acquiring a potential link entity of an entity reference (mention), and an original text in which the entity reference is located are expanded to acquire a first text corresponding to the entity reference. Expansion processing means for calculating a text similarity between the first text and a second text corresponding to the potential link entity, and the potential link entity and the entity reference based on the text similarity. An entity linking apparatus comprising: matching processing means for calculating a degree of coincidence; and linking means for attaching a link to a potential link entity having a degree of coincidence satisfying a predetermined condition to the entity reference. provide.
本発明の実施形態によれば、実体言及の所在するオリジナルテキストを拡張し、拡張されたテキストにより潜在的リンク実体を選別することで、リンク実体の正確性を向上できる。 According to the embodiment of the present invention, the accuracy of a link entity can be improved by expanding the original text where the entity reference is located and selecting the potential link entity based on the expanded text.
下記図面の詳細の説明を通じて、本発明の実施例の上記の目的、他の目的、特徴及び利点はより明確になる。図面におけるユニットは、単なる本発明の原理を示すものである。図面において、同一又は類似する技術的特徴又はユニットは、同一又は類似する記号で示されている。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件又は処理のステップのみが示され、本発明と関係のない細部が省略される。また、本発明の図面又は実施形態に示されている要素及び特徴と他の図面又は実施形態に示されている要素及び特徴とを組み合わせてもよい。 Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings. For convenience of explanation, the specification does not show all the features of the actual embodiment. In actual implementation, a specific embodiment may be changed in order to realize a specific goal of a developer. For example, the embodiment may be changed according to a restriction condition related to a system and business. Good. Also, the development work is very complex and time consuming, but for those skilled in the art, this development work is just an example work. For the sake of clarity, the drawings show only the components or processing steps of the apparatus closely related to the present invention, and omit details not related to the present invention. Further, elements and features shown in the drawings or embodiments of the present invention may be combined with elements and features shown in other drawings or embodiments.
本発明の実施形態は、実体のリンク付け方法及び装置を提供する。以下は、図面を参照しながら具体的な実施形態に基づいて本発明の実施形態に係る実体のリンク付け方法を説明する。 Embodiments of the present invention provide an entity linking method and apparatus. Hereinafter, an entity linking method according to an embodiment of the present invention will be described based on a specific embodiment with reference to the drawings.
図1は、本発明に係る実体のリンク付け方法のフローチャートである。 FIG. 1 is a flowchart of an entity linking method according to the present invention.
図1に示すように、ステップS101において、実体言及(mention)の潜在的リンク実体を取得する。 As shown in FIG. 1, in step S101, a potential link entity of entity mention is acquired.
ここで、実体言及の潜在的リンク実体の取得方法は複数あり、以下は具体的に説明する。 Here, there are a plurality of methods for acquiring the entity-referenced potential link entity, which will be described in detail below.
ショットテキストにおける実体言及が決定された後、該実体言及に基づいて知識ライブラリを直接検索して、該実体言及に対応する実体を潜在的リンク実体として抽出してもよい。この知識ライブラリは、実体のリンク付け方法に適用するシーンに対応する特定の知識ライブラリ、例えばインターネット語意及び知識ライブラリであるWikipedia(ウィキペディア)、DBPedia、BaiduBaike(百度百科)などを含んでもよいが、これらの知識ライブラリに限定されない。例えば、実体言及が「apple」である場合は、インターネット語意及び知識ライブラリから、「リンゴ」、「米国のアップル・インコーポレイテッド」など複数の潜在的リンク実体を見つけることができる。 After the entity reference in the shot text is determined, an entity corresponding to the entity reference may be extracted as a potential link entity by directly searching the knowledge library based on the entity reference. This knowledge library may include specific knowledge libraries corresponding to the scene applied to the entity linking method, for example, Internet vocabulary and knowledge libraries Wikipedia, Wikipedia, BaiduBaike, etc. Not limited to knowledge libraries. For example, if the entity reference is “apple”, a plurality of potential link entities such as “Apple”, “Apple Inc. of the United States”, etc. can be found from the Internet wording and knowledge library.
ここで、既存の知識ライブラリから潜在的リンク実体を検索することは、(1)知識ライブラリにおける転送リンクを潜在的リンク実体とすること、(2)知識ライブラリから見つけられた内容における第1段落の太字を潜在的リンク実体とすること、(3)知識ライブラリから見つけられた曖昧さ回避ページに基づいて潜在的リンク実体を取得すること、及び(4)アンカーファイル(Anchor file)と実体とのリンク関係などの情報に基づいて実体言及の潜在的リンク実体を取得すること、を含んでもよいが、これらに限定されない。例えば、図2に示すように、実体言及「IBM」について、知識ライブラリから見つけられた内容は、転送リンク「インターナショナル・ビジネス・マシーンズ・コーポレーション」、並びに第1段落の太字「インターナショナル・ビジネス・マシーンズ・コーポレーション」、「International Business Machines Corporation」、及び「万国商用機器会社」を含み、これらの内容はいずれも、実体言及「IBM」の潜在的リンク実体とされてもよい。図3に示すように、実体言及「アップル」について、知識ライブラリから曖昧さ回避ページが見つけられ、「アップル・インコーポレイテッド」、「アップル日刊新聞」、「アップル(映画)」などはいずれも、実体言及「アップル」の潜在的リンク実体とされてもよい。 Here, retrieving a potential link entity from an existing knowledge library includes (1) making the transfer link in the knowledge library a potential link entity, and (2) the first paragraph in the content found from the knowledge library. Bold text is used as a potential link entity, (3) Obtaining a potential link entity based on an ambiguity avoidance page found from a knowledge library, and (4) Linking an anchor file with an entity Obtaining a potential link entity of an entity reference based on information such as a relationship may include, but is not limited to. For example, as shown in FIG. 2, for the entity reference “IBM”, the content found from the knowledge library is the transfer link “International Business Machines Corporation”, as well as the bold “International Business Machines Corporation” in the first paragraph. Including “Corporation”, “International Business Machines Corporation”, and “Universal Commercial Equipment Company”, any of which may be potential link entities of the entity reference “IBM”. As shown in FIG. 3, an ambiguity avoidance page is found from the knowledge library for the entity reference “Apple”, and “Apple Incorporated”, “Apple Daily Newspaper”, “Apple (Movie)”, etc. are all entities. It may be a potential link entity of the mention “Apple”.
ショットテキストにおける実体言及が決定された後、該ショットテキストに基づいて実体言及の潜在的リンク実体を取得してもよい。例えば、ショットテキストにおける、該実体言及を含み、且つ知識ライブラリに存在する実体を潜在的リンク実体としてもよい。例えば、ショットテキスト「北京時間3月12日、2013アジアチャンピオンズリーググループリーグ2回戦、広州恒大サッカークラブチームがアウェーで全北現代と戦い、広州恒大の先発発表」について、実体言及は「広州恒大」であり、ここでショットテキストには「広州恒大サッカークラブチーム」が含まれ、且つ「広州恒大サッカークラブチーム」が知識ライブラリにおける実体である場合は、「広州恒大サッカークラブチーム」を「広州恒大」の潜在的リンク実体とし、「広州恒大サッカークラブチーム」が知識ライブラリにおける実体ではない場合は、この方法により候補を提供しない。 After the entity reference in the shot text is determined, a potential link entity of the entity reference may be obtained based on the shot text. For example, an entity that includes the entity reference in the shot text and exists in the knowledge library may be a potential link entity. For example, in the shot text “Beijing time March 12, 2013 Asian Champions League group league second round, Guangzhou Hengda football club team away from Jeonbuk Hyundai, Guangzhou Hengda ’s first announcement” If the shot text includes “Guangzhou Hengda Soccer Club Team” and “Guangzhou Hengda Soccer Club Team” is an entity in the knowledge library, ”Is a potential link entity of“ Guangzhou Hengdai ”, and“ Guangzhou Hengda Soccer Club Team ”is not an entity in the knowledge library, no candidate is provided by this method.
ショットテキストにおける実体言及が決定された後、上記の潜在的リンク実体の検索を行う前に、該実体言及を拡張して、長さがもっと長い仮実体言及を取得して、仮実体言及に基づいて上記のいずれか1つの方法による潜在的リンク実体の検索を行ってもよい。仮実体言及がより多くの情報を含むため、実体言及にリンク付けべきな実体へのリンクをより正確に付けることができる。 After the entity reference in the shot text is determined, before performing the search for the potential link entity described above, the entity reference is expanded to obtain a temporary entity reference with a longer length, based on the temporary entity reference. The potential link entity may be searched by any one of the above methods. Because temporary entity references contain more information, it is possible to more accurately link to entities that should be linked to entity references.
仮実体言及の取得方法を説明する前に、まず仮実体言及の取得に用いられる実体言及の類型の決定を説明する。 Before describing the method for acquiring a temporary entity reference, first, the determination of the type of entity reference used for acquiring the temporary entity reference will be described.
実体言及の類型の決定には、実体類型本体が用いられる。実体類型本体は、現実の世界における実体の類型及び類型間の関係を定義し、例えば実体の最も上位の類型は物体(OBJECT)であり、OBJECTは人(PERSON)実体、位置(LOCATION)実体、機関(ORGANIZATION)実体及び官庁実体(GEO−POLITICAL ENTITY)などを含み、人実体は職種によって異なる種類に分けられる。よって、実体類型本体は、実体を一般から詳細までの分類体系であると理解されてもよい。実体類型本体の取得方法は2つあり、1つは、既存の実体類型本体、例えばウェブサイトhttp://www.dmoz.org/などに公開されている実体類型を用い、もう1つは、ユーザが自分の需要に応じて自分の実体類型本体を設定し、本文はこれらに限定されない。 The entity type body is used to determine the type of entity reference. The entity type body defines the type of entity in the real world and the relationship between the types. For example, the highest type of entity is an object (OBJECT), OBJECT is a person (PERSON) entity, a position (LOCATION) entity, Including an organization (ORGANIZATION) entity, a government entity (GEO-POLITICAL ENTITY), etc., human entities are classified into different types according to job types. Thus, the entity type body may be understood as a classification system from general to detail. There are two methods for obtaining the entity type body. One is using an existing entity type body, for example, an entity type published on the website http://www.dmoz.org/, and the other is The user sets his / her own entity type body according to his / her demand, and the text is not limited to these.
実体類型本体が取得された後、機械学習技術により、所定の実体の類型を自動的に判断することが可能な機械認識モデルを訓練してもよい。機械学習技術は、教師付き学習及び教師なし学習の2つの方法を含む。教師付き学習は、訓練コーパスにマークを付ける必要があり、例えばPERSON実体を認識する場合は、PERSON実体を含む訓練コーパスにマークを付け、教師付きモデル、例えばCRF、SVM、及び訓練コーパスにより機械認識モデルを訓練してもよい。この機械認識モデルにより、テキストにおけるPERSON実体を認識できる。他の実体類型について、これと同様な方法により機械認識モデルを訓練し、所定の実体の類型を自動的に判断可能な機械認識モデルを取得してもよい。教師なし学習は、専門辞書により実体の類型を認識し、例えば地名辞書を用いて文字列マッチングにより地名を認識する、或いはモデルに基づいて実体の類型を認識してもよい。例えば、「<xxx大統領>」の場合は、xxxの類型をPERSONとして認識し、一連の教師なし学習により、所定実体の類型を自動判断可能な機械認識モデルを取得する。 After the entity type main body is acquired, a machine recognition model that can automatically determine the type of a predetermined entity may be trained by a machine learning technique. Machine learning techniques include two methods: supervised learning and unsupervised learning. Supervised learning requires the training corpus to be marked, for example to recognize a PERSON entity, mark the training corpus that contains the PERSON entity, and machine recognition by a supervised model such as CRF, SVM, and training corpus You may train the model. With this machine recognition model, the PERSON entity in the text can be recognized. For other entity types, a machine recognition model may be trained by a similar method to obtain a machine recognition model that can automatically determine a predetermined entity type. In unsupervised learning, an entity type may be recognized by a specialized dictionary, and for example, a place name may be recognized by character string matching using a place name dictionary, or an entity type may be recognized based on a model. For example, in the case of “<xxx president>”, the type of xxx is recognized as PERSON, and a machine recognition model that can automatically determine the type of a predetermined entity is acquired by a series of unsupervised learning.
機器により実体言及の類型を自動的に認識すること以外は、ユーザがmentionの類型を人為的に指定してもよく、ここで、実体言及mentionの類型は実体類型本体における種類に対応する。即ち、機械的判断を利用することなく、ユーザが実体言及の類型を直接に判断してもよい。これの利点は、ユーザは興味のある類型の実体へのリンクを付け、例えばショットテキストにおけるPERSON又はORGANIZATION類型の実体のみへのリンクを付けてもよい。 Except for automatically recognizing the type of the entity reference by the device, the user may artificially specify the type of the entity reference. Here, the type of the entity reference mention corresponds to the type in the entity type main body. That is, the user may directly determine the type of entity reference without using mechanical determination. The advantage of this is that the user may link to the type of entity of interest, eg only the PERSON or ORGANIZATION type of entity in the shot text.
なお、実体言及の類型の判断は、実体類型本体に依らなくてもよい。即ち、実体と類型との間の対応関係を予め決定する必要がなく、例えばユーザが実体言及の類型を決定する際に、実体言及の類型をランダムに指定してもよい。 The determination of the type of entity reference does not have to depend on the entity type main body. That is, it is not necessary to predetermine the correspondence between the entity and the type. For example, when the user determines the type of entity reference, the type of entity reference may be specified at random.
実体言及の類型が取得された後、以下の方式で仮実体言及を決定してもよい。実体言及の類型が人である場合は、共参照解析(coreference resolution)により、オリジナルテキストから、実体言及を拡張した他の表現を前記仮実体言及として抽出してもよい。例えば、テキストが「LeBron Raymone James, nicknamed “King James”, is an American
professional basketball player for the Miami Heat of the National Basketball
Association (NBA). Lebron has played the small forward and power forward
positions」であり、mentionが「Lebron」である場合は、オリジナルテキストから「Lebron」の共参照である「LeBron Raymone James」が見つかったとき、元のmention「Lebron」の代わりに「LeBron Raymone James」を使う、即ち「LeBron Raymone James」を「Lebron」の仮実体言及とする。
After the type of entity reference is acquired, the provisional entity reference may be determined by the following method. When the type of the entity reference is human, another expression obtained by extending the entity reference may be extracted as the temporary entity reference from the original text by coreference resolution. For example, if the text is “LeBron Raymone James, nicknamed“ King James ”, is an American
professional basketball player for the Miami Heat of the National Basketball
Association (NBA). Lebron has played the small forward and power forward
If the position is "Lebron", and the "LeBron Raymone James" co-reference to "Lebron" is found in the original text, then "LeBron Raymone James" instead of the original mention "Lebron" That is, “LeBron Raymone James” is a temporary entity reference for “Lebron”.
実体言及の類型が行政官庁である場合は、オリジナルテキストから地名を検索し、実体言及と検索された地名とを組み合わせて仮実体言及とする。例えば、命名実体認識ツールを用いてmentionの文脈からmentionの所属する実体を見つけて、これらの実体とmentionとの組み合わせを仮実体言及とする。例えば、テキストが「最高裁が1949年10月22日に設立され、中華人民共和国の最高の審判機関であり、地方の各レベルの裁判所及び専門的裁判所の審判作業を監督する」であり、mentionが「最高裁」である場合は、オリジナルテキストから地名、即ちmentionの属する言葉「中華人民共和国」を見つけて、「中華人民共和国」と「最高裁」とを組み合わせて仮実体言及「中華人民共和国最高裁」を取得する。 If the type of entity reference is an administrative agency, a place name is searched from the original text, and the entity reference and the searched place name are combined to make a provisional entity reference. For example, using a naming entity recognition tool, an entity to which the mention belongs is found from the context of the mention, and a combination of these entities and the mention is used as a temporary entity reference. For example, the text is "The Supreme Court was established on October 22, 1949 and is the highest refereeing agency in the People's Republic of China and oversees the refereeing work of each level court and professional court" Is "Supreme Court", find the place name "People's Republic of China" to which the mention belongs from the original text, and combine the "People's Republic of China" and "Supreme Court" to refer to the provisional entity "People's Republic of China" Acquired the Supreme Court.
実体言及の類型が機関である場合は、パターンマッチングにより、オリジナルテキストから実体言及に対応するテキストを仮実体言及として抽出する。例えば、テキストが「Agricultural Bank of China (ABC), also known as AgBank or 農行, is one of the “Big Four” banks in the People's Republic of China」であり、mentionが「ABC」である場合は、パターンマッチングにより、オリジナルテキストから「Agricultural
Bank of China」を抽出し、「ABC」の代わりに「Agricultural
Bank of China」を直接使ってもよい、即ち「Agricultural Bank of China」を「ABC」の仮実体言及としてもよい。
If the type of entity reference is an institution, text corresponding to the entity reference is extracted from the original text as a temporary entity reference by pattern matching. For example, if the text is “Agricultural Bank of China (ABC), also known as AgBank or agriculture, is one of the“ Big Four ”banks in the People's Republic of China” and the mention is “ABC”, the pattern By matching, from the original text "Agricultural
"Bank of China" is extracted and "Agricultural" is substituted for "ABC"
“Bank of China” may be used directly, that is, “Agricultural Bank of China” may be used as a temporary entity reference of “ABC”.
以下の方式により仮実体言及を決定してもよい。実体言及が略語である場合は、パターンマッチングにより、オリジナルテキストから実体言及に対応するテキストを仮実体言及として抽出してもよい。例えば、テキストが「Michael Jordan (MJ) has been the best basketball player, but MJ is
now too old」であり、実体言及(mention)が「MJ」である場合は、パターンマッチングにより、オリジナルテキストから「Michael Jordan」を抽出して、「Michael Jordan」を「MJ」の仮実体言及としてもよい。
The provisional entity reference may be determined by the following method. If the entity reference is an abbreviation, the text corresponding to the entity reference may be extracted from the original text as a temporary entity reference by pattern matching. For example, if the text is `` Michael Jordan (MJ) has been the best basketball player, but MJ is
If it is "now too old" and the entity mention is "MJ", "Michael Jordan" is extracted from the original text by pattern matching, and "Michael Jordan" is used as a temporary entity reference for "MJ" Also good.
実体言及が略語ではない場合は、上記の仮実体言及の決定方法と同様に、実体言及の類型に基づいて仮実体言及を決定してもよい。例えば、実体類型本体に基づいて実体言及の類型を認識し、実体言及の類型が人である場合は、共参照解析によりオリジナルテキストから実体言及を拡張した他の表現を仮実体言及として抽出し、実体言及の類型が行政官庁である場合は、オリジナルテキストから地名を検索し、実体言及と検索された地名とを組み合わせて仮実体言及とする。その例は上記の仮実体言及の決定方法を参考してもよく、その説明はここに省略される。 When the entity reference is not an abbreviation, the temporary entity reference may be determined based on the type of the entity reference in the same manner as the method for determining the temporary entity reference. For example, if the type of entity reference is recognized based on the entity type body, and the type of entity reference is human, other expressions obtained by extending the entity reference from the original text by coreference analysis are extracted as temporary entity references, If the type of entity reference is an administrative agency, a place name is searched from the original text, and the entity reference and the searched place name are combined to make a provisional entity reference. The example may refer to the method for determining the provisional entity reference, and the description thereof is omitted here.
ステップS101において潜在的リンク実体を取得した後、ステップS102を実行する。 After acquiring the potential link entity in step S101, step S102 is executed.
ステップS102において、実体の類型に基づいて潜在的リンク実体を選別し、実体の類型が所定の条件を満たしていない潜在的リンク実体を除去する。所定の条件は、実体言及の類型と同じであってもよいし、ユーザにより予め設定された実体類型と同じであってもよい。例えば、ユーザは実体言及「MJ」のリンク実体の類型が会社であると予め設定すると、例えば見つけられた潜在的リンク実体「Michael Jordan」が排除される。ここで、実体類型の決定方法は後のステップS101の詳細説明において述べる。 In step S102, a potential link entity is selected based on the type of entity, and a potential link entity whose entity type does not satisfy a predetermined condition is removed. The predetermined condition may be the same as the entity reference type, or may be the same as the entity type preset by the user. For example, if the user presets that the type of the link entity of the entity reference “MJ” is a company, for example, the found potential link entity “Michael Jordan” is excluded. Here, the entity type determination method will be described later in the detailed description of step S101.
ステップS103において、実体言及の所在するオリジナルテキストを拡張して、実体言及に対応する第1のテキストを取得し、第1のテキストと潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する。例えば、実体言及「恒大」のオリジナルテキスト「恒大が勝った」について、第1のテキストである「広州恒大サッカークラブチームが中国サッカープレミアムリーグの第2位を獲得した」と拡張することができる。 In step S103, the original text where the entity reference is located is expanded to obtain the first text corresponding to the entity reference, and the text similarity between the first text and the second text corresponding to the potential link entity Is calculated. For example, the original text “Hongdae won” of the entity reference “Hengdai” will be expanded to the first text “Guangzhou Hengdao football club team has won the second place in the China Football Premium League” Can do.
ここで、オリジナルテキストの拡張方法は、以下の方法を含んでもよいが、それに限定されない。実体言及の周囲の所定の長さLの範囲内のテキストを選択して、該テキストを単語に分割し、各単語と実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとし、n個の単語及び実体言及により語句(コーパス)ライブラリを検索して、実体言及及びn個のキーワードを含むテキストセグメントを取得し、テキストセグメントと実体言及の所在するオリジナルテキストとを組み合わせることで第1のテキストを取得する。 Here, the original text expansion method may include the following methods, but is not limited thereto. Select text within a predetermined length L around the entity reference, divide the text into words, calculate the degree of association between each word and the entity reference, and n words with the highest degree of association And search the word library (corpus) by n words and entity references to obtain a text segment containing the entity references and n keywords, and combine the text segment with the original text where the entity reference is located. To obtain the first text.
なお、関連度の算出は以下の式により求められてもよいが、これに限定されない。
ここで、xは実体言及を表し、yは分割された単語を表し、NGD(x,y)はxとyとの関連度を表し、Mは検索して取得された潜在的リンク実体の総数を表し、f(x)はxが潜在的リンク実体で現れる回数を表し、f(y)はyが潜在的リンク実体で現れる回数を表し、f(x,y)はx及びyが潜在的リンク実体で同時に現れる回数を表す。 Here, x represents an entity reference, y represents a divided word, NGD (x, y) represents the degree of association between x and y, and M represents the total number of potential link entities obtained by searching. F (x) represents the number of times x appears in the potential link entity, f (y) represents the number of times y appears in the potential link entity, and f (x, y) represents the potential of x and y Represents the number of times a link entity appears simultaneously
関連度の算出は他の方式で実現されてもよく、例えば分割された各単語及び実体言及が潜在的リンク実体で同時に現れる頻度に基づいて、分割された各単語と実体言及との関連度を直接に決定してもよい。 The calculation of the degree of association may be realized in other ways, for example, by determining the degree of association between each divided word and the entity reference based on the frequency with which each divided word and entity reference appears simultaneously in the potential link entity. It may be determined directly.
なお、n個のキーワード及び実体言及により語句ライブラリを検索して得られた実体言及及びn個のキーワードを含むテキストセグメントは唯一ではない場合があり、この場合は、生成時間に基づいて複数のテキストセグメントを選別してもよい。例えば、得られたテキストセグメントがm個がある場合は、オリジナルテキスト時間との差がt以下のk個の検索結果を選択する。オリジナルテキストの生成時間がTであると仮定し、時間ウィンドウをtと設定すると、生成時間が[T-t,T+t]の検索結果を選択する。例えば、実体言及が「ジェームズ」であり、得られたキーワードが「NBA」及び「ファイナル」であり、オリジナルテキストの生成時間T=「2013年6月18日」である場合は、t=10日と仮定すると、生成時間が「2013年6月8日」から「2013年6月28日」の検索されたテキストセグメントを選択してもよい。 Note that the text segment including the entity reference and the n keywords obtained by searching the phrase library by n keywords and the entity reference may not be unique. In this case, a plurality of texts are generated based on the generation time. Segments may be sorted out. For example, when there are m obtained text segments, k search results whose difference from the original text time is t or less are selected. Assuming that the generation time of the original text is T and setting the time window to t, the search result with the generation time [T−t, T + t] is selected. For example, if the entity reference is “James”, the obtained keywords are “NBA” and “Final”, and the original text generation time T = “June 18, 2013”, t = 10 days Assuming that, a searched text segment having a generation time of “June 8, 2013” to “June 28, 2013” may be selected.
時間に基づいて選別して取得されたテキストセグメントが依然として複数ある場合は、さらに選別してもよい。例えば、各テキストセグメント及びオリジナルテキストそれぞれについてベクトルを構築し、各テキストセグメントのベクトルとオリジナルテキストのベクトルとのコサイン距離を算出し、コサイン距離が閾値条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別してもよい。時間により選別して得られたテキストセグメントの数がkであると仮定すると、該k個の検索結果それぞれについて、ベクトルvi(i=1,2…k)を構築すると共に、オリジナルテキストについてベクトルvoを構築し、viとvoとのコサイン距離を算出し、コサイン距離が最も小さい上位w個の検索結果を選択する。好ましくは、wを1に設定してもよい。 If there are still a plurality of text segments obtained by sorting based on time, further sorting may be performed. For example, construct a vector for each text segment and each original text, calculate the cosine distance between each text segment vector and the original text vector, and obtain the text segment whose cosine distance satisfies the threshold condition Segments may be sorted out. Assuming that the number of text segments selected by time is k, for each of the k search results, construct a vector v i (i = 1,2,... K) and a vector for the original text. v o is constructed, the cosine distance between v i and v o is calculated, and the top w search results with the smallest cosine distance are selected. Preferably, w may be set to 1.
また、オリジナルテキストの拡張方式として、実体言及の周囲の一定の長さの範囲内のテキストを第1のテキストとしてもよく、該一定の長さは、例えば経験値であってもよい。 In addition, as an extension method of the original text, a text within a certain length around the entity reference may be the first text, and the certain length may be, for example, an experience value.
第1のテキストと第2のテキストとのテキスト類似度は、従来技術における各種の類似度算出方式により算出されてもよいが、本文に限定されない。 The text similarity between the first text and the second text may be calculated by various similarity calculation methods in the prior art, but is not limited to the text.
ステップS103において第1のテキストと第2のテキストとのテキスト類似度を算出した後、該類似度に基づいてステップS104を実行する。 After calculating the text similarity between the first text and the second text in step S103, step S104 is executed based on the similarity.
ステップS104において、第1のテキストと第2のテキストとのテキスト類似度に基づいて、潜在的リンク実体の一致度を決定する。 In step S104, the degree of coincidence of potential link entities is determined based on the text similarity between the first text and the second text.
ここで、第1のテキストと第2のテキストとのテキスト類似度に基づいて潜在的リンク実体の一致度を決定するステップは、テキスト類似度を直接に一致度とするステップ、又は予め設定されたテキスト類似度と一致度との関係、例えば比例係数に基づいて一致度を決定するステップを含んでもよい。 Here, the step of determining the matching degree of the potential link entity based on the text similarity between the first text and the second text is a step of directly setting the text similarity as the matching degree, or is set in advance A step of determining the degree of coincidence based on a relationship between the text similarity and the degree of coincidence, for example, a proportional coefficient, may be included.
一致度の決定は、上記のテキスト類似度と他の因子と組み合わせに基づいて決定してもよい。ここで、他の因子は、実体言及の文字列と潜在的リンク実体の実体名称の文字列との類似度、実体言及と潜在的リンク実体とのリンク付けの人気度、及び潜在的リンク実体と実体言及との相互参照の確率を含んでもよいが、これらに限定されない。また、他の因子を単独に用いてもよいし、相互に組み合わせて用いてもよい。 The degree of coincidence may be determined based on a combination of the text similarity and other factors. Here, other factors include the similarity between the character string of the entity reference and the character string of the entity name of the potential link entity, the popularity of the link between the entity reference and the potential link entity, and the potential link entity It may include, but is not limited to, the probability of cross-referencing with entity references. Other factors may be used alone or in combination with each other.
ここで、実体言及の文字列と潜在的リンク実体の実体名称の文字列との類似度は、従来技術における各種の類似度算出方法を用いてもよいが、本文は限定されない。 Here, the similarity between the character string of the entity reference and the character string of the entity name of the potential link entity may use various similarity calculation methods in the prior art, but the text is not limited.
実体言及と潜在的リンク実体とのリンク付けの人気度は、実体言及に基づいて検索された全ての潜在的リンク実体において、各潜在的リンク実体が現れる頻度を算出することで決定される。例えば、実体言及「OA」について、ネット知識ライブラリから100個のページが見つかり、潜在的リンク実体「Office
Action」と「office automation」とを含み、「office automation」が90個のページで現れ、「Office Action」が10個のページで現れる場合は、潜在的リンク実体である「Office Action」及び「office automation」のリンク付けの人気度それぞれは、例えば0.1及び0.9となる。なお、この例は説明するためのものであり、リンク付けの人気度の具体的な決定方法を限定しないものではない。
The popularity of linking entity references to potential link entities is determined by calculating the frequency at which each potential link entity appears in all potential link entities retrieved based on the entity reference. For example, for the entity reference “OA”, 100 pages are found from the net knowledge library and the potential link entity “Office” is found.
If "office automation" appears on 90 pages and "Office Action" appears on 10 pages, including "Action" and "office automation", the potential link entities "Office Action" and "office automation" The popularity of linking “automation” is 0.1 and 0.9, for example. This example is for explanation, and does not limit the specific method for determining the popularity of linking.
潜在的リンク実体と実体言及との相互参照の確率は、潜在的リンク実体の出所に基づいて決定されてもよい。例えば、出所が転送リンクである場合は、潜在的リンク実体に対応する相互参照の確率を第1の所定値、例えば1と決定し、出所が太字である場合は、潜在的リンク実体に対応する相互参照の確率を第2の所定値、例えば0.8と決定し、出所が曖昧さ回避ページである場合は、潜在的リンク実体に対応する相互参照の確率を1/kと決定し、kは曖昧な実体の総数である。 The probability of cross-referencing between a potential link entity and an entity reference may be determined based on the source of the potential link entity. For example, if the source is a forward link, the cross reference probability corresponding to the potential link entity is determined to be a first predetermined value, for example 1, and if the source is bold, it corresponds to the potential link entity. If the cross reference probability is determined to be a second predetermined value, for example 0.8, and the source is an ambiguity avoidance page, the cross reference probability corresponding to the potential link entity is determined to be 1 / k, and k Is the total number of ambiguous entities.
好ましくは、潜在的リンク実体と実体言及との相互参照の確率は、潜在的リンク実体を取得する処理において直接に設定され、後続の処理においてこの予め設定された相互参照の確率を直接に用いてもよい。 Preferably, the cross-reference probability between the potential link entity and the entity reference is set directly in the process of obtaining the potential link entity, and the preset cross-reference probability is directly used in the subsequent process. Also good.
上述したように、一致度の決定は複数の因子に基づいて決定されてもよい。例えば、テキスト類似度をContextSimilarity(mention,entity)と表し、実体言及の文字列と潜在的リンク実体の実体名称の文字列との類似度をLexicalSimilarity(mention,entity)と表し、実体言及と潜在的リンク実体とのリンク付けの人気度をPopularProbability(mention,entity)と表し、潜在的リンク実体と実体言及との相互参照の確率をp(m,e)と表し、実体言及と潜在的リンク実体との最終の一致度をFinalScore(m,
e)と表すと、下記の式によりFinalScore(m, e)を算出する。ここで、mは実体言及(mention)を表し、eは実体(entity)を表す。
When expressed as e), FinalScore (m, e) is calculated by the following equation. Here, m represents an entity mention, and e represents an entity.
ここで、α、β及びγそれぞれは重み係数であり、その値が訓練サンプルにより推定されてもよい。好ましくは、異なる類型の実体言及の特性が異なるため、実体言及の異なる類型についてα、β及びγを単独に推定してもよい、即ち、実体言及の異なる類型(例えば上記の人、機関及び官庁)に応じて異なる訓練サンプルを構築し、訓練して異なる重みα、β及びγを取得してもよい。 Here, α, β, and γ are weighting factors, and their values may be estimated by training samples. Preferably, because the characteristics of different types of entity references are different, α, β and γ may be estimated independently for different types of entity references, ie different types of entity references (eg, the above mentioned human, institution and government offices). ) Different training samples may be constructed and trained to obtain different weights α, β and γ.
ステップS105において、一致度が所定の条件を満たしている潜在的リンク実体が存在するか否かを決定し、存在すると決定された場合は、ステップS106を実行し、そうでない場合は、ステップS107を実行する。所定の条件は、例えば閾値であり、即ち一致度が閾値以上の潜在的リンク実体は所定の条件を満たしている潜在的リンク実体とされる。好ましくは、異なる類型の実体言及は異なる所定の条件、例えば異なる一致度の閾値を有してもよい。 In step S105, it is determined whether or not there is a potential link entity having a matching degree satisfying a predetermined condition. If it is determined that there exists, step S106 is executed, and if not, step S107 is executed. Run. The predetermined condition is, for example, a threshold, that is, a potential link entity having a matching degree equal to or higher than the threshold is a potential link entity that satisfies the predetermined condition. Preferably, different types of entity references may have different predetermined conditions, such as different thresholds of coincidence.
ステップS106において、実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付ける。 In step S106, a link to a potential link entity having a matching degree that satisfies a predetermined condition is attached to the entity reference.
ステップS107において、実体言及に対応する全ての潜在的リンク実体を知識ライブラリに記憶する。所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、現在の知識ライブラリに実体言及に対応する実体が存在しないと見なされ、該実体言及に対応する全ての潜在的リンク実体をデータベースに記憶してもよい。該知識ライブラリは、上記のステップS101に説明されている各種の知識ライブラリであってもよい。なお、所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、他の処理を実行してもよい。例えば潜在的リンク実体が存在しない旨を示す提示メッセージをフィードバックしてもよく、該提示メッセージは文字又は音声の形であってもよい。 In step S107, all potential link entities corresponding to entity references are stored in the knowledge library. If there is no potential link entity with the matching degree that satisfies the predetermined condition, it is considered that there is no entity corresponding to the entity reference in the current knowledge library, and all the potential links corresponding to the entity reference The entity may be stored in a database. The knowledge library may be various knowledge libraries described in step S101. If there is no potential link entity having a matching degree that satisfies a predetermined condition, another process may be executed. For example, a presentation message indicating that there is no potential link entity may be fed back, and the presentation message may be in the form of text or speech.
本発明の実施形態によれば、実体言及の所在するオリジナルテキストを拡張し、拡張されたテキストにより潜在的リンク実体を選別することで、リンク実体の正確性を向上できる。 According to the embodiment of the present invention, the accuracy of a link entity can be improved by expanding the original text where the entity reference is located and selecting the potential link entity based on the expanded text.
上記の方法の技術案と同様な技術的思想に基づいて、本発明は実体のリンク付け装置をさらに提供する。図4に示すように、実体のリンク付け装置は、実体言及(mention)の潜在的リンク実体を取得する取得部41と、実体言及の所在するオリジナルテキストを拡張して実体言及に対応する第1のテキストを取得し、第1のテキストと潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理部42と、テキスト類似度に基づいて、潜在的リンク実体と実体言及との一致度を算出するマッチング処理部43と、実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け部44と、を含む。
Based on the same technical idea as the above technical solution, the present invention further provides an entity linking device. As shown in FIG. 4, the entity linking device includes an
実体のリンク付け装置は、拡張処理部42が処理を実行する前に、実体の類型に基づいて潜在的リンク実体を選別し、実体の類型が所定の条件を満たしていない潜在的リンク実体を除去する選別部45、をさらに含んでもよい。
The entity linking device sorts out potential link entities based on the entity types before the
実体のリンク付け装置は、一致度が所定の条件を満たしている潜在的リンク実体が存在するか否かを決定する判断部46と、所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、該実体言及及びその全ての潜在的リンク実体を知識ライブラリに記憶する記憶部47と、をさらに含んでもよい。
The entity linking apparatus includes a
上記の方法の技術案に対応するように、取得部41は上記のステップS101の処理を実行し、その具体的な処理について上記ステップS101を参照することができ、その説明はここに省略される。同様に、選別部45は上記ステップS102の処理を実行し、拡張処理部42は上記ステップS103の処理を実行し、マッチング処理部43は上記ステップS104の処理を実行し、判断部46は上記ステップS105の処理を実行し、リンク付け部44は上記ステップS106の処理を実行し、記憶部47は上記ステップS107の処理を実行する。
In order to correspond to the technical proposal of the above method, the
以下は、図5を参照しながら本発明を実施するためのデータ処理機器のコンピュータの例示的な構成を説明する。図5は、本発明を実施するためのコンピュータ装置の例示的な構成を示すブロック図である。 The following describes an exemplary configuration of a computer of a data processing device for carrying out the present invention with reference to FIG. FIG. 5 is a block diagram showing an exemplary configuration of a computer apparatus for carrying out the present invention.
なお、上記コンピュータにおける各構成要件、ユニットはソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせにより実現されてもよい。ソフトウェア又はファームウェアにより実施されている場合、記録媒体又はネットワークから専用のハードウェア構成を有するコンピュータ(例えば図5示されている汎用コンピュータ1100)に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
Each component and unit in the computer may be realized by software, firmware, hardware, or a combination thereof. When implemented by software or firmware, a program constituting the software for performing the above method is installed from a recording medium or a network to a computer having a dedicated hardware configuration (for example, the general-
図5において、中央処理部(即ちCPU)1101は、読み出し専用メモリ(ROM)1102に記憶されているプログラム、又は記憶部1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムにより各種の処理を実行する。RAM1103には、必要に応じて、CPU1101が各種の処理を実行するに必要なデータが記憶されている。CPU1101、ROM1102、及びRAM1103は、バス1104を介して互いに接続されている。入力/出力インターフェース1105もバス1104に接続されている。
In FIG. 5, a central processing unit (ie, CPU) 1101 performs various processes by a program stored in a read-only memory (ROM) 1102 or a program loaded from a
入力部1106(キーボード、マウスなどを含む)、出力部1107(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部1108(例えばハードディスクなどを含む)、通信部1109(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース1105に接続されている。通信部1109は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部1110は、入力/出力インターフェース1105に接続されてもよい。取り外し可能な媒体1111は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部1110にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部1108にインストールされている。
Input unit 1106 (including a keyboard, mouse, etc.), output unit 1107 (display, including a cathode ray tube (CRT), liquid crystal display (LCD), etc., speaker, etc.), storage unit 1108 (including a hard disk, etc.), communication The unit 1109 (for example, including a network interface card such as a LAN card or a modem) is connected to the input /
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1111を介してソフトウェアを構成するプログラムをインストールする。
When the above processing is performed by software, a program constituting the software is installed via a network, for example, the Internet, or a storage medium, for example, a
また、これらの記憶媒体は、図5に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体1111に限定されない。取り外し可能な媒体1111は、例えば磁気ディスク(フロッピー(登録商標)ディスクを含む)、光ディスク(光ディスク−読み出し専用メモリ(CDROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM1102、記憶部1108に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
Further, these storage media are not limited to the
本発明は、機器に読み取り可能な指令コードを記憶するプログラムプロダクトをさらに提供する。該指令コードは機器により読み出されて、上述した本発明の実施例に係る方法を実行できる。 The present invention further provides a program product for storing a command code readable by a device. The command code is read by the device, and the method according to the embodiment of the present invention described above can be executed.
それに応じて、本発明は、機器読み取り可能な指令コードを記憶するプログラムのプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックを含むが、これらに限定されない。 Accordingly, the present invention further includes a storage medium in which a product of a program that stores a device-readable command code is recorded. The storage medium includes, but is not limited to, a floppy disk, an optical disk, a magneto-optical disk, a memory card, and a memory stick.
なお、本文に使用される用語は、具体的な実施形態を説明するためのものであり、本発明を限定するものではない。本文に使用される単数形の「1つ」及び「該(the)」は、文脈により異なる意味を明確に指す場合を除いて、複数形をさらに含むことを意味する。なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。 The terms used in the text are for describing specific embodiments and do not limit the present invention. As used herein, the singular forms “a” and “the” are intended to include the plural forms unless the context clearly indicates otherwise. As used herein, the term “inclusive / include” means the presence of a feature, element, step or component, and the presence or absence of one or more other features, elements, steps or components. It does not exclude the addition.
クレームにおける、対応する構造、材料、動作及び「装置又はステッププラス機能」により定義されている要素の全ての均等物は、他の保護される要素と組み合わせて機能を実行する任意の構造、材料又は動作を含むことを意味する。本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び同等的なものが含まれる。 All equivalents of the elements defined by the corresponding structure, material, operation and “apparatus or step plus function” in the claims are intended to be any structure, material or function that performs the function in combination with other protected elements. It means to include an action. Certain embodiments of the present invention are disclosed in detail and illustrate the manner in which the principles of the present invention can be employed, as illustrated in the following description and drawings. The embodiment of the present invention is not limited in scope. The embodiments of the present invention include various alterations, modifications, and equivalents within the scope and spirit of the appended claims.
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。 Moreover, the following additional remarks are disclosed regarding the embodiment including each of the above-described examples.
(付記1)
実体言及(mention)の潜在的リンク実体を取得するステップと、
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、
前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップと、
前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む、実体のリンク付け方法。
(Appendix 1)
Obtaining a potential link entity for an entity mention;
The original text where the entity reference is located is expanded to obtain a first text corresponding to the entity reference, and the text similarity between the first text and the second text corresponding to the potential link entity is obtained. A calculating step;
Calculating a degree of coincidence between the potential link entity and the entity reference based on the text similarity;
Attaching the entity reference to a link to a potential link entity having a matching degree that satisfies a predetermined condition.
(付記2)
前記潜在的リンク実体と前記実体言及との一致度を算出する前に、
前記実体言及の類型又は予め設定された類型と一致しない潜在的リンク実体を除去する、付記1に記載の実体のリンク付け方法。
(Appendix 2)
Before calculating the degree of agreement between the potential link entity and the entity reference,
2. The entity linking method according to appendix 1, wherein a potential link entity that does not match the entity reference type or a preset type is removed.
(付記3)
実体類型本体に基づいて、前記本体言及の類型を認識するステップ、をさらに含む、付記2に記載の実体のリンク付け方法。
(Appendix 3)
The entity linking method according to claim 2, further comprising the step of recognizing a type of the body reference based on the entity type body.
(付記4)
前記実体言及の潜在的リンク実体を取得するステップは、
知識ライブラリから前記実体言及に対応する実体を検索して潜在的リンク実体とするステップ、及び/又は
前記実体言及の所在するテキストから、前記実体言及を含み、且つ前記知識ライブラリに存在する実体を潜在的リンク実体として取得するステップ、を含む、付記1に記載の実体のリンク付け方法。
(Appendix 4)
Obtaining a potential link entity for the entity reference;
Searching for an entity corresponding to the entity reference from a knowledge library to be a latent link entity, and / or, from a text where the entity reference is located, identifying an entity that includes the entity reference and exists in the knowledge library The entity linking method according to appendix 1, comprising the step of acquiring as a static link entity.
(付記5)
前記テキスト類似度に基づいて前記潜在的リンク実体と前記実体言及との一致度を算出するステップは、
前記実体言及の文字列と前記潜在的リンク実体の実体名称の文字列との類似度、前記実体言及と前記潜在的リンク実体とのリンク付けの人気度、及び前記潜在的リンク実体と前記実体言及との相互参照の確率のうち少なくとも1つ、並びに前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップ、を含む、付記1に記載の実体のリンク付け方法。
(Appendix 5)
Calculating the degree of coincidence between the potential link entity and the entity reference based on the text similarity;
Similarity between the character string of the entity reference and the character string of the entity name of the potential link entity, the popularity of the link between the entity reference and the potential link entity, and the potential link entity and the entity reference The entity link according to claim 1, further comprising: calculating a degree of coincidence between the potential link entity and the entity reference based on at least one of cross-probability probabilities with the text similarity. Attaching method.
(付記6)
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得するステップは、
前記実体言及の周囲の所定の長さの範囲内のテキストを選択して、該テキストを単語に分割するステップと、
各単語と前記実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとするステップと、
前記n個の単語及び前記実体言及により語句ライブラリを検索して、前記実体言及及びn個の前記キーワードを含むテキストセグメントを取得するステップと、
前記テキストセグメントと前記実体言及の所在するオリジナルテキストとを組み合わせることで前記第1のテキストを取得するステップと、を含む、付記5に記載の実体のリンク付け方法。
(Appendix 6)
Extending the original text in which the entity reference is located to obtain a first text corresponding to the entity reference;
Selecting text within a predetermined length around the entity reference and dividing the text into words;
Calculating the relevance between each word and the entity reference, and using the n words with the highest relevance as keywords,
Searching a phrase library by the n words and the entity reference to obtain a text segment including the entity reference and the n keywords;
The entity linking method according to claim 5, further comprising: obtaining the first text by combining the text segment and the original text where the entity reference is located.
(付記7)
複数の前記テキストセグメントが取得された場合は、生成時間が所定の条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別する、付記6に記載の実体のリンク付け方法。
(Appendix 7)
The entity linking method according to appendix 6, wherein when a plurality of the text segments are acquired, the text segments are selected so as to acquire a text segment whose generation time satisfies a predetermined condition.
(付記8)
選別して取得されたテキストセグメントが2つ以上ある場合は、各テキストセグメント及び前記オリジナルテキストそれぞれについてベクトルを構築し、各テキストセグメントのベクトルと前記オリジナルテキストのベクトルとのコサイン距離を算出し、コサイン距離が閾値条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別する、付記7に記載の実体のリンク付け方法。
(Appendix 8)
If there are two or more text segments obtained by sorting, a vector is constructed for each text segment and the original text, and a cosine distance between each text segment vector and the original text vector is calculated. The entity linking method according to appendix 7, wherein the text segment is selected so that the text segment whose distance satisfies the threshold condition is acquired.
(付記9)
前記潜在的リンク実体と前記実体言及との相互参照の確率を算出する際に、
知識ライブラリにおける前記潜在的リンク実体の出所を取得し、前記出所に基づいて前記潜在的リンク実体に対応する相互参照の確率を決定する、付記5に記載の実体のリンク付け方法。
(Appendix 9)
In calculating the cross-reference probability between the potential link entity and the entity reference,
6. The entity linking method according to appendix 5, wherein the source of the potential link entity in a knowledge library is acquired, and the probability of cross-reference corresponding to the potential link entity is determined based on the source.
(付記10)
前記出所に基づいて前記潜在的リンク実体に対応する相互参照の確率を決定するステップは、
前記出所が転送リンクである場合は、前記潜在的リンク実体に対応する相互参照の確率を第1の所定値と決定するステップと、
前記出所が太字である場合は、前記潜在的リンク実体に対応する相互参照の確率を第2の所定値と決定するステップと、
前記出所が曖昧さ回避ページである場合は、前記潜在的リンク実体に対応する相互参照の確率を1/kと決定するステップであって、kは曖昧な実体の総数である、ステップと、を含む、付記9に記載の実体のリンク付け方法。
(Appendix 10)
Determining the probability of a cross-reference corresponding to the potential link entity based on the source;
If the source is a forwarding link, determining a cross-reference probability corresponding to the potential link entity as a first predetermined value;
If the source is bold, determining a cross-reference probability corresponding to the potential link entity as a second predetermined value;
If the source is an ambiguity avoidance page, determining the probability of a cross reference corresponding to the potential link entity as 1 / k, where k is the total number of ambiguous entities The entity linking method according to appendix 9, including:
(付記11)
前記実体言及の潜在的リンク実体を取得するステップは、
前記実体言及を拡張して仮実体言及を取得し、前記仮実体言及に基づいて前記潜在的リンク実体を取得するステップ、を含む、付記1に記載の実体のリンク付け方法。
(Appendix 11)
Obtaining a potential link entity for the entity reference;
The entity linking method according to claim 1, further comprising the step of expanding the entity reference to obtain a temporary entity reference and obtaining the potential link entity based on the temporary entity reference.
(付記12)
前記実体言及を拡張して仮実体言及を取得するステップは、
前記実体言及が略語である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップ、を含む、付記11に記載の実体のリンク付け方法。
(Appendix 12)
Extending the entity reference to obtain a provisional entity reference comprises:
12. The entity linking method according to appendix 11, including a step of extracting text corresponding to the entity reference from the original text as the temporary entity reference by pattern matching when the entity reference is an abbreviation.
(付記13)
前記実体言及を拡張して仮実体言及を取得するステップは、
前記実体言及の類型に基づいて、前記実体言及を拡張して前記仮実体言及を取得するステップ、を含む、付記11に記載の実体のリンク付け方法。
(Appendix 13)
Extending the entity reference to obtain a provisional entity reference comprises:
The entity linking method according to claim 11, further comprising: expanding the entity reference to obtain the temporary entity reference based on the type of the entity reference.
(付記14)
前記実体言及の類型に基づいて前記実体言及を拡張して前記仮実体言及を取得するステップは、
前記実体言及の類型が人である場合は、共参照解析(coreference resolution)により、前記オリジナルテキストから、前記実体言及を拡張した他の表現を前記仮実体言及として抽出するステップと、
前記実体言及の類型が行政官庁である場合は、前記オリジナルテキストから地名を検索し、前記実体言及と検索された地名とを組み合わせて前記仮実体言及とするステップと、
前記実体言及の類型が機関である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップと、を含む、付記13に記載の実体のリンク付け方法。
(Appendix 14)
Extending the entity reference based on the entity reference type to obtain the temporary entity reference comprises:
If the type of the entity reference is human, extracting from the original text another representation as an extension of the entity reference as the provisional entity reference by coreference resolution;
If the type of the entity reference is an administrative agency, a step of searching for a place name from the original text and combining the entity reference with the searched place name to form the temporary entity reference;
If the type of the entity reference is an institution, the step of extracting the text corresponding to the entity reference as the temporary entity reference from the original text by pattern matching is included. Method.
(付記15)
実体類型本体に基づいて前記実体言及の類型を認識する、付記14に記載の実体のリンク付け方法。
(Appendix 15)
15. The entity linking method according to appendix 14, wherein the entity reference type is recognized based on the entity type main body.
(付記16)
所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、前記実体言及の全ての潜在的リンク実体を対応するデータベースに記憶する、付記1に記載の実体のリンク付け方法。
(Appendix 16)
The entity linking method according to appendix 1, wherein when there is no potential link entity having a matching degree that satisfies a predetermined condition, all potential link entities of the entity reference are stored in a corresponding database.
(付記17)
実体言及(mention)の潜在的リンク実体を取得する取得手段と、
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理手段と、
前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するマッチング処理手段と、
前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け手段と、を含む、実体のリンク付け装置。
(Appendix 17)
An acquisition means for acquiring a potential link entity of an entity mention;
The original text where the entity reference is located is expanded to obtain a first text corresponding to the entity reference, and the text similarity between the first text and the second text corresponding to the potential link entity is obtained. Extended processing means to calculate,
Matching processing means for calculating a degree of coincidence between the potential link entity and the entity reference based on the text similarity;
An entity linking apparatus comprising: linking means for linking the entity reference with a link to a potential link entity having a matching degree satisfying a predetermined condition.
(付記18)
前記拡張処理手段は、
前記実体言及の周囲の所定の長さの範囲内のテキストを選択して、該テキストを単語に分割し、
各単語と前記実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとし、
前記n個の単語及び前記実体言及により語句ライブラリを検索して、前記実体言及及びn個の前記キーワードを含むテキストセグメントを取得し、
前記テキストセグメントと前記実体言及の所在するオリジナルテキストとを組み合わせることで前記第1のテキストを取得する、付記17に記載の実体のリンク付け装置。
(Appendix 18)
The expansion processing means includes
Selecting text within a predetermined length around the entity reference and dividing the text into words;
The degree of association between each word and the entity reference is calculated, and the n words having the highest degree of association are used as keywords,
Searching a phrase library by the n words and the entity reference to obtain a text segment including the entity reference and the n keywords;
18. The entity linking device according to appendix 17, wherein the first text is obtained by combining the text segment and the original text where the entity reference is located.
(付記19)
前記取得手段は、前記実体言及を拡張して仮実体言及を取得し、前記仮実体言及に基づいて前記潜在的リンク実体を取得する、付記17に記載の実体のリンク付け装置。
(Appendix 19)
18. The entity linking device according to appendix 17, wherein the acquisition unit expands the entity reference to acquire a temporary entity reference, and acquires the potential link entity based on the temporary entity reference.
(付記20)
前記取得手段は、前記実体言及の類型に基づいて、前記実体言及を拡張して前記仮実体言及を取得する、付記19に記載の実体のリンク付け装置。
(Appendix 20)
20. The entity linking apparatus according to appendix 19, wherein the acquisition unit acquires the temporary entity reference by expanding the entity reference based on the type of the entity reference.
Claims (10)
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、
前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップと、
前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む、実体のリンク付け方法。 Obtaining a potential link entity for an entity mention;
The original text where the entity reference is located is expanded to obtain a first text corresponding to the entity reference, and the text similarity between the first text and the second text corresponding to the potential link entity is obtained. A calculating step;
Calculating a degree of coincidence between the potential link entity and the entity reference based on the text similarity;
Attaching the entity reference to a link to a potential link entity having a matching degree that satisfies a predetermined condition.
前記実体言及の文字列と前記潜在的リンク実体の実体名称の文字列との類似度、前記実体言及と前記潜在的リンク実体とのリンク付けの人気度、及び前記潜在的リンク実体と前記実体言及との相互参照の確率のうち少なくとも1つ、並びに前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップ、を含む、請求項1に記載の実体のリンク付け方法。 Calculating the degree of coincidence between the potential link entity and the entity reference based on the text similarity;
Similarity between the character string of the entity reference and the character string of the entity name of the potential link entity, the popularity of the link between the entity reference and the potential link entity, and the potential link entity and the entity reference Calculating the degree of coincidence between the potential link entity and the entity reference based on at least one of the cross-reference probabilities and the text similarity. Linking method.
前記実体言及の周囲の所定の長さの範囲内のテキストを選択して、該テキストを単語に分割するステップと、
各単語と前記実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとするステップと、
前記n個のキーワード及び前記実体言及により語句ライブラリを検索して、前記実体言及及び前記n個のキーワードを含むテキストセグメントを取得するステップと、
前記テキストセグメントと前記実体言及の所在するオリジナルテキストとを組み合わせることで前記第1のテキストを取得するステップと、を含む、請求項1に記載の実体のリンク付け方法。 Extending the original text in which the entity reference is located to obtain a first text corresponding to the entity reference;
Selecting text within a predetermined length around the entity reference and dividing the text into words;
Calculating the relevance between each word and the entity reference, and using the n words with the highest relevance as keywords,
Searching a phrase library by the n keywords and the entity reference to obtain a text segment including the entity reference and the n keywords;
The entity linking method according to claim 1, further comprising: obtaining the first text by combining the text segment and the original text where the entity reference is located.
前記実体言及を拡張して仮実体言及を取得し、前記仮実体言及に基づいて前記潜在的リンク実体を取得するステップ、を含む、請求項1に記載の実体のリンク付け方法。 Obtaining a potential link entity for the entity reference;
The entity linking method according to claim 1, further comprising: expanding the entity reference to obtain a temporary entity reference, and obtaining the potential link entity based on the temporary entity reference.
前記実体言及が略語である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップ、を含む、請求項6に記載の実体のリンク付け方法。 Extending the entity reference to obtain a provisional entity reference comprises:
The entity linking method according to claim 6, further comprising: extracting a text corresponding to the entity reference from the original text as the temporary entity reference by pattern matching when the entity reference is an abbreviation.
前記実体言及の類型に基づいて、前記実体言及を拡張して前記仮実体言及を取得するステップ、を含む、請求項6に記載の実体のリンク付け方法。 Extending the entity reference to obtain a provisional entity reference comprises:
The entity linking method according to claim 6, further comprising the step of expanding the entity reference to obtain the temporary entity reference based on the type of the entity reference.
前記実体言及の類型が人である場合は、共参照解析(coreference resolution)により、前記オリジナルテキストから、前記実体言及を拡張した他の表現を前記仮実体言及として抽出するステップと、
前記実体言及の類型が行政官庁である場合は、前記オリジナルテキストから地名を検索し、前記実体言及と検索された地名とを組み合わせて前記仮実体言及とするステップと、
前記実体言及の類型が機関である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップと、を含む、請求項8に記載の実体のリンク付け方法。 Extending the entity reference based on the entity reference type to obtain the temporary entity reference comprises:
If the type of the entity reference is human, extracting from the original text another representation as an extension of the entity reference as the provisional entity reference by coreference resolution;
If the type of the entity reference is an administrative agency, a step of searching for a place name from the original text and combining the entity reference with the searched place name to form the temporary entity reference;
The entity link according to claim 8, further comprising: extracting a text corresponding to the entity reference from the original text as the temporary entity reference by pattern matching when the type of the entity reference is an institution. Attaching method.
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理手段と、
前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するマッチング処理手段と、
前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け手段と、を含む、実体のリンク付け装置。 An acquisition means for acquiring a potential link entity of an entity mention;
The original text where the entity reference is located is expanded to obtain a first text corresponding to the entity reference, and the text similarity between the first text and the second text corresponding to the potential link entity is obtained. Extended processing means to calculate,
Matching processing means for calculating a degree of coincidence between the potential link entity and the entity reference based on the text similarity;
An entity linking apparatus comprising: linking means for linking the entity reference with a link to a potential link entity having a matching degree satisfying a predetermined condition.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201310432213.7 | 2013-09-22 | ||
| CN201310432213.7A CN104462126B (en) | 2013-09-22 | 2013-09-22 | A kind of entity link method and device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015062117A true JP2015062117A (en) | 2015-04-02 |
| JP6398510B2 JP6398510B2 (en) | 2018-10-03 |
Family
ID=52821433
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014188486A Expired - Fee Related JP6398510B2 (en) | 2013-09-22 | 2014-09-17 | Entity linking method and entity linking apparatus |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP6398510B2 (en) |
| CN (1) | CN104462126B (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107402933A (en) * | 2016-05-20 | 2017-11-28 | 富士通株式会社 | Entity polyphone disambiguation method and entity polyphone disambiguation equipment |
| CN110569496A (en) * | 2018-06-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | Entity linking method, device and storage medium |
| CN110941724A (en) * | 2019-11-28 | 2020-03-31 | 北京奇艺世纪科技有限公司 | Entity linking method and device, electronic equipment and computer readable storage medium |
| CN112214572A (en) * | 2020-10-20 | 2021-01-12 | 济南浪潮高新科技投资发展有限公司 | Method for secondarily extracting entities in resume analysis |
| CN113535883A (en) * | 2021-07-16 | 2021-10-22 | 携程旅游信息技术(上海)有限公司 | Business premises entity linking method, system, electronic device and storage medium |
| CN113850084A (en) * | 2021-08-24 | 2021-12-28 | 北京百度网讯科技有限公司 | Entity linking method and device, electronic equipment and storage medium |
| CN116562303A (en) * | 2023-07-04 | 2023-08-08 | 之江实验室 | A reference resolution method and device referring to external knowledge |
Families Citing this family (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106294313A (en) * | 2015-06-26 | 2017-01-04 | 微软技术许可有限责任公司 | Study embeds for entity and the word of entity disambiguation |
| CN105045826A (en) * | 2015-06-29 | 2015-11-11 | 华东师范大学 | Entity linkage algorithm based on graph model |
| CN106326300A (en) * | 2015-07-02 | 2017-01-11 | 富士通株式会社 | Information processing method and information processing device |
| CN106940702A (en) * | 2016-01-05 | 2017-07-11 | 富士通株式会社 | Entity refers to the method and apparatus with entity in semantic knowledge-base in connection short text |
| CN107133237A (en) * | 2016-02-29 | 2017-09-05 | 富士通株式会社 | Image link method and image chained device |
| CN106202382B (en) * | 2016-07-08 | 2019-06-14 | 南京柯基数据科技有限公司 | Link instance method and system |
| CN106469188A (en) * | 2016-08-30 | 2017-03-01 | 北京奇艺世纪科技有限公司 | A kind of entity disambiguation method and device |
| CN106570132B (en) * | 2016-10-27 | 2020-01-14 | 浙江大学 | Document vector learning method integrating mention entity information |
| CN108170662A (en) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | The disambiguation method of breviaty word and disambiguation equipment |
| CN106909655B (en) * | 2017-02-27 | 2019-03-26 | 中国科学院电子学研究所 | The knowledge mapping entity discovery excavated based on production alias and link method |
| CN108363688B (en) * | 2018-02-01 | 2020-04-28 | 浙江大学 | Named entity linking method fusing prior information |
| CN108491375B (en) * | 2018-03-02 | 2022-04-12 | 复旦大学 | Entity recognition and linking system and method based on CN-DBpedia |
| CN108959258B (en) * | 2018-07-02 | 2021-06-18 | 昆明理工大学 | A Domain-Specific Integrated Entity Linking Method Based on Representation Learning |
| CN109165297B (en) * | 2018-08-10 | 2021-12-24 | 新华智云科技有限公司 | Universal entity linking device and method |
| CN111428507B (en) * | 2020-06-09 | 2020-09-11 | 北京百度网讯科技有限公司 | The entity chain refers to the method, apparatus, equipment and storage medium |
| CN112287071A (en) * | 2020-11-16 | 2021-01-29 | 支付宝(杭州)信息技术有限公司 | Text relation extraction method and device and electronic equipment |
| CN113282703B (en) * | 2021-04-01 | 2022-05-06 | 中科雨辰科技有限公司 | Method and device for constructing event associated map of news data |
| CN113743104B (en) * | 2021-08-31 | 2024-04-16 | 合肥智能语音创新发展有限公司 | Entity linking method, related device, electronic equipment and storage medium |
| US11467716B1 (en) | 2022-01-28 | 2022-10-11 | Microsoft Technology Licensing, Llc | Flexibly identifying and playing media content from any webpage |
| CN116049440A (en) * | 2023-01-12 | 2023-05-02 | 北京字跳网络技术有限公司 | An entity linking method, device, electronic device, and computer-readable medium |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011013969A (en) * | 2009-07-02 | 2011-01-20 | Kddi Corp | Apparatus and method for supporting link creation, and program |
| US20120054221A1 (en) * | 2010-08-26 | 2012-03-01 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for generating issue libraries within a document corpus |
| JP2013186798A (en) * | 2012-03-09 | 2013-09-19 | Dainippon Printing Co Ltd | Link application device, link application method and program |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9135238B2 (en) * | 2006-03-31 | 2015-09-15 | Google Inc. | Disambiguation of named entities |
| US8594996B2 (en) * | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
-
2013
- 2013-09-22 CN CN201310432213.7A patent/CN104462126B/en not_active Expired - Fee Related
-
2014
- 2014-09-17 JP JP2014188486A patent/JP6398510B2/en not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011013969A (en) * | 2009-07-02 | 2011-01-20 | Kddi Corp | Apparatus and method for supporting link creation, and program |
| US20120054221A1 (en) * | 2010-08-26 | 2012-03-01 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for generating issue libraries within a document corpus |
| JP2013186798A (en) * | 2012-03-09 | 2013-09-19 | Dainippon Printing Co Ltd | Link application device, link application method and program |
Non-Patent Citations (1)
| Title |
|---|
| 山本 一晴,他: ""URLの類似性に着目したWWW空間からの関連語自動収集手法"", 電子情報通信学会 第18回データ工学ワークショップ論文集 [ONLINE], JPN6018019307, 1 June 2007 (2007-06-01), pages 3 - 4, ISSN: 0003803602 * |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107402933A (en) * | 2016-05-20 | 2017-11-28 | 富士通株式会社 | Entity polyphone disambiguation method and entity polyphone disambiguation equipment |
| CN110569496A (en) * | 2018-06-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | Entity linking method, device and storage medium |
| CN110569496B (en) * | 2018-06-06 | 2022-05-17 | 腾讯科技(深圳)有限公司 | Entity linking method, device and storage medium |
| CN110941724A (en) * | 2019-11-28 | 2020-03-31 | 北京奇艺世纪科技有限公司 | Entity linking method and device, electronic equipment and computer readable storage medium |
| CN112214572A (en) * | 2020-10-20 | 2021-01-12 | 济南浪潮高新科技投资发展有限公司 | Method for secondarily extracting entities in resume analysis |
| CN112214572B (en) * | 2020-10-20 | 2022-11-01 | 山东浪潮科学研究院有限公司 | Method for secondarily extracting entities in resume analysis |
| CN113535883A (en) * | 2021-07-16 | 2021-10-22 | 携程旅游信息技术(上海)有限公司 | Business premises entity linking method, system, electronic device and storage medium |
| CN113535883B (en) * | 2021-07-16 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | Commercial site entity linking method, system, electronic equipment and storage medium |
| CN113850084A (en) * | 2021-08-24 | 2021-12-28 | 北京百度网讯科技有限公司 | Entity linking method and device, electronic equipment and storage medium |
| CN116562303A (en) * | 2023-07-04 | 2023-08-08 | 之江实验室 | A reference resolution method and device referring to external knowledge |
| CN116562303B (en) * | 2023-07-04 | 2023-11-21 | 之江实验室 | Reference resolution method and device for reference external knowledge |
Also Published As
| Publication number | Publication date |
|---|---|
| CN104462126B (en) | 2018-04-27 |
| CN104462126A (en) | 2015-03-25 |
| JP6398510B2 (en) | 2018-10-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6398510B2 (en) | Entity linking method and entity linking apparatus | |
| CN114238573B (en) | Text countercheck sample-based information pushing method and device | |
| CN106649818B (en) | Application search intent identification method, device, application search method and server | |
| JP2020042779A (en) | Method and apparatus for determining validity of a point of interest based on Internet text mining | |
| US20180218241A1 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
| CN111783518A (en) | Training sample generation method and device, electronic equipment and readable storage medium | |
| CN106940702A (en) | Entity refers to the method and apparatus with entity in semantic knowledge-base in connection short text | |
| CN110347701B (en) | A Target Type Identification Method for Entity Retrieval Query | |
| JP2008052732A (en) | Method and program for calculating similarity, and method and program for deriving context model | |
| US10528662B2 (en) | Automated discovery using textual analysis | |
| JP6053131B2 (en) | Information processing apparatus, information processing method, and program | |
| TWI682287B (en) | Knowledge graph generating apparatus, method, and computer program product thereof | |
| CN110717038B (en) | Object classification method and device | |
| CN113590810A (en) | Abstract generation model training method, abstract generation device and electronic equipment | |
| WO2021112984A1 (en) | Feature and context based search result generation | |
| CN104484380A (en) | Personalized search method and personalized search device | |
| CN113934910A (en) | Automatic optimization and updating theme library construction method and hot event real-time updating method | |
| US20130204835A1 (en) | Method of extracting named entity | |
| CN113468311B (en) | A complex question question and answer method, device and storage medium based on knowledge graph | |
| CN111666766A (en) | Data processing method, device and equipment | |
| CN111373386A (en) | Similarity index value calculation device, similarity retrieval device, and similarity index value calculation program | |
| CN114222000A (en) | Information pushing method and device, computer equipment and storage medium | |
| CN107193806B (en) | A method and device for automatic prediction of lexical sememe | |
| KR101355945B1 (en) | On line context aware advertising apparatus and method | |
| JP2011227749A (en) | Abbreviation and full-length word restoration device and method thereof, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170605 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180409 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180529 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180730 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180807 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180820 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6398510 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |