JP2017504105A - System and method for in-memory database search - Google Patents
System and method for in-memory database search Download PDFInfo
- Publication number
- JP2017504105A JP2017504105A JP2016536900A JP2016536900A JP2017504105A JP 2017504105 A JP2017504105 A JP 2017504105A JP 2016536900 A JP2016536900 A JP 2016536900A JP 2016536900 A JP2016536900 A JP 2016536900A JP 2017504105 A JP2017504105 A JP 2017504105A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- search
- computer
- entities
- search query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
Abstract
エンティティ共起知識ベースを使用して関連エンティティを識別するシステム及び方法が開示される。実施形態において、エンティティインデックス型コーパスから抽出されたエンティティのエンティティ共起知識ベースを使用してサーチ質問において識別されるエンティティを抽出して、サーチ結果を関連エンティティとして提示する。エンティティ共起知識ベースと共に曖昧スコアマッチングを使用してサーチ示唆を発生する実施形態も開示される。又、実施形態において、サーチ質問から部分エンティティを抽出し、抽出されたエンティティのタイプに基づいてマッチングアルゴリズムを実行し、そしてエンティティ共起知識ベースに対してサーチを遂行する。共起及び/又は曖昧スコアマッチングに基づいて関連エンティティのサーチ示唆を発生する実施形態も開示される。それら実施形態では、部分サーチ質問を処理しそして完全な質問の示唆を提示し、それらは、新たなサーチ質問として使用される。又、エンティティ及びトレンド共起知識ベースを使用してサーチ質問からエンティティを抽出することによりエンティティ共起を使用してサーチ示唆を発生する実施形態も開示される。又、コンテンツマネージメントシステムにおいて地理的及び名前付きエンティティベースサーチ能力を可能にする実施形態も開示される。
【選択図】図1Disclosed are systems and methods for identifying related entities using an entity co-occurrence knowledge base. In an embodiment, an entity identified in a search query is extracted using an entity's entity co-occurrence knowledge base extracted from an entity indexed corpus to present search results as related entities. An embodiment for generating search suggestions using fuzzy score matching with an entity co-occurrence knowledge base is also disclosed. Also, in an embodiment, a partial entity is extracted from the search query, a matching algorithm is executed based on the extracted entity type, and a search is performed on the entity co-occurrence knowledge base. Embodiments for generating search suggestions for related entities based on co-occurrence and / or fuzzy score matching are also disclosed. In these embodiments, the partial search questions are processed and suggested full question suggestions that are used as new search questions. Also disclosed is an embodiment for generating search suggestions using entity co-occurrence by extracting entities from a search query using an entity and trend co-occurrence knowledge base. Embodiments are also disclosed that enable geographic and named entity-based search capabilities in content management systems.
[Selection] Figure 1
Description
本発明は、一般的に、情報検索のための方法及びシステムに関するもので、より詳細には、エンティティ共起(co-occurrence)を使用して関連エンティティをサーチする方法に関する。本発明は、一般的に、質問の向上に関するもので、より詳細には、知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用したサーチ示唆に関する。本発明は、一般的に、コンピュータ質問処理に関するもので、より詳細には、共起及び/又は曖昧スコアマッチングに基づく関連エンティティの電子サーチ示唆に関する。本発明は、一般的に、情報検索のための方法及びシステムに関するもので、より詳細には、サーチ示唆を得るための方法に関する。本発明は、一般的に、サーチエンジン及びコンテンツマネージメントに関するもので、より詳細には、デジタルコンテンツのジオタギング及び名前付エンティティのエンリッチメントを可能にするためのコンテンツマネージメントシステムのサーチエンジン技術の拡張に関する。 The present invention relates generally to a method and system for information retrieval, and more particularly to a method for searching related entities using entity co-occurrence. The present invention relates generally to query enhancement, and more particularly to search suggestions using fuzzy score matching and entity co-occurrence in a knowledge base. The present invention relates generally to computer query processing, and more particularly to electronic search suggestions for related entities based on co-occurrence and / or fuzzy score matching. The present invention relates generally to a method and system for information retrieval, and more particularly to a method for obtaining search suggestions. The present invention relates generally to search engines and content management, and more particularly to extending search engine technology in content management systems to enable geotagging of digital content and enrichment of named entities.
商業的コンテキストでは、良く知られたサーチエンジンがサーチ用語のセットをパースし、そしてある仕方で分類されたアイテム(典型的なサーチではウェブページ)のリストを返送する。サーチを遂行するための最も知られた解決策は、通常、キーワードに基づいてインデックスを発生するのに最終的に使用されるサーチ質問データベースを構築するために他のユーザの履歴的参照に基づいている。ユーザのサーチ質問は、エンティティに関連した名前又は属性で識別される1つ以上のエンティティを含む。又、エンティティは、組織、人々、場所、及び/又は時間も含む。典型的なサーチでは、ユーザが2つの特定の組織に関連した情報をサーチする場合に、サーチエンジンは、同じ名前又は同様の名前を伴う異なるエンティティの混合物についての詰め合わせ結果を返送する。後者の解決策では、ユーザが実際に何に関心があるかに関連しない大量のドキュメントをユーザが見出すことになる。 In the commercial context, a well-known search engine parses a set of search terms and returns a list of items (web pages in a typical search) that are categorized in some way. The best known solutions for performing searches are usually based on other users' historical references to build a search query database that is ultimately used to generate an index based on keywords. Yes. The user's search query includes one or more entities identified by names or attributes associated with the entities. Entities also include organizations, people, places, and / or times. In a typical search, when a user searches for information related to two specific organizations, the search engine returns an assortment result for a mixture of different entities with the same name or similar names. The latter solution results in the user finding a large number of documents that are not related to what the user is actually interested in.
従って、関心のある関連エンティティを見出す能力をユーザに許可する関連エンティティサーチ方法の要望が存在する。 Accordingly, there is a need for a related entity search method that allows a user the ability to find related entities of interest.
ユーザは、インターネット又は任意のデータベースシステムのいずれかにおいて関心のある情報を位置付けするためサーチエンジンをしばしば使用する。サーチエンジンは、通常、ユーザからサーチ質問を受け取りそしてサーチ結果をユーザへ返送することによって動作する。サーチ結果は、通常、サーチ質問に対する各返送サーチ結果の関連度に基づきサーチエンジンにより順序付けされる。それ故、サーチ質問のクオリティがサーチ結果のクオリティにとって著しく重要となる。しかしながら、ユーザからのサーチ質問は、ほとんどのケースでは、不完全に又は部分的に書かれるだけで(例えば、サーチ質問は、関連結果の焦点の合ったセットを発生するに充分なワードを含まず、むしろ、多数の非関連結果を発生する)、そして時々、スペルミスもある(例えば、Bill Smithは、誤ってBill Smitthと綴られる)。 Users often use search engines to locate information of interest on either the Internet or any database system. A search engine typically operates by receiving a search query from a user and returning search results to the user. Search results are usually ordered by the search engine based on the relevance of each returned search result to the search query. Therefore, the quality of the search query is significantly important to the quality of the search results. However, search queries from users are only written incompletely or partially in most cases (eg, search queries do not contain enough words to generate a focused set of related results). Rather, it produces a large number of unrelated results), and sometimes there are also misspellings (eg Bill Smith is mistakenly spelled Bill Smith).
サーチ結果のクオリティを改善するための1つの共通の解決策は、サーチ質問を向上させることである。サーチ質問を向上させる1つの方法は、ユーザの入力に基づいて考えられる示唆を発生することによるものである。このため、ある解決策は、1人以上のユーザにより提出された過去の質問から所与の質問に対する候補質問洗練化を識別する方法を提案する。しかしながら、この解決策は、ユーザを関心のない結果へと時々導く質問ログに基づいている。異なる技術を使用する他の解決策もあるが、充分正確ではない。従って、ユーザからのサーチ結果を改善又は向上させて、より正確な結果を得るための方法の要望が依然として存在する。 One common solution for improving the quality of search results is to improve the search query. One way to improve search queries is by generating possible suggestions based on user input. For this reason, one solution proposes a method for identifying candidate question refinements for a given question from past questions submitted by one or more users. However, this solution is based on a question log that sometimes leads the user to uninteresting results. There are other solutions that use different technologies, but they are not accurate enough. Accordingly, there remains a need for a method for improving or enhancing search results from users to obtain more accurate results.
ユーザは、インターネット又は任意のデータベースシステムのいずれかにおいて関心のある情報を位置付けするためサーチエンジンをしばしば使用する。サーチエンジンは、通常、ユーザからサーチ質問を受け取りそしてサーチ結果をユーザへ返送することによって動作する。サーチ結果は、通常、サーチ質問に対する各返送サーチ結果の関連度に基づきサーチエンジンにより順序付けされる。それ故、サーチ質問のクオリティがサーチ結果のクオリティにとって著しく重要となる。しかしながら、ユーザからのサーチ質問は、ほとんどのケースでは、不完全に又は部分的に書かれるだけで(例えば、サーチ質問は、関連結果の焦点の合ったセットを発生するに充分なワードを含まず、むしろ、多数の非関連結果を発生する)、そして時々、スペルミスもある(例えば、Bill Smithは、誤ってBill Smitthと綴られる)。 Users often use search engines to locate information of interest on either the Internet or any database system. A search engine typically operates by receiving a search query from a user and returning search results to the user. Search results are usually ordered by the search engine based on the relevance of each returned search result to the search query. Therefore, the quality of the search query is significantly important to the quality of the search results. However, search queries from users are only written incompletely or partially in most cases (eg, search queries do not contain enough words to generate a focused set of related results). Rather, it produces a large number of unrelated results), and sometimes there are also misspellings (eg Bill Smith is mistakenly spelled Bill Smith).
サーチ結果のクオリティを改善するための1つの共通の解決策は、サーチ質問を向上させることである。サーチ質問を向上させる1つの方法は、ユーザの入力に基づいて考えられる示唆を発生することによるものである。このため、ある解決策は、1人以上のユーザにより提出された過去の質問から所与の質問に対する候補質問洗練化を識別する方法を提案する。しかしながら、この解決策は、ユーザを関心のない結果へと時々導く質問ログに基づいている。異なる技術を使用する他の解決策もあるが、充分正確ではない。従って、ユーザからのサーチ結果を改善又は向上させて、より正確な結果を得ると共に、ユーザがサーチ質問をタイプするときに関心のある有用な関連エンティティをユーザに与えるための方法の要望が依然として存在する。 One common solution for improving the quality of search results is to improve the search query. One way to improve search queries is by generating possible suggestions based on user input. For this reason, one solution proposes a method for identifying candidate question refinements for a given question from past questions submitted by one or more users. However, this solution is based on a question log that sometimes leads the user to uninteresting results. There are other solutions that use different technologies, but they are not accurate enough. Accordingly, there remains a need for a method for improving or enhancing search results from users to obtain more accurate results and providing users with useful related entities that are of interest when the user types a search question. To do.
サーチエンジンは、ユーザ質問の予測を与えるため複数の特徴を備えている。そのような予測は、質問自動完全化及びサーチ示唆を含む。今日、そのような予測方法は、履歴的キーワード参照に基づくものである。そのような履歴的参照は、1つのキーワードが単一テキストにおける複数のトピックスを参照し得るので、正確でないことがある。 The search engine has a number of features to provide predictions of user questions. Such predictions include automatic query completion and search suggestions. Today, such prediction methods are based on historical keyword references. Such historical references can be inaccurate because a keyword can refer to multiple topics in a single text.
更に、ユーザのサーチ質問は、エンティティに関連した名前又は属性により識別される1つ以上のエンティティを含む。それらエンティティは、組織、人々、場所、イベント、日付、及び/又は時刻も含む。典型的なサーチにおいて、ユーザが2つの特定の組織に関連した情報をサーチする場合には、サーチエンジンは、同じ名前又は同様の名前を伴う異なるエンティティの混合物についての詰め合わせ結果を返送する。後者の解決策では、ユーザが実際に何に関心があるかに関連しない大量のドキュメントをユーザが見出すことになる。 Further, the user search query includes one or more entities identified by names or attributes associated with the entities. These entities also include organizations, people, places, events, dates, and / or times. In a typical search, when a user searches for information related to two specific organizations, the search engine returns assortment results for a mixture of different entities with the same name or similar names. The latter solution results in the user finding a large number of documents that are not related to what the user is actually interested in.
従って、より迅速に且つより正確にサーチ示唆を得るための方法の要望が存在する。 Accordingly, there is a need for a method for obtaining search suggestions more quickly and more accurately.
ドキュメントバージョニング及びコラボレートオブジェクトマネージメントのためのコンテンツマネージメント及びドキュメントマネージメントシステムが知られている。1つの非限定例は、Microsoft Sharepoint 2013(登録商標)ソフトウェア及びアプリケーションというツールセットである。Microsoft Sharepoint 2013(登録商標)は、コラボレーション、ファイルシェア及びウェブパブリッシングのためにマイクロソフト社により開発されたソフトウェア製品のファミリーである。このSharepoint 2013(登録商標)は、膨大な量のコンテンツ又は情報をユーザに与え、ユーザが特定の状況に対して最も関連性のある情報を見出すのを困難にする。これらの問題を軽減するために、Sharepoint 2013(登録商標)は、ユーザが必要とするコンテンツを見出す上でユーザを助けるためのサーチエンジンを提供する。ユーザは、キーワードベースのサーチ質問を入力し、そしてSharepoint 2013(登録商標)のサーチエンジンは、コンテンツがシンデックスされたときにSharepoint 2013(登録商標)プラットホームのコンテキスト内に見出される最も関連性のある結果のリストをユーザへ返送する。 Content management and document management systems for document versioning and collaborative object management are known. One non-limiting example is the Microsoft Sharepoint 2013® software and application toolset. Microsoft Sharepoint 2013 (R) is a family of software products developed by Microsoft for collaboration, file sharing and web publishing. This Sharepoint 2013 (registered trademark) gives a huge amount of content or information to the user, making it difficult for the user to find information most relevant to a particular situation. To alleviate these problems, Sharepoint 2013® provides a search engine to help users in finding the content they need. The user enters a keyword-based search query and the Sharepoint 2013® search engine is the most relevant found within the context of the Sharepoint 2013® platform when the content is syndicated. Send the result list back to the user.
時々、ユーザは、Sharepoint 2013(登録商標)における地理的エンティティ或いはドキュメント内で参照される組織又は人々のような他の形式のエンティティに関連したコンテンツを見出すことを希望する。Sharepoint 2013(登録商標)は、ドキュメントからエンティティを自動的に抽出するための機能をボックスから与えない。特に、地理的エンティティを抽出してそれを地理的位置に対して解明するためのジオタギングコンテンツをサポートするものではない。又、Sharepoint 2013は、ドキュメントにおける組織又は人々のような名前付エンティティを識別し、曖昧性除去しそして抽出するためのエンティティタギングをサポートするものでもない。しかしながら、Sharepoint 2013(登録商標)のサーチは、エンティティベースのサーチファセットを含めて、有効な地理的サーチ及び他のエンティティ関連サーチを可能にするように拡張することができる。Sharepoint 2013(登録商標)の以前のバージョンは、Sharepointのための「FASTサーチ」を含み、ここから、サンドボックス型アプリケーションを通してコンテンツ処理パイプラインを拡張することができるが、これは、低速であると共に、アクセスできる情報が限定される。 From time to time, users want to find content related to geographic entities in Sharepoint 2013 or other types of entities such as organizations or people referenced in documents. Sharepoint 2013 (registered trademark) does not provide a function for automatically extracting an entity from a document from a box. In particular, it does not support geotagging content for extracting geographic entities and resolving them relative to geographic locations. Sharepoint 2013 also does not support entity tagging to identify, disambiguate and extract named entities such as organizations or people in a document. However, Sharepoint 2013® search can be extended to allow for valid geographic and other entity-related searches, including entity-based search facets. Earlier versions of Sharepoint 2013® include a “FAST search” for Sharepoint, from which content processing pipelines can be extended through sandboxed applications, which is slow and The information that can be accessed is limited.
Sharepoint 2013(登録商標)は、コンセプト抽出、関係抽出、ジオタギング、要約化及び精巧なテキスト分析、等の特殊な言語学を追加できるようにする非常にオープンなAPIを導入する。従って、地理的及び他のエンティティベースのサーチを可能にするようにSharepoint 2013(登録商標)サーチエンジンの能力を拡張する機会が存在する。 Sharepoint 2013 (R) introduces a very open API that allows the addition of specialized linguistics such as concept extraction, relationship extraction, geotagging, summarization and sophisticated text analysis. Thus, there is an opportunity to extend the capabilities of the Sharepoint 2013® search engine to allow for geographic and other entity-based searches.
エンティティ共起を使用して関連エンティティをサーチする方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバータイプのアーキテクチャーを含むサーチシステムに使用される。ある実施形態では、サーチシステムは、ネットワーク接続を経て1つ以上のサーバー装置と通信するサーチエンジンのためのユーザインターフェイスを備えている。サーバー装置は、電子データのエンティティインデックス型コーパス、エンティティ共起知識ベースのデータベース、及びエンティティ抽出コンピュータモジュールを備えている。知識ベースは、インメモリデータベースとして構築されて、1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体及び曖昧性除去モジュール、等の他のコンポーネントも含む。1つのサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。 A method for searching related entities using entity co-occurrence is disclosed. In one aspect of this disclosure, the method is used in a search system that includes a client / server type architecture. In some embodiments, the search system includes a user interface for a search engine that communicates with one or more server devices over a network connection. The server device includes an entity index corpus of electronic data, an entity co-occurrence knowledge base database, and an entity extraction computer module. The knowledge base is built as an in-memory database and includes other components such as one or more search controllers, multiple search nodes, collections of compressed data, and disambiguation modules. A search controller is selectively associated with one or more search nodes. Each search node can independently perform an ambiguous key search through the collection of compressed data and return a scored set of results to its associated search controller.
ある実施形態において、コンピュータで実施される方法は、エンティティ抽出コンピュータにより、クライアントコンピュータから、1つ以上のエンティティを含むサーチ質問を受け取り;エンティティ抽出コンピュータにより、各々のエンティティを、共起データベースにおける各エンティティの1つ以上の共起と比較し;エンティティ抽出コンピュータにより、サーチ質問からの1つ以上のエンティティのサブセットを、共起データベースに従ってそのエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度に基づきそのサブセットの各エンティティが共起データベースの信頼性スコアを越えるとの決定に応答して、抽出し;エンティティ抽出コンピュータにより、インデックス識別子(インデックスID)をその複数の抽出されたエンティティにおけるエンティティの各々に指定し;エンティティ抽出コンピュータにより、その複数の抽出されたエンティティの各々に対してインデックスIDを電子データコーパスにセーブし、電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされるものであり;サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型の電子データコーパスをサーチし;及びサーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する;ことを含む。 In certain embodiments, a computer-implemented method receives a search query that includes one or more entities from a client computer by an entity extraction computer; each entity in the co-occurrence database is received by the entity extraction computer. One or more subsets of one or more entities from a search query by means of an entity extraction computer with the entity and one or more related entities in an electronic data corpus according to a co-occurrence database In response to the determination that each entity in the subset exceeds the reliability score of the co-occurrence database based on the accuracy of the index; ) To each of the entities in the plurality of extracted entities; the entity extraction computer saves an index ID for each of the plurality of extracted entities in the electronic data corpus, Indexed by an index ID corresponding to each of the two or more related entities; the search server computer positions the plurality of extracted entities, and at least two of the plurality of extracted entities co-occur Search the entity index type electronic data corpus to identify the index ID of the data record to be searched; and the search server computer has a data record corresponding to the identified index ID. To build that search results list; including the fact.
ある実施形態において、システムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、該エンティティ抽出モジュールは、更に、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し、複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされるものであるように構成され;及び更に、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型の電子データコーパスをサーチするように構成されたサーチサーバーモジュールを備え、このサーチサーバーモジュールは、更に、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築するように構成される。 In certain embodiments, the system comprises one or more server computers having one or more processors that execute computer readable instructions for a plurality of computer modules, which receive user input of search query parameters. A configured entity extraction module, wherein the entity extraction module further identifies each entity in the plurality of extracted entities with the accuracy of the co-occurrence of the extracted entity and one or more related entities in the electronic data corpus. Extract multiple entities from the search query parameters by comparing to an entity co-occurrence database that includes a confidence score representing and index each entity in the multiple extracted entities An identifier (index ID) is specified and an index ID for each of the plurality of extracted entities is saved in an electronic data corpus, the electronic data corpus being indexed by an index ID corresponding to each of the one or more related entities. An entity index to locate the plurality of extracted entities and to identify an index ID of a data record in which at least two of the plurality of extracted entities co-occur A search server module configured to search for an electronic data corpus of a type, the search server module further constructing a search result list having data records corresponding to the identified index ID Constructed.
別の実施形態において、非一時的なコンピュータ読み取り可能な媒体は、エンティティ抽出コンピュータにより、サーチ質問パラメータのユーザ入力を受け取り;エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し;エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し;エンティティ抽出コンピュータにより、複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによってインデックスされるものであり;サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型の電子データコーパスをサーチし;及びサーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する;ことを含むコンピュータ実行可能なインストラクションを記憶している。 In another embodiment, a non-transitory computer readable medium receives user input of search query parameters by an entity extraction computer; the entity extraction computer extracts each entity in a plurality of extracted entities. Extracting a plurality of entities from a search query parameter by comparing to an entity co-occurrence database that includes a confidence score representing the likelihood of co-occurrence of the identified entities and one or more related entities in the electronic data corpus; Assigning an index identifier (index ID) to each entity in the plurality of extracted entities; each of the plurality of extracted entities by the entity extraction computer An index ID to be stored in an electronic data corpus, the electronic data corpus being indexed by an index ID corresponding to each of the one or more related entities; the search server computer extracts the plurality of extracted entities And searching the entity index type electronic data corpus to identify the index ID of the data record in which at least two of the plurality of extracted entities co-occur; and the search server computer identifies the A computer-executable instruction is stored including: building a search result list having data records corresponding to the index ID;
知識ベースにおける曖昧スコアマッチング及びエンティティ共起を使用することによりサーチ示唆を発生する方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバー型のアーキテクチャーを含むサーチシステムに使用される。ある実施形態において、このサーチシステムは、ネットワーク接続を経て1つ以上のサーバー装置と通信するサーチエンジンに対するユーザインターフェイスを備えている。サーバー装置は、エンティティ抽出コンピュータモジュール、曖昧スコアマッチングコンピュータモジュール、及びエンティティ共起知識ベースのデータベースを備えている。知識ベースは、インメモリデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去コンピュータモジュールのような他のハードウェア及び/又はソフトウェアコンポーネントも備えている。あるサーチコントローラは、1つ以上のサーチノードに選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。 A method for generating search suggestions by using fuzzy score matching and entity co-occurrence in a knowledge base is disclosed. In one aspect of this disclosure, the method is used in a search system that includes a client / server type architecture. In one embodiment, the search system includes a user interface for a search engine that communicates with one or more server devices over a network connection. The server device comprises an entity extraction computer module, an ambiguous score matching computer module, and an entity co-occurrence knowledge base database. The knowledge base is built as an in-memory database and also includes one or more search controllers, multiple search nodes, a collection of compressed data, and other hardware and / or software components such as a disambiguation computer module. ing. A search controller is selectively associated with one or more search nodes. Each search node can independently perform an ambiguous key search through the collection of compressed data and return a scored set of results to its associated search controller.
この開示の別の態様において、この方法は、サーチ質問がエンティティを参照するかどうか識別し、もしそうであれば、どんな形式のエンティティを参照するか識別するため、与えられたサーチ質問から部分エンティティ抽出を遂行するエンティティ抽出モジュールを含む。更に、この方法は、抽出されたエンティティの形式に基づきアルゴリズムをスポーンし、そしてエンティティ共起知識ベースに対してサーチを遂行する曖昧スコアマッチングモジュールを含む。更に、エンティティに対応するものとして検出されない質問テキスト部分は、エンティティ共起知識ベースをサーチするのに使用できるトピックス、ファセット及びキーフレーズのような概念的特徴として処理される。一実施形態において、エンティティ共起知識ベースは、エンティティが、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、又はエンティティ対ファセットとしてインデックスされるレポジトリを含み、これは、速く正確な示唆をユーザへ返送してサーチ質問を完成するのを促進する。 In another aspect of this disclosure, the method identifies whether a search query refers to an entity and, if so, what type of entity to refer to, from a given search query, a partial entity It includes an entity extraction module that performs the extraction. The method further includes an ambiguous score matching module that spawns an algorithm based on the extracted entity type and performs a search against the entity co-occurrence knowledge base. Furthermore, portions of the question text that are not detected as corresponding to an entity are processed as conceptual features such as topics, facets, and key phrases that can be used to search the entity co-occurrence knowledge base. In one embodiment, the entity co-occurrence knowledge base includes a repository in which entities are indexed, among other things, as entity-to-entity, entity-to-topics, or entity-to-facet, which returns fast and accurate suggestions to the user. Helps complete search questions.
ある実施形態において、方法が開示される。この方法は、エンティティ抽出コンピュータにより、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取り;エンティティ抽出コンピュータにより、サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出し;及び曖昧スコアマッチングコンピュータにより、サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応する。この方法は、更に、曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し;及び曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示する;ことを含む。 In certain embodiments, a method is disclosed. The method receives user input of a search query parameter from a user interface by an entity extraction computer; the search query parameter is received by an entity extraction computer and an entity co-occurrence having co-occurrence instances of one or more entities in an electronic data corpus. Extracting one or more entities from the search query parameters by comparing to a database and identifying at least one entity type corresponding to the one or more entities in the search query parameters; Select an fuzzy matching algorithm to search the entity co-occurrence database to identify one or more records associated with the query parameter and its fuzzy match Grayed algorithm corresponds to at least one of the identified entities form. The method further includes searching the entity co-occurrence database by the fuzzy score matching computer using the selected fuzzy matching algorithm and one or more suggested searches from one or more records based on the search. Forming query parameters; and presenting one or more suggested search query parameters via a user interface by a fuzzy score matching computer.
別の実施形態において、システムが提供される。このシステムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、そのエンティティ抽出モジュールは、サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出するように更に構成される。このシステムは、更に、サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成された曖昧スコアマッチングモジュールを備え、その曖昧マッチングモジュールは、少なくとも1つの識別されたエンティティ形式に対応する。その曖昧スコアマッチングモジュールは、更に、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し、及びユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示するように構成される。 In another embodiment, a system is provided. The system includes one or more server computers having one or more processors that execute computer readable instructions for a plurality of computer modules, which are configured to receive user input of search query parameters from a user interface. The entity extraction module compares a search query parameter to an entity co-occurrence database having co-occurrence instances of one or more entities in the electronic data corpus and one in the search query parameter Further configured to extract one or more entities from the search query parameters by identifying at least one entity type corresponding to the above entities.The system further comprises an ambiguity score matching module configured to select an ambiguity matching algorithm that searches the entity co-occurrence database to identify one or more records associated with the search query parameter, the ambiguity matching A module corresponds to at least one identified entity type. The fuzzy score matching module further searches the entity co-occurrence database using the selected fuzzy matching algorithm and retrieves one or more suggested search query parameters from one or more records based on the search. Configured and configured to present one or more suggested search query parameters via a user interface.
共起及び/又は曖昧スコアマッチングに基づいて関連エンティティのサーチ示唆を発生する方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバー型アーキテクチャーを含むコンピュータサーチシステムに使用される。ある実施形態において、このサーチシステムは、ネットワーク接続を経て1つ以上のサーバー装置と通信するサーチエンジンに対するユーザインターフェイスを備えている。サーバー装置は、エンティティ抽出モジュール及び曖昧スコアマッチングモジュール並びにエンティティ共起知識ベースのデータベースを含む複数の特殊目的のコンピュータモジュールに対するインストラクションを実行する1つ以上のプロセッサを備えている。知識ベースは、インメモリデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのような他のコンポーネントも含む。あるサーチコントローラは、1つ以上のサーチノードに選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをそれに関連したサーチコントローラへ返送することができる。 A method for generating related entity search suggestions based on co-occurrence and / or fuzzy score matching is disclosed. In one aspect of this disclosure, the method is used in a computer search system that includes a client / server architecture. In one embodiment, the search system includes a user interface for a search engine that communicates with one or more server devices over a network connection. The server device includes one or more processors that execute instructions for a plurality of special purpose computer modules including an entity extraction module and an ambiguous score matching module and an entity co-occurrence knowledge base database. The knowledge base is built as an in-memory database and includes other components such as one or more search controllers, multiple search nodes, a collection of compressed data, and a disambiguation module. A search controller is selectively associated with one or more search nodes. Each search node can independently perform an ambiguous key search through a collection of compressed data and return a scored set of results to its associated search controller.
この開示の別の態様において、この方法は、エンティティ抽出モジュールにより、与えられたサーチ質問から部分エンティティ抽出を遂行して、サーチ質問がエンティティを指すかどうか識別し、もしそうであれば、エンティティの形式を決定することを含む。更に、この方法は、曖昧スコアマッチングモジュールにより、抽出されたエンティティの形式に対応するアルゴリズムを発生し、そしてエンティティ共起知識ベースに対してサーチを遂行することを含む。更に、エンティティとして検出されない質問テキスト部分は、エンティティ共起知識ベースをサーチするのに使用できるトピックス、ファセット及びキーフレーズのような概念的特徴として処理される。エンティティが、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、又はエンティティ対ファセットとしてインデックスされるレポジトリを既に有するエンティティ共起知識ベースは、速く正確な示唆をユーザへ返送してサーチ質問を完成する In another aspect of this disclosure, the method includes performing a partial entity extraction from a given search query by an entity extraction module to identify whether the search query refers to an entity, and if so, Including determining the format. In addition, the method includes generating an algorithm corresponding to the type of the extracted entity by the fuzzy score matching module and performing a search against the entity co-occurrence knowledge base. Furthermore, portions of the question text that are not detected as entities are processed as conceptual features such as topics, facets, and key phrases that can be used to search the entity co-occurrence knowledge base. An entity co-occurrence knowledge base where an entity already has a repository that is indexed as an entity-to-entity, entity-to-topic, or entity-to-facet, among other things, returns a quick and accurate suggestion to the user to complete the search query
この開示の更に別の態様では、完成されたサーチ質問は、新たなサーチ質問として使用される。サーチシステムは、新たなサーチ質問を処理し、エンティティ抽出を実行し、エンティティ共起知識ベースからの最も高いスコアをもつ関連エンティティを見出し、そしてその関連エンティティをユーザにとって有用なドロップダウンリストに提示する。 In yet another aspect of this disclosure, the completed search question is used as a new search question. The search system processes new search questions, performs entity extraction, finds the related entity with the highest score from the entity co-occurrence knowledge base, and presents the related entity in a drop-down list useful to the user .
ある実施形態において、方法が開示される。この方法は、エンティティ抽出コンピュータにより、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取り、その部分サーチ質問パラメータは、少なくとも1つの未完成のサーチ質問パラメータを有するものであり;エンティティ抽出コンピュータにより、その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、部分サーチ質問パラメータから1つ以上の第1エンティティを抽出し;及び曖昧スコアマッチングコンピュータにより、部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものである。この方法は、更に、曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し;曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示し;エンティティ抽出コンピュータにより、完成したサーチ質問パラメータを形成するために1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り;及びエンティティ抽出コンピュータにより、その完成したサーチ質問パラメータから1つ以上の第2のエンティティを抽出することを更に含む。この方法は、更に、エンティティ抽出コンピュータにより、その1つ以上の第2のエンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし;及びエンティティ抽出コンピュータにより、ユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する;ことを含む。 In certain embodiments, a method is disclosed. The method receives a user input of a partial search question parameter from a user interface by an entity extraction computer, the partial search question parameter having at least one incomplete search question parameter; Comparing the partial search query parameter with an entity co-occurrence database having co-occurrence instances of one or more first entities in the electronic data corpus, and at least one corresponding to the one or more first entities in the partial search query parameter One or more first entities are extracted from the partial search question parameters by identifying one entity type; and an ambiguous score matching computer Select ambiguous matching algorithm or search for entities co-occurrence database in order to identify the communication one or more records, the fuzzy matching algorithm, which corresponds to at least one of the identified entities form. The method further includes searching the entity co-occurrence database by the fuzzy score matching computer using the selected fuzzy matching algorithm and one or more first suggestions from one or more records based on the search. To present one or more first suggested search query parameters via a user interface by an ambiguous score matching computer; to form a completed search query parameter by an entity extraction computer Further receiving a user selection of one or more first suggested search query parameters; and extracting one or more second entities from the completed search query parameters by an entity extraction computer. The method further includes identifying, by an entity extraction computer, one or more entities associated with the one or more second entities to form one or more second suggested search query parameters. Searching the entity co-occurrence database; and presenting one or more second suggested search query parameters via the user interface by the entity extraction computer.
別の実施形態において、システムが開示される。このシステムは、複数のコンピュータモジュールに対するコンピュータ読み取り可能なインストラクションを実行する1つ以上のプロセッサを有する1つ以上のサーバーコンピュータを備え、これは、ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、その部分サーチ質問パラメータは、少なくとも1つの未完成のサーチ質問パラメータを有するものであり、エンティティ抽出モジュールは、更に、その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、部分サーチ質問パラメータから1つ以上の第1エンティティを抽出するように構成される。このシステムは、更に、部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成され、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものである。曖昧スコアマッチングモジュールは、更に、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づいて1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し、及びユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示するように構成される。加えて、エンティティ抽出モジュールは、更に、完成したサーチ質問パラメータを形成するため1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り、その完成したサーチ質問パラメータから1つ以上の第2のエンティティを抽出し、その1つ以上の第2のエンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためエンティティ共起データベースをサーチし、及びユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する、ように構成される。 In another embodiment, a system is disclosed. The system includes one or more server computers having one or more processors that execute computer-readable instructions for a plurality of computer modules, such that it receives user input of partial search query parameters from a user interface. Comprising a configured entity extraction module, the partial search question parameter having at least one unfinished search question parameter, the entity extraction module further including the partial search question parameter in the electronic data corpus as 1 Compared to an entity co-occurrence database having co-occurrence instances of one or more first entities and at least corresponding to one or more first entities in the partial search query parameters By identifying one entity type, configured to extract one or more first entity from part search query parameters. The system is further configured to select an ambiguity matching algorithm that searches the entity co-occurrence database to identify one or more records associated with the partial search query parameter, the ambiguity matching algorithm comprising: It corresponds to the identified entity type. The fuzzy score matching module further searches the entity co-occurrence database using the selected fuzzy matching algorithm and one or more first suggested searches from one or more records based on the search. A query parameter is formed and configured to present one or more first suggested search query parameters via a user interface. In addition, the entity extraction module further receives a user selection of one or more first suggested search question parameters to form a completed search query parameter, from which the one or more first search query parameters are received. An entity co-occurrence database to extract two entities and identify one or more entities associated with the one or more second entities to form one or more second suggested search query parameters It is configured to search and present one or more second suggested search query parameters via a user interface.
エンティティ及び特徴共起を使用してエンティティに関連したサーチ示唆を得る方法が開示される。この開示の1つの態様において、この方法は、クライアント/サーバー型のアーキテクチャーを含むサーチシステムに使用される。 A method for obtaining search suggestions associated with an entity using entity and feature co-occurrence is disclosed. In one aspect of this disclosure, the method is used in a search system that includes a client / server type architecture.
1つ以上のサーバーに記憶されたエンティティを使用する方法を使用するサーチシステムは、エンティティデータベース及びトレンドデータベースを許す。そのようなデータベースのエンティティは、高いスコアに基づいてインデックスするためのスコアを有する。サーチ示唆を得るための方法は、サーチ示唆の単一リストを発生するために両データベースに記憶された情報を結合する。トレンドデータベースは、ローカルネットワーク及び/又はインターネットにおいて1人以上のユーザからの以前にサーチ質問を与える。エンティティデータベースは、ローカルネットワーク及び/又はインターネットにおいて利用可能な複数のデータからのエンティティ抽出に基づきサーチ示唆を与える。このリストは、ユーザのための示唆のより正確且つ迅速なグループを与える。 Search systems that use methods that use entities stored on one or more servers allow entity databases and trend databases. Such database entities have a score to index based on a high score. A method for obtaining search suggestions combines information stored in both databases to generate a single list of search suggestions. The trend database provides previously searched questions from one or more users in the local network and / or the Internet. The entity database provides search suggestions based on entity extraction from multiple data available on the local network and / or the Internet. This list gives a more accurate and quick group of suggestions for the user.
ある実施形態において、コンピュータで実施される方法は、コンピュータにより、1つ以上のデータストリングを含むサーチ質問をサーチエンジンから受け取り、各々のエンティティは、1つ以上のストリングのサブセットに対応し;コンピュータにより、エンティティデータベース及びトレンドデータベースに対して1つ以上のエンティティを比較することに基づき1つ以上のデータストリングにおける1つ以上のエンティティを識別し;コンピュータにより、少なくとも1つのエンティティに対応するものとして識別されない1つ以上のデータストリングにおいて1つ以上の特徴を識別し;コンピュータにより、1つ以上の特徴の各々を、マッチングアルゴリズムに基づき1つ以上のエンティティの少なくとも1つに指定し;コンピュータにより、各エンティティに指定された各々の特徴に指定されたスコアに基づき各々のエンティティに抽出スコアを指定し;コンピュータにより、各エンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第1のサーチリストをエンティティデータベースから受け取り;コンピュータにより、各エンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第2のサーチリストをトレンドデータベースから受け取り;コンピュータにより、第1のサーチリスト及び第2のサーチリストを含む総計リストを発生し、その総計リストのエンティティは、各総計リストのスコアに従ってランク付けされ;及びコンピュータにより、その総計リストに従って示唆されるサーチを与える;ことを含む。 In certain embodiments, a computer-implemented method receives, by a computer, a search query that includes one or more data strings from a search engine, each entity corresponding to a subset of the one or more strings; Identifying one or more entities in one or more data strings based on comparing one or more entities against an entity database and a trend database; not identified by the computer as corresponding to at least one entity Identifying one or more features in one or more data strings; the computer assigns each of the one or more features to at least one of the one or more entities based on a matching algorithm; To specify an extraction score for each entity based on a score specified for each feature specified for each entity; by the computer, one or more having a score that is within a threshold distance from the extraction score for each entity Receiving a first search list including entities from the entity database; receiving from a trend database a second search list including one or more entities having a score that is within a threshold distance from each entity's extracted score; A computer generates a grand total list including a first search list and a second search list, and the entities of the grand total list are ranked according to the score of each total list; Providing a search suggested according; comprising.
ここに開示されるのは、Microsoft Sharepoint 2013(登録商標)のようなコンテンツマネージメントシステムにおいて地理的エンティティベースのサーチを可能にするシステム及び方法である。実施形態で述べる方法は、地理的タギングウェブサーバーを追加することによってSharepoint 2013(登録商標)サーチアーキテクチャーを拡張することを含む。このシステムは、コンピュータメモリ及び1つ以上のI/O装置に作動的に関連したコンピュータプロセッサを備え、ここで、プロセッサ及びメモリは、1つ以上のSharepoint 2013(登録商標)プロセスを動作するように構成される。又、このシステムは、コンピュータメモリ及び1つ以上のI/O装置に作動的に関連した別のコンピュータプロセッサも備え、ここで、プロセッサ及びメモリは、ジオタギングウェブサービスをホストしそしてその処理を与えるように構成される。Sharepoint 2013(登録商標)システムは、コンテンツのサーチを可能にするために、クローリングコンポーネント、コンテンツ処理コンポーネント、及びサーチインデックスコンポーネントを含む。Sharepoint 2013(登録商標)サーチにおけるコンテンツ処理コンポーネントは、コンテンツエンリッチメントウェブサーバー(CEWS)特徴を使用することによりその機能を拡張することができる。 Disclosed herein are systems and methods that enable geographic entity-based searches in content management systems such as Microsoft Sharepoint 2013. The method described in the embodiment includes extending the Sharepoint 2013® search architecture by adding a geographic tagging web server. The system comprises a computer processor operatively associated with a computer memory and one or more I / O devices, wherein the processor and memory are adapted to operate one or more Sharepoint 2013® processes. Composed. The system also includes a computer memory and another computer processor operatively associated with the one or more I / O devices, wherein the processor and memory are adapted to host and provide processing for a geotagging web service. Configured. The Sharepoint 2013® system includes a crawling component, a content processing component, and a search index component to enable searching for content. The content processing component in Sharepoint 2013® search can extend its functionality by using Content Enrichment Web Server (CEWS) features.
この方法は、コンテンツ処理のために送られるクロールプロパティのアレイを得るために異なるソースからのクローリングコンテンツを含む。コンテンツの処理中に、トリガー状態は、オリジナルコンテンツを付加的な地理的メタデータプロパティでエンリッチするために付加的な処理からクロールプロパティに利益が得られるかどうか決定する。クロールプロパティが付加的な処理から利益を得ない場合には、クロールプロパティは、管理される処理へとマップされそしてサーチインデックスへ送られる。クロールプロパティが、外部ウェブサービス処理から利益を得る場合には、CEWSがハイパーテキスト転送プロトコル(HTTP)又は他のウェブサービスコール方法を使用して構成可能なエンドポイントへ単純なオブジェクトアクセスプロトコル(SOAP)要求をなす。エンティティエンリッチメントサービスは、コンテンツの形式を決定する。コンテンツが画像フォーマットである場合には、ファイル位置のようなそのメタデータが光学的文字認識(OCR)エンジンへ送られて、オリジナルドキュメントが検索され、非同期で処理されてテキストへと変換され、そしてクロールコンポーネントへ返送されて、テキストフォーマットで再クロールされる。コンテンツがテキストフォーマットである場合には、ジオタギングウェブサービスが地理的メタデータを識別し、そしてそれを、管理されるプロパティとしてコンテンツに関連付ける。コンテンツは、ジオタギングされた後に、インデックスコンポーネントへ送られる。 The method includes crawling content from different sources to obtain an array of crawl properties that are sent for content processing. During content processing, the trigger state determines whether the crawl property can benefit from additional processing to enrich the original content with additional geographic metadata properties. If the crawl property does not benefit from additional processing, the crawl property is mapped to a managed process and sent to the search index. If the crawl property benefits from external web service processing, the Simple Object Access Protocol (SOAP) to endpoints that CEWS can configure using Hypertext Transfer Protocol (HTTP) or other web service call methods Make a request. The entity enrichment service determines the type of content. If the content is in image format, its metadata, such as file location, is sent to an optical character recognition (OCR) engine, the original document is retrieved, processed asynchronously and converted to text, and Returned to the crawl component and recrawled in text format. If the content is in text format, the geotagging web service identifies the geographic metadata and associates it with the content as a managed property. The content is geotagged before being sent to the index component.
Sharepoint 2013(登録商標)ウェブ部分を使用するか、又はSharepoint 2013(登録商標)サーチの標準レイアウトを、とりわけ、HTML、HTML5、JavaScript(登録商標)及びCSSのような標準ウェブ開発ツールで変更することにより、付加的なサーチユーザインターフェイス(UI)が追加される。サーチUIは、例えば、これに限定されないが、デジタルマップのようなデジタル地理的特徴を使用して地理的サーチ質問を遂行するか又は地理的サーチ結果を表示する上でユーザの助けとなる。又、サーチUIは、付加的な、エンリッチされたエンティティ又はそれに関連したメタデータを使用してファセットサーチを遂行するように向上を図ることもできる。 Use the Sharepoint 2013® web portion or change the standard layout of the Sharepoint 2013® search with, among other things, standard web development tools such as HTML, HTML5, JavaScript, and CSS. Adds an additional search user interface (UI). The search UI may assist a user in performing a geographic search query or displaying geographic search results using, for example, but not limited to, a digital geographic feature such as a digital map. The search UI can also be enhanced to perform faceted searches using additional, enriched entities or associated metadata.
以下の詳細な説明から、この開示の多数の他の観点、特徴、及び利益が明らかとなるであろう。 Numerous other aspects, features, and benefits of this disclosure will become apparent from the following detailed description.
本開示は、添付図面を参照することにより良く理解することができる。図面中のコンポーネントは、必ずしも、正しい縮尺ではなく、むしろ、本開示の原理を示すときには強調されている。図中、参照番号は、異なる図面全体を通して対応部分を示している。 The present disclosure can be better understood with reference to the following drawings. The components in the drawings are not necessarily to scale, emphasis instead being placed upon illustrating the principles of the present disclosure. In the figures, reference numerals indicate corresponding parts throughout the different views.
定義
ここで使用する次の用語は、次のような定義を有する。
Definitions The following terms used herein have the following definitions.
エンティティ抽出」は、名前、場所及び組織のような情報を抽出するための情報処理方法を指す。 “Entity extraction” refers to an information processing method for extracting information such as name, location and organization.
「コーパス」は、1つ以上のドキュメントの集合体を指す。 A “corpus” refers to a collection of one or more documents.
「特徴(Features)」は、ドキュメントから少なくとも一部分導出される情報である。 “Features” is information derived at least in part from a document.
「イベントコンセプトストア」は、イベントテンプレートモデルのデータベースを指す。 “Event concept store” refers to a database of event template models.
「イベント」は、少なくともリアルタイムでの特徴発生により特徴付けられる1つ以上の特徴を指す。 An “event” refers to one or more features characterized by at least real-time feature generation.
「イベントモデル」は、特定形式のイベントに対して比較しそしてそれを識別するのに使用されるデータの集合体を指す。 An “event model” refers to a collection of data used to compare and identify a particular type of event.
「モジュール」は、少なくとも1つ以上のタスクを実行するのに適したコンピュータ又はソフトウェアコンポーネントを指す。 A “module” refers to a computer or software component suitable for performing at least one or more tasks.
「特徴属性」は、特徴に関連したメタデータ、例えば、とりわけ、ドキュメントにおける特徴の位置、信頼スコアを指す。 “Feature attribute” refers to metadata associated with the feature, for example, the location of the feature in the document, the confidence score, among others.
「ファクト」は、特徴と特徴との間の客観的な関係を指す。 “Fact” refers to an objective relationship between features.
「エンティティ知識ベース」は、特徴/エンティティを含むコンピュータデータベースを指す。 An “entity knowledge base” refers to a computer database containing features / entities.
「質問」は、1つ以上の適当なデータベースから情報を検索するための、コンピュータで発生される要求を指す。 “Question” refers to a computer-generated request to retrieve information from one or more suitable databases.
「トピックス」は、コーパスから少なくとも一部分導出されるセマティック情報のセットを指す。 “Topics” refers to a set of semantic information derived at least in part from a corpus.
「ジオタギング」は、非構造化テキストファイルから地理的エンティティを抽出するプロセスを指す。ジオタギングは、エンティティを、特定の地理的場所及び付属の地理的メタデータ、例えば、地理的座標、地理的特徴形式及び他のメタデータへと曖昧性除去することを含む。 “Geotagging” refers to the process of extracting geographic entities from an unstructured text file. Geotagging involves disambiguating entities to specific geographic locations and associated geographic metadata, such as geographic coordinates, geographic feature types, and other metadata.
「エンティティタギング」は、非構造化テキストから名前付きエンティティを抽出するプロセスを指す。エンティティタギングは、エンティティ曖昧性除去、エンティティ名前正規化、及び付属のエンティティメタデータを含む。 “Entity tagging” refers to the process of extracting named entities from unstructured text. Entity tagging includes entity disambiguation, entity name normalization, and accompanying entity metadata.
「名前付きエンティティ」は、個人、組織又はトピックスを指す。 “Named entity” refers to an individual, an organization, or a topic.
「地理的エンティティ」は、地理的位置又は地理的場所を指す。 A “geographic entity” refers to a geographical location or location.
「クロールされたプロパティ」は、クロール中にドキュメントを検査することから得られるコンテンツマネージメントシステムメタデータを指す。 “Crawled properties” refers to content management system metadata that results from examining documents during crawling.
詳細な説明
添付図面に各々示された好ましい実施形態を以下に詳細に説明する。上述した実施形態は、例示に過ぎない。当業者であれば、ここに述べる特定の実施例について、本発明の範囲内で、多数の別のコンポーネント及び実施形態に置き換えできることが認識されよう。本発明の精神又は範囲から逸脱せずに、他の実施形態が使用されてもよく及び/又は他の変更がなされてもよい。詳細な説明に述べる例示的実施形態は、ここに提示される要旨の限界を意味するものではない。
The preferred embodiment shown, respectively in the description accompanying drawings will be described in detail below. The above-described embodiments are merely examples. Those skilled in the art will recognize that the specific examples described herein may be replaced by numerous other components and embodiments within the scope of the present invention. Other embodiments may be used and / or other changes may be made without departing from the spirit or scope of the invention. The exemplary embodiments described in the detailed description are not meant to imply limitations on the subject matter presented herein.
それでも、本発明の範囲の制限が意図されないことを理解されたい。ここに示す本発明の特徴の代替的及び更に別の実施形態、並びにここに示す本発明の原理の付加的な適用であって、当業者に対して生じ且つ本開示を所有するものは、本発明の範囲内であると考えるべきである。 It will nevertheless be understood that no limitation of the scope of the invention is intended. Alternative and further embodiments of the features of the invention shown herein, as well as additional applications of the principles of the invention shown herein, which arise to those skilled in the art and possess the present disclosure, It should be considered within the scope of the invention.
本開示は、複数のソースからイベントを検出し、抽出し及び有効化するためのシステム及び方法について述べる。ソースは、ニュースソース、ソーシャルメディアウェブサイト、及び/又はイベントに関するデータを含むソースを包含する。 This disclosure describes systems and methods for detecting, extracting and validating events from multiple sources. Sources include sources that contain data relating to news sources, social media websites, and / or events.
ここに開示するシステム及び方法の種々の実施形態は、独立したイベントを識別するために異なるソースからデータを収集する。 Various embodiments of the systems and methods disclosed herein collect data from different sources to identify independent events.
図1は、本発明によるサーチシステム100のブロック図である。サーチシステム100は、サーチシステム100に関連したソフトウェアモジュールを実行するプロセッサを含む1つ以上のクライアントコンピューティング装置を備え、それに含まれるグラフィックユーザインターフェイス102は、サーチエンジン104にアクセスし、ネットワーク108を経てサーバー装置106とバイナリデータの形態でサーチ質問を通信する。規範的実施形態では、サーチシステム100は、クライアント/サーバーコンピューティングアーキテクチャーにおいて実施される。しかしながら、サーチシステム100は、他のコンピュータアーキテクチャー(例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、アプリケーションサービスプロバイダー(ASP)モデル、ピア・ツー・ピアモデル、等)を使用して実施されてもよい。ネットワーク108は、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等のように、コンピューティング装置間でデジタルデータを通信できる適当なハードウェア及びソフトウェアモデルを備えている。従って、システム100は、単一のネットワーク108を経て、又は複数のネットワーク108を使用して実施されてもよいことが明らかであろう。
FIG. 1 is a block diagram of a
ユーザのコンピューティング装置102は、サーチ質問を送信できるソフトウェアモデルを含むサーチエンジン104にアクセスする。サーチ質問は、検索することが望まれる情報を指示するためにサーチエンジン104に与えられるパラメータである。サーチ質問は、サーチエンジン104のパース及び処理ルーチンに適合する適当なデータフォーマット(例えば、整数、ストリング、複素数オブジェクト)でユーザ又は別のソフトウェアアプリケーションにより与えられる。ある実施形態では、サーチエンジン104は、ユーザのコンピューティング装置102のブラウザ又は他のソフトウェアアプリケーションを通してアクセスでき且つユーザ又はソフトウェアアプリケーションがワールドワイドウェブにおいて情報を位置付けできるようにするウェブベースのツールである。ある実施形態では、サーチエンジン104は、システム100に対してネーティブなもので、ユーザ又はアプリケーションがシステム100のデータベース内の情報を位置付けできるようにするアプリケーションソフトウェアモジュールである。
The
単一のサーバー装置106として実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーで実施されるサーバー装置106は、エンティティ抽出モジュール110、エンティティ共起知識ベース112、及びエンティティインデックス型コーパス114を備えている。エンティティ抽出モジュール110は、質問ストリング、構造化データ、等の所与の質問セットから独立エンティティを抽出しそして曖昧性除去することのできるコンピュータソフトウェア及び/又はハードウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻である。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
種々の実施形態によれば、エンティティ共起知識ベース112は、これに限定されないが、インメモリコンピュータデータベース(図示せず)として構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去コンピュータモジュールのような他のコンポーネント(図示せず)を含む。あるサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
According to various embodiments, the entity
エンティティ共起知識ベース112は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。エンティティインデックス型コーパス114は、大量コーパス又はライブコーパスを有するインターネットのような複数のソースからのデータを含む。
The entity
図2は、図1に示されたようなサーチシステム100において実施されるエンティティ共起を使用して関連エンティティをサーチする方法200を示すフローチャートである。種々の実施形態によれば、方法200を開始する前に、図1に示したものと同様のエンティティインデックス型コーパス114には、電子データの大量コーパス又はライブコーパスのような複数のソース(例えば、インターネット、ウェブサイト、ブログ、ワード処理ファイル、平易テキストファイル)からのデータが供給されている。エンティティインデックス型コーパス114は、新たなデータが発見されるにつれて常時更新される複数のインデックスされたエンティティを含む。
FIG. 2 is a flowchart illustrating a
ある実施形態では、方法200は、ステップ202において、コンピューティング装置102のユーザ又はソフトウェアアプリケーションが1つ以上のエンティティを含む1つ以上のサーチ質問をサーチエンジン104に与えるときにスタートする。ステップ202において与えられたサーチ質問は、サーチシステム100により、そのたびに、1からnまで処理される。ステップ202におけるサーチ質問は、例えば、ストリング、構造化データ、又は他の適当なデータフォーマットのようなキーワードの組み合わせである。図2の規範的実施形態では、サーチ質問のキーワードは、人々、組織、地理的位置、日付及び/又は時刻を表わすエンティティである。
In one embodiment, the
ステップ202からのサーチ質問は、次いで、ステップ204において、エンティティ抽出のために処理される。このステップでは、エンティティ抽出モジュール110は、ステップ202からのサーチ質問をエンティティとして処理し、そしてそれらを全てエンティティ共起知識ベース112に対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
The search query from
更に、特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。エンティティが抽出されそして信頼性スコアに基づいてランク付けされると、ある場合には番号であるインデックスIDが、ステップ206において、抽出されたエンティティに指定される。
Further, a method for linking features, essentially using a weighted model to determine which entity type is most important, which has the greater weight, and to the reliability score Based on this, various methods are used, such as determining how reliably the correct feature extraction has been performed. Once the entities are extracted and ranked based on the confidence score, an index ID, which in some cases is a number, is assigned to the extracted entities in
次いで、ステップ208において、ステップ206で指定されたエンティティインデックスIDに基づくサーチが遂行される。サーチステップ208において、抽出されたエンティティは、標準的なインデックス方法を使用してエンティティインデックス型コーパス114内に位置付けられる。抽出されたエンティティが位置付けられると、エンティティ関連付けステップ210へと続く。エンティティ関連付けステップ210では、少なくとも2つの抽出されたエンティティが重畳するところのドキュメント、ビデオ、ピクチャー、ファイル、等の全てのデータがエンティティインデックス型コーパス114から引き出される。最後に、ステップ212において、潜在的な結果のリストが構築され、関連度により分類され、そしてサーチ結果としてユーザに提示される。結果のリストは、次いで、ユーザが関心のある関連エンティティを見出すところのデータへのリンクだけを示す。
Next, in
図3は、図2に関連して上述したように、エンティティ共起を使用して関連エンティティをサーチするための方法300の特定例である。図2について述べたように、種々の実施形態によれば、方法300の開始の前に、図1で述べたものと同様のエンティティインデックス型コーパス114には、大量コーパス又はライブコーパスのような複数のソース(インターネット)からのデータが供給されている。エンティティインデックス型コーパス114は、新たなデータが発見されるにつれて常時更新される複数のインデックスされたエンティティを含む。
FIG. 3 is a specific example of a
この規範的な実施形態では、ユーザは、会社「Apple」の「Jobs」に関する情報を探索する。このため、ユーザは、ユーザインターフェイス102を通して1つ以上のエンティティ(例えば、ステップ302におけるサーチ質問)を入力し、ユーザインターフェイスは、これに限定されないが、図1について述べたようなサーチエンジン104を伴うインターフェイスである。例示であって、これに限定されないが、ユーザは、「Apple+Jobs」のようなエンティティの組み合わせを入力する。次いで、サーチエンジン104は、ステップ302において、サーチ質問を発生し、そしてそれら質問を処理のためにサーバー装置106に送る。サーバー装置106において、エンティティ抽出モジュール110は、ステップ302のサーチ質問入力からステップ304のエンティティ抽出を遂行する。
In this exemplary embodiment, the user searches for information about “Jobs” of the company “Apple”. Thus, the user enters one or more entities (eg, the search query at step 302) through the
エンティティ抽出モジュール110は、次いで、ステップ302で入力されたサーチ質問、例えば、「Apple」及び「Jobs」をエンティティとして処理し、そしてそれらを全てエンティティ共起知識ベース112に対して比較し、できるだけ多数のエンティティを抽出しそして曖昧性除去する。抽出中、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを示すスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
The
更に、特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づいて、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。その結果として、エンティティ及び共起を含むテーブル306が生成される。テーブル306は、エンティティ「apple」及びその共起、この場合には、Apple及びJobs、Apple及びSteve Jobsを示す。又、テーブル306は、Apple及びOrganization Aも含み、これは、Organization AがAppleとビジネスを行い且つ前記Organization Aに「jobs」を発生するので関連性があると分かっている。他の共起は、低い重要度で見出される。従って、Apple及びJobsは、最も高いスコア(1)を有し、従って、最上位にリストされ、次いで、Apple及びSteve Jobsは、第2の最も高いスコア(0.8)を有し、そして最後に、Apple及び他のOrganizationAは、最も低いスコア(0.3)で最も下にリストされる。 In addition, a method of linking features, essentially using a weighted model to determine which entity type is most important, which has the greater weight, and the reliability score Based on this, various methods are used such as determining how reliable the extraction of the correct features has been done. As a result, a table 306 containing entities and co-occurrence is generated. The table 306 shows the entity “apple” and its co-occurrence, in this case Apple and Jobs, Apple and Steve Jobs. Table 306 also includes Apple and Organization A, which is known to be relevant because Organization A does business with Apple and generates “jobs” in Organization A. Other co-occurrences are found with low importance. Thus, Apple and Jobs have the highest score (1) and are therefore listed at the top, then Apple and Steve Jobs have the second highest score (0.8), and last In addition, Apple and other Organizations A are listed at the bottom with the lowest score (0.3).
エンティティが抽出されそして信頼性スコアに基づきランク付けされると、ある場合に数字でもよいインデックスIDが、ステップ308において、抽出されたエンティティに指定される。テーブル310は、抽出されたエンティティに指定されるインデックスIDを示している。従って、テーブル310は、「Apple」をインデックスID1と共に示し、「Jobs」をインデックスID2と共に示し、「Steve Jobs」をインデックスID3と共に示し、そして「Organization」をインデックスID4と共に示している。
Once the entities are extracted and ranked based on the confidence score, an index ID, which may be a number in some cases, is assigned to the extracted entities in
次いで、エンティティインデックスID(308)に基づくサーチステップ312が遂行される。サーチステップ312において、「Apple」「Jobs」「Steve Jobs」及び「Organization A」のような抽出されたエンティティは、標準的なインデックス方法を使用して、エンティティインデックス型コーパス114内に位置付けられる。
A
エンティティインデックス型コーパス114内に抽出されたエンティティを位置付けした後に、エンティティ関連付けステップ314へと続く。エンティティ関連付けステップ314では、少なくとも2つの抽出されたエンティティが重畳するところのドキュメント、ビデオ、ピクチャー、ファイル、等の全てのデータがエンティティインデックス型コーパス114から引き出されて、リンクのリストをサーチ結果として構築する(ステップ318)。例示であって、これに限定されないが、テーブル316は、抽出されたエンティティがエンティティインデックス型コーパス114のデータにどれほど関連付けられるか示している。テーブル316において、ドキュメント1、4、5、7、8及び10は、2つの抽出されたエンティティの重畳を示し、従って、それらドキュメントのためのリンクは、ステップ318において、サーチ結果として示される。
After positioning the extracted entity in the
図4は、本発明によるサーチコンピュータシステム400のブロック図である。サーチシステム400は、ネットワーク408を経てサーバー装置406と通信するサーチエンジン404への1つ以上のユーザインターフェイス402を備えている。この実施形態では、サーチシステム400は、クライアント/サーバー形式のアーキテクチャーを経ることを含めて、以下に述べる1つ以上の特殊目的コンピュータ及びコンピュータモジュールにおいて実施される。しかしながら、サーチシステム400は、他のコンピュータアーキテクチャー(例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等)を使用して実施されてもよい。一実施形態では、サーチコンピュータシステム400は、複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を含む。
FIG. 4 is a block diagram of a
サーチエンジン404は、ユーザがワールドワイドウェブに情報を位置付けできるようにするウェブベースツールのようなユーザインターフェイスを含む。又、サーチエンジン404は、ユーザが内部データベースシステム内に情報を位置付けられるようにするユーザインターフェイスツールも含む。単一のサーバー装置406において実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーにおいて実施されるサーバー装置406は、エンティティ抽出モジュール410、曖昧スコアマッチングモジュール412、及びエンティティ共起知識ベースのデータベース414を含む。
エンティティ抽出モジュール410は、質問ストリング、部分質問、構造化データ、等の所与の質問セットから独立エンティティをオンザフライで抽出しそして曖昧性除去するように構成されたハードウェア及び/又はソフトウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻である。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
The
曖昧スコアマッチングモジュール412は、所与のサーチ質問から抽出されるエンティティの形式に従って選択される複数のアルゴリズムを含む。アルゴリズムの機能は、ユーザ入力を経て受け取った所与のサーチ質問及びアルゴリズムにより識別される他のサーチされたストリングが互いに同様であるかどうか又は所与のパターンストリングにほぼ一致するかどうか決定することである。又、曖昧マッチングは、曖昧ストリングマッチング、厳密でないマッチング、及びおおよそのマッチングとしても知られている。エンティティ抽出モジュール410及び曖昧スコアマッチングモジュール412は、エンティティ共起知識ベース414に関連して働いて、ユーザのためのサーチ示唆を発生する。
The ambiguity
種々の実施形態によれば、エンティティ共起知識ベース414は、これに限定されないが、インメモリコンピュータデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのようなコンポーネントを含む。あるサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
According to various embodiments, the entity
エンティティ共起知識ベース414は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。
The entity
図5は、知識ベースにおいて曖昧スコアマッチング及びエンティティ共起を使用してサーチ示唆を発生する方法500を示すフローチャートである。この方法500は、図4に示すものと同様のサーチシステム400において実施される。
FIG. 5 is a flowchart illustrating a
ある実施形態において、方法500は、ステップ502において、ユーザが図4に示したサーチエンジンインターフェイス402へサーチ質問をタイプし始めるときに始まる。ステップ502においてサーチ質問がタイプされるときに、サーチシステム400は、オンザフライプロセスを遂行する。種々の実施形態によれば、ステップ502のサーチ質問入力は、完全であるか又は部分的であり、正しいスペルであるか又はスペルミスがある。その後、サーチシステム400において、ステップ502のサーチ質問入力からの部分エンティティ抽出ステップ504が遂行される。部分エンティティ抽出ステップ504は、エンティティ共起知識ベース414に対してクイックサーチを実行して、ステップ502で入力されたサーチ質問がエンティティであるかどうか識別し、もしそうであれば、どんなタイプのエンティティであるか識別する。種々の実施形態によれば、ステップ402のサーチ質問入力は、とりわけ、個人、組織、位置又は場所、及び日付を指す。サーチ質問入力のエンティティタイプが識別されると、曖昧スコアマッチングモジュール412が、ステップ506において、それに対応する曖昧マッチングアルゴリズムを選択する。例えば、サーチ質問が、個人を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール412は、例えば、ファーストネーム、ミドルネーム、ラストネーム、及び肩書きを含む個人の名前の異なるコンポーネントを抽出することにより、個人のためのストリングマッチングアルゴリズムを選択する。別の実施形態では、サーチ質問が組織を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール412は、学校、大学、企業、会社、等の識別用語を含む組織のためのストリングマッチングアルゴリズムを選択する。曖昧スコアマッチングモジュール412は、次いで、卓越したサーチのためにサーチ質問入力における識別されたエンティティのタイプに対応するストリングマッチングアルゴリズムを選択する。ストリングマッチングアルゴリズムがその識別されたエンティティのタイプに対して調整されると、曖昧スコアマッチングステップ508が遂行される。
In some embodiments, the
曖昧スコアマッチングステップ508では、抽出されたエンティティ(1つ又は複数)及び非エンティティが選択されて、エンティティ共起知識ベース414に対して比較される。抽出されたエンティティ(1つ又は複数)は、個人の不完全な名前、例えば、とりわけ、ファーストネーム及びラストネームの最初の文字、組織の省略形、例えば、「United Nation」を意味する「UN」、短縮形、及びニックネームを含む。エンティティ共起知識ベース414は、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、及びエンティティ対ファクトのような、構造化データとしてインデックスされる複数のレコードを既に登録している。後者は、ステップ508の曖昧スコアマッチングを非常に高速で行えるようにする。ステップ508の曖昧スコアマッチングは、これに限定されないが、レベンシュタイン距離、strcmp95、ITFスコアリング、等の共通のストリングメトリックを使用する。2つのワード間のレベンシュタイン距離は、あるワードを他のワードに変更するのに必要な単一キャラクタ編集の最低回数を指す。
In the fuzzy
最後に、曖昧スコアマッチングステップ508がエンティティ共起知識ベース414の全てのレコードに対するサーチ質問の比較及びサーチを終了すると、所与のパターンストリング(即ち、ステップ502のサーチ質問入力)に最も一致するか又は一致に最も近いレコードが、ステップ510におけるサーチ示唆のための第1候補として選択される。所与のパターンストリングとの一致にあまり近くない他のレコードは、第1候補の下に減少順に配置される。ステップ510のサーチ示唆は、考えられる一致のドロップダウンリストにおいてユーザに提示され、ユーザは、これを無視してもよいし、しなくてもよい。
Finally, when the fuzzy
図6は、図4−5について述べた曖昧スコアマッチング及びエンティティ共起知識ベースを使用してサーチ示唆を発生するための方法に基づく規範的なユーザインターフェイス600を示す。この例では、ユーザは、図4に示すものと同様のサーチエンジンインターフェイスを通して、サーチボックス606に部分質問604を入力する。例示であってこれに限定されないが、部分質問604は、図6に示すように、「Michael J」のような個人の不完全な名前である。これは、ユーザがサーチボタン608をまだ選択していないか、さもなければ、部分質問604をサーチシステム400へ提出して実際のサーチを遂行しそして結果を得ていないので、部分質問604と考えられる。
FIG. 6 illustrates an
方法500(図5)に続いて、ユーザが「Michael J」とタイプするとき、エンティティ抽出モジュール410は、エンティティ共起知識ベース414に対して第1のワード(Michael)のクイックサーチをオンザフライで遂行して、エンティティのタイプを識別し、この例では、エンティティは、個人の名前を指す。その結果、曖昧スコアマッチングモジュール412は、個人の名前に対して仕立てられたストリングマッチングアルゴリズムを選択する。個人の名前は、例えば、イニシャルのみ(短い形態)、又はファーストネーム及びラストネームの第1文字、又はファーストネーム、ミドルネームのイニシャル及びラストネーム、又はその組み合わせを使用して、異なる形態で書かれたデータベースにおいて見出される。曖昧スコアマッチングモジュール412は、レベンシュタイン距離のような共通ストリングメトリックを使用して、エンティティ「Michael」に一致するエンティティ共起知識ベース414内のエンティティ、トピックス又はファクトに対するスコアを決定して指定する。この例では、Michaelは、その名前を有する膨大な量のレコードと一致する。しかしながら、ユーザが次に続く文字「J」をタイプするときに、曖昧スコアマッチングモジュール412は、エンティティ共起知識ベース414でMichaelを伴う全ての共起に対してレベンシュタイン距離に基づく別の比較を遂行する。エンティティ共起知識ベース414は、次いで、「Michael J」に対して最も高いスコアとの全ての考えられる一致を選択する。例えば、曖昧スコアマッチングモジュール412は、「Michael Jackson」「Michael Jordan」「Michael J.Fox」、又はある場合には「Michael Dell」のようなサーチ示唆610をユーザに返送する。次いで、ユーザは、ドロップダウンリストから、示唆された個人の1人を選択して、サーチ質問を完成することができる。前記の例を拡張すると、「Michael the basketball player」のような質問は、個人エンティティ名前変化における「Michael」、及びキーフレーズ、ファクト及びトピックスのような共起特徴における「the basketball player」についてエンティティ共起知識ベースをサーチすることにより返送される結果に基づいて「Michael Jordan」の示唆を招く。別の例として、「Alexander the actor」は、「Alexander Polinsky」の示唆を招く。当業者であれば、既存のプラットホームは、前記のように示唆を発生できないことが明らかであろう。
Following the method 500 (FIG. 5), when the user types “Michael J”, the
図7は、本発明によるサーチシステム700のブロック図である。サーチシステム700は、ネットワーク708を経てサーバー装置706と通信するサーチエンジン704に対する1つ以上のユーザインターフェイス702を備えている。この実施形態では、サーチシステム700は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム700は、他のコンピュータアーキテクチャー(例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等)、及び複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
FIG. 7 is a block diagram of a
サーチエンジン704は、これに限定されないが、ユーザがワールドワイドウェブにおいて情報を位置付けできるようにするウェブベースツールを経てのインターフェイスを含む。又、サーチエンジン704は、ユーザが内部データベースシステム内で情報を位置付けできるようにするツールも含む。単一のサーバー装置706において実施されるか又は複数のサーバーコンピュータにわたり分散型アーキテクチャーにおいて実施されるサーバー装置706は、エンティティ抽出モジュール710、曖昧スコアマッチングモジュール712、及びエンティティ共起知識ベースのデータベース714を含む。
エンティティ抽出モジュール710は、質問ストリング、部分質問、構造化データ、等の所与の質問セットから独立エンティティをオンザフライで抽出しそして曖昧性除去できるハードウェア及び/又はソフトウェアモジュールである。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻である。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される
The
曖昧スコアマッチングモジュール712は、所与のサーチ質問から抽出されるエンティティの形式に従って調整又は選択される複数のアルゴリズムを含む。アルゴリズムの機能は、所与のサーチ質問(入力)及びサーチされ示唆されたストリングが互いに同様であるかどうか又は所与のパターンストリングにほぼ一致するかどうか決定することである。又、曖昧マッチングは、曖昧ストリングマッチング、厳密でないマッチング、及びおおよそのマッチングとしても知られている。エンティティ抽出モジュール710及び曖昧スコアマッチングモジュール712は、エンティティ共起知識ベース714に関連して働いて、ユーザのためのサーチ示唆を発生する。
The fuzzy
種々の実施形態によれば、エンティティ共起知識ベース714は、これに限定されないが、インメモリコンピュータデータベースとして構築され、そして1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体、及び曖昧性除去モジュールのようなコンポーネントを含む。あるサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行しそしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
According to various embodiments, the entity
エンティティ共起知識ベース714は、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。
The entity
図8は、共起及び/又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生する方法800の一実施形態を示すフローチャートである。この方法800は、図7について述べたのと同様のサーチシステム700において実施される。
FIG. 8 is a flowchart illustrating one embodiment of a
ある実施形態において、方法800は、図7について上述したサーチエンジン704において、ユーザが、ステップ802で、サーチ質問をタイプするときに始まる。サーチ質問がタイプされるときに、サーチシステム700は、オンザフライプロセスを遂行する。種々の実施形態によれば、サーチ質問は、完全及び/又は部分的で、正しいスペルであり及び/又はスペルミスがある。次いで、サーチ質問の部分エンティティ抽出ステップ804が遂行される。部分エンティティ抽出ステップ804は、エンティティ共起知識ベース714に対してクイックサーチを実行して、サーチ質問がエンティティを含むかどうか識別し、もしそうであれば、エンティティのタイプを識別する。種々の実施形態によれば、サーチ質問エンティティは、とりわけ、個人、組織、位置又は場所、及び日付を指す。エンティティタイプがあると、曖昧スコアマッチングモジュール712が、ステップ806において、それに対応する曖昧マッチングアルゴリズムを選択する。例えば、サーチ質問が、個人を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール712は、ファーストネーム、ミドルネーム、ラストネーム、及び肩書きを含む個人の名前の異なるコンポーネントを抽出できる個人のためのストリングマッチングアルゴリズムを調整又は選択する。別の実施形態では、サーチ質問が組織を指すエンティティとして識別された場合には、曖昧スコアマッチングモジュール712は、学校、大学、企業、会社、等の識別用語を含む組織のためのストリングマッチングアルゴリズムを調整又は選択する。それ故、曖昧スコアマッチングモジュール712は、サーチを容易にするためエンティティのタイプに対するストリングマッチングアルゴリズムを調整又は選択する。エンティティのタイプに対応するようにストリングマッチングアルゴリズムが調整又は選択されると、曖昧スコアマッチングステップがステップ808において遂行される。
In some embodiments, the
曖昧スコアマッチングステップ808では、抽出されたエンティティ(1つ又は複数)及び非エンティティが選択されて、エンティティ共起知識ベース714に対して比較される。抽出されたエンティティ(1つ又は複数)は、個人の不完全な名前、例えば、とりわけ、ファーストネーム及びラストネームの最初の文字、組織の省略形、例えば、「United Nation」を意味する「UN」、短縮形、及びニックネームを含む。エンティティ共起知識ベース714は、とりわけ、エンティティ対エンティティ、エンティティ対トピックス、及びエンティティ対ファクトのような、構造化データとしてインデックスされる複数のレコードを既に登録している。これは、ステップ808の曖昧スコアマッチングを迅速に行えるようにする。曖昧スコアマッチングは、これに限定されないが、レベンシュタイン距離、strcmp95、ITFスコアリング、等の共通のストリングメトリックを使用する。2つのワード間のレベンシュタイン距離は、あるワードを他のワードに変更するのに必要な単一キャラクタ編集の最低回数を指す。
In the fuzzy
ステップ808の曖昧スコアマッチングがエンティティ共起知識ベース714の全てのレコードに対するサーチ質問の比較及びサーチを終了すると、サーチ質問入力の所与のパターンストリングに最も一致するか又は一致に最も近いレコードが、ステップ810において、サーチ示唆のための第1候補として選択される。サーチ質問入力の所与のパターンストリングとの一致にあまり近くない他のレコードは、第1候補の下に減少順に配置される。ステップ810のサーチ示唆は、質問を完成するためにユーザが選択する考えられる一致のドロップダウンリストにおいてユーザに提示される。
When the ambiguity score matching of
別の実施形態では、ユーザが関心のある一致を選択した後、サーチシステム700は、ステップ812において、その選択を新たなサーチ質問として取り上げる。その後、前記新たなサーチ質問からのエンティティ抽出ステップ814が遂行される。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。エンティティ抽出モジュール710は、次いで、エンティティ共起知識ベース714に対してサーチを実行して、最も高いスコアを持つ共起に基づき関連エンティティを見出す(ステップ816)。最後に、ステップ818において、関連エンティティを含むサーチ示唆のドロップダウンリストが、電子ドキュメントコーパスにおいて実際のデータサーチを遂行する前に、ユーザに提示される。
In another embodiment, after the user selects a match of interest,
図9は、共起及び/又は曖昧スコアマッチングに基づき関連エンティティのサーチ示唆を発生するための方法800に関連したユーザインターフェイス900の規範的実施形態である。この例では、ユーザは、図7に示すものと同様のサーチエンジンインターフェイス902を通して、サーチボックス906に部分質問904を入力する。例示であってこれに限定されないが、部分質問304は、図9に示すように、「Michael J」のような個人の不完全な名前である。これは、ユーザがサーチボタン908をまだ選択していないか、さもなければ、部分質問904をサーチシステム100へ提出して実際のサーチを遂行しそして結果を得ていないので、部分質問904と考えられる。
FIG. 9 is an exemplary embodiment of a
方法800に続いて、ユーザが「Michael J」とタイプするとき、エンティティ抽出モジュール710は、エンティティ共起知識ベース714に対して第1のワード(Michael)のクイックサーチをオンザフライで遂行して、エンティティのタイプを識別し、この例では、エンティティは、個人の名前を指す。その結果、曖昧スコアマッチングモジュール712は、個人の名前に対して仕立てられたストリングマッチングアルゴリズムを選択する。個人の名前は、例えば、イニシャルのみ(短い形態)、又はファーストネーム及びラストネームの第1文字、又はファーストネーム、ミドルネームのイニシャル及びラストネーム、又はその組み合わせを使用して、異なる形態で書かれたデータベースにおいて見出される。曖昧スコアマッチングモジュール712は、レベンシュタイン距離のような共通ストリングメトリックを使用して、エンティティ「Michael」に一致するエンティティ共起知識ベース714内のエンティティ、トピックス又はファクトに対するスコアを決定して指定する。この例では、Michaelは、その名前を有する膨大な量のレコードと一致する。しかしながら、ユーザが次に続く文字「J」をタイプするときに、曖昧スコアマッチングモジュール712は、エンティティ共起知識ベース714でMichaelを伴う全ての共起に対してレベンシュタイン距離に基づく別の比較を遂行する。エンティティ共起知識ベース714は、次いで、「Michael J」に対して最も高いスコアとの全ての考えられる一致を選択する。例えば、曖昧スコアマッチングモジュール712は、「Michael Jackson」「Michael Jordan」「Michael J.Fox」、又はある場合には「Michael Dell」のようなサーチ示唆910をユーザに返送する。次いで、ユーザは、ドロップダウンリストから、示唆された個人の1人を選択するか、又は示唆を無視してタイピングを続けることができる。前記の例を拡張すると、「Michael the basketball player」のような質問は、個人エンティティ名前変化における「Michael」、及びキーフレーズ、ファクト、トピックス、等の共起特徴における「the basketball player」についてエンティティ共起知識ベースをサーチすることにより返送される結果に基づいて「Michael Jordan」の示唆を招く。別の例として、「Alexander the actor」は、「Alexander Polinsky」の示唆を招く。当業者に明らかなように、既存のサーチプラットホームは、前記のように発生される示唆を与えることができない。
Following the
この実施形態では、ユーザは、図9に示すように、ドロップダウンリストから「Michael Jordan」を選択して、部分質問904を完成させる。その選択は、次いで、サーチシステム700により新たなサーチ質問912として処理される。その後、その新たなサーチ質問912からのエンティティ抽出が行われる。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性で正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴属性を考慮して、各特徴の相対的重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。エンティティ抽出モジュール710は、次いで、エンティティ共起知識ベース714に対して「Michael Jordan」のサーチを実行して、最も高いスコアを持つ共起に基づき関連エンティティを見出す。最後に、関連エンティティを含むサーチ示唆914のドロップダウンリストが、サーチボタン908をクリックすることにより、実際のデータサーチを遂行する前に、ユーザに提示される。図7−9について述べた前記システム及び方法は、ユーザが有用な関係を見出すことができるので、ユーザにとって迅速で且つ便利である。
In this embodiment, the user selects “Michael Jordan” from the drop-down list to complete the
図10は、本発明によるサーチシステム1000のブロック図である。サーチシステム1000は、サーチエンジン1002を備え、そのようなサーチエンジン1002は、ユーザからのデータ入力、例えば、ユーザ質問を許す1つ以上のユーザインターフェイスを備えている。
FIG. 10 is a block diagram of a
サーチシステム1000は、1つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース1004及びトレンドデータベース1006を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム1000は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム1000は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
The
サーチエンジン1002は、これに限定されないが、ユーザがワールドワイドウェブに情報を位置付けられるようにするウェブベースツールを含む。又、サーチエンジン1002は、ユーザが内部データベースシステム内に情報を位置付けられるようにするツールも含む。
エンティティデータベース1004は、単一のサーバーとして実施されるか又は複数のサーバーにわたり分散型アーキテクチャーにおいて実施される。エンティティデータベース1004は、質問ストリング、構造化データ、等のエンティティ質問のセットを許す。そのようなエンティティ質問のセットは、インターネット及び/又はローカルネットワークにおいて利用できる複数のコーパスから前もって抽出される。エンティティ質問は、インデックスされそしてスコア付けされる。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻を含む。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
The
トレンドデータベース1006は、単一のサーバーとして実施されるか又は複数のサーバーにわたり分散型アーキテクチャーにおいて実施される。トレンドデータベース1006は、質問ストリング、構造化データ、等のエンティティ質問のセットを許す。そのようなエンティティ質問のセットは、インターネット及び/又はローカルネットワークにおいてユーザ及び/又は複数のユーザにより遂行される履歴的質問から前もって抽出される。エンティティ質問は、インデックスされそしてスコア付けされる。エンティティは、例えば、人々、組織、地理的位置、日付及び/又は時刻を含む。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
エンティティデータベース1004及びトレンドデータベース1006は、エンティティ共起知識ベースを備え、この知識ベースは、これに限定されないが、インメモリデータベース(図示せず)として構築されて、1つ以上のサーチコントローラ、複数のサーチノード、圧縮データの集合体及び曖昧性除去モジュール、等の他のコンポーネント(図示せず)を含む。1つのサーチコントローラは、1つ以上のサーチノードと選択的に関連付けされる。各サーチノードは、圧縮データの集合体を通して曖昧キーサーチを独立して遂行し、そしてスコア付けされた結果のセットをその関連サーチコントローラへ返送することができる。
The
共起知識ベースは、特徴に基づく且つ信頼性スコアによりランク付けされた関連エンティティを含む。特徴をリンクする方法であって、重み付けされたモデルを本質的に使用してどのエンティティ形式が最も重要であるか決定し、どれがより大きな重みを有するか決定し、そして信頼性スコアに基づき、正しい特徴の抽出がどれほどの信頼性で行われたか決定するといった種々の方法が使用される。 The co-occurrence knowledge base includes related entities that are feature-based and ranked by a reliability score. A method of linking features, essentially using a weighted model to determine which entity type is most important, which has a greater weight, and based on the confidence score, Various methods are used such as determining how reliable the extraction of the correct features was done.
サーチシステム1000は、サーチエンジン1002におけるユーザ質問をエンティティデータベース1004及びトレンドデータベース1006に対して比較する。サーチエンジン1002における自動完成モードは、両データベース、即ちエンティティデータベース1004及びトレンドデータベース1006からイネーブルされる。サーチシステム1000は、サーチ示唆1008のリストをユーザに対して展開し、そのようなリストは、データベースにおける各エンティティ示唆に指定される曖昧スコアに基づいて発生されインデックスされる。各エンティティ示唆のスコアは、サーチシステム1000によって自動的に及び/又はシステムスーパーバイザーによって手動で指定される。エンティティ示唆は、各エンティティにより得られるスコアに基づいて最も高い関連度から低い関連度へと順序付けされる。加えて、トレンドデータベース1006におけるスコアは、ローカルネットワーク及び/又はインターネットにおける1人以上のユーザからのトレンド及び質問頻度を使用して指定される。
The
各データベースのエンティティ示唆は、それらの中で比較され、次いで、スコアで得られたランクによりインデックス及び順序付けされ、従って、両データベース、即ちエンティティデータベース1004及びトレンドデータベース1006におけるエンティティ示唆を合成するサーチ示唆1008のリストがユーザに示される。ユーザがリストから示唆を選択するか、又は示唆リストから別の結果を選択する場合には、サーチシステム1000は、そのような情報をトレンドデータベース1006にセーブする。従って、サーチシステム1000の信頼性及び精度を高める自己学習システムが許される。要約すれば、トレンド共起知識ベースは、ユーザの質問及び選択された示唆から抽出された特徴で連続的に更新されて、オンザフライ学習の手段を与え、これは、サーチの関連度及び精度を改善する。更に、トレンド共起知識ベースは、システムを使用する異なるユーザにより及びトレンド検出モジュールのような自動的な方法によりポピュレートすることができる。
The entity suggestions in each database are compared among them, then indexed and ordered by the rank obtained in the score, thus searching
図11は、本発明によるサーチシステム1100のブロック図である。サーチシステム1100は、サーチエンジン1102を備え、そのようなサーチエンジン1102は、ユーザ質問のようなユーザからのデータ入力を許す1つ以上のユーザインターフェイスを含む。
FIG. 11 is a block diagram of a
サーチシステム1100は、1つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース1104及びトレンドデータベース1106を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム1100は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム1100は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
The
ある実施形態では、サーチシステム1100は、ユーザがサーチエンジン1102のユーザインターフェイスを通して1つ以上のエンティティ(サーチ質問における)を入力するときにスタートする。サーチ質問は、例えば、ストリングデータフォーマット、構造化データ、等におけるキーワードの組み合わせである。これらキーワードは、人々、組織、地理的位置、日付及び/又は時刻を表わすエンティティである。この実施形態では、「Indiana Na」がサーチ質問として使用される。
In some embodiments, the
「Indiana Na」は、次いで、エンティティ抽出のために処理される。エンティティ抽出モデルは、「Indiana Na」のようなサーチ質問をエンティティとして処理し、そしてそれらを、全て、エンティティデータベース1104及びトレンドデータベース1106におけるエンティティ共起知識ベースに対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。更に、エンティティ(例えば、個人、組織、位置)として検出されない質問テキスト部分は、エンティティ共起知識ベース(例えば、エンティティ及びトレンドデータベース)をサーチするのに使用できる概念的特徴(例えば、トピックス、ファクト、キーフレーズ)として処理される。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
“Indiana Na” is then processed for entity extraction. The entity extraction model treats search queries such as “Indiana Na” as entities and compares them all against the entity co-occurrence knowledge base in the
この実施形態では、エンティティデータベース1104は、インデックス及びランク付けされるエンティティ示唆のリスト1108としてサーチ示唆のリストを示す。トレンドデータベース1106は、インデックス及びランク付けされるトレンドベース示唆リスト1110としてサーチ示唆のリストを示す。その後、サーチシステム1100は、エンティティデータベース1104及びトレンドデータベース1106により与えられるものに基づいてサーチ示唆リスト1112を構築する。このサーチ示唆リスト1112は、各データベースにおける各エンティティ示唆の個々のスコアに基づいてインデックス及びランク付けされ、従って、最も高い関連度が最初に示され、そしてその下に低い関連度の結果が続く。
In this embodiment, the
サーチシステム1100では、サーチ示唆を得るための規範的な使用が開示される。サーチ示唆リスト1112は、「Indiana Na」ユーザ質問に基づく示唆を示す。その結果、そのエンティティに対して個々のスコア0.9に基づき「Indiana Name」が最初に現われ、次いで、個々のスコア0.8の結果として「Indiana Nasca」が示され、最後に、個々のスコア0.7に基づき「Indiana Nashville」が示される。個々のスコアは、考えられる繰り返しエンティティを適用せずにエンティティ示唆のリスト1108及びトレンドベースの示唆リスト1110を使用して比較される。
In
図12は、本発明によるサーチシステム1200のブロック図である。サーチシステム1200は、サーチエンジン1202を備え、そのようなサーチエンジン1202は、ユーザ質問のようなユーザからのデータ入力を許す1つ以上のユーザインターフェイスを含む。
FIG. 12 is a block diagram of a search system 1200 according to the present invention. The search system 1200 includes a
サーチシステム1200は、1つ以上のデータベースを備えている。そのようなデータベースは、エンティティデータベース1204及びトレンドデータベース1206を含む。データベースは、ローカルサーバー又はウェブベースサーバーに記憶される。従って、サーチシステム1200は、クライアント/サーバー型アーキテクチャーで実施されるが、サーチシステム1200は、他のコンピュータアーキテクチャー、例えば、スタンドアローンコンピュータ、ターミナルを伴うメインフレームシステム、ASPモデル、ピア・ツー・ピアモデル、等、並びに複数のネットワーク、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、ワイヤレスネットワーク、移動電話ネットワーク、等を使用して実施されてもよい。
Search system 1200 includes one or more databases. Such databases include an
ある実施形態では、サーチシステム1200は、ユーザがサーチエンジン1202のユーザインターフェイスを通して1つ以上のエンティティ(サーチ質問における)を入力するときにスタートする。サーチ質問は、例えば、ストリング、構造化データ、等におけるキーワードの組み合わせである。これらのキーワードは、人々、組織、地理的位置、日付及び/又は時刻を表わすエンティティである。この実施形態では、「Indiana Na」がサーチ質問として使用される。
In some embodiments, the search system 1200 starts when a user enters one or more entities (in a search query) through the
「Indiana Na」は、次いで、エンティティ抽出のために処理される。エンティティ抽出モデルは、「Indiana Na」のようなサーチ質問をエンティティとして処理し、そしてそれらを、全て、エンティティデータベース1204及びトレンドデータベース1206におけるエンティティ共起知識ベースに対して比較して、できるだけ多くのエンティティを抽出しそして曖昧性除去する。更に、エンティティ(例えば、個人、組織、位置)として検出されない質問テキスト部分は、エンティティ共起知識ベース(例えば、エンティティ及びトレンドデータベース)をサーチするのに使用できる概念的特徴(例えば、トピックス、ファクト、キーフレーズ)として処理される。抽出中に、1つ以上の特徴確認及び抽出アルゴリズムが使用される。又、正しい属性と共に正しく抽出される特徴の確度レベルを指示するスコアが各々の抽出された特徴に指定される。特徴の属性を考慮して、各特性の相対的な重み又は関連度が決定される。更に、重み付けされたスコアモデルを使用して特徴と特徴との間の関連付けの関連度が決定される。
“Indiana Na” is then processed for entity extraction. The entity extraction model treats search queries such as “Indiana Na” as entities and compares them all against the entity co-occurrence knowledge base in the
この実施形態では、エンティティデータベース1204は、予めインデックス及びランク付けされるエンティティ示唆のリスト1208としてサーチ示唆のリストを示す。同様に、トレンドデータベース1206は、予めインデックス及びランク付けされるトレンドベース示唆リスト1210としてサーチ示唆のリストを示す。その後、サーチシステム1200は、エンティティデータベース1204及びトレンドデータベース1206により与えられるものに基づいてサーチ示唆リスト1212を構築する。このサーチ示唆リスト1212は、両データベースにおける各エンティティ示唆の全体的スコアに基づいてインデックス及びランク付けされ、従って、最も高い関連度が最初に示され、そしてその下に低い関連度の結果が続く。
In this embodiment, the
サーチシステム1200では、サーチ示唆を得るための規範的な使用が開示される。サーチ示唆リスト1212は、「Indiana Na」ユーザ質問に基づく示唆を示す。その結果、エンティティ示唆のリスト1208におけるスコア0.8及びトレンドベースの示唆リスト1210におけるスコア0.6の和から得られる全体的スコア1.4に基づいて「Indiana Nasca」が最初に現われる。同様に、全体的スコア0.9の結果として「Indiana Name」が示され、最後に、全体的スコア0.7に基づいて「Indiana Nashville」が示される。
In search system 1200, an exemplary use for obtaining search suggestions is disclosed.
図13は、Sharepoint 2013(登録商標)におけるコンテンツをジオタギングするためのシステムアーキテクチャー1300を示す。サーチインデックス1324は、Sharepoint1302においてサーチを可能にするための多数の重要コンポーネントの1つである。Sharepoint 2013(登録商標)1302においてサーチを可能にする別の重要部分は、コンテンツをインデックスするためのコンテンツキャプチャーである。
FIG. 13 shows a
クローラー1304は、異なるコンテンツソース1306を通してクロールし、メタデータプロパティのリストを各コンテンツに追加する。コンテンツソースは、例えば、これに限定されないが、Sharepointコンテンツ、ネットワークファイルシェア、或いはユーザ又はイントラネットコンテンツを含む。クローラー1304は、コンテンツソース1306にセキュアに接続し、ソースからのドキュメントをクロールされたプロパティとしてそれらのメタデータに関連付けるという機能を遂行するように構成される。クローラー1304は、コンテンツに全クロール又は増分的クロールを与えるように構成される。クロールされたプロパティは、例えば、これに限定されないが、とりわけ、著者、タイトル、創作日を含む。
The
Sharepoint 2013(登録商標)は、コンテンツ処理コンポーネント1308を含む。このコンテンツ処理コンポーネント1308は、クローラー1304からコンテンツを取り出し、そしてそれをインデックスするための準備をする。コンテンツ処理1308は、とりわけ、言葉の処理(言語検出)、パース、エンティティ抽出マネージメント、コンテンツベースのファイルフォーマット検出、コンテンツ処理エラーレポート、自然言語処理、及びクロールされたプロパティの、管理されたプロパティへのマッピングの段階を含む。
Sharepoint 2013 (registered trademark) includes a
コンテンツ処理1308は、コンテンツエンリッチメントウェブサービス(CEWS1310)により拡張される。CEWS1310は、ウェブサービスコールアウト1312が外部ウェブサービスをコールして付加的なアクションを遂行しそしてクロールされたデータプロパティをエンリッチできるようにすることで、コンテンツ処理1308のエンリッチメントを可能にする。ウェブサービスコールアウト1312は、標準的な簡単なオブジェクトアクセスプロトコル(SOAP)要求であるか、或いはクロールされたデータの構造化情報をエンティティエンリッチメントサービス1314と交換するのに使用される他のウェブサービスコール方法である。ウェブサービスコールアウト1312は、コンテンツエンリッチメント構成オブジェクトにおいてエンリッチメント処理のために外部ウェブサービスをいつコールするか制御するように構成されたトリガー条件を含む。又、エンティティエンリッチメントサービス1314は、クロールされたデータのドキュメントタイプを決定して、画像(スキャンされたドキュメント、ピクチャー、等)の形態で到来するコンテンツを決定する。画像の形態のコンテンツが見出されると、エンティティエンリッチメントサービス1314は、クロールされたドキュメントの位置を、例えば、これに限定されないが、光学的文字認識コンポーネント又は他の画像処理コンポーネントのようなOCR処理エンジン1316へ送出する。OCR処理エンジン1316は、次いで、画像ファイルを検索及び処理して、それをテキストファイルへ非同期で変換する。OCRで処理されたファイル1318は、その後、クローラー1304へ再供給され、テキストファイルとしてクロールされると共に、コンテンツ処理1308へ返送されて、ワークフローの残り部分で処理される。
システムアーキテクチャー1300は、外部ジオタガーウェブサービス1320及び名前付きエンティティタガーサービス1322を含む。ジオタガーウェブサービス1320及び名前付きエンティティタガーサービス1322は、両方とも、ウェブサービスアプリケーションプロバイダーとして機能しそしてウェブサービスコールアウト1312に応答するように構成されたソフトウェアモジュールである。ジオタガーウェブサービス1320は、自然言語処理エンティティ抽出技術、マシン学習モデル及び他の技術を使用して、クロールされたコンテンツからの地理的エンティティを識別し及び曖昧性除去する。例えば、ジオタガーウェブサービス1320は、ガゼッタにおいて見出されたエンティティの統計学的共起を分析することにより地理的エンティティを曖昧性除去する。ジオタガーウェブサービス1320は、クローラー1304により見出されたコンテンツに対してリンクされる統計学的共起エンティティのデータベースを含む。その同じ技術に続いて、名前付きエンティティタガーサービス1322を使用して、組織、人々又はトピックスのような付加的なエンティティ又はテキスト特徴が抽出される。
The
ジオタガーウェブサービス1320は、CEWS1310により入力プロパティとして送られた管理プロパティを分析し、そしてテキストにおいて参照される地理的エンティティを識別する。入力プロパティの非限定例は、とりわけ、FileType、IsDocument、OriginalPath、及びボディを含む。ジオタガーウェブサービス1320は、次いで、見出された各地理的エンティティを参照して管理プロパティを生成又は変更することによりテキストをジオタギングする。ジオタガーウェブサービス1320は、変更された又は新たな管理プロパティをエンティティエンリッチメントサービス1314へ送出し、そこで、変換が行われて、変更された管理プロパティをマップし、そしてそれを出力プロパティとしてCEWS1310へ返送する。この同じプロセスを使用して、組織、人々又はトピックスのような他のエンティティ又は他の特徴の抽出及びエンティティタギングのために名前付きエンティティタガーサービス1322と対話する。
The geo
増強された管理プロパティがエンティティエンリッチメントサービス1314によって返送された後に、プロパティは、クロールされたファイル管理プロパティと合流され、そしてサーチインデックス1324へ送られる。
After the augmented managed property is returned by the
地理的及び他のエンティティタグがコンテンツに関連付けられそしてインデックスされると、地理的又は名前付きエンティティ特徴を使用してサーチ質問が遂行される。Sharepoint 2013(登録商標)におけるサーチUI 1326は、地理的ベースのサーチを遂行する上でユーザの助けとなり且つファセットサーチ結果の表示向上をサポートする特定のディスプレイを含む。サーチUI 1326は、カスタムウェブ部分でもよいし、又はHTML、HTML5、JavaScript(登録商標)及びCSSのような標準的なツールでSharepoint 2013(登録商標)サーチの標準レイアウトを変更することにより行われてもよい。 Once geographic and other entity tags are associated and indexed with content, search queries are performed using geographic or named entity features. Search UI 1326 in Sharepoint 2013® includes a specific display that assists the user in performing geographic based searches and supports improved display of faceted search results. The search UI 1326 can be a custom web part or can be done by modifying the standard layout of Sharepoint 2013® search with standard tools such as HTML, HTML5, JavaScript® and CSS. Also good.
図14は、Sharepoint 2013(登録商標)サーチのためにコンテンツをタギングするプロセスステップを示すフローチャート1400である。このプロセスは、Sharepoint 2013(登録商標)のクローラーコンポーネントがコンテンツに対してクロールを遂行するときに始まる(ステップ1402)。ある実施形態では、クロールが全クロールであり、別の実施形態では、クロールが増分的クロールである。クローラーコンポーネントは、次いで、クロールされたプロパティ及びメタデータをコンテンツ処理へ供給する(ステップ1404)。クロールされたコンテンツが地理的又は名前付きエンティティを含むかどうか検証するための決定がなされる。例えば、これに限定されないが、トリガー条件が使用される。トリガー条件は、コンテンツがジオタギング又はエンティティタギングから利益を得るかどうか決定するプログラミングロジック又はルールのセットを含む。トリガー条件が偽と評価する場合には、クロールされたコンポーネントが管理プロパティに関連付けられ(ステップ1406)そしてサーチインデックスコンポーネントへ通される(ステップ1408)。トリガー条件が真と評価する場合には、CEWSがウェブサービスコールアウトをエンティティエンリッチメントサービスへ送る(ステップ1410)。エンティティエンリッチメントサービスは、送られたコンテンツを分析して、コンテンツが画像フォーマット(スキャンされたドキュメント、ピクチャー、等)であるかどうか決定する。画像フォーマットで見出されたコンテンツは、OCRエンジンにより非同期で処理され、そしてクローリングコンポーネントによりテキストファイルとしてクロールされるべく返送される(ステップ1412)。コンテンツが画像フォーマットでない場合には、コンテンツは、ジオタギングウェブサーバー又は名前エンティティタガーサービスにより処理される(ステップ1414)。ウェブサービスは、コンテンツにおいて参照される地理的又は名前付きエンティティを抽出及び曖昧性除去し、そしてそれらをエンティティメタデータでエンリッチする。識別されたエンティティ及びそれらのメタデータは、管理プロパティとしてコンテンツ処理コンポーネントへ返送されそしてコンテンツに関連付けされる(ステップ1416)。関連付けされたメタデータは、次いで、サーチインデックスコンポーネントへ送られる(ステップ1406)。
FIG. 14 is a
種々の態様及び実施形態が開示されたが、他の態様及び実施形態も意図される。ここに開示した種々の態様及び実施形態は、例示のためのもので、それに限定されるものではなく、真の範囲及び精神は、特許請求の範囲により示される。 While various aspects and embodiments have been disclosed, other aspects and embodiments are also contemplated. The various aspects and embodiments disclosed herein are for purposes of illustration and not limitation, and the true scope and spirit is indicated by the following claims.
以上の方法の説明及びプロセスフロー図は、単なる例示として示されたもので、種々の実施形態のステップを、提示した順序で遂行しなければならないことを要求し又は意味することは意図されない。当業者に明らかなように、前記実施形態におけるステップは、任意の順序で遂行されてもよい。「次いで(then)」、「次に(next)」、等のワードは、ステップの順序を限定するものではなく、これらのワードは、単に、方法の説明を通して読者を誘導するのに使用されるだけである。プロセスフロー図は、オペレーションを一連のプロセスとして示すが、多数のオペレーションを並列に又は同時に遂行することもできる。加えて、オペレーションの順序は、再構成してもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラム、等に対応する。プロセスが機能に対応するとき、その終了は、コーリング機能又はメイン機能への機能の復帰に対応する。 The foregoing method descriptions and process flow diagrams are presented by way of example only and are not intended to imply or imply that the steps of the various embodiments must be performed in the order presented. As will be apparent to those skilled in the art, the steps in the embodiments may be performed in any order. The words “then”, “next”, etc. do not limit the order of the steps, these words are simply used to guide the reader through the description of the method Only. Although the process flow diagram shows the operations as a series of processes, multiple operations can be performed in parallel or simultaneously. In addition, the order of operations may be reconfigured. Processes correspond to methods, functions, procedures, subroutines, subprograms, etc. When the process corresponds to a function, its termination corresponds to the return of the function to the calling function or the main function.
ここに開示する実施形態に関連して述べた種々の例示的論理ブロック、モジュール、回路及びアルゴリズムステップは、電子的ハードウェア、コンピュータソフトウェア又はその両方の組み合わせとして具現化されてもよい。ハードウェア及びソフトウェアのこの互換性を明確に示すために、種々の例示的コンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能に関して一般的に説明された。そのような機能がハードウェアとして具現化されるかソフトウェアとして具現化されるかは、システム全体に課せられる特定アプリケーション及び設計上の制約に依存する。当業者であれば、ここに述べた機能を特定アプリケーションごとに色々な仕方で具現化できるが、そのような具現化の判断は、本発明の範囲から逸脱すると解釈されてはならない。 The various exemplary logic blocks, modules, circuits, and algorithm steps described in connection with the embodiments disclosed herein may be embodied as electronic hardware, computer software, or a combination of both. To clearly illustrate this interchangeability of hardware and software, various illustrative components, blocks, modules, circuits, and steps have been described generally in terms of their functionality. Whether such a function is implemented as hardware or software depends on a specific application imposed on the entire system and design constraints. Those skilled in the art can implement the functions described herein in various ways for each specific application, but such implementation decisions should not be construed as departing from the scope of the present invention.
コンピュータソフトウェアで具現化される実施形態は、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はその組み合わせで具現化される。コードセグメント又はマシン実行可能なインストラクションは、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、或いはインストラクション、データ構造体又はプログラムステートメントの組合せを表わす。コードセグメントは、情報、データ、アーギュメント、パラメータ又はメモリコンテンツを通し及び/又は受け取ることにより別のコードセグメント又はハードウェア回路に結合される。情報、アーギュメント、パラメータ、データ、等は、メモリ共有、メッセージ通過、トークン通過、ネットワーク送信、等を含む適当な手段を経て通され、転送され又は送信される。 Embodiments embodied in computer software are embodied in software, firmware, middleware, microcode, hardware description language, or a combination thereof. A code segment or machine-executable instruction represents a procedure, function, subprogram, program, routine, subroutine, module, software package, class, or instruction, data structure, or combination of program statements. A code segment is coupled to another code segment or a hardware circuit by passing and / or receiving information, data, arguments, parameters or memory contents. Information, arguments, parameters, data, etc. are passed, forwarded or transmitted via any suitable means including memory sharing, message passing, token passing, network transmission, etc.
これらのシステム及び方法を実施するのに使用される実際のソフトウェアコード又は特殊な制御ハードウェアは、本発明を限定するものではない。従って、システム及び方法のオペレーション及び振舞いは、ここでの記載に基づいてシステム及び方法を実施するようにソフトウェア及び制御ハードウェアを設計できることを理解して、特定のソフトウェアコードを参照せずに説明した。 The actual software code or specialized control hardware used to implement these systems and methods is not intended to limit the invention. Accordingly, the operation and behavior of the system and method have been described without reference to specific software code, with the understanding that software and control hardware can be designed to implement the system and method based on the description herein. .
ソフトウェアで実施されるときに、機能は、非一時的コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に1つ以上のインストラクション又はコードとして記憶される。ここに開示する方法又はアルゴリズムのステップは、コンピュータ読み取り可能な又はプロセッサ読み取り可能なストレージ媒体に存在するプロセッサ実行可能なソフトウェアモジュールにおいて実施される。非一時的なコンピュータ読み取り可能な又はプロセッサ読み取り可能な媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にするコンピュータストレージ媒体及び有形のストレージ媒体の両方を含む。非一時的なプロセッサ読み取り可能なストレージ媒体は、コンピュータによりアクセスされる利用可能な媒体である。これに限定されないが、一例として、そのような非一時的なプロセッサ読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM又は他の光学ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージ装置、或いはインストラクション又はデータ構造体の形態で望ましいプログラムコードを記憶するのに使用され且つコンピュータ又はプロセッサによりアクセスされる他の有形のストレージ媒体を含む。ここで使用するディスク(disk & disc)とは、コンパクトディスク(CD)、レーザーディスク(登録商標)、光学ディスク、デジタル多様性ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ここで、ディスク(disk)は、通常、データを磁気的に再生するものであり、一方、ディスク(disc)は、データをレーザで光学的に再生するものである。前記の組み合わせも、コンピュータ読み取り可能な媒体の範囲内に包含される。加えて、方法又はアルゴリズムのオペレーションは、コンピュータプログラム製品に合体される非一時的プロセッサ読み取り可能な媒体及び/又はコンピュータ読み取り可能な媒体にコード及び/又はインストラクションの1つ又は組み合わせ或いはセットとして存在する。 When implemented in software, the functions are stored as one or more instructions or code on a non-transitory computer-readable or processor-readable storage medium. The steps of the method or algorithm disclosed herein are implemented in a processor-executable software module residing on a computer-readable or processor-readable storage medium. Non-transitory computer readable or processor readable media include both computer storage media and tangible storage media that facilitate transfer of a computer program from one place to another. A non-transitory processor readable storage medium is any available medium that can be accessed by a computer. By way of example, but not limitation, such non-transitory processor readable media may be RAM, ROM, EEPROM, CD-ROM or other optical disk storage, magnetic disk storage or other magnetic storage device, or It includes other tangible storage media used to store desired program code in the form of instructions or data structures and accessed by a computer or processor. As used herein, the term “disk & disc” includes a compact disc (CD), a laser disc (registered trademark), an optical disc, a digital diversity disc (DVD), a floppy disc, and a Blu-ray disc. The (disk) usually reproduces data magnetically, while the disc (disc) reproduces data optically with a laser. Combinations of the above are also included within the scope of computer-readable media. In addition, the operations of the method or algorithm may reside as one or a combination or set of codes and / or instructions on a non-transitory processor-readable medium and / or computer-readable medium that is incorporated into a computer program product.
技術の種々のコンポーネントは、分散型ネットワーク及び/又はインターネットの遠隔部分に、或いは専用のセキュア、アンセキュア及び/又は暗号化システム内に配置できることが明らかである。従って、システムのコンポーネントは、1つ以上の装置に結合するか、又はテレコミュニケーションネットワークのような分散型ネットワークの特定ノードに共通配置できることが明らかである。以上の説明から明らかなように、計算効率の理由で、システムのコンポーネントは、システムのオペレーションに影響することなく、分散型ネットワーク内の任意の位置に配置することができる。更に、それらのコンポーネントは、専用マシンに埋め込むこともできる。 It will be apparent that the various components of the technology can be located in a remote part of the distributed network and / or the Internet, or in a dedicated secure, unsecure and / or encryption system. Thus, it will be apparent that the components of the system can be coupled to one or more devices or co-located at a particular node in a distributed network such as a telecommunications network. As is apparent from the above description, for computational efficiency reasons, the components of the system can be located anywhere in the distributed network without affecting the operation of the system. In addition, these components can be embedded in a dedicated machine.
更に、エレメントを接続する種々のリンクは、ワイヤード又はワイヤレスリンク又はその組み合わせ、或いは接続されたエレメントへ及びそこからデータを供給及び/又は通信することのできる他の既知の又は今後開発されるエレメントであることが明らかである。ここで使用するモジュールという語は、エレメントに関連した機能を遂行できる既知の又は今後開発されるハードウェア、ソフトウェア、ファームウェア、又はその組み合わせを指す。又、ここで使用する決定、計算及びコンピューティング、並びにその変形の語は、交換可能に使用され、そして任意のタイプの方法、プロセス、数学演算又は技術を包含する。 Further, the various links connecting the elements can be wired or wireless links or combinations thereof, or other known or later developed elements that can supply and / or communicate data to and from the connected elements. It is clear that there is. As used herein, the term module refers to any known or later developed hardware, software, firmware, or combination thereof that can perform the functions associated with the element. Also, the terms decision, computation and computing, and variations thereof, as used herein, are used interchangeably and encompass any type of method, process, mathematical operation or technique.
ここに開示する実施形態の前記説明は、当業者が本発明を実施又は利用できるようにするためになされたものである。これら実施形態に対する種々の変更は、当業者に容易に明らかであり、そしてここに定義する一般的な原理は、本発明の精神又は範囲から逸脱せずに他の実施形態に適用される。従って、本発明は、ここに示す実施形態に限定されるものではなく、特許請求の範囲並びにここに開示した原理及び新規な特徴に一致する最も広い範囲と調和されるべきである。 The previous description of the disclosed embodiments is provided to enable any person skilled in the art to make or use the present invention. Various modifications to these embodiments will be readily apparent to those skilled in the art, and the generic principles defined herein may be applied to other embodiments without departing from the spirit or scope of the invention. Accordingly, the invention is not intended to be limited to the embodiments shown but is to be accorded the widest scope consistent with the claims and the principles and novel features disclosed herein.
以上に述べた実施形態は、例示に過ぎない。当業者であれば、ここに述べた特定例に対して置き換えられ且つ依然として本発明の範囲内に入る多数の代替的コンポーネント及び実施形態が認識されよう。 The embodiments described above are merely examples. Those skilled in the art will recognize numerous alternative components and embodiments that may be substituted for the specific examples described herein and still fall within the scope of the present invention.
100:サーチシステム
102:グラフィックユーザインターフェイス
104:サーチエンジン
106:サーバー装置
108:ネットワーク接続
110:エンティティ抽出モジュール
112:エンティティ共起知識ベース
114:エンティティインデックス型コーパス
400:サーチコンピュータシステム
402:ユーザインターフェイス
404:サーチエンジン
406:サーバー装置
408:ネットワーク接続
410:エンティティ抽出モジュール
412:曖昧スコアマッチングモジュール
414:エンティティ共起知識ベースのデータベース
700:サーチシステム
702:ユーザインターフェイス
704:サーチエンジン
706:サーバー装置
708:ネットワーク接続
710:エンティティ抽出モジュール
712:曖昧スコアマッチングモジュール
714:エンティティ共起知識ベースのデータベース
1000:サーチシステム
1002:サーチエンジン
1004:エンティティデータベース
1006:トレンドデータベース
1008:サーチ示唆
1300:システムアーキテクチャー
1302:Sharepoint
1304:クローラー
1306:コンテンツソース
1308:コンテンツ処理
1312:ウェブサービスコールアウト
1314:エンティティエンリッチメントサービス
1316:OCR処理エンジン
1318:OCRファイル
1320:ジオタガーウェブサービス
1322:名前付きエンティティタガーサービス
1324:サーチインデクサ
1326:サーチUI
DESCRIPTION OF SYMBOLS 100: Search system 102: Graphic user interface 104: Search engine 106: Server apparatus 108: Network connection 110: Entity extraction module 112: Entity co-occurrence knowledge base 114: Entity index type corpus 400: Search computer system 402: User interface 404: Search engine 406: Server device 408: Network connection 410: Entity extraction module 412: Fuzzy score matching module 414: Entity co-occurrence knowledge base database 700: Search system 702: User interface 704: Search engine 706: Server device 708: Network connection 710: Entity extraction module 712: Ambiguous Abnormal score matching module 714: Database of entity co-occurrence knowledge base 1000: Search system 1002: Search engine 1004: Entity database 1006: Trend database 1008: Search suggestion 1300: System architecture 1302: Sharepoint
1304: Crawler 1306: Content source 1308: Content processing 1312: Web service callout 1314: Entity enrichment service 1316: OCR processing engine 1318: OCR file 1320: Geotagger web service 1322: Named entity tagger service 1324: Search indexer 1326 : Search UI
Claims (56)
エンティティ抽出コンピュータにより、各々のエンティティを、共起データベースにおける各エンティティの1つ以上の共起と比較し、
エンティティ抽出コンピュータにより、サーチ質問からの1つ以上のエンティティのサブセットを、共起データベースに従ってそのエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度に基づきそのサブセットの各エンティティが共起データベースの信頼性スコアを越えるとの決定に応答して、抽出し、
エンティティ抽出コンピュータにより、インデックス識別子(インデックスID)をその複数の抽出されたエンティティにおけるエンティティの各々に指定し、
エンティティ抽出コンピュータにより、その複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされるものであり、
サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けしそしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型電子データコーパスをサーチし、及び
サーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する、
ことを含む、コンピュータで実施される方法。 An entity extraction computer receives a search query including one or more entities from a client computer;
The entity extraction computer compares each entity with one or more co-occurrence of each entity in the co-occurrence database;
The entity extraction computer allows a subset of one or more entities from a search query to be shared by each entity in the subset based on the accuracy of the co-occurrence of that entity with one or more related entities in the electronic data corpus according to a co-occurrence database. In response to a determination that the reliability score of the origin database is exceeded,
An entity extraction computer assigns an index identifier (index ID) to each of the entities in the plurality of extracted entities;
An entity extraction computer saves an index ID for each of the plurality of extracted entities in an electronic data corpus, the electronic data corpus being indexed by an index ID corresponding to each of the one or more related entities. Yes,
Searching an entity indexed electronic data corpus to locate the plurality of extracted entities and to identify an index ID of a data record in which at least two of the plurality of extracted entities co-occur by a search server computer; And a search server computer builds a search result list having data records corresponding to the identified index ID;
A computer-implemented method comprising:
サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、このエンティティ抽出モジュールは、更に、
複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、
複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し、
複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、この電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによりインデックスされる、
ように構成され、及び
その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型電子データコーパスをサーチするように構成されたサーチサーバーモジュールを更に備え、このサーチサーバーモジュールは、更に、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築するように構成される、システム。 Comprising one or more server computers having one or more processors executing computer readable instructions for a plurality of computer modules, comprising:
An entity extraction module configured to receive user input of search query parameters, the entity extraction module further comprising:
By comparing each entity in the plurality of extracted entities to an entity co-occurrence database that includes a confidence score representing the accuracy of the co-occurrence of the extracted entity and one or more related entities in the electronic data corpus, Extract multiple entities from search question parameters,
Specify an index identifier (index ID) for each entity in the plurality of extracted entities;
Saving an index ID for each of the plurality of extracted entities in an electronic data corpus, the electronic data corpus being indexed by an index ID corresponding to each of the one or more related entities;
And searching the entity indexed electronic data corpus to locate the plurality of extracted entities and identify an index ID of a data record in which at least two of the plurality of extracted entities co-occur A system further comprising a search server module configured to, wherein the search server module is further configured to build a search result list having data records corresponding to the identified index ID.
エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティを、その抽出されたエンティティと電子データコーパスにおける1つ以上の関連エンティティとの共起の確度を表わす信頼性スコアを含むエンティティ共起データベースと比較することにより、サーチ質問パラメータから複数のエンティティを抽出し、
エンティティ抽出コンピュータにより、複数の抽出されたエンティティにおける各エンティティにインデックス識別子(インデックスID)を指定し、
エンティティ抽出コンピュータにより、複数の抽出されたエンティティの各々に対するインデックスIDを電子データコーパスにセーブし、該電子データコーパスは、1つ以上の関連エンティティの各々に対応するインデックスIDによってインデックスされるものであり、
サーチサーバーコンピュータにより、その複数の抽出されたエンティティを位置付けし、そしてその複数の抽出されたエンティティの少なくとも2つが共起するデータレコードのインデックスIDを識別するためにエンティティインデックス型電子データコーパスをサーチし、及び
サーチサーバーコンピュータにより、その識別されたインデックスIDに対応するデータレコードを有するサーチ結果リストを構築する、
ことを含むコンピュータ実行可能なインストラクションを記憶している非一時的なコンピュータ読み取り可能な媒体。 The entity extraction computer receives user input for search question parameters,
An entity co-occurrence database including a confidence score representing the accuracy of co-occurrence of the extracted entities and one or more related entities in the electronic data corpus with an entity extraction computer By comparing, extract multiple entities from search question parameters,
An entity extraction computer designates an index identifier (index ID) for each entity in a plurality of extracted entities;
An entity extraction computer saves an index ID for each of a plurality of extracted entities in an electronic data corpus, the electronic data corpus being indexed by an index ID corresponding to each of the one or more related entities. ,
A search server computer searches the entity indexed electronic data corpus to locate the plurality of extracted entities and to identify an index ID of a data record in which at least two of the plurality of extracted entities co-occur Building a search result list having data records corresponding to the identified index ID by the search server computer;
A non-transitory computer-readable medium having stored thereon computer-executable instructions.
エンティティ抽出コンピュータにより、サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出し、
曖昧スコアマッチングコンピュータにより、サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものであり、
曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し、及び
曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示する、
ことを含む方法。 The entity extraction computer receives user input for search question parameters from the user interface,
The entity extraction computer compares the search query parameters with an entity co-occurrence database having co-occurrence instances of one or more entities in the electronic data corpus, and at least one corresponding to the one or more entities in the search query parameters Extract one or more entities from the search question parameters by identifying the entity type,
An ambiguity score matching computer selects an ambiguity matching algorithm that searches the entity co-occurrence database to identify one or more records associated with the search query parameter, the ambiguity matching algorithm comprising at least one identified entity type Corresponding to
An ambiguity score matching computer that searches the entity co-occurrence database using the selected ambiguity matching algorithm and forms one or more suggested search query parameters from one or more records based on the search; And the fuzzy score matching computer presents one or more suggested search query parameters via the user interface;
A method involving that.
ユーザインターフェイスからサーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、このエンティティ抽出モジュールは、更に、
サーチ質問パラメータを、電子データコーパスにおける1つ以上のエンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてサーチ質問パラメータにおいて1つ以上のエンティティに対応する少なくとも1つのエンティティ形式を識別することにより、サーチ質問パラメータから1つ以上のエンティティを抽出する、
ように更に構成され、更に、
サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するよう構成された曖昧スコアマッチングモジュール、
を備え、その曖昧マッチングモジュールは、少なくとも1つの識別されたエンティティ形式に対応するものであり、その曖昧スコアマッチングモジュールは、更に、
その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の示唆されたサーチ質問パラメータを形成し、及び
ユーザインターフェイスを経て1つ以上の示唆されたサーチ質問パラメータを提示する、ように構成されたシステム。 Comprising one or more server computers having one or more processors executing computer readable instructions for a plurality of computer modules, comprising:
An entity extraction module configured to receive user input of search query parameters from a user interface, the entity extraction module further comprising:
The search query parameter is compared to an entity co-occurrence database having co-occurrence instances of one or more entities in the electronic data corpus and at least one entity type corresponding to the one or more entities is identified in the search query parameter To extract one or more entities from the search query parameters,
And further configured as
An ambiguity score matching module configured to select an ambiguity matching algorithm that searches the entity co-occurrence database to identify one or more records associated with the search query parameter;
And the ambiguity matching module corresponds to at least one identified entity type, the ambiguity score matching module further comprising:
Search the entity co-occurrence database using the selected fuzzy matching algorithm and form one or more suggested search query parameters from one or more records based on the search, and 1 through the user interface A system configured to present one or more suggested search query parameters.
エンティティ抽出コンピュータにより、その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そしてその部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、その部分サーチ質問パラメータから1つ以上の第1エンティティを抽出し、
曖昧スコアマッチングコンピュータにより、部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択し、この曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものであり、
曖昧スコアマッチングコンピュータにより、その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づき1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し、
曖昧スコアマッチングコンピュータにより、ユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示し、
エンティティ抽出コンピュータにより、完成したサーチ質問パラメータを形成するために1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り、
エンティティ抽出コンピュータにより、その完成したサーチ質問パラメータから1つ以上の第2のエンティティを抽出し、
エンティティ抽出コンピュータにより、その1つ以上の第2のエンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし、及び
エンティティ抽出コンピュータにより、ユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する、
ことを含む方法。 An entity extraction computer receives user input of a partial search question parameter from a user interface, the partial search question parameter having at least one incomplete search question parameter;
The entity extraction computer compares the partial search query parameter with an entity co-occurrence database having co-occurrence instances of one or more first entities in the electronic data corpus, and one or more first in the partial search query parameter. Extracting one or more first entities from the partial search query parameters by identifying at least one entity type corresponding to an entity;
An ambiguity score matching computer selects an ambiguity matching algorithm that searches an entity co-occurrence database to identify one or more records associated with the partial search query parameter, the ambiguity matching algorithm comprising at least one identified entity Corresponding to the format,
An ambiguity score matching computer searches the entity co-occurrence database using the selected ambiguity matching algorithm and determines one or more first suggested search query parameters from one or more records based on the search. Forming,
An ambiguous score matching computer presenting one or more first suggested search query parameters via a user interface;
An entity extraction computer receives a user selection of one or more first suggested search query parameters to form a completed search query parameter;
An entity extraction computer to extract one or more second entities from the completed search query parameters;
An entity extraction computer searches an entity co-occurrence database to identify one or more entities associated with the one or more second entities to form one or more second suggested search query parameters And presenting one or more second suggested search query parameters via the user interface by the entity extraction computer;
A method involving that.
ユーザインターフェイスから部分サーチ質問パラメータのユーザ入力を受け取るように構成されたエンティティ抽出モジュールを含み、その部分サーチ質問パラメータは、少なくとも1つの未完成のサーチ質問パラメータを有するものであり、エンティティ抽出モジュールは、更に、
その部分サーチ質問パラメータを、電子データコーパスにおいて1つ以上の第1エンティティの共起のインスタンスを有するエンティティ共起データベースと比較し、そして部分サーチ質問パラメータにおける1つ以上の第1エンティティに対応する少なくとも1つのエンティティ形式を識別することにより、部分サーチ質問パラメータから1つ以上の第1エンティティを抽出する、
ように構成され、更に、
部分サーチ質問パラメータに関連した1つ以上のレコードを識別するためにエンティティ共起データベースをサーチする曖昧マッチングアルゴリズムを選択するように構成された曖昧スコアマッチングモジュールを備え、その曖昧マッチングアルゴリズムは、少なくとも1つの識別されたエンティティ形式に対応するものであり、その曖昧スコアマッチングモジュールは、更に、
その選択された曖昧マッチングアルゴリズムを使用してエンティティ共起データベースをサーチし、そしてそのサーチに基づいて1つ以上のレコードから1つ以上の第1の示唆されたサーチ質問パラメータを形成し、及び
ユーザインターフェイスを経て1つ以上の第1の示唆されたサーチ質問パラメータを提示する、
ように構成され、エンティティ抽出モジュールは、更に、
完成したサーチ質問パラメータを形成するために1つ以上の第1の示唆されたサーチ質問パラメータのユーザ選択を受け取り、
その完成したサーチ質問パラメータから1つ以上の第2エンティティを抽出し、
その1つ以上の第2エンティティに関連した1つ以上のエンティティを識別して1つ以上の第2の示唆されたサーチ質問パラメータを形成するためにエンティティ共起データベースをサーチし、及び
ユーザインターフェイスを経て1つ以上の第2の示唆されたサーチ質問パラメータを提示する、
ように構成されたシステム。 Comprising one or more server computers having one or more processors executing computer readable instructions for a plurality of computer modules, comprising:
An entity extraction module configured to receive user input of partial search question parameters from a user interface, the partial search question parameters having at least one unfinished search question parameter; Furthermore,
Comparing the partial search query parameter to an entity co-occurrence database having co-occurrence instances of one or more first entities in the electronic data corpus and corresponding to at least one first entity in the partial search query parameters Extracting one or more first entities from the partial search query parameters by identifying one entity type;
And further configured
An ambiguity score matching module configured to select an ambiguity matching algorithm that searches the entity co-occurrence database to identify one or more records associated with the partial search query parameter, the ambiguity matching algorithm comprising at least one Corresponding to two identified entity types, and its fuzzy score matching module further comprises:
Search the entity co-occurrence database using the selected fuzzy matching algorithm and form one or more first suggested search query parameters from one or more records based on the search; and Presenting one or more first suggested search query parameters via an interface;
The entity extraction module is further configured as
Receiving a user selection of one or more first suggested search query parameters to form a completed search query parameter;
Extracting one or more second entities from the completed search query parameters;
Search the entity co-occurrence database to identify one or more entities associated with the one or more second entities and form one or more second suggested search query parameters; and Via which one or more second suggested search query parameters are presented,
Configured system.
コンピュータにより、エンティティデータベース及びトレンドデータベースに対して1つ以上のエンティティを比較することに基づき1つ以上のデータストリングにおいて1つ以上のエンティティを識別し、
コンピュータにより、少なくとも1つのエンティティに対応するものとして識別されない1つ以上のデータストリングにおいて1つ以上の特徴を識別し、
コンピュータにより、1つ以上の特徴の各々を、マッチングアルゴリズムに基づき1つ以上のエンティティの少なくとも1つに指定し、
コンピュータにより、各エンティティに指定された各々の特徴に指定されたスコアに基づき各々のエンティティに抽出スコアを指定し、
コンピュータにより、各々のエンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第1のサーチリストをエンティティデータベースから受け取り、
コンピュータにより、各々のエンティティの抽出スコアからスレッシュホールド距離内にあるスコアを有する1つ以上のエンティティを含む第2のサーチリストをトレンドデータベースから受け取り、
コンピュータにより、第1のサーチリスト及び第2のサーチリストを含む総計リストを発生し、その総計リストのエンティティは、各々の総計リストのスコアに従ってランク付けされ、及び
コンピュータにより、その総計リストに従って示唆されるサーチを与える、
ことを含む、コンピュータで実施される方法。 A computer receives a search query containing one or more data strings from a search engine, each entity corresponding to a subset of one or more strings,
Identifying one or more entities in one or more data strings based on comparing one or more entities against an entity database and a trend database by a computer;
Identifying one or more features in one or more data strings not identified by the computer as corresponding to at least one entity;
The computer assigns each of the one or more features to at least one of the one or more entities based on a matching algorithm;
The computer specifies an extraction score for each entity based on the score specified for each feature specified for each entity,
A computer receives a first search list from an entity database that includes one or more entities having a score that is within a threshold distance from an extraction score for each entity;
A computer receives a second search list from the trend database that includes one or more entities having a score that is within a threshold distance from the extracted score of each entity;
A computer generates a grand total list including a first search list and a second search list, wherein the entities of the total list are ranked according to the score of each total list, and are suggested by the computer according to the total list. Give a search,
A computer-implemented method comprising:
コンピュータにより、各データストリームに関連したプロパティのアレイを発生し、
データストリームのデータに関連したトリガー条件をコンピュータが検出するのに応答して、
コンピュータにより、データストリームのデータに関連した地理的データを発生し、
データソースのトリガー条件をコンピュータが検出しないのに応答して、
コンピュータにより、データソースに対するプロパティのアレイを、サーチインデックスに関連した管理プロパティのセットへマップし、及び
データソースのコンテンツのタイプが画像データであると決定するのに応答して、
コンピュータにより、データソースから受け取ったデータに関連したメタデータに対して光学的文字認識ルーチンを実行し、及び
コンピュータにより、そのメタデータで識別されるウェブサービスから、データソースからの更新されたデータストリームを検索し、データソースは、メタデータで識別されるウェブサービスに関連付けられる、
ようにされたコンピュータで実施される方法。 The computer receives a plurality of data streams each associated with a plurality of data sources,
The computer generates an array of properties associated with each data stream,
In response to the computer detecting a trigger condition associated with the data in the data stream,
The computer generates geographic data related to the data stream data,
In response to the computer not detecting the data source trigger condition,
In response to mapping by the computer an array of properties for the data source to a set of managed properties associated with the search index and determining that the content type of the data source is image data,
An optical character recognition routine is performed on metadata associated with data received from the data source by the computer, and an updated data stream from the data source from the web service identified by the metadata by the computer And the data source is associated with the web service identified in the metadata,
Computer-implemented method.
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361910900P | 2013-12-02 | 2013-12-02 | |
US201361910894P | 2013-12-02 | 2013-12-02 | |
US201361910905P | 2013-12-02 | 2013-12-02 | |
US201361910907P | 2013-12-02 | 2013-12-02 | |
US61/910,905 | 2013-12-02 | ||
US61/910,907 | 2013-12-02 | ||
US61/910,900 | 2013-12-02 | ||
US61/910,894 | 2013-12-02 | ||
US201461947652P | 2014-03-04 | 2014-03-04 | |
US61/947,652 | 2014-03-04 | ||
PCT/US2014/067997 WO2015084759A1 (en) | 2013-12-02 | 2014-12-02 | Systems and methods for in-memory database search |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017504105A true JP2017504105A (en) | 2017-02-02 |
JP2017504105A5 JP2017504105A5 (en) | 2018-01-11 |
Family
ID=53274014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016536900A Ceased JP2017504105A (en) | 2013-12-02 | 2014-12-02 | System and method for in-memory database search |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP3077918A4 (en) |
JP (1) | JP2017504105A (en) |
KR (1) | KR20160124079A (en) |
CN (1) | CN106164889A (en) |
CA (1) | CA2932401A1 (en) |
WO (1) | WO2015084759A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019057022A (en) * | 2017-09-20 | 2019-04-11 | ヤフー株式会社 | Information processing apparatus, information processing method, and program |
JP2022111261A (en) * | 2018-06-07 | 2022-07-29 | 日本電信電話株式会社 | QUESTION GENERATION DEVICE, QUESTION GENERATION METHOD AND PROGRAM |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10296627B2 (en) | 2015-08-18 | 2019-05-21 | Fiserv, Inc. | Generating integrated data records by correlating source data records from disparate data sources |
KR20190075067A (en) * | 2016-09-22 | 2019-06-28 | 엔퍼런스, 인크. | System, method and computer readable medium for inference of temporal signals representing visualization of semantic information and significant association between bioscience entities |
CN106599547A (en) * | 2016-11-23 | 2017-04-26 | 中山健康医疗信息技术有限公司 | Tag-based intelligent medical knowledge base management system |
CN106991181B (en) * | 2017-04-07 | 2020-04-21 | 广州视源电子科技股份有限公司 | Method and device for extracting spoken sentences |
CN108932248B (en) * | 2017-05-24 | 2022-01-28 | 苏宁易购集团股份有限公司 | Search implementation method and system |
CN107643835A (en) * | 2017-10-19 | 2018-01-30 | 北京京东尚科信息技术有限公司 | Drop-down word determines method, apparatus, electronic equipment and storage medium |
CN107832459B (en) * | 2017-11-27 | 2021-09-24 | 公安部交通管理科学研究所 | System and method for knowledge base content sharing learning based on distributed network environment |
US10810457B2 (en) * | 2018-05-09 | 2020-10-20 | Fuji Xerox Co., Ltd. | System for searching documents and people based on detecting documents and people around a table |
KR102771742B1 (en) * | 2018-08-28 | 2025-02-24 | 주식회사 케이티 | Query answering system and method thereof considering priority between knowledge bases |
WO2020057175A1 (en) * | 2018-09-20 | 2020-03-26 | Huawei Technologies Co., Ltd. | Knowledge-based management of recognition models in artificial intelligence systems |
CN109753517A (en) * | 2018-12-06 | 2019-05-14 | 北京明略软件系统有限公司 | A kind of method, apparatus, computer storage medium and the terminal of information inquiry |
US12333393B2 (en) | 2019-06-21 | 2025-06-17 | nference, inc. | Systems and methods for adaptively improving the performance of locked machine learning programs |
US11487902B2 (en) | 2019-06-21 | 2022-11-01 | nference, inc. | Systems and methods for computing with private healthcare data |
CN110347699B (en) * | 2019-06-26 | 2022-01-28 | 北京明略软件系统有限公司 | Method and device for determining activity of entity related to identity card |
CN110245357B (en) * | 2019-06-26 | 2023-05-02 | 北京百度网讯科技有限公司 | Main entity identification method and device |
KR102832401B1 (en) * | 2019-11-26 | 2025-07-11 | 한국전자통신연구원 | Apparatus and method for managing data structures based on memory |
CN112487214B (en) * | 2020-12-23 | 2024-06-04 | 中译语通科技股份有限公司 | Knowledge graph relation extraction method and system based on entity co-occurrence matrix |
US11496373B2 (en) * | 2021-01-26 | 2022-11-08 | Juniper Networks, Inc. | Enhanced conversation interface for network management |
US12040934B1 (en) | 2021-12-17 | 2024-07-16 | Juniper Networks, Inc. | Conversational assistant for obtaining network information |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008541233A (en) * | 2005-05-04 | 2008-11-20 | グーグル・インコーポレーテッド | Propose and refine user input based on original user input |
JP2011524576A (en) * | 2008-06-14 | 2011-09-01 | ビオ ネットワークス インコーポレイテッド | Search method and system using usage pattern |
JP2012113486A (en) * | 2010-11-24 | 2012-06-14 | Yahoo Japan Corp | Intention extraction device, method and program |
JP2012133520A (en) * | 2010-12-21 | 2012-07-12 | Nippon Telegr & Teleph Corp <Ntt> | Stochastic information retrieval processing apparatus, stochastic information retrieval processing method and stochastic information retrieval processing program |
JP2013516022A (en) * | 2009-12-28 | 2013-05-09 | ヤフー! インコーポレイテッド | Cluster and present search suggestions |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6965900B2 (en) * | 2001-12-19 | 2005-11-15 | X-Labs Holdings, Llc | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents |
US7593940B2 (en) * | 2006-05-26 | 2009-09-22 | International Business Machines Corporation | System and method for creation, representation, and delivery of document corpus entity co-occurrence information |
JP4922692B2 (en) * | 2006-07-28 | 2012-04-25 | 富士通株式会社 | Search query creation device |
US8195655B2 (en) * | 2007-06-05 | 2012-06-05 | Microsoft Corporation | Finding related entity results for search queries |
US20090327223A1 (en) * | 2008-06-26 | 2009-12-31 | Microsoft Corporation | Query-driven web portals |
US20120143875A1 (en) * | 2010-12-01 | 2012-06-07 | Yahoo! Inc. | Method and system for discovering dynamic relations among entities |
WO2013108073A2 (en) * | 2011-12-06 | 2013-07-25 | Perception Partners, Inc. | Text mining analysis and output system |
CN103186556B (en) * | 2011-12-28 | 2016-09-07 | 北京百度网讯科技有限公司 | Obtain the method with searching structure semantic knowledge and corresponding intrument |
CA2865184C (en) * | 2012-05-15 | 2018-01-02 | Whyz Technologies Limited | Method and system relating to re-labelling multi-document clusters |
-
2014
- 2014-12-02 EP EP14867913.7A patent/EP3077918A4/en not_active Withdrawn
- 2014-12-02 KR KR1020167017516A patent/KR20160124079A/en not_active Withdrawn
- 2014-12-02 JP JP2016536900A patent/JP2017504105A/en not_active Ceased
- 2014-12-02 CN CN201480072953.7A patent/CN106164889A/en active Pending
- 2014-12-02 CA CA2932401A patent/CA2932401A1/en not_active Abandoned
- 2014-12-02 WO PCT/US2014/067997 patent/WO2015084759A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008541233A (en) * | 2005-05-04 | 2008-11-20 | グーグル・インコーポレーテッド | Propose and refine user input based on original user input |
JP2011524576A (en) * | 2008-06-14 | 2011-09-01 | ビオ ネットワークス インコーポレイテッド | Search method and system using usage pattern |
JP2013516022A (en) * | 2009-12-28 | 2013-05-09 | ヤフー! インコーポレイテッド | Cluster and present search suggestions |
JP2012113486A (en) * | 2010-11-24 | 2012-06-14 | Yahoo Japan Corp | Intention extraction device, method and program |
JP2012133520A (en) * | 2010-12-21 | 2012-07-12 | Nippon Telegr & Teleph Corp <Ntt> | Stochastic information retrieval processing apparatus, stochastic information retrieval processing method and stochastic information retrieval processing program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019057022A (en) * | 2017-09-20 | 2019-04-11 | ヤフー株式会社 | Information processing apparatus, information processing method, and program |
JP2022111261A (en) * | 2018-06-07 | 2022-07-29 | 日本電信電話株式会社 | QUESTION GENERATION DEVICE, QUESTION GENERATION METHOD AND PROGRAM |
JP7315065B2 (en) | 2018-06-07 | 2023-07-26 | 日本電信電話株式会社 | QUESTION GENERATION DEVICE, QUESTION GENERATION METHOD AND PROGRAM |
Also Published As
Publication number | Publication date |
---|---|
CA2932401A1 (en) | 2015-06-11 |
KR20160124079A (en) | 2016-10-26 |
EP3077918A4 (en) | 2017-06-07 |
WO2015084759A1 (en) | 2015-06-11 |
CN106164889A (en) | 2016-11-23 |
EP3077918A1 (en) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017504105A (en) | System and method for in-memory database search | |
JP7282940B2 (en) | System and method for contextual retrieval of electronic records | |
US9613166B2 (en) | Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching | |
US10261954B2 (en) | Optimizing search result snippet selection | |
US10896214B2 (en) | Artificial intelligence based-document processing | |
US12026194B1 (en) | Query modification based on non-textual resource context | |
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
US9619571B2 (en) | Method for searching related entities through entity co-occurrence | |
US9418128B2 (en) | Linking documents with entities, actions and applications | |
US9639609B2 (en) | Enterprise search method and system | |
JP4160578B2 (en) | Schema matching method and system for web databases | |
US9361317B2 (en) | Method for entity enrichment of digital content to enable advanced search functionality in content management systems | |
US20090313217A1 (en) | Systems and methods for classifying search queries | |
EP3514706A1 (en) | Method for processing a question in natural language | |
US20250061139A1 (en) | Systems and methods for semantic search scoping | |
US9507834B2 (en) | Search suggestions using fuzzy-score matching and entity co-occurrence | |
JP2005025418A (en) | Question answering device, question answering method, and program | |
JP4621680B2 (en) | Definition system and method | |
JP2010282403A (en) | Document retrieval method | |
JP2008033386A (en) | Information processing provision system | |
Lee et al. | Qa websites: rich research resources for contextualizing information retrieval behaviors | |
JP2014191550A (en) | Content search server, content search device, and content search method | |
Manov et al. | D2. 6.1 Massive Automatic Annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171124 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20171124 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20171213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180308 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180423 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20180827 |