JP2014115908A - Word search device and word search method - Google Patents
Word search device and word search method Download PDFInfo
- Publication number
- JP2014115908A JP2014115908A JP2012270704A JP2012270704A JP2014115908A JP 2014115908 A JP2014115908 A JP 2014115908A JP 2012270704 A JP2012270704 A JP 2012270704A JP 2012270704 A JP2012270704 A JP 2012270704A JP 2014115908 A JP2014115908 A JP 2014115908A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- search
- text
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、例えば音声あるいは文字等のテキストから単語を検出し、検出した単語の意味を表示する単語検索装置及び単語検索方法に関するものである The present invention relates to a word search apparatus and a word search method for detecting a word from text such as speech or characters and displaying the meaning of the detected word.
従来、音声や文字等のテキスト内に不明な単語があった場合、不明な単語を辞書で調べるか、あるいはインターネットの検索サイトで検索する必要があった。この検索の手間を省く手段のひとつとして、テキスト内の所望の文字を指定すると、指定した文字を含む文に含まれる単語の意味を、たとえば別欄に表示する手段がある。これは、選択した文字を含む文を形態素解析し、単語単位に分割し、各単語を検索キーワードとして検索し、その結果を表示するものである(例えば、特許文献1参照)。 Conventionally, when there is an unknown word in text such as speech or letters, it has been necessary to look up the unknown word in a dictionary or search on an Internet search site. As one means for saving this search effort, there is a means for displaying the meaning of a word included in a sentence including a designated character in a separate column when a desired character in the text is designated. In this method, a sentence including a selected character is subjected to morphological analysis, divided into units of words, each word is searched as a search keyword, and the result is displayed (for example, see Patent Document 1).
上述した従来の技術では、指定された文に含まれる全ての単語を検索してしまうため、ユーザが意味の知りたい単語だけを検索し(不要な単語は検索せずに)、その意味を表示することは困難であった。 In the conventional technology described above, all the words included in the specified sentence are searched, so only the word that the user wants to know is searched (without searching for unnecessary words) and the meaning is displayed. It was difficult to do.
本発明は上記従来例に鑑みてなされたもので、既知の単語やノイズを除いて、ユーザが望む単語の意味を表示できる単語検索装置及び単語検索方法を提供することを目的とする。 The present invention has been made in view of the above conventional example, and an object thereof is to provide a word search device and a word search method that can display the meaning of a word desired by a user, excluding known words and noise.
上記目的を達成するために本発明は以下の構成を有する。すなわち、
テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索装置であって、
ノイズ語と既知語とを記憶する単語記憶手段と、
前記テキストに含まれる単語のうち、前記ノイズ語にも前記既知語にも該当しない単語を辞書で検索する検索手段と、
前記検索手段による検索が失敗した単語を前記ノイズ語として登録し、検索が成功した単語を前記既知語として新たに登録する単語登録手段と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成手段と、
前記単語リストを端末に送信して表示させる手段とを有する。
In order to achieve the above object, the present invention has the following configuration. That is,
A word search device that determines an unknown word from words included in a text and outputs a word list of unknown words,
Word storage means for storing noise words and known words;
Search means for searching a dictionary for words that do not correspond to the noise word or the known word among the words included in the text;
A word registration unit for registering a word for which the search by the search unit has failed as the noise word, and newly registering a word for which the search has been successful as the known word;
Creating means for creating a word list including, as unknown words, words newly registered as the known words from the words included in the text;
Means for transmitting the word list to a terminal for display.
本発明により、既知語、ノイズ語を除いた単語で意味を知りたいものだけを検索し、その意味が表示されるため、ユーザーにとって必要な単語とその意味を表示することが可能となる。 According to the present invention, only words whose meanings are to be known are searched for except for known words and noise words, and the meanings are displayed. Therefore, it is possible to display the words necessary for the user and their meanings.
以下、本発明を実施するための最良の形態について図面を用いて説明する。 The best mode for carrying out the present invention will be described below with reference to the drawings.
[実施形態1]
<システムのハードウェア構成>
図1は、本発明に好適な実施形態の文書解析システムあるいは単語検索システムの全体構成図を示す図である。図1には、端末として機能するポータブルデバイス102がインターネット101を介して各サーバーに接続されている様子が示されている。ポータブルデバイス102は複数のユーザーそれぞれが所有するものとし、図1のシステムでは複数台存在するものとする。各サーバーとは、文書解析装置103と単語辞書提示装置104である。
[Embodiment 1]
<System hardware configuration>
FIG. 1 is a diagram showing an overall configuration diagram of a document analysis system or a word search system according to an embodiment suitable for the present invention. FIG. 1 shows a state in which a
インターネット101は、ファイアウォールを越えて上述の各装置間で情報をやり取りするための通信回線である。インターネット101により、ポータブルデバイス102からは、サーバー103、104へファイアウォールを越えて通信が可能である。インターネット101は、例えば、TCP/IPプロトコルなどをサポートする通信回線網であり有線・無線は問わない。本実施形態の図1において、サーバー103、104は2台のサーバーとして示されているが1台のサーバーコンピュータで構成されていても構わないし、3台以上の複数のサーバーコンピュータで構成されていても構わない。
The Internet 101 is a communication line for exchanging information between the above-described devices across a firewall. Via the Internet 101, communication from the
図2は、ポータブルデバイス102のハードウェア構成の一例を示す図である。CPU201は、ポータブルデバイス102の制御手段である中央演算処理装置であり、HDD205に格納されているアプリケーションプログラムやOSを実行し、RAM204にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。ROM202は、記憶手段である読み出し専用のメモリであり、制御プログラムであるオペレーションシステムプログラムや各種データの一部あるいは全部を記憶する。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the
NIC203は、ネットワークインターフェースであり、該インターフェースを介して他の機器との通信制御処理を実行する。RAM204は、一時記憶手段である随時アクセスメモリであり、CPU201の主メモリやワークエリアとして機能する。HDD205は、外部記憶手段の一つであり、大容量メモリとして使用するハードディスク(HD)であり、アプリケーションプログラム、OS及び関係プログラムを格納している。
The NIC 203 is a network interface, and executes communication control processing with other devices via the interface. The
ディスプレイ206は、表示手段である出力装置であり、かつ入力手段である入力装置である。ディスプレイ206にタッチセンサが搭載されており、タッチによる入力で表示されているプログラムを操作することが可能である。本実施形態では、ディスプレイにタッチすることで入力可能とする入力装置として記載しているが、別途キーボードやテンキーなどを接続して入力装置としても良い。また、表示されているテキストをタッチすることで文字や該文字を含む文等の指定を行うことができる。
The
システムバス207は、ポータブルデバイス102内の各コンポーネントを接続するバスであり、ポータブルデバイス102内のデータの流れを司るものである。マイクユニット208は、周囲の音、音声などをデジタル信号として集音する。デジタル音声信号は、ハードディスクなどに記録され、音声認識処理によりテキストに変換することもできる。
A
図3は、文書解析装置103及び単語辞書提示装置104のハードウェア構成の一例を示す図である。文書解析装置103、単語辞書提示装置104は、CPU301、ROM302、NIC303、キーボード304、RAM305、HDD306、ディスプレイ307、システムバス308から構成される。キーボード304は、指示入力手段である入力装置であり、文書解析装置103、単語辞書提示装置104内のアプリケーションに対する制御コマンドの命令などを入力指示するものである。ディスプレイ307は、表示手段である出力装置であり、キーボード304から入力したコマンドやプログラムの状態等を表示したりするものである。その他各デバイスの役割は、ポータブルデバイス102と同様であるため、詳細説明は割愛する。
FIG. 3 is a diagram illustrating an example of the hardware configuration of the
<各装置の機能別構成>
図4は、図1に示したポータブルデバイス102のシステム構成図であり、図2に示したハードウェアが協働することにより図4に示す各処理部として機能する。
音声入力受付部401は、マイクユニット208が集音した信号をデジタル信号として受信する部分である。音声文字列変換部402は、音声入力受付部401によって受信した信号に対して音声認識処理を実行することにより、テキストに変換する。音声信号をテキストに変換する技術(音声認識処理)については、公知の技術を用いることが可能であるため、詳細説明は割愛する。通信部403は、音声文字列変換部402で作成したテキストを、解析要求とともに文書解析装置103に送付し、解析結果を受信する。表示部404は、通信部403ら受信した解析結果をディスプレイ206に表示する。操作部405は、ディスプレイ206に表示されたプログラムに対して、操作を行うことを可能とし、操作の結果は通信部403を通じて文書解析装置103に送信する。
<Configuration by function of each device>
4 is a system configuration diagram of the
The voice
図5は、図1に示した文書解析装置103のシステム構成図である。通信部501は、ポータブルデバイス102から送信されてきたデータをNIC303で受け取ったり、意味検索部505からの意味検索を単語辞書提示装置104に送信したり、結果出力部509で作成された結果をポータブルデバイス102に送信したりする。
FIG. 5 is a system configuration diagram of the
形態素解析部502は、入力されたテキストに対して形態素解析を実行し、そのテキストに含まれる単語を抽出する。具体的な形態素解析の処理アルゴリズムに関しては既知の技術を適用できるため、ここでは詳細に述べない。
The
未知語判断部503は、形態素解析部502で抽出された単語が未知語であるか既知語であるかノイズ語であるかを判断する。未知語とは、単語として意味を検索したことがなく単語保存部504内に登録されていない単語を示す。すなわち、初めて出現する単語であり、初出語と言い換えることもできる。既知語とは、単語として意味を持ち、単語保存部504内に既知語としてその意味とともに登録されている単語を示す。すなわち既出語と言い換えることもできる。ノイズ語とは、単語保存部504にノイズ語として登録されている単語である。ノイズ語はあえてその意味を知る必要がない単語であり、たとえば助詞や接続詞などを含む。未知語は、単語として単語辞書提示装置104により検索される。その結果、辞書に登録されていなかった単語は、意味を持たないノイズ語であると判断して、単語保存部504内に登録される。また、未知語を検索した結果、辞書に登録されていれば、既知語として単語保存部504にその意味と関連付けて登録される。
The unknown
単語保存部504は、既知語、ノイズ語を保存しておく記憶域であり単語記憶手段である。単語保存部504が保存する単語の一例を図6に示す。図6(A)は、既知語として登録された単語の一例である。既知語は、単語テキストとその意味と単語IDとが関連付けられて登録されている。図6(B)は、ノイズ語として登録された単語の一例である。ノイズ語はノイズ語であることさえ判断できればよいので、テキストが含まれていれば十分である。
The
意味検索部505は、単語の意味検索を実行する部分である。意味検索部505は、指定された単語が意味を持つかどうかを、また意味を持つのであればその意味を単語辞書提示装置104に対して問い合わせる。問い合わせた結果は、DB登録部506にて、単語辞書提示装置104から応答された意味の有無に応じて、既知語あるいはノイズ語として登録される。なお、本実施形態では、意味検索を別サーバーにて実行し、検索結果を登録するようにしているが、意味検索部が自身で単語の意味を登録した辞書を持ち、検索結果をDB登録部に登録してもよいし、単語辞書提示装置104だけでなく、複数のサーバーに対して単語の意味を問い合わせてもよい。
The meaning
アクセス解析部507は、ポータブルデバイス102から送信された単語で既知語として登録した単語の出現回数と参照回数とをアクセス解析保存部508に保存する。その後、アクセス解析部507は解析結果より、ポータブルデバイス102に対して、出力する単語と意味とを結果出力部509に出力する。
The
アクセス解析保存部508は、ポータブルデバイス102から検索された結果を保存する領域である。保存している結果の一例を図7に示す。
The access
図7の一覧では、テナントID、ユーザーID、単語ID、出現回数、参照回数を保存している。テナントIDは、マルチテナント環境下での同一管理形態下におかれた複数ユーザーを束ねるユーザーグループを示すIDである。ユーザーIDは、ひとつのテナント内のユーザーを固有に示すIDである。したがって、テナントIDとユーザーIDとの組み合わせによりユーザーを固有に示すことができる。単語IDは、図6(A)に示す単語と意味とを指し示すIDである。出現回数は、ユーザーごとに、単語IDで管理されている単語が過去に何回出現したかをカウントしている値である。参照回数は、出現した単語に対して、各ユーザーのポータブルデバイス102で参照した回数をカウントしている値である。図7はユーザーごとの単語の出現回数と参照回数とを記録したテーブルであり、参照率テーブルと称することにする。
In the list of FIG. 7, tenant ID, user ID, word ID, appearance count, and reference count are stored. The tenant ID is an ID indicating a user group that bundles a plurality of users placed under the same management form in a multi-tenant environment. The user ID is an ID that uniquely indicates a user in one tenant. Therefore, the user can be uniquely indicated by the combination of the tenant ID and the user ID. The word ID is an ID indicating the word and meaning shown in FIG. The number of appearances is a value that counts how many times the word managed by the word ID has appeared in the past for each user. The reference count is a value obtained by counting the number of times the user has referred to each user's
マルチテナントとは、機材やデータベースを複数の顧客で共有する環境の事を指す。マルチテナントにすることにより同一サービスをそれぞれ異なる顧客に対して異なるサービスとして提供することが可能となる。本実施形態におけるテナントIDは、ユーザーを束ねるグループとして捉えてよい。 Multi-tenant refers to an environment where equipment and databases are shared by multiple customers. By using a multi-tenant, the same service can be provided to different customers as different services. The tenant ID in the present embodiment may be regarded as a group that bundles users.
結果出力部509は、入力された単語からノイズ語以外の単語(単語保存部504に登録済みの既知語、及び意味検索部505で新たに検索された未知語)と、それらの単語の意味とを、ポータブルデバイス102で表示するための好適な形式に整形して出力する。好適な形式の一例を図8に示す。図8はポータブルデバイス102に表示されている状態の一例を示す図である。この例では、入力された単語からノイズ語以外の単語を一覧表示し、一覧からユーザー所望の単語が選択されると、選択された単語の意味を表示するようなUIの一例である。表示は一例であり、単語とその意味とを表示する形態であればこの限りではない。結果出力部509は、通信部501を通じて形成した出力結果をポータブルデバイス102に送信する。
The
以上のように文書解析装置103は単語検索を行って意味ととともに提示する機能を持ち、単語検索装置ということもできる。
As described above, the
図9は、図1に示した単語辞書提示装置104のシステム構成図である。通信部901は文書解析装置103から受信した単語を単語確認部902に送信し、辞書を用いて検索した結果を文書解析装置103に送信する。単語確認部902は、通信部より受信した単語の意味を辞書部903に問い合わせ、辞書部903に単語が登録されていれば、単語と意味とを応答し、登録されていなければ、登録されていない旨を通信部901を経由して文書解析装置103に送信する。辞書部903は、単語と意味とを関連付けて保存したデータベースである。
FIG. 9 is a system configuration diagram of the word
<テキスト内の単語の意味表示手順>
次に本実施形態における単語とその意味を出力するための手段について図10〜図13のフローチャートを用いて説明する。
<Procedure for displaying meaning of words in text>
Next, means for outputting words and their meanings in this embodiment will be described with reference to the flowcharts of FIGS.
図10は、本実施形態を実施するための全体フローである。ポータブルデバイス102は、マイクユニット208にて音声信号を受信し、音声認識処理を行った結果をテキストとして、文書解析装置103に送信する(S1001)。テキストを受信した文書解析装置103は、形態素解析部502にてテキストから単語を抽出する(S1002)。抽出した単語は未知語、既知語の判断が行われ(S1003)、未知語であればその意味を検索し、意味を持つ単語とノイズ語とを単語保存部504に保存する(S1004)。ポータブルデバイス102は、意味を持つ単語に対して、意味を検索した結果を表示する(S1005)。なお本例においては、テキストに複数の同一の単語が含まれている場合には、それら複数の同一の単語はひとつの単語として扱われる。ただし、後述する図7の参照テーブル等に記録するために、処理対象のテキストに出現した単語ごとの出現回数を単語に関連付けて記憶してもよい。この場合には、後述のS1306では、出現回数に、1ではなく記憶したテキスト内の出現回数を加算する。
FIG. 10 is an overall flow for carrying out this embodiment. The
<未知語判断手順>
図11は、未知語を判断するための処理S1003の詳細な未知語判断フローである。文書解析装置103は、抽出した単語と登録済みのノイズ語それぞれとを比較し(S1101)、抽出した単語にノイズ語に含まれる単語があるかどうかを判定する(S1102)。ノイズ語に含まれる単語がある場合、その単語を抽出した単語群から除去する(S1103)。残った単語を登録済みの既知語それぞれと比較し(S1104)、既に登録済みの既知語であるかどうかを判定する(S1105)。既知語であると判定した単語に関しては、解析対象のテキストに出現した出現単語としてアクセス解析保存部508に記憶し(S1106)、S1005の表示処理に進む。一方、既知語でないと判定した単語に関しては、S1004の意味検索及び単語登録処理(詳細は後述の図12)に進む。
<Unknown word judgment procedure>
FIG. 11 is a detailed unknown word determination flow of process S1003 for determining an unknown word. The
<意味検索及び単語登録手順>
図12は、意味検索と単語登録処理S1004の詳細なフローである。文書解析装置103の意味検索部505は、意味を検索するための参照先定義を取得し(S1201)、単語の意味を単語辞書提示装置104に対して問い合わせる(S1202)。意味を検索するための参照先定義とは、例えば単語辞書提示装置104のアドレス等であり、問い合わせは、たとえば単語の意味を問い合わせることを示すメッセージに、単語または単語群を組み合わせて構成される。問い合わせを受信した単語辞書提示装置104は、問い合わされた単語の意味を、単語とその意味とを登録したデータベースで検索し(S1203)、意味が検索できない場合は、すなわち単語がデータベースでヒットしなかった場合には、検索に失敗した旨を文書解析装置103の意味検索部505に返す。検索に失敗した場合、文書解析装置103の意味検索部505は、次の検索先があるかどうかを判定し、ある場合は、再度同じ単語の意味を次の検索先に対して問い合わせる(S1206)。次の検索先がない場合(すなわち全ての検索先で検索済みの場合)は、問い合わせた単語は、ノイズ語として、DB登録部506から単語保存部504に保存される(S1205)。単語の意味が検索できた場合(すなわち検索に成功した場合)は、単語の意味を意味検索部505に応答し、意味検索部505は、新たな既知語として、当該検索した単語とその意味をDB登録部506を介して単語保存部504に登録する(S1207)。そして、既知語として登録した単語を、解析対象のテキストに出現した出現単語として、ステップS1106で登録した出現単語に加えて一時的に記憶し(S1208)、S1005の表示処理に進む。
<Semantic search and word registration procedure>
FIG. 12 is a detailed flow of the semantic search and word registration processing S1004. The meaning
<表示手順>
図13は、単語の意味を表示する処理S1005の詳細なフローである。文書解析装置103のアクセス解析部507は、S1106またはS1208で一時的に記憶した出現単語を取得し(S1301)、アクセス解析保存部508から参照率テーブル(図7)を取得し(S1302)、参照率テーブルに出現単語の登録を試みる(S1303)。この出現単語の登録要求を行ったとき、単語ごとに既に登録済みかどうかを判定し(S1304)、未登録の単語であれば、参照率テーブルに、その出現単語のIDや出現回数、テナントIDおよびユーザーIDを登録する(S1305)。新規登録時にはまだ参照はされていないので、参照回数には0を設定する。テナントIDおよびユーザーIDは、例えばポータブルデバイス102からテキストと共に受信した解析要求に含まれたIDを書き込む。この場合、S1307で求める参照率は0となってしまうので、参照率を計算せずにS1309に分岐する。すなわち、出現回数が1となる初出語は、ポータブルデバイス102に表示する単語リストに含める不明語であるとして扱われる。
<Display procedure>
FIG. 13 is a detailed flow of processing S1005 for displaying the meaning of a word. The
一方、既に登録されている単語である場合、登録済みの単語に対して、その出現回数を1つ増やす(S1306)。ただし、単語ごとにテキスト内に出現した回数を記憶している場合には、その回数を出現回数に加算してもよい。その後、出現単語を、ポータブルデバイスに表示する単語リストに加えるか否かを決定するための値(参照率)を計算する。この値は、ポータブルデバイス102で表示された際に参照された参照回数を参照率テーブルに記憶しておき、参照回数を出現回数で割ることで得られる値である。その参照率の値を参考値とする(S1307)。なお、本実施例における参照とは、出現単語のリストをポータブルデバイスで表示した際に、或る単語についてその意味を表示させるためにユーザーがリスト中から選択することである。したがって出現単語と判定されてリスト表示されたとしても、ユーザーがその意味を改めて知る必要がなければ参照されることはないため参照回数は増えることがない。S1307で算出された参考値が、あらかじめ決めておいた基準値以上(すなわち所定値以上)かどうかを判断し(S1308)、基準値以上であった場合は、意味の表示が必要な不明語としてポータブルデバイス102に単語とその意味とを表示するように単語リストのデータを作成する(S1309)。一方、参考値が基準値より小さい場合は、不明語ではなく表示は不要と判断し、意味を持つ単語であっても単語リストには含めない。したがってポータブルデバイス102には表示されない。
On the other hand, if it is a registered word, the number of appearances is increased by one for the registered word (S1306). However, when the number of appearances in the text is stored for each word, the number may be added to the number of appearances. Thereafter, a value (reference rate) for determining whether or not to add the appearance word to the word list to be displayed on the portable device is calculated. This value is a value obtained by storing the reference count referenced when displayed on the
またポータブルデバイスに表示された単語リストのうちから、参照された単語については、参照された単語に関する情報が文書解析装置103に送信される。文書解析装置103は、参照された単語の意味を表示する形式、たとえば図8のような形式で単語リストを再構成し、それをポータブルデバイス102に送信して表示させる。文書解析装置103はその際、参照された単語の参照回数に1加算する。なお、本実施形態では、一つの単語リストに対して、ひとつの単語に対して複数回参照された場合でも、すべて参照回数として記録する。たとえば2回参照されれば参照回数は2増加する。これは、参照された回数が多ければ、その単語を表示する必要性が高いと推定できるためである。一方、一つの単語リストにおいて一つの単語が何度参照されても1回と数えてもよい。
In addition, for the referenced word from the word list displayed on the portable device, information related to the referenced word is transmitted to the
なお、図13の手順においては、S1301からS1306までを、出現単語のそれぞれに順次着目して単語ごとに繰り返し実行し、全ての出現単語について登録又は出現回数の更新が終了した後、ステップS1307からS1309を実行してもよい。この場合、新規に参照率テーブルに登録した単語はその参考値が0なので、出現回数が1の単語に限っては参考値に関わらず単語リストに加える必要がある。 In the procedure of FIG. 13, steps S1301 to S1306 are repeatedly executed for each word while paying attention to each of the appearing words, and after completion of registration or update of the number of appearances for all the appearing words, from step S1307 S1309 may be executed. In this case, since the reference value of a word newly registered in the reference rate table is 0, it is necessary to add to the word list regardless of the reference value only for the word whose appearance count is 1.
またS1308の基準値は、たとえば、或る単語について、その初出時に参照された後、何回目の出現まで単語リストに加えるべきかを考慮して決定することができる。たとえば、或る単語が初出時に参照されると、二回目の出現時には、出現回数は2、参照回数は1となり、参照率は0.5となる。したがって、基準値を0.5としておけば、参照率は基準値以上となり、このときは単語リストに加えられる。二回目に参照されないと三回目の出現時には、参照率は1/3となり、基準値0.5より小さくなるので、もはや単語リストには加えられない。このようにして、基準値をたとえば1/N(ただし小数表現では切り上げ)とすることで、初出に参照された場合には、N回目の出現まで単語リストに加えることができる。 The reference value in S1308 can be determined in consideration of, for example, how many times a certain word should be added to the word list after being referred to at the first appearance. For example, when a certain word is referenced at the first appearance, the number of appearances is 2, the number of references is 1, and the reference rate is 0.5 at the second appearance. Therefore, if the reference value is set to 0.5, the reference rate becomes equal to or higher than the reference value, and at this time, it is added to the word list. If it is not referenced the second time, the reference rate will be 1/3 when it appears for the third time, and will be smaller than the standard value 0.5, so it will no longer be added to the word list. In this way, by setting the reference value to, for example, 1 / N (however, it is rounded up in decimal representation), when it is referred to for the first time, it can be added to the word list until the Nth appearance.
以上の構成及び手順により、ポータブルデバイス102には、対象のテキストに含まれる単語群から、ノイズ語や、既知語のうち参照率が低い単語を除いた、初出語と不明語とを、その意味を参照可能な形式で表示することが可能となる。このため、不明であろう単語の意味を効率よくユーザーに提示することができる。なお上記手順において、S1208において記憶した出現単語のみを不明語として単語リストに含めてもよい。この場合には、既知語の関する参照率の分析は不要となる。
With the above-described configuration and procedure, the
[変形例]
図13の手順では、いったん単語リストから除外された単語は、その後は参照率があがることがないことから二度と単語リストに入れられることがない。そこで、たとえば出現回数が所定回数に達したなら、出現回数および参照回数として0を設定する。このように参照率をリセットする機構を設けることで、いったん既知語として単語リストから落とされた単語を、再度単語リストに載せることができる。
[Modification]
In the procedure of FIG. 13, the word once excluded from the word list is never put in the word list again because the reference rate never increases. Therefore, for example, when the number of appearances reaches a predetermined number, 0 is set as the number of appearances and the reference number. By providing a mechanism for resetting the reference rate in this way, a word once dropped from the word list as a known word can be put on the word list again.
[実施形態2]
実施形態1では、学習期間が少ないと不明語の判断が弱くなる、すなわち判断の精度が低くなるという問題がある。そこで、ユーザーのプロファイルに応じて、不明語ではないと判断される単語を変更することを可能とする。この判断手順について図14のフロー図を用いて説明する。図14の手順は、アクセス解析部507がポータブルデバイス102から解析要求を受信した際に実行される。
[Embodiment 2]
In
アクセス解析部507は、アクセス解析保存部508に、解析要求の要求元ユーザーを新しく追加する(S1401)。この時、アクセス解析保存部508に登録されている参照率テーブルに同一テナントのユーザーが登録されているかどうかを判定する(S1402)。同一テナントのユーザーとは、マルチテナント環境において、同じサービスを受領しているユーザーのことである。具体的には、同じテナントIDを持つ他のユーザーである。同一テナントのユーザーがいる場合、参照率テーブルに登録されている同一テナントに属するユーザーすべての出現単語を参照して、いずれのユーザーも参照回数が0回の単語を調べる(S1403)。いずれのユーザーも参照回数が0回の単語があった場合、その単語は同一テナント内では一般的に知られている公知語として判断し、その単語IDと参照回数および出現回数を登録ユーザーのものとしてコピーして、参照率テーブルに当該登録ユーザーのレコードを新規追加する(S1404)。複数のユーザーに同じ単語が登録されている場合には、それらのうちのいずれかをコピーする。すなわち、要求元ユーザーと同一のテナントに属するユーザーについて求められる参照率を、要求元ユーザーについても適用する。
The
これにより初回から学習期間があるものと同じになり、公知語が不明語から排除されて表示されなくなる。 As a result, it becomes the same as the one having a learning period from the first time, and the known words are excluded from the unknown words and are not displayed.
[実施形態3]
実施形態3では、学習していかないと単語毎に不明語が判断できず、既に知っている単語であっても表示されてしまう場合がある。そこで、不明語をレベル分けし、表示レベルを指定することで単語の表示を変更することを可能とする。
[Embodiment 3]
In the third embodiment, an unknown word cannot be determined for each word unless learning is performed, and even an already known word may be displayed. Therefore, it is possible to change the display of words by classifying unknown words and specifying the display level.
レベルを指定するためのUIの一例を図15に示す。単語のレベルはあらかじめ辞書単位で指定しておく。単語辞書提示装置104が複数台で構成されている場合は、単語辞書提示装置104毎で異なるレベルであるとしてもよい。
コントロール1501は、表示レベルを示す表示コントロールの一例である。
An example of a UI for designating the level is shown in FIG. The word level is specified in advance for each dictionary. When the word
A
矢印コントロール1502を押下することで、表示されるレベルが下がり、表示量が増える。矢印コントロール1503を押下することで表示されるレベルが上がり、表示量が減る。たとえば、「波動方程式」という単語のレベルが2であるとすれば、図15に例示された表示レベル「レベル1」より高いので、この単語は表示される。コントロール1503を押下して表示レベルが3以上にあげられると、「波動方程式」の単語レベルが表示レベルより低くなるので、単語リストには表示されなくなる。
By pressing the
たとえば単語リストがポータブルデバイス102に表示された状態でコントロール1502または1503が押下されると、その操作に関する情報が文書解析装置103に送信される。文書解析装置103は、その情報を受信して、単語リストから、新たなレベル以上のレベルを与えられた単語を不明語から選択して新たな単語リストを再構成し、それをポータブルデバイス102に送信して表示させる。このような処理のために、本実施形態では、図13の処理は単語のレベルとは無関係に実行し、最大単語リストを作成しておく。ただし、単語ごとに辞書で指定されたレベルはその単語リストに含めておく。最大単語リストは、最低の表示レベルが指定されたときに表示する単語リストである。表示レベルが上げられると、その最大単語リストから、表示レベル以上のレベルを持つ単語が選択されて、新たな単語リストが再構成されてポータブルデバイス102に送信されて表示される。
For example, when the
これにより、指定された表示レベルより低いレベルの単語がフィルタリングされ、表示される単語を減らすことができる。 Thereby, words of a level lower than the designated display level are filtered, and the displayed words can be reduced.
[その他の実施例]
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
[Other Examples]
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, etc.) of the system or apparatus reads the program. It is a process to be executed.
Claims (9)
ノイズ語と既知語とを記憶する単語記憶手段と、
前記テキストに含まれる単語のうち、前記ノイズ語にも前記既知語にも該当しない単語を辞書で検索する検索手段と、
前記検索手段による検索が失敗した単語を前記ノイズ語として登録し、検索が成功した単語を前記既知語として新たに登録する単語登録手段と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成手段と、
前記単語リストを端末に送信して表示させる手段と
を有することを特徴とする単語検索装置。 A word search device that determines an unknown word from words included in a text and outputs a word list of unknown words,
Word storage means for storing noise words and known words;
Search means for searching a dictionary for words that do not correspond to the noise word or the known word among the words included in the text;
A word registration unit for registering a word for which the search by the search unit has failed as the noise word, and newly registering a word for which the search has been successful as the known word;
Creating means for creating a word list including, as unknown words, words newly registered as the known words from the words included in the text;
Means for transmitting the word list to a terminal and displaying the word list.
前記作成手段は、指定されたレベルより低いレベルに関連付けられた単語を前記単語リストに含めないことを特徴とする請求項1乃至5のいずれか一項に記載の単語検索装置。 The word has an associated level,
The word search device according to claim 1, wherein the creating unit does not include a word associated with a level lower than a designated level in the word list.
前記単語検索装置から出力される単語リストを表示する端末と
を含むことを特徴とする単語検索システム。 The word search device according to any one of claims 1 to 6,
And a terminal for displaying a word list output from the word search device.
前記テキストに含まれる単語のうち、単語記憶手段に記憶されたノイズ語にも既知語にも該当しない単語を辞書で検索する検索工程と、
前記検索工程による検索が失敗した単語を前記ノイズ語として前記単語記憶手段に登録し、検索が成功した単語を前記既知語として前記単語記憶手段に新たに登録する単語登録工程と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成工程と、
前記単語リストを端末に送信して表示させる工程と
を有することを特徴とする単語検索方法。 A word search method for determining an unknown word from words included in a text and outputting a word list of unknown words,
A search step of searching a dictionary for a word that does not correspond to a noise word or a known word stored in the word storage means among words included in the text;
A word registration step of registering in the word storage means a word that has failed in the search in the search step as the noise word, and newly registering a word that has been successfully searched in the word storage means as the known word;
A creation step of creating a word list including, as unknown words, newly registered words as the known words from the words included in the text;
Transmitting the word list to a terminal and displaying the word list.
前記テキストに含まれる単語のうち、単語記憶手段に記憶されたノイズ語にも既知語にも該当しない単語を辞書で検索する検索工程と、
前記検索工程による検索が失敗した単語を前記ノイズ語として前記単語記憶手段に登録し、検索が成功した単語を前記既知語として前記単語記憶手段に新たに登録する単語登録工程と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成工程と、
前記単語リストを端末に送信して表示させる工程と
をコンピュータに実行させるためのプログラム。 A program for causing a computer to execute a word search method for determining an unknown word from words included in a text and outputting a word list of unknown words,
A search step of searching a dictionary for a word that does not correspond to a noise word or a known word stored in the word storage means among words included in the text;
A word registration step of registering in the word storage means a word that has failed in the search in the search step as the noise word, and newly registering a word that has been successfully searched in the word storage means as the known word;
A creation step of creating a word list including, as unknown words, newly registered words as the known words from the words included in the text;
A program for causing a computer to execute a step of transmitting and displaying the word list to a terminal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012270704A JP2014115908A (en) | 2012-12-11 | 2012-12-11 | Word search device and word search method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012270704A JP2014115908A (en) | 2012-12-11 | 2012-12-11 | Word search device and word search method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2014115908A true JP2014115908A (en) | 2014-06-26 |
Family
ID=51171815
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012270704A Pending JP2014115908A (en) | 2012-12-11 | 2012-12-11 | Word search device and word search method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2014115908A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105700768A (en) * | 2014-12-12 | 2016-06-22 | 纳宝株式会社 | Method, system, and non-transitory recording medium for providing additional information associated with information list on a display |
| JP2016201057A (en) * | 2015-04-14 | 2016-12-01 | 日本放送協会 | Document display device, document display method and program thereof |
| JP7742597B1 (en) * | 2025-05-13 | 2025-09-22 | Clinks株式会社 | Information processing system and program |
-
2012
- 2012-12-11 JP JP2012270704A patent/JP2014115908A/en active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105700768A (en) * | 2014-12-12 | 2016-06-22 | 纳宝株式会社 | Method, system, and non-transitory recording medium for providing additional information associated with information list on a display |
| KR20160071845A (en) * | 2014-12-12 | 2016-06-22 | 네이버 주식회사 | Method, system and recording medium for providing word meaning |
| KR101659928B1 (en) * | 2014-12-12 | 2016-09-26 | 네이버 주식회사 | Method, system and recording medium for providing word meaning |
| JP2016201057A (en) * | 2015-04-14 | 2016-12-01 | 日本放送協会 | Document display device, document display method and program thereof |
| JP7742597B1 (en) * | 2025-05-13 | 2025-09-22 | Clinks株式会社 | Information processing system and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI729472B (en) | Method, device and server for determining feature words | |
| CN114254158B (en) | Video generation method and device, and neural network training method and device | |
| CN113051362A (en) | Data query method and device and server | |
| CN112052375B (en) | Public opinion acquisition and word viscosity model training method and equipment, server and medium | |
| JP6413256B2 (en) | CONFERENCE SUPPORT DEVICE, CONFERENCE SUPPORT DEVICE CONTROL METHOD, AND PROGRAM | |
| US20090203368A1 (en) | Automated recording of virtual device interface | |
| KR102348084B1 (en) | Image Displaying Device, Driving Method of Image Displaying Device, and Computer Readable Recording Medium | |
| US20250390467A1 (en) | System and methods for massive data management and tagging | |
| JP5327784B2 (en) | Computer system, information collection support device, and information collection support method | |
| JP2018206361A (en) | System and method for user-oriented topic selection and browsing, and method, program, and computing device for displaying multiple content items | |
| CN110287464A (en) | Display method, device, computer equipment and computer storage medium for option data in form | |
| JP7104390B2 (en) | Document creation device, document creation method, database construction device, database construction method, and program | |
| JP2014115908A (en) | Word search device and word search method | |
| CN117056460A (en) | Document retrieval methods, devices, electronic equipment and media | |
| JP6640519B2 (en) | Information analysis device and information analysis method | |
| JP2017068782A (en) | Time series data processing device and time series data processing method | |
| JP6229512B2 (en) | Information processing program, information processing method, and information processing apparatus | |
| WO2017071190A1 (en) | Input data processing method, apparatus and device, and non-volatile computer storage medium | |
| JP5358981B2 (en) | Information processing apparatus, information processing apparatus control method, and information processing apparatus control program | |
| US10891338B1 (en) | Systems and methods for providing information | |
| KR101586482B1 (en) | Method and System for Conversion of Search Result Suitable for User State | |
| JP2022090209A (en) | Account analysis system, and account analysis method | |
| CN106469112A (en) | A kind of information processing system, method and electronic equipment | |
| CN115309375B (en) | Processing method and device of application programming interface, electronic equipment and medium | |
| JP6252204B2 (en) | Information processing apparatus, intention analysis method, and program |