[go: up one dir, main page]

JP2014115908A - Word search device and word search method - Google Patents

Word search device and word search method Download PDF

Info

Publication number
JP2014115908A
JP2014115908A JP2012270704A JP2012270704A JP2014115908A JP 2014115908 A JP2014115908 A JP 2014115908A JP 2012270704 A JP2012270704 A JP 2012270704A JP 2012270704 A JP2012270704 A JP 2012270704A JP 2014115908 A JP2014115908 A JP 2014115908A
Authority
JP
Japan
Prior art keywords
word
words
search
text
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012270704A
Other languages
Japanese (ja)
Inventor
Yuki Kusakabe
悠希 草壁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012270704A priority Critical patent/JP2014115908A/en
Publication of JP2014115908A publication Critical patent/JP2014115908A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a word search device and a word search method that are capable of determining unknown words from words included in a text, excluding known words and noise words, and showing the meaning of a word that a user wants to know.SOLUTION: The word search device shows only a word of which a user wants to know by excluding known words and noise words from words in sounds and a document and showing unknown words alone. Further, the word search device shows words that are needed to be showed highly by including words that first appear and words that have already appeared and are frequently referred to by a user into the unknown words.

Description

本発明は、例えば音声あるいは文字等のテキストから単語を検出し、検出した単語の意味を表示する単語検索装置及び単語検索方法に関するものである   The present invention relates to a word search apparatus and a word search method for detecting a word from text such as speech or characters and displaying the meaning of the detected word.

従来、音声や文字等のテキスト内に不明な単語があった場合、不明な単語を辞書で調べるか、あるいはインターネットの検索サイトで検索する必要があった。この検索の手間を省く手段のひとつとして、テキスト内の所望の文字を指定すると、指定した文字を含む文に含まれる単語の意味を、たとえば別欄に表示する手段がある。これは、選択した文字を含む文を形態素解析し、単語単位に分割し、各単語を検索キーワードとして検索し、その結果を表示するものである(例えば、特許文献1参照)。   Conventionally, when there is an unknown word in text such as speech or letters, it has been necessary to look up the unknown word in a dictionary or search on an Internet search site. As one means for saving this search effort, there is a means for displaying the meaning of a word included in a sentence including a designated character in a separate column when a desired character in the text is designated. In this method, a sentence including a selected character is subjected to morphological analysis, divided into units of words, each word is searched as a search keyword, and the result is displayed (for example, see Patent Document 1).

特開2011-181109号公報JP 2011-181109 A

上述した従来の技術では、指定された文に含まれる全ての単語を検索してしまうため、ユーザが意味の知りたい単語だけを検索し(不要な単語は検索せずに)、その意味を表示することは困難であった。   In the conventional technology described above, all the words included in the specified sentence are searched, so only the word that the user wants to know is searched (without searching for unnecessary words) and the meaning is displayed. It was difficult to do.

本発明は上記従来例に鑑みてなされたもので、既知の単語やノイズを除いて、ユーザが望む単語の意味を表示できる単語検索装置及び単語検索方法を提供することを目的とする。   The present invention has been made in view of the above conventional example, and an object thereof is to provide a word search device and a word search method that can display the meaning of a word desired by a user, excluding known words and noise.

上記目的を達成するために本発明は以下の構成を有する。すなわち、
テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索装置であって、
ノイズ語と既知語とを記憶する単語記憶手段と、
前記テキストに含まれる単語のうち、前記ノイズ語にも前記既知語にも該当しない単語を辞書で検索する検索手段と、
前記検索手段による検索が失敗した単語を前記ノイズ語として登録し、検索が成功した単語を前記既知語として新たに登録する単語登録手段と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成手段と、
前記単語リストを端末に送信して表示させる手段とを有する。
In order to achieve the above object, the present invention has the following configuration. That is,
A word search device that determines an unknown word from words included in a text and outputs a word list of unknown words,
Word storage means for storing noise words and known words;
Search means for searching a dictionary for words that do not correspond to the noise word or the known word among the words included in the text;
A word registration unit for registering a word for which the search by the search unit has failed as the noise word, and newly registering a word for which the search has been successful as the known word;
Creating means for creating a word list including, as unknown words, words newly registered as the known words from the words included in the text;
Means for transmitting the word list to a terminal for display.

本発明により、既知語、ノイズ語を除いた単語で意味を知りたいものだけを検索し、その意味が表示されるため、ユーザーにとって必要な単語とその意味を表示することが可能となる。   According to the present invention, only words whose meanings are to be known are searched for except for known words and noise words, and the meanings are displayed. Therefore, it is possible to display the words necessary for the user and their meanings.

本発明に好適な実施形態の全体構成図を示す図である。It is a figure which shows the whole block diagram of embodiment suitable for this invention. ポータブルデバイス102のハードウェア構成の一例を示す図である。2 is a diagram illustrating an example of a hardware configuration of a portable device 102. FIG. 文書解析装置103及び単語辞書提示装置104のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the document analysis apparatus 103 and the word dictionary presentation apparatus 104. ポータブルデバイス102のシステム構成図である。1 is a system configuration diagram of a portable device 102. FIG. 文書解析装置103のシステム構成図である。2 is a system configuration diagram of a document analysis apparatus 103. FIG. 単語保存部504が保存する単語の一例である。It is an example of the word which the word preservation | save part 504 preserve | saves. アクセス解析保存部508が保存する結果の一例である。It is an example of the result which the access analysis preservation | save part 508 preserve | saves. ポータブルデバイス102で出力する表示結果の一例である。6 is an example of a display result output by the portable device. 単語辞書提示装置104のシステム構成図である。2 is a system configuration diagram of a word dictionary presentation device 104. FIG. 本実施形態を実施するための全体フローである。It is the whole flow for implementing this embodiment. 未知語を判断するための処理S1003の詳細な未知語判断フローである。It is a detailed unknown word judgment flow of processing S1003 for judging an unknown word. 意味検索と単語登録処理S1004の詳細なフローである。It is a detailed flow of a semantic search and word registration process S1004. 単語の意味を表示する処理S1005の詳細なフローである。It is a detailed flow of process S1005 which displays the meaning of a word. 公知語の判定を行う手順を示す図である。It is a figure which shows the procedure which performs determination of a well-known word. レベルを指定するためのUIの一例を示す図である。It is a figure which shows an example of UI for designating a level.

以下、本発明を実施するための最良の形態について図面を用いて説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings.

[実施形態1]
<システムのハードウェア構成>
図1は、本発明に好適な実施形態の文書解析システムあるいは単語検索システムの全体構成図を示す図である。図1には、端末として機能するポータブルデバイス102がインターネット101を介して各サーバーに接続されている様子が示されている。ポータブルデバイス102は複数のユーザーそれぞれが所有するものとし、図1のシステムでは複数台存在するものとする。各サーバーとは、文書解析装置103と単語辞書提示装置104である。
[Embodiment 1]
<System hardware configuration>
FIG. 1 is a diagram showing an overall configuration diagram of a document analysis system or a word search system according to an embodiment suitable for the present invention. FIG. 1 shows a state in which a portable device 102 functioning as a terminal is connected to each server via the Internet 101. Assume that each of the portable devices 102 is owned by a plurality of users, and a plurality of portable devices 102 exist in the system of FIG. Each server is a document analysis device 103 and a word dictionary presentation device 104.

インターネット101は、ファイアウォールを越えて上述の各装置間で情報をやり取りするための通信回線である。インターネット101により、ポータブルデバイス102からは、サーバー103、104へファイアウォールを越えて通信が可能である。インターネット101は、例えば、TCP/IPプロトコルなどをサポートする通信回線網であり有線・無線は問わない。本実施形態の図1において、サーバー103、104は2台のサーバーとして示されているが1台のサーバーコンピュータで構成されていても構わないし、3台以上の複数のサーバーコンピュータで構成されていても構わない。   The Internet 101 is a communication line for exchanging information between the above-described devices across a firewall. Via the Internet 101, communication from the portable device 102 to the servers 103 and 104 is possible through the firewall. The Internet 101 is a communication network that supports, for example, the TCP / IP protocol and can be wired or wireless. In FIG. 1 of the present embodiment, the servers 103 and 104 are shown as two servers. However, the servers 103 and 104 may be composed of one server computer, or may be composed of three or more server computers. It doesn't matter.

図2は、ポータブルデバイス102のハードウェア構成の一例を示す図である。CPU201は、ポータブルデバイス102の制御手段である中央演算処理装置であり、HDD205に格納されているアプリケーションプログラムやOSを実行し、RAM204にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。ROM202は、記憶手段である読み出し専用のメモリであり、制御プログラムであるオペレーションシステムプログラムや各種データの一部あるいは全部を記憶する。   FIG. 2 is a diagram illustrating an example of a hardware configuration of the portable device 102. The CPU 201 is a central processing unit that is a control unit of the portable device 102, executes an application program and OS stored in the HDD 205, and temporarily stores information, files, and the like necessary for executing the program in the RAM 204. Take control. The ROM 202 is a read-only memory that is a storage unit, and stores part or all of an operation system program that is a control program and various data.

NIC203は、ネットワークインターフェースであり、該インターフェースを介して他の機器との通信制御処理を実行する。RAM204は、一時記憶手段である随時アクセスメモリであり、CPU201の主メモリやワークエリアとして機能する。HDD205は、外部記憶手段の一つであり、大容量メモリとして使用するハードディスク(HD)であり、アプリケーションプログラム、OS及び関係プログラムを格納している。   The NIC 203 is a network interface, and executes communication control processing with other devices via the interface. The RAM 204 is an occasional access memory that is temporary storage means, and functions as a main memory and work area of the CPU 201. The HDD 205 is one of external storage means and is a hard disk (HD) used as a large-capacity memory, and stores an application program, an OS, and related programs.

ディスプレイ206は、表示手段である出力装置であり、かつ入力手段である入力装置である。ディスプレイ206にタッチセンサが搭載されており、タッチによる入力で表示されているプログラムを操作することが可能である。本実施形態では、ディスプレイにタッチすることで入力可能とする入力装置として記載しているが、別途キーボードやテンキーなどを接続して入力装置としても良い。また、表示されているテキストをタッチすることで文字や該文字を含む文等の指定を行うことができる。   The display 206 is an output device that is a display means and an input device that is an input means. A touch sensor is mounted on the display 206, and a program displayed by touch input can be operated. In this embodiment, the input device is described as being capable of inputting by touching the display. However, an input device may be provided by connecting a keyboard or a numeric keypad separately. Further, by touching the displayed text, it is possible to specify a character or a sentence including the character.

システムバス207は、ポータブルデバイス102内の各コンポーネントを接続するバスであり、ポータブルデバイス102内のデータの流れを司るものである。マイクユニット208は、周囲の音、音声などをデジタル信号として集音する。デジタル音声信号は、ハードディスクなどに記録され、音声認識処理によりテキストに変換することもできる。   A system bus 207 is a bus that connects components in the portable device 102 and controls the flow of data in the portable device 102. The microphone unit 208 collects ambient sounds, sounds, and the like as digital signals. The digital voice signal is recorded on a hard disk or the like, and can be converted into text by voice recognition processing.

図3は、文書解析装置103及び単語辞書提示装置104のハードウェア構成の一例を示す図である。文書解析装置103、単語辞書提示装置104は、CPU301、ROM302、NIC303、キーボード304、RAM305、HDD306、ディスプレイ307、システムバス308から構成される。キーボード304は、指示入力手段である入力装置であり、文書解析装置103、単語辞書提示装置104内のアプリケーションに対する制御コマンドの命令などを入力指示するものである。ディスプレイ307は、表示手段である出力装置であり、キーボード304から入力したコマンドやプログラムの状態等を表示したりするものである。その他各デバイスの役割は、ポータブルデバイス102と同様であるため、詳細説明は割愛する。   FIG. 3 is a diagram illustrating an example of the hardware configuration of the document analysis device 103 and the word dictionary presentation device 104. The document analysis device 103 and the word dictionary presentation device 104 include a CPU 301, ROM 302, NIC 303, keyboard 304, RAM 305, HDD 306, display 307, and system bus 308. The keyboard 304 is an input device that is an instruction input unit, and inputs an instruction of a control command for an application in the document analysis device 103 and the word dictionary presentation device 104. The display 307 is an output device that is a display unit, and displays commands input from the keyboard 304, the status of programs, and the like. Since the role of each other device is the same as that of the portable device 102, the detailed description is omitted.

<各装置の機能別構成>
図4は、図1に示したポータブルデバイス102のシステム構成図であり、図2に示したハードウェアが協働することにより図4に示す各処理部として機能する。
音声入力受付部401は、マイクユニット208が集音した信号をデジタル信号として受信する部分である。音声文字列変換部402は、音声入力受付部401によって受信した信号に対して音声認識処理を実行することにより、テキストに変換する。音声信号をテキストに変換する技術(音声認識処理)については、公知の技術を用いることが可能であるため、詳細説明は割愛する。通信部403は、音声文字列変換部402で作成したテキストを、解析要求とともに文書解析装置103に送付し、解析結果を受信する。表示部404は、通信部403ら受信した解析結果をディスプレイ206に表示する。操作部405は、ディスプレイ206に表示されたプログラムに対して、操作を行うことを可能とし、操作の結果は通信部403を通じて文書解析装置103に送信する。
<Configuration by function of each device>
4 is a system configuration diagram of the portable device 102 shown in FIG. 1, and functions as the processing units shown in FIG. 4 through cooperation of the hardware shown in FIG.
The voice input reception unit 401 is a part that receives a signal collected by the microphone unit 208 as a digital signal. The voice character string conversion unit 402 performs voice recognition processing on the signal received by the voice input reception unit 401 to convert it into text. Regarding the technology for converting speech signals into text (speech recognition processing), since a known technology can be used, a detailed description is omitted. The communication unit 403 sends the text created by the speech string conversion unit 402 to the document analysis apparatus 103 together with the analysis request, and receives the analysis result. The display unit 404 displays the analysis result received from the communication unit 403 on the display 206. The operation unit 405 can perform an operation on the program displayed on the display 206, and transmits the operation result to the document analysis apparatus 103 through the communication unit 403.

図5は、図1に示した文書解析装置103のシステム構成図である。通信部501は、ポータブルデバイス102から送信されてきたデータをNIC303で受け取ったり、意味検索部505からの意味検索を単語辞書提示装置104に送信したり、結果出力部509で作成された結果をポータブルデバイス102に送信したりする。   FIG. 5 is a system configuration diagram of the document analysis apparatus 103 shown in FIG. The communication unit 501 receives the data transmitted from the portable device 102 by the NIC 303, transmits the semantic search from the semantic search unit 505 to the word dictionary presenting device 104, and the result generated by the result output unit 509 is portable. To the device 102.

形態素解析部502は、入力されたテキストに対して形態素解析を実行し、そのテキストに含まれる単語を抽出する。具体的な形態素解析の処理アルゴリズムに関しては既知の技術を適用できるため、ここでは詳細に述べない。   The morphological analysis unit 502 performs morphological analysis on the input text and extracts words included in the text. Since a known technique can be applied to a specific morphological analysis processing algorithm, it will not be described in detail here.

未知語判断部503は、形態素解析部502で抽出された単語が未知語であるか既知語であるかノイズ語であるかを判断する。未知語とは、単語として意味を検索したことがなく単語保存部504内に登録されていない単語を示す。すなわち、初めて出現する単語であり、初出語と言い換えることもできる。既知語とは、単語として意味を持ち、単語保存部504内に既知語としてその意味とともに登録されている単語を示す。すなわち既出語と言い換えることもできる。ノイズ語とは、単語保存部504にノイズ語として登録されている単語である。ノイズ語はあえてその意味を知る必要がない単語であり、たとえば助詞や接続詞などを含む。未知語は、単語として単語辞書提示装置104により検索される。その結果、辞書に登録されていなかった単語は、意味を持たないノイズ語であると判断して、単語保存部504内に登録される。また、未知語を検索した結果、辞書に登録されていれば、既知語として単語保存部504にその意味と関連付けて登録される。   The unknown word determination unit 503 determines whether the word extracted by the morphological analysis unit 502 is an unknown word, a known word, or a noise word. An unknown word refers to a word that has not been searched for meaning as a word and is not registered in the word storage unit 504. That is, it is a word that appears for the first time and can be rephrased as the first word. The known word has a meaning as a word, and indicates a word registered in the word storage unit 504 together with the meaning as a known word. In other words, it can be rephrased as an already-presented word. A noise word is a word registered in the word storage unit 504 as a noise word. Noise words are words that do not need to know their meanings, and include, for example, particles and conjunctions. An unknown word is searched for as a word by the word dictionary presentation device 104. As a result, a word that has not been registered in the dictionary is determined to be a noise word that has no meaning, and is registered in the word storage unit 504. As a result of searching for an unknown word, if it is registered in the dictionary, it is registered as a known word in the word storage unit 504 in association with its meaning.

単語保存部504は、既知語、ノイズ語を保存しておく記憶域であり単語記憶手段である。単語保存部504が保存する単語の一例を図6に示す。図6(A)は、既知語として登録された単語の一例である。既知語は、単語テキストとその意味と単語IDとが関連付けられて登録されている。図6(B)は、ノイズ語として登録された単語の一例である。ノイズ語はノイズ語であることさえ判断できればよいので、テキストが含まれていれば十分である。   The word storage unit 504 is a storage area for storing known words and noise words, and is a word storage unit. An example of words stored by the word storage unit 504 is shown in FIG. FIG. 6A is an example of words registered as known words. The known word is registered in association with the word text, its meaning, and the word ID. FIG. 6B is an example of a word registered as a noise word. Since it is only necessary to determine that a noise word is a noise word, it is sufficient that text is included.

意味検索部505は、単語の意味検索を実行する部分である。意味検索部505は、指定された単語が意味を持つかどうかを、また意味を持つのであればその意味を単語辞書提示装置104に対して問い合わせる。問い合わせた結果は、DB登録部506にて、単語辞書提示装置104から応答された意味の有無に応じて、既知語あるいはノイズ語として登録される。なお、本実施形態では、意味検索を別サーバーにて実行し、検索結果を登録するようにしているが、意味検索部が自身で単語の意味を登録した辞書を持ち、検索結果をDB登録部に登録してもよいし、単語辞書提示装置104だけでなく、複数のサーバーに対して単語の意味を問い合わせてもよい。   The meaning search unit 505 is a part that executes word meaning search. The meaning retrieval unit 505 inquires of the word dictionary presenting device 104 whether or not the designated word has a meaning and, if it has a meaning, the meaning. The inquiry result is registered in the DB registration unit 506 as a known word or a noise word depending on whether there is a meaning returned from the word dictionary presentation device 104. In this embodiment, the semantic search is executed by another server and the search result is registered. However, the semantic search unit has a dictionary in which the meaning of the word is registered, and the search result is stored in the DB registration unit. In addition to the word dictionary presentation device 104, the meaning of the word may be inquired to a plurality of servers.

アクセス解析部507は、ポータブルデバイス102から送信された単語で既知語として登録した単語の出現回数と参照回数とをアクセス解析保存部508に保存する。その後、アクセス解析部507は解析結果より、ポータブルデバイス102に対して、出力する単語と意味とを結果出力部509に出力する。   The access analysis unit 507 stores, in the access analysis storage unit 508, the number of appearances and the number of references of words registered as known words among the words transmitted from the portable device 102. Thereafter, the access analysis unit 507 outputs the word to be output and the meaning to the portable device 102 from the analysis result to the result output unit 509.

アクセス解析保存部508は、ポータブルデバイス102から検索された結果を保存する領域である。保存している結果の一例を図7に示す。   The access analysis storage unit 508 is an area for storing results retrieved from the portable device 102. An example of the stored result is shown in FIG.

図7の一覧では、テナントID、ユーザーID、単語ID、出現回数、参照回数を保存している。テナントIDは、マルチテナント環境下での同一管理形態下におかれた複数ユーザーを束ねるユーザーグループを示すIDである。ユーザーIDは、ひとつのテナント内のユーザーを固有に示すIDである。したがって、テナントIDとユーザーIDとの組み合わせによりユーザーを固有に示すことができる。単語IDは、図6(A)に示す単語と意味とを指し示すIDである。出現回数は、ユーザーごとに、単語IDで管理されている単語が過去に何回出現したかをカウントしている値である。参照回数は、出現した単語に対して、各ユーザーのポータブルデバイス102で参照した回数をカウントしている値である。図7はユーザーごとの単語の出現回数と参照回数とを記録したテーブルであり、参照率テーブルと称することにする。   In the list of FIG. 7, tenant ID, user ID, word ID, appearance count, and reference count are stored. The tenant ID is an ID indicating a user group that bundles a plurality of users placed under the same management form in a multi-tenant environment. The user ID is an ID that uniquely indicates a user in one tenant. Therefore, the user can be uniquely indicated by the combination of the tenant ID and the user ID. The word ID is an ID indicating the word and meaning shown in FIG. The number of appearances is a value that counts how many times the word managed by the word ID has appeared in the past for each user. The reference count is a value obtained by counting the number of times the user has referred to each user's portable device 102 with respect to the appearing word. FIG. 7 is a table in which the number of appearances of words and the number of references for each user is recorded, and is referred to as a reference rate table.

マルチテナントとは、機材やデータベースを複数の顧客で共有する環境の事を指す。マルチテナントにすることにより同一サービスをそれぞれ異なる顧客に対して異なるサービスとして提供することが可能となる。本実施形態におけるテナントIDは、ユーザーを束ねるグループとして捉えてよい。   Multi-tenant refers to an environment where equipment and databases are shared by multiple customers. By using a multi-tenant, the same service can be provided to different customers as different services. The tenant ID in the present embodiment may be regarded as a group that bundles users.

結果出力部509は、入力された単語からノイズ語以外の単語(単語保存部504に登録済みの既知語、及び意味検索部505で新たに検索された未知語)と、それらの単語の意味とを、ポータブルデバイス102で表示するための好適な形式に整形して出力する。好適な形式の一例を図8に示す。図8はポータブルデバイス102に表示されている状態の一例を示す図である。この例では、入力された単語からノイズ語以外の単語を一覧表示し、一覧からユーザー所望の単語が選択されると、選択された単語の意味を表示するようなUIの一例である。表示は一例であり、単語とその意味とを表示する形態であればこの限りではない。結果出力部509は、通信部501を通じて形成した出力結果をポータブルデバイス102に送信する。   The result output unit 509 includes words other than noise words from the input words (known words registered in the word storage unit 504 and unknown words newly searched by the semantic search unit 505), and the meanings of those words. Is formatted into a format suitable for display on the portable device 102 and output. An example of a suitable format is shown in FIG. FIG. 8 is a diagram illustrating an example of a state displayed on the portable device 102. This example is an example of a UI that displays a list of words other than noise words from the input words and displays the meaning of the selected word when a user-desired word is selected from the list. The display is an example, and the display is not limited as long as the word and its meaning are displayed. The result output unit 509 transmits the output result formed through the communication unit 501 to the portable device 102.

以上のように文書解析装置103は単語検索を行って意味ととともに提示する機能を持ち、単語検索装置ということもできる。   As described above, the document analysis apparatus 103 has a function of performing a word search and presenting it together with a meaning, and can also be called a word search apparatus.

図9は、図1に示した単語辞書提示装置104のシステム構成図である。通信部901は文書解析装置103から受信した単語を単語確認部902に送信し、辞書を用いて検索した結果を文書解析装置103に送信する。単語確認部902は、通信部より受信した単語の意味を辞書部903に問い合わせ、辞書部903に単語が登録されていれば、単語と意味とを応答し、登録されていなければ、登録されていない旨を通信部901を経由して文書解析装置103に送信する。辞書部903は、単語と意味とを関連付けて保存したデータベースである。   FIG. 9 is a system configuration diagram of the word dictionary presentation device 104 shown in FIG. The communication unit 901 transmits the word received from the document analysis device 103 to the word confirmation unit 902, and transmits the search result using the dictionary to the document analysis device 103. The word confirmation unit 902 inquires the dictionary unit 903 about the meaning of the word received from the communication unit. If the word is registered in the dictionary unit 903, the word confirmation unit 902 responds the word and the meaning. If not registered, the word confirmation unit 902 registers the word. The fact that there is no message is transmitted to the document analysis apparatus 103 via the communication unit 901. The dictionary unit 903 is a database that stores words and meanings in association with each other.

<テキスト内の単語の意味表示手順>
次に本実施形態における単語とその意味を出力するための手段について図10〜図13のフローチャートを用いて説明する。
<Procedure for displaying meaning of words in text>
Next, means for outputting words and their meanings in this embodiment will be described with reference to the flowcharts of FIGS.

図10は、本実施形態を実施するための全体フローである。ポータブルデバイス102は、マイクユニット208にて音声信号を受信し、音声認識処理を行った結果をテキストとして、文書解析装置103に送信する(S1001)。テキストを受信した文書解析装置103は、形態素解析部502にてテキストから単語を抽出する(S1002)。抽出した単語は未知語、既知語の判断が行われ(S1003)、未知語であればその意味を検索し、意味を持つ単語とノイズ語とを単語保存部504に保存する(S1004)。ポータブルデバイス102は、意味を持つ単語に対して、意味を検索した結果を表示する(S1005)。なお本例においては、テキストに複数の同一の単語が含まれている場合には、それら複数の同一の単語はひとつの単語として扱われる。ただし、後述する図7の参照テーブル等に記録するために、処理対象のテキストに出現した単語ごとの出現回数を単語に関連付けて記憶してもよい。この場合には、後述のS1306では、出現回数に、1ではなく記憶したテキスト内の出現回数を加算する。   FIG. 10 is an overall flow for carrying out this embodiment. The portable device 102 receives the voice signal at the microphone unit 208 and transmits the result of the voice recognition process as text to the document analysis apparatus 103 (S1001). Upon receiving the text, the document analysis apparatus 103 extracts words from the text by the morphological analysis unit 502 (S1002). The extracted word is determined to be an unknown word or a known word (S1003). If it is an unknown word, its meaning is searched, and a word having a meaning and a noise word are stored in the word storage unit 504 (S1004). The portable device 102 displays the result of searching for the meaning of the meaningful word (S1005). In this example, when a plurality of identical words are included in the text, the plurality of identical words are treated as one word. However, in order to record in the reference table etc. of FIG. 7 mentioned later, you may memorize | store the frequency | count of appearance for every word which appeared in the text of processing object linked | related with a word. In this case, in S1306 described later, the number of appearances in the stored text is added to the number of appearances instead of 1.

<未知語判断手順>
図11は、未知語を判断するための処理S1003の詳細な未知語判断フローである。文書解析装置103は、抽出した単語と登録済みのノイズ語それぞれとを比較し(S1101)、抽出した単語にノイズ語に含まれる単語があるかどうかを判定する(S1102)。ノイズ語に含まれる単語がある場合、その単語を抽出した単語群から除去する(S1103)。残った単語を登録済みの既知語それぞれと比較し(S1104)、既に登録済みの既知語であるかどうかを判定する(S1105)。既知語であると判定した単語に関しては、解析対象のテキストに出現した出現単語としてアクセス解析保存部508に記憶し(S1106)、S1005の表示処理に進む。一方、既知語でないと判定した単語に関しては、S1004の意味検索及び単語登録処理(詳細は後述の図12)に進む。
<Unknown word judgment procedure>
FIG. 11 is a detailed unknown word determination flow of process S1003 for determining an unknown word. The document analysis apparatus 103 compares the extracted word with each registered noise word (S1101), and determines whether the extracted word includes a word included in the noise word (S1102). If there is a word included in the noise word, the word is removed from the extracted word group (S1103). The remaining words are compared with each registered known word (S1104), and it is determined whether or not it is a registered known word (S1105). The words determined to be known words are stored in the access analysis storage unit 508 as appearing words that appear in the text to be analyzed (S1106), and the process proceeds to the display processing in S1005. On the other hand, for a word determined not to be a known word, the process proceeds to a semantic search and word registration process in S1004 (details will be described later with reference to FIG. 12).

<意味検索及び単語登録手順>
図12は、意味検索と単語登録処理S1004の詳細なフローである。文書解析装置103の意味検索部505は、意味を検索するための参照先定義を取得し(S1201)、単語の意味を単語辞書提示装置104に対して問い合わせる(S1202)。意味を検索するための参照先定義とは、例えば単語辞書提示装置104のアドレス等であり、問い合わせは、たとえば単語の意味を問い合わせることを示すメッセージに、単語または単語群を組み合わせて構成される。問い合わせを受信した単語辞書提示装置104は、問い合わされた単語の意味を、単語とその意味とを登録したデータベースで検索し(S1203)、意味が検索できない場合は、すなわち単語がデータベースでヒットしなかった場合には、検索に失敗した旨を文書解析装置103の意味検索部505に返す。検索に失敗した場合、文書解析装置103の意味検索部505は、次の検索先があるかどうかを判定し、ある場合は、再度同じ単語の意味を次の検索先に対して問い合わせる(S1206)。次の検索先がない場合(すなわち全ての検索先で検索済みの場合)は、問い合わせた単語は、ノイズ語として、DB登録部506から単語保存部504に保存される(S1205)。単語の意味が検索できた場合(すなわち検索に成功した場合)は、単語の意味を意味検索部505に応答し、意味検索部505は、新たな既知語として、当該検索した単語とその意味をDB登録部506を介して単語保存部504に登録する(S1207)。そして、既知語として登録した単語を、解析対象のテキストに出現した出現単語として、ステップS1106で登録した出現単語に加えて一時的に記憶し(S1208)、S1005の表示処理に進む。
<Semantic search and word registration procedure>
FIG. 12 is a detailed flow of the semantic search and word registration processing S1004. The meaning search unit 505 of the document analysis device 103 acquires a reference destination definition for searching for meaning (S1201), and inquires the word dictionary presenting device 104 about the meaning of the word (S1202). The reference destination definition for searching the meaning is, for example, an address of the word dictionary presentation device 104, and the inquiry is configured by combining a word or a group of words with a message indicating that the meaning of the word is inquired, for example. The word dictionary presenting apparatus 104 that has received the inquiry searches the meaning of the inquired word in a database in which the word and its meaning are registered (S1203). If the meaning cannot be searched, that is, the word does not hit the database. If the search is not successful, the fact that the search has failed is returned to the semantic search unit 505 of the document analysis apparatus 103. If the search fails, the semantic search unit 505 of the document analysis apparatus 103 determines whether or not there is a next search destination, and if so, inquires the next search destination about the meaning of the same word again (S1206). . When there is no next search destination (that is, when all search destinations have been searched), the inquired word is stored as a noise word from the DB registration unit 506 to the word storage unit 504 (S1205). When the meaning of the word can be searched (that is, when the search is successful), the meaning of the word is returned to the meaning search unit 505, and the meaning search unit 505 determines the searched word and its meaning as a new known word. Registration is performed in the word storage unit 504 via the DB registration unit 506 (S1207). Then, the word registered as a known word is temporarily stored as an appearance word appearing in the text to be analyzed in addition to the appearance word registered in step S1106 (S1208), and the process proceeds to the display processing of S1005.

<表示手順>
図13は、単語の意味を表示する処理S1005の詳細なフローである。文書解析装置103のアクセス解析部507は、S1106またはS1208で一時的に記憶した出現単語を取得し(S1301)、アクセス解析保存部508から参照率テーブル(図7)を取得し(S1302)、参照率テーブルに出現単語の登録を試みる(S1303)。この出現単語の登録要求を行ったとき、単語ごとに既に登録済みかどうかを判定し(S1304)、未登録の単語であれば、参照率テーブルに、その出現単語のIDや出現回数、テナントIDおよびユーザーIDを登録する(S1305)。新規登録時にはまだ参照はされていないので、参照回数には0を設定する。テナントIDおよびユーザーIDは、例えばポータブルデバイス102からテキストと共に受信した解析要求に含まれたIDを書き込む。この場合、S1307で求める参照率は0となってしまうので、参照率を計算せずにS1309に分岐する。すなわち、出現回数が1となる初出語は、ポータブルデバイス102に表示する単語リストに含める不明語であるとして扱われる。
<Display procedure>
FIG. 13 is a detailed flow of processing S1005 for displaying the meaning of a word. The access analysis unit 507 of the document analysis apparatus 103 acquires the appearance word temporarily stored in S1106 or S1208 (S1301), acquires the reference rate table (FIG. 7) from the access analysis storage unit 508 (S1302), and refers to it. An attempt is made to register an appearance word in the rate table (S1303). When a request for registration of the appearance word is made, it is determined whether or not each word has already been registered (S1304). If it is an unregistered word, the ID, the number of appearances, and the tenant ID of the appearance word are displayed in the reference rate table. The user ID is registered (S1305). Since no reference is made at the time of new registration, 0 is set as the reference count. As the tenant ID and user ID, for example, the ID included in the analysis request received together with the text from the portable device 102 is written. In this case, since the reference rate obtained in S1307 is 0, the process branches to S1309 without calculating the reference rate. That is, the first appearing word whose appearance count is 1 is treated as an unknown word to be included in the word list displayed on the portable device 102.

一方、既に登録されている単語である場合、登録済みの単語に対して、その出現回数を1つ増やす(S1306)。ただし、単語ごとにテキスト内に出現した回数を記憶している場合には、その回数を出現回数に加算してもよい。その後、出現単語を、ポータブルデバイスに表示する単語リストに加えるか否かを決定するための値(参照率)を計算する。この値は、ポータブルデバイス102で表示された際に参照された参照回数を参照率テーブルに記憶しておき、参照回数を出現回数で割ることで得られる値である。その参照率の値を参考値とする(S1307)。なお、本実施例における参照とは、出現単語のリストをポータブルデバイスで表示した際に、或る単語についてその意味を表示させるためにユーザーがリスト中から選択することである。したがって出現単語と判定されてリスト表示されたとしても、ユーザーがその意味を改めて知る必要がなければ参照されることはないため参照回数は増えることがない。S1307で算出された参考値が、あらかじめ決めておいた基準値以上(すなわち所定値以上)かどうかを判断し(S1308)、基準値以上であった場合は、意味の表示が必要な不明語としてポータブルデバイス102に単語とその意味とを表示するように単語リストのデータを作成する(S1309)。一方、参考値が基準値より小さい場合は、不明語ではなく表示は不要と判断し、意味を持つ単語であっても単語リストには含めない。したがってポータブルデバイス102には表示されない。   On the other hand, if it is a registered word, the number of appearances is increased by one for the registered word (S1306). However, when the number of appearances in the text is stored for each word, the number may be added to the number of appearances. Thereafter, a value (reference rate) for determining whether or not to add the appearance word to the word list to be displayed on the portable device is calculated. This value is a value obtained by storing the reference count referenced when displayed on the portable device 102 in the reference rate table and dividing the reference count by the appearance count. The value of the reference rate is used as a reference value (S1307). The reference in the present embodiment means that when a list of appearance words is displayed on a portable device, the user selects from the list to display the meaning of a word. Therefore, even if it is determined to be an appearance word and displayed in a list, it is not referred to unless the user needs to know its meaning again, so the number of references does not increase. It is determined whether or not the reference value calculated in S1307 is greater than or equal to a predetermined reference value (that is, a predetermined value or more) (S1308). Word list data is created so as to display words and their meanings on the portable device 102 (S1309). On the other hand, if the reference value is smaller than the reference value, it is determined that it is not an unknown word and display is unnecessary, and even a meaningful word is not included in the word list. Therefore, it is not displayed on the portable device 102.

またポータブルデバイスに表示された単語リストのうちから、参照された単語については、参照された単語に関する情報が文書解析装置103に送信される。文書解析装置103は、参照された単語の意味を表示する形式、たとえば図8のような形式で単語リストを再構成し、それをポータブルデバイス102に送信して表示させる。文書解析装置103はその際、参照された単語の参照回数に1加算する。なお、本実施形態では、一つの単語リストに対して、ひとつの単語に対して複数回参照された場合でも、すべて参照回数として記録する。たとえば2回参照されれば参照回数は2増加する。これは、参照された回数が多ければ、その単語を表示する必要性が高いと推定できるためである。一方、一つの単語リストにおいて一つの単語が何度参照されても1回と数えてもよい。   In addition, for the referenced word from the word list displayed on the portable device, information related to the referenced word is transmitted to the document analysis apparatus 103. The document analysis apparatus 103 reconstructs the word list in a format for displaying the meaning of the referred word, for example, a format as shown in FIG. 8, and transmits it to the portable device 102 for display. At that time, the document analysis apparatus 103 adds 1 to the reference count of the referred word. In the present embodiment, even when a single word list is referred to a plurality of times, it is recorded as a reference count. For example, if the reference is made twice, the reference count increases by two. This is because it can be estimated that the necessity of displaying the word is high if the number of times of reference is large. On the other hand, one word may be counted once even if one word is referred to in one word list.

なお、図13の手順においては、S1301からS1306までを、出現単語のそれぞれに順次着目して単語ごとに繰り返し実行し、全ての出現単語について登録又は出現回数の更新が終了した後、ステップS1307からS1309を実行してもよい。この場合、新規に参照率テーブルに登録した単語はその参考値が0なので、出現回数が1の単語に限っては参考値に関わらず単語リストに加える必要がある。   In the procedure of FIG. 13, steps S1301 to S1306 are repeatedly executed for each word while paying attention to each of the appearing words, and after completion of registration or update of the number of appearances for all the appearing words, from step S1307 S1309 may be executed. In this case, since the reference value of a word newly registered in the reference rate table is 0, it is necessary to add to the word list regardless of the reference value only for the word whose appearance count is 1.

またS1308の基準値は、たとえば、或る単語について、その初出時に参照された後、何回目の出現まで単語リストに加えるべきかを考慮して決定することができる。たとえば、或る単語が初出時に参照されると、二回目の出現時には、出現回数は2、参照回数は1となり、参照率は0.5となる。したがって、基準値を0.5としておけば、参照率は基準値以上となり、このときは単語リストに加えられる。二回目に参照されないと三回目の出現時には、参照率は1/3となり、基準値0.5より小さくなるので、もはや単語リストには加えられない。このようにして、基準値をたとえば1/N(ただし小数表現では切り上げ)とすることで、初出に参照された場合には、N回目の出現まで単語リストに加えることができる。   The reference value in S1308 can be determined in consideration of, for example, how many times a certain word should be added to the word list after being referred to at the first appearance. For example, when a certain word is referenced at the first appearance, the number of appearances is 2, the number of references is 1, and the reference rate is 0.5 at the second appearance. Therefore, if the reference value is set to 0.5, the reference rate becomes equal to or higher than the reference value, and at this time, it is added to the word list. If it is not referenced the second time, the reference rate will be 1/3 when it appears for the third time, and will be smaller than the standard value 0.5, so it will no longer be added to the word list. In this way, by setting the reference value to, for example, 1 / N (however, it is rounded up in decimal representation), when it is referred to for the first time, it can be added to the word list until the Nth appearance.

以上の構成及び手順により、ポータブルデバイス102には、対象のテキストに含まれる単語群から、ノイズ語や、既知語のうち参照率が低い単語を除いた、初出語と不明語とを、その意味を参照可能な形式で表示することが可能となる。このため、不明であろう単語の意味を効率よくユーザーに提示することができる。なお上記手順において、S1208において記憶した出現単語のみを不明語として単語リストに含めてもよい。この場合には、既知語の関する参照率の分析は不要となる。   With the above-described configuration and procedure, the portable device 102 has the meanings of the first appearance word and the unknown word obtained by removing the noise word or the word having a low reference rate from the known words from the word group included in the target text. Can be displayed in a referable format. For this reason, the meaning of the word that will be unknown can be efficiently presented to the user. In the above procedure, only the appearance words stored in S1208 may be included in the word list as unknown words. In this case, it is not necessary to analyze the reference rate for known words.

[変形例]
図13の手順では、いったん単語リストから除外された単語は、その後は参照率があがることがないことから二度と単語リストに入れられることがない。そこで、たとえば出現回数が所定回数に達したなら、出現回数および参照回数として0を設定する。このように参照率をリセットする機構を設けることで、いったん既知語として単語リストから落とされた単語を、再度単語リストに載せることができる。
[Modification]
In the procedure of FIG. 13, the word once excluded from the word list is never put in the word list again because the reference rate never increases. Therefore, for example, when the number of appearances reaches a predetermined number, 0 is set as the number of appearances and the reference number. By providing a mechanism for resetting the reference rate in this way, a word once dropped from the word list as a known word can be put on the word list again.

[実施形態2]
実施形態1では、学習期間が少ないと不明語の判断が弱くなる、すなわち判断の精度が低くなるという問題がある。そこで、ユーザーのプロファイルに応じて、不明語ではないと判断される単語を変更することを可能とする。この判断手順について図14のフロー図を用いて説明する。図14の手順は、アクセス解析部507がポータブルデバイス102から解析要求を受信した際に実行される。
[Embodiment 2]
In Embodiment 1, there is a problem that when the learning period is short, the determination of unknown words is weak, that is, the accuracy of the determination is low. Therefore, it is possible to change a word that is determined not to be an unknown word according to the user's profile. This determination procedure will be described with reference to the flowchart of FIG. The procedure in FIG. 14 is executed when the access analysis unit 507 receives an analysis request from the portable device 102.

アクセス解析部507は、アクセス解析保存部508に、解析要求の要求元ユーザーを新しく追加する(S1401)。この時、アクセス解析保存部508に登録されている参照率テーブルに同一テナントのユーザーが登録されているかどうかを判定する(S1402)。同一テナントのユーザーとは、マルチテナント環境において、同じサービスを受領しているユーザーのことである。具体的には、同じテナントIDを持つ他のユーザーである。同一テナントのユーザーがいる場合、参照率テーブルに登録されている同一テナントに属するユーザーすべての出現単語を参照して、いずれのユーザーも参照回数が0回の単語を調べる(S1403)。いずれのユーザーも参照回数が0回の単語があった場合、その単語は同一テナント内では一般的に知られている公知語として判断し、その単語IDと参照回数および出現回数を登録ユーザーのものとしてコピーして、参照率テーブルに当該登録ユーザーのレコードを新規追加する(S1404)。複数のユーザーに同じ単語が登録されている場合には、それらのうちのいずれかをコピーする。すなわち、要求元ユーザーと同一のテナントに属するユーザーについて求められる参照率を、要求元ユーザーについても適用する。   The access analysis unit 507 newly adds a request source user of the analysis request to the access analysis storage unit 508 (S1401). At this time, it is determined whether or not users of the same tenant are registered in the reference rate table registered in the access analysis storage unit 508 (S1402). The same tenant user is a user who has received the same service in a multi-tenant environment. Specifically, it is another user having the same tenant ID. When there is a user of the same tenant, all the words appearing in the reference tenant registered in the reference rate table are referred to, and any user checks the word with the reference count of 0 (S1403). If any user has a word with a reference count of 0, the word is determined as a well-known word that is generally known within the same tenant, and the word ID, reference count, and appearance count are those of the registered user. And the record of the registered user is newly added to the reference rate table (S1404). If the same word is registered for a plurality of users, one of them is copied. That is, the reference rate required for users belonging to the same tenant as the request source user is also applied to the request source user.

これにより初回から学習期間があるものと同じになり、公知語が不明語から排除されて表示されなくなる。   As a result, it becomes the same as the one having a learning period from the first time, and the known words are excluded from the unknown words and are not displayed.

[実施形態3]
実施形態3では、学習していかないと単語毎に不明語が判断できず、既に知っている単語であっても表示されてしまう場合がある。そこで、不明語をレベル分けし、表示レベルを指定することで単語の表示を変更することを可能とする。
[Embodiment 3]
In the third embodiment, an unknown word cannot be determined for each word unless learning is performed, and even an already known word may be displayed. Therefore, it is possible to change the display of words by classifying unknown words and specifying the display level.

レベルを指定するためのUIの一例を図15に示す。単語のレベルはあらかじめ辞書単位で指定しておく。単語辞書提示装置104が複数台で構成されている場合は、単語辞書提示装置104毎で異なるレベルであるとしてもよい。
コントロール1501は、表示レベルを示す表示コントロールの一例である。
An example of a UI for designating the level is shown in FIG. The word level is specified in advance for each dictionary. When the word dictionary presenting device 104 is composed of a plurality of units, the word dictionary presenting device 104 may have a different level.
A control 1501 is an example of a display control indicating a display level.

矢印コントロール1502を押下することで、表示されるレベルが下がり、表示量が増える。矢印コントロール1503を押下することで表示されるレベルが上がり、表示量が減る。たとえば、「波動方程式」という単語のレベルが2であるとすれば、図15に例示された表示レベル「レベル1」より高いので、この単語は表示される。コントロール1503を押下して表示レベルが3以上にあげられると、「波動方程式」の単語レベルが表示レベルより低くなるので、単語リストには表示されなくなる。   By pressing the arrow control 1502, the displayed level is lowered and the display amount is increased. When the arrow control 1503 is pressed, the displayed level increases and the display amount decreases. For example, if the level of the word “wave equation” is 2, this word is displayed because it is higher than the display level “level 1” illustrated in FIG. When the display level is raised to 3 or more by pressing the control 1503, the word level of the “wave equation” becomes lower than the display level, so that it is not displayed in the word list.

たとえば単語リストがポータブルデバイス102に表示された状態でコントロール1502または1503が押下されると、その操作に関する情報が文書解析装置103に送信される。文書解析装置103は、その情報を受信して、単語リストから、新たなレベル以上のレベルを与えられた単語を不明語から選択して新たな単語リストを再構成し、それをポータブルデバイス102に送信して表示させる。このような処理のために、本実施形態では、図13の処理は単語のレベルとは無関係に実行し、最大単語リストを作成しておく。ただし、単語ごとに辞書で指定されたレベルはその単語リストに含めておく。最大単語リストは、最低の表示レベルが指定されたときに表示する単語リストである。表示レベルが上げられると、その最大単語リストから、表示レベル以上のレベルを持つ単語が選択されて、新たな単語リストが再構成されてポータブルデバイス102に送信されて表示される。   For example, when the control 1502 or 1503 is pressed while the word list is displayed on the portable device 102, information regarding the operation is transmitted to the document analysis apparatus 103. The document analysis apparatus 103 receives the information, selects from the word list a word given a new level or higher from the unknown word, reconstructs a new word list, and stores it in the portable device 102. Send and display. For this process, in the present embodiment, the process of FIG. 13 is executed regardless of the word level, and a maximum word list is created. However, the level specified in the dictionary for each word is included in the word list. The maximum word list is a word list that is displayed when the lowest display level is designated. When the display level is raised, a word having a level higher than the display level is selected from the maximum word list, and a new word list is reconstructed and transmitted to the portable device 102 for display.

これにより、指定された表示レベルより低いレベルの単語がフィルタリングされ、表示される単語を減らすことができる。   Thereby, words of a level lower than the designated display level are filtered, and the displayed words can be reduced.

[その他の実施例]
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
[Other Examples]
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, etc.) of the system or apparatus reads the program. It is a process to be executed.

Claims (9)

テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索装置であって、
ノイズ語と既知語とを記憶する単語記憶手段と、
前記テキストに含まれる単語のうち、前記ノイズ語にも前記既知語にも該当しない単語を辞書で検索する検索手段と、
前記検索手段による検索が失敗した単語を前記ノイズ語として登録し、検索が成功した単語を前記既知語として新たに登録する単語登録手段と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成手段と、
前記単語リストを端末に送信して表示させる手段と
を有することを特徴とする単語検索装置。
A word search device that determines an unknown word from words included in a text and outputs a word list of unknown words,
Word storage means for storing noise words and known words;
Search means for searching a dictionary for words that do not correspond to the noise word or the known word among the words included in the text;
A word registration unit for registering a word for which the search by the search unit has failed as the noise word, and newly registering a word for which the search has been successful as the known word;
Creating means for creating a word list including, as unknown words, words newly registered as the known words from the words included in the text;
Means for transmitting the word list to a terminal and displaying the word list.
前記作成手段は、前記テキストに含まれており、前記既知語として記憶されていた単語のうち、前記単語リストにおいて参照された参照率が所定値以上の単語も不明語として単語リストに含めることを特徴とする請求項1に記載の単語検索装置。   The creation means includes, in the word list, words that are included in the text and that have a reference rate that is referred to in the word list that is greater than or equal to a predetermined value among the words that are stored as the known words as unknown words. The word search device according to claim 1, wherein: 前記端末に表示された単語リストのうちから参照された単語に関する情報を受信し、当該単語の出現回数に対する参照された回数の比を前記参照率として求めることを特徴とする請求項2に記載の単語検索装置。   The information regarding the word referred from the word list displayed on the said terminal is received, and ratio of the frequency | count referred to the frequency | count of appearance of the said word is calculated | required as the said reference rate. Word search device. 前記参照率は、前記テキストの解析要求を送信したユーザーごとに求められることを特徴とする請求項2又は3に記載の単語検索装置。   The word search apparatus according to claim 2, wherein the reference rate is obtained for each user who has transmitted the text analysis request. 前記テキストの解析要求を受信した場合、その要求元ユーザーと同一のテナントに属するユーザーについて求められる参照率を、前記要求元ユーザーについても適用することを特徴とする請求項4に記載の単語検索装置。   5. The word search device according to claim 4, wherein when the text analysis request is received, a reference rate required for a user belonging to the same tenant as the request source user is also applied to the request source user. . 前記単語にはレベルが関連付けられており、
前記作成手段は、指定されたレベルより低いレベルに関連付けられた単語を前記単語リストに含めないことを特徴とする請求項1乃至5のいずれか一項に記載の単語検索装置。
The word has an associated level,
The word search device according to claim 1, wherein the creating unit does not include a word associated with a level lower than a designated level in the word list.
請求項1乃至6のいずれか一項に記載の単語検索装置と、
前記単語検索装置から出力される単語リストを表示する端末と
を含むことを特徴とする単語検索システム。
The word search device according to any one of claims 1 to 6,
And a terminal for displaying a word list output from the word search device.
テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索方法であって、
前記テキストに含まれる単語のうち、単語記憶手段に記憶されたノイズ語にも既知語にも該当しない単語を辞書で検索する検索工程と、
前記検索工程による検索が失敗した単語を前記ノイズ語として前記単語記憶手段に登録し、検索が成功した単語を前記既知語として前記単語記憶手段に新たに登録する単語登録工程と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成工程と、
前記単語リストを端末に送信して表示させる工程と
を有することを特徴とする単語検索方法。
A word search method for determining an unknown word from words included in a text and outputting a word list of unknown words,
A search step of searching a dictionary for a word that does not correspond to a noise word or a known word stored in the word storage means among words included in the text;
A word registration step of registering in the word storage means a word that has failed in the search in the search step as the noise word, and newly registering a word that has been successfully searched in the word storage means as the known word;
A creation step of creating a word list including, as unknown words, newly registered words as the known words from the words included in the text;
Transmitting the word list to a terminal and displaying the word list.
テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索方法をコンピュータに実行させるためのプログラムであって、
前記テキストに含まれる単語のうち、単語記憶手段に記憶されたノイズ語にも既知語にも該当しない単語を辞書で検索する検索工程と、
前記検索工程による検索が失敗した単語を前記ノイズ語として前記単語記憶手段に登録し、検索が成功した単語を前記既知語として前記単語記憶手段に新たに登録する単語登録工程と、
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成工程と、
前記単語リストを端末に送信して表示させる工程と
をコンピュータに実行させるためのプログラム。
A program for causing a computer to execute a word search method for determining an unknown word from words included in a text and outputting a word list of unknown words,
A search step of searching a dictionary for a word that does not correspond to a noise word or a known word stored in the word storage means among words included in the text;
A word registration step of registering in the word storage means a word that has failed in the search in the search step as the noise word, and newly registering a word that has been successfully searched in the word storage means as the known word;
A creation step of creating a word list including, as unknown words, newly registered words as the known words from the words included in the text;
A program for causing a computer to execute a step of transmitting and displaying the word list to a terminal.
JP2012270704A 2012-12-11 2012-12-11 Word search device and word search method Pending JP2014115908A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012270704A JP2014115908A (en) 2012-12-11 2012-12-11 Word search device and word search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012270704A JP2014115908A (en) 2012-12-11 2012-12-11 Word search device and word search method

Publications (1)

Publication Number Publication Date
JP2014115908A true JP2014115908A (en) 2014-06-26

Family

ID=51171815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012270704A Pending JP2014115908A (en) 2012-12-11 2012-12-11 Word search device and word search method

Country Status (1)

Country Link
JP (1) JP2014115908A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700768A (en) * 2014-12-12 2016-06-22 纳宝株式会社 Method, system, and non-transitory recording medium for providing additional information associated with information list on a display
JP2016201057A (en) * 2015-04-14 2016-12-01 日本放送協会 Document display device, document display method and program thereof
JP7742597B1 (en) * 2025-05-13 2025-09-22 Clinks株式会社 Information processing system and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700768A (en) * 2014-12-12 2016-06-22 纳宝株式会社 Method, system, and non-transitory recording medium for providing additional information associated with information list on a display
KR20160071845A (en) * 2014-12-12 2016-06-22 네이버 주식회사 Method, system and recording medium for providing word meaning
KR101659928B1 (en) * 2014-12-12 2016-09-26 네이버 주식회사 Method, system and recording medium for providing word meaning
JP2016201057A (en) * 2015-04-14 2016-12-01 日本放送協会 Document display device, document display method and program thereof
JP7742597B1 (en) * 2025-05-13 2025-09-22 Clinks株式会社 Information processing system and program

Similar Documents

Publication Publication Date Title
TWI729472B (en) Method, device and server for determining feature words
CN114254158B (en) Video generation method and device, and neural network training method and device
CN113051362A (en) Data query method and device and server
CN112052375B (en) Public opinion acquisition and word viscosity model training method and equipment, server and medium
JP6413256B2 (en) CONFERENCE SUPPORT DEVICE, CONFERENCE SUPPORT DEVICE CONTROL METHOD, AND PROGRAM
US20090203368A1 (en) Automated recording of virtual device interface
KR102348084B1 (en) Image Displaying Device, Driving Method of Image Displaying Device, and Computer Readable Recording Medium
US20250390467A1 (en) System and methods for massive data management and tagging
JP5327784B2 (en) Computer system, information collection support device, and information collection support method
JP2018206361A (en) System and method for user-oriented topic selection and browsing, and method, program, and computing device for displaying multiple content items
CN110287464A (en) Display method, device, computer equipment and computer storage medium for option data in form
JP7104390B2 (en) Document creation device, document creation method, database construction device, database construction method, and program
JP2014115908A (en) Word search device and word search method
CN117056460A (en) Document retrieval methods, devices, electronic equipment and media
JP6640519B2 (en) Information analysis device and information analysis method
JP2017068782A (en) Time series data processing device and time series data processing method
JP6229512B2 (en) Information processing program, information processing method, and information processing apparatus
WO2017071190A1 (en) Input data processing method, apparatus and device, and non-volatile computer storage medium
JP5358981B2 (en) Information processing apparatus, information processing apparatus control method, and information processing apparatus control program
US10891338B1 (en) Systems and methods for providing information
KR101586482B1 (en) Method and System for Conversion of Search Result Suitable for User State
JP2022090209A (en) Account analysis system, and account analysis method
CN106469112A (en) A kind of information processing system, method and electronic equipment
CN115309375B (en) Processing method and device of application programming interface, electronic equipment and medium
JP6252204B2 (en) Information processing apparatus, intention analysis method, and program