JP2022175661A - CALIBRATION SUPPORT DEVICE, CALIBRATION SUPPORT METHOD, AND PROGRAM - Google Patents
CALIBRATION SUPPORT DEVICE, CALIBRATION SUPPORT METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP2022175661A JP2022175661A JP2021082276A JP2021082276A JP2022175661A JP 2022175661 A JP2022175661 A JP 2022175661A JP 2021082276 A JP2021082276 A JP 2021082276A JP 2021082276 A JP2021082276 A JP 2021082276A JP 2022175661 A JP2022175661 A JP 2022175661A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- registered
- list
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、校正支援装置、校正支援方法、及びプログラムに関する。 The present invention relates to a proofreading support device, a proofreading support method, and a program.
文章の表記ゆれを校正することが行われている。例えば、特許文献1には、校正の対象とする文章から表記ゆれの候補となる文字列を抽出し、抽出した候補を他の候補の表記と比較して表記ゆれの有無を判定する技術が開示されている。
Sentences are corrected for spelling errors. For example,
特許文献1に記載の方法では、文章から抽出した文字列を、他の全ての候補の表記と比較する。例えば、文章から抽出した文字列の数がK(Kは任意の自然数)である場合、比較する回数は、K×(K-1)となる。したがって、校正の対象とする文章が100ワード程度の短いものである場合には比較する回数は1万回程度で済むが、100万ワード程度の長い文章の場合、比較回数が1億回程度となってしまい回数が加速度的に増大してしまう。このため、長文の文章の表記ゆれをチェックするのに何日もかかってしまう場合があり現実的でないという問題があった。
The method described in
本発明は、このような状況に鑑みてなされたものであり、長文の文章であっても校正に要する時間を増大させることなく、表記ゆれの可能性がある文字列を抽出することができる校正支援装置、校正支援方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and is capable of extracting character strings that may have spelling variations without increasing the time required for proofreading even long sentences. An object is to provide a support device, a proofreading support method, and a program.
本発明の、校正支援装置は、校正の対象とする対象文章を取得する取得部と、前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成する分割部と、前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成する連結部と、前記連結文章における表記ゆれの候補となる文字列を抽出する評価部と、を備える。 The proofreading support apparatus of the present invention includes an acquisition unit that acquires a target sentence to be proofread, a division unit that generates split sentences by dividing the target sentence into at least three or more, and the split sentences. Among them, a connection unit that generates a connected sentence that is a connected sentence formed by connecting different divided sentences and is shorter than the target sentence, and an evaluation unit that extracts a character string that is a candidate for spelling variation in the connected sentence. Prepare.
本発明の、校正支援方法は、コンピュータが行う校正支援方法であって、取得部が、校正の対象とする対象文章を取得し、分割部が、前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成し、連結部が、前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成し、評価部が、前記連結文章における表記ゆれの候補となる文字列を抽出する。 A proofreading support method of the present invention is a proofreading support method performed by a computer, wherein an obtaining unit obtains a target sentence to be proofread, and a dividing unit divides the target sentence into at least three or more. A connecting unit generates a connected sentence formed by connecting different divided sentences among the divided sentences and is shorter than the target sentence, and an evaluating unit generates the connected sentence Extract character strings that are candidates for spelling variations in .
本発明の、プログラムは、コンピュータを上記に記載の校正支援装置として動作させるためのプログラムであって、前記コンピュータを前記校正支援装置が備える各部として機能させるためのプログラムである。 A program according to the present invention is a program for causing a computer to operate as the proofreading support apparatus described above, and for causing the computer to function as each unit provided in the proofreading support apparatus.
本発明によれば、表記ゆれを見逃してしまうリスクが低く、長文の文章であっても校正に要する時間を増大させないようにすることができる。 According to the present invention, there is a low risk of overlooking spelling variations, and it is possible to prevent an increase in the time required for proofreading even for long sentences.
以下、本発明の実施形態について、図面を参照して説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings.
まず、文章から表記ゆれの候補(表記ゆれ候補)を抽出する方法について説明する。図10A~図10Dは、表記ゆれ候補を抽出する処理を説明する図である。 First, a method of extracting candidates for spelling variations (candidates for spelling variations) from a sentence will be described. 10A to 10D are diagrams for explaining the process of extracting spelling variation candidates.
図10Aには、文章の例が示されている。図10Aの例に示すように、「取り扱いがあります。取り扱いは有ります。取扱いがあります。取扱はないですね。」と記載された文章から、表記ゆれ候補を抽出する場合を例示して説明する。 An example of a sentence is shown in FIG. 10A. As shown in the example of FIG. 10A, a case of extracting spelling variation candidates from a sentence stating "There is handling. There is handling. There is handling. There is no handling." .
図10Bには、文章を単語(形態素)ごとに区切られた文章の例が示されている。図10Bの例に示すように、図10Aの文章を単語ごとに区切ると、例えば、「取り扱い/が/あり/ます/。/取り扱い/は/有り/ます/。/取扱い/が/あり/ます/。/取扱/は/ない/です/ね/。」のようになる。ここでの「/」は、区切りを示す記号である。 FIG. 10B shows an example of sentences divided by words (morphemes). As shown in the example of FIG. 10B, if the sentence in FIG. /./handling/was/no/desu/ne/.". "/" here is a symbol indicating a delimiter.
図10C、図10Dを用いて、表記ゆれ候補を抽出する処理を説明する。図10Cには、表記ゆれ候補を抽出する処理が示されている。図10Dには、図10Cの評価に用いられるリストの例が示されている。 Processing for extracting spelling variation candidates will be described with reference to FIGS. 10C and 10D. FIG. 10C shows processing for extracting spelling variation candidates. FIG. 10D shows an example of the list used for the evaluation of FIG. 10C.
図10Cの表には、単語、リスト登録単語数、評価結果、リスト登録の有無などの項目が示されている。単語は、文章に含まれる単語が順に示されている。リスト登録単語数には、リストに登録された単語の数が示されている。リストは、図10Dの例に示すような、文章に含まれる単語を評価する際に用いられるリストである。ここでの評価とは、文章に含まれる単語が、リストに記載された単語と一致する、或いは類似するか否かを判定することである。 The table in FIG. 10C shows items such as words, the number of registered words in the list, evaluation results, and presence/absence of registration in the list. As for the words, the words included in the sentence are shown in order. The number of words registered in the list indicates the number of words registered in the list. The list is a list used when evaluating words contained in sentences, as shown in the example of FIG. 10D. Evaluation here means determining whether or not the words included in the sentence match or are similar to the words described in the list.
評価結果は、文章に含まれる単語を評価した結果が示されている。ここでの評価結果には、文章に含まれる単語と、リストに登録された単語とが、一致する(又は類似する)か否かを判定した結果が示される。 The evaluation result indicates the result of evaluating the words contained in the sentence. The evaluation result here indicates the result of determining whether or not the words included in the sentence match (or are similar to) the words registered in the list.
リスト登録の有無は、文章に含まれる単語を、リストに単語を登録したか否かが示されている。ここでは、評価結果に基づいて、文章に含まれる単語と、リストに登録された単語とが、一致する(又は類似する)しないと判定された場合に、文章に含まれる単語が、リストに登録される。 Whether or not the word is registered in the list indicates whether or not the word included in the sentence is registered in the list. Here, when it is determined that the word included in the sentence and the word registered in the list do not match (or are similar) based on the evaluation result, the word included in the sentence is added to the list. be done.
図10Dの表には、リストNo、単語、要素1、要素2…などの項目が示されている。リストNoは、リストに登録された単語を一意に特定する番号などの識別情報である。単語は、リストNoにて特定される単語を示す。要素は、リストNoにて特定される単語に類似すると判定された単語を示す。
The table in FIG. 10D shows items such as list number, word,
まず、リストに単語が登録されていない状態で評価が開始される。すなわち、図10Cの表の一番上に示された、「取り扱い」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。この時点においてリストに単語が登録されていない。このため、「取り扱い」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。図10Cの例では、リストのNo.1に、「取り扱い」との単語が登録されたことが示されている。そして、図10DのリストのNo.1に、「取り扱い」との単語が登録されている例が示されている。 First, evaluation is started with no words registered in the list. That is, it is determined whether or not the word "handling" shown at the top of the table in FIG. 10C matches or is similar to the words registered in the list. No words are registered in the list at this point. Therefore, the word "handling" is evaluated as "no match/similarity". Words for which an evaluation result of "no match/similarity" is obtained are registered in the list. In the example of FIG. 10C, list No. 1 indicates that the word "handling" has been registered. Then, No. in the list of FIG. 10D. 1 shows an example in which the word "handling" is registered.
次に、「が」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」との単語のみが登録された状態であるため、「が」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。図10Cの例では、リストのNo.2に、「が」との単語が登録されたことが示されている。そして、図10DのリストのNo.2に、「が」との単語が登録されている例が示されている。 Next, it is determined whether the word "ga" matches or is similar to the words registered in the list. Since only the word "handling" is registered in the list, the word "ga" is evaluated as "no match/similarity". Words for which an evaluation result of "no match/similarity" is obtained are registered in the list. In the example of FIG. 10C, list No. 2 shows that the word "ga" has been registered. Then, No. in the list of FIG. 10D. 2 shows an example in which the word "ga" is registered.
次に、「あり」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」及び「が」との単語のみが登録された状態である。このため、「あり」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。図10Cの例では、リストのNo.3に、「あり」との単語が登録されたことが示されている。そして、図10DのリストのNo.3に、「あり」との単語が登録されている例が示されている。 Next, it is determined whether the word "with" matches or is similar to the words registered in the list. Only the words "handle" and "ga" are registered in the list. For this reason, the word "yes" is evaluated as "no match/similarity". Words for which an evaluation result of "no match/similarity" is obtained are registered in the list. In the example of FIG. 10C, list No. 3 shows that the word "yes" has been registered. Then, No. in the list of FIG. 10D. 3 shows an example in which the word "with" is registered.
次に、「ます」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」及び「あり」との単語のみが登録された状態である。このため、「ます」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。図10Cの例では、リストのNo.4に、「ます」との単語が登録されたことが示されている。そして、図10DのリストのNo.4に、「ます」との単語が登録されている例が示されている。 Next, it is determined whether the word "masu" matches or is similar to the words registered in the list. Only the words "handling", "ga" and "with" are registered in the list. For this reason, the word “masu” is evaluated as “no match/similarity”. Words for which an evaluation result of "no match/similarity" is obtained are registered in the list. In the example of FIG. 10C, list No. 4 shows that the word "masu" has been registered. Then, No. in the list of FIG. 10D. 4 shows an example in which the word "masu" is registered.
次に、「。」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」及び「ます」との単語のみが登録された状態である。このため、「。」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。図10Cの例では、リストのNo.5に、「。」との単語が登録されたことが示されている。そして、図10DのリストのNo.5に、「。」との単語が登録されている例が示されている。 Next, it is determined whether the word "." matches or is similar to the words registered in the list. Only the words "handle", "ga", "ari" and "masu" are registered in the list. For this reason, the word "." is evaluated as "no match and similarity". Words for which an evaluation result of "no match/similarity" is obtained are registered in the list. In the example of FIG. 10C, list No. 5 indicates that the word "." has been registered. Then, No. in the list of FIG. 10D. 5 shows an example in which the word "." is registered.
次に、「取り扱い」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」、「ます」及び「。」との単語のみが登録された状態である。このため、「取り扱い」との単語については、「No.1と一致」との評価結果となる。「一致あり」との評価結果が得られた単語は、リストに新規に登録されない。 Next, it is determined whether the word "handling" matches or is similar to the words registered in the list. Only the words "handle", "ga", "ari", "masu" and "." are registered in the list. Therefore, the word "handling" is evaluated as "matching No. 1". Words that are evaluated as "matched" are not newly registered in the list.
次に、「は」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」、「ます」及び「。」との単語のみが登録された状態である。このため、「は」との単語については、「一致類似なし」との評価結果となる。「一致類似なし」との評価結果が得られた単語がリストに登録される。図10Cの例では、リストのNo.6に、「は」との単語が登録されたことが示されている。そして、図10DのリストのNo.6に、「は」との単語が登録されている例が示されている。 Next, it is determined whether the word "wa" matches or is similar to the words registered in the list. Only the words "handle", "ga", "ari", "masu" and "." are registered in the list. For this reason, the word "ha" is evaluated as "no match/similarity". Words for which an evaluation result of "no match/similarity" is obtained are registered in the list. In the example of FIG. 10C, list No. 6 shows that the word "ha" has been registered. Then, No. in the list of FIG. 10D. 6 shows an example in which the word "wa" is registered.
次に、「有り」との単語が、リストに登録された単語と一致又は類似するか否かが判定される。リストには「取り扱い」、「が」、「あり」、「ます」、「。」及び「は」との単語が登録された状態である。このため、「有り」との単語については、リストNo3の「あり」と「類似する」との評価結果となる。「類似する」との評価結果が得られた単語はリストに新規登録されない。「類似する」との評価結果が得られた単語は、類似すると判定された単語の要素に追加される。ここでは、図10DのリストのNo.3の要素1に、「有り」との単語が追加された例が示されている。
Next, it is determined whether the word "yes" matches or is similar to the words registered in the list. In the list, words such as "handle", "ga", "ari", "masu", "." and "ha" are registered. Therefore, the word "yes" is evaluated as "similar" to "yes" in list No. 3. Words evaluated as "similar" are not newly registered in the list. A word evaluated as “similar” is added to the elements of words determined to be similar. Here, No. of the list of FIG. 10D. An example in which the word "yes" is added to
なお、単語同士が類似するか否かは、任意に決定されてよい。例えば、校正支援装置10により表記ゆれの候補が抽出され、ユーザにより統一した表記となるように校正するか否かが判断されるように運用される場合を考える。この場合、文章において、表記ゆれとして校正の対象となる単語同士が「類似する」と判定されることが好適である。
It should be noted that whether words are similar to each other may be determined arbitrarily. For example, consider a case in which the
例えば、図10Aの文章では、「取り扱い」、「取扱い」、「取扱」が類似する単語と判定されることが好ましい。文章中に、「取り扱い」、「取扱い」、「取扱」の記載が混在している場合、校正担当者がこれらの記載を表記ゆれと判断して、いずれか一方の記載に統一するように校正することが通常考えられるためである。また、「あり」と「有り」が類似する単語と判定されることが好ましい。文章中に、「あり」と「有り」の記載が混在している場合、校正担当者がこれらの記載を表記ゆれと判断して、いずれか一方の記載に統一するように校正することが通常考えられるためである。 For example, in the sentence of FIG. 10A, it is preferable that "handling", "handling", and "handling" are determined to be similar words. If the descriptions of "handling", "handling", and "handling" are mixed in the text, the proofreader will judge these descriptions as notational variations and proofread so that they are unified to one of the descriptions. This is because it is usually considered that In addition, it is preferable that the words "with" and "with" are determined to be similar words. If the text contains both "Yes" and "Yes" statements, the proofreader usually judges these statements as notational variations and corrects them so that they are consistent with one of the statements. This is because it is conceivable.
なお、図10Cの例では、「あり」と「ない」とが類似しない単語と判定される場合を例示している。しかしながらこれに限定されない。「あり」と「ない」と類似する単語と判定されてもよい。例えば、文章中に「あり」と「ない」とが混在している場合において、校正担当者が「あり」と「ない」の記載が表記ゆれと判断して、いずれか一方の記載に統一するように校正する可能性がある文章である場合においては、校正支援装置10が、「あり」と「ない」とを類似する単語と判定するようにプログラムされる。
Note that the example of FIG. 10C illustrates a case in which ``with'' and ``not'' are determined to be dissimilar words. However, it is not limited to this. It may be determined as a word similar to "with" and "not". For example, if there is a mixture of "yes" and "no" in the text, the proofreader will determine that the descriptions of "yes" and "no" are notational variations, and unify them with one of them. , the
図10Cの例に示すように、表記ゆれの抽出においては、文章中の単語の評価が順に行われる。そして、評価結果に基づいて、リストに単語が登録されていく。文章中の単語を評価する時点においてリストに登録されている全ての単語と比較する処理を行う必要がある。このため、リストに登録する単語の数に応じて、評価に要する時間が増大する。例えば、図10Cにおける「リスト登録単語数」の項目に示すように、図10Aの例に示す文章において、最終的に、リストに登録された単語の数は「9」個となる。 As shown in the example of FIG. 10C, in extracting spelling variations, words in a sentence are evaluated in order. Then, based on the evaluation results, words are registered in the list. When evaluating a word in a sentence, it is necessary to perform a process of comparing with all the words registered in the list. Therefore, the time required for evaluation increases according to the number of words registered in the list. For example, as shown in the item "number of words registered in list" in FIG. 10C, the number of words registered in the list is finally "9" in the sentence shown in the example of FIG. 10A.
文章が短く抽出される単語の数が少ないものであれば、評価にさほど時間を要しない。しかし、文章が長くから抽出される単語の数が多い場合には評価に膨大な時間を要するため、現実的ではなくなる。 If the sentence is short and the number of extracted words is small, the evaluation does not take much time. However, if the sentence is long and the number of words to be extracted is large, the evaluation will take an enormous amount of time, which is not realistic.
この対策として、本実施形態では、文章を分割する。分割することで文章が短くなり、評価に要する時間を短縮することが可能となる。しかし、分割した文章を評価したのみでは、文章全体における表記ゆれの整合が取れない。例えば、文章を2つに分割した場合において、前半の文章には「取り扱い」との単語が表記ゆれすることなく記載され、後半の文章に「取扱い」との単語が表記ゆれすることなく記載されているような場合があり得る。この場合、前後に分割した文章の中では表記ゆれが生じていない。しかしながら、文章全体においては、「取り扱い」と「取扱い」の表記ゆれが生じている。分割した文章を評価したのみでは、表記ゆれを見逃してしまうリスクがある。 As a countermeasure against this, in the present embodiment, the sentence is divided. By dividing the text, the text becomes shorter, and the time required for evaluation can be shortened. However, by only evaluating the divided sentences, it is not possible to match the notation variations in the entire sentence. For example, when a sentence is divided into two, the first half of the sentence contains the word “handling” without any spelling variations, and the second half of the sentence contains the word “handling” without any spelling variations. There may be cases where In this case, there is no notation variation in the sentences divided into the front and back. However, in the entire text, there are variations in the notation of "handling" and "handling". There is a risk of overlooking spelling variations only by evaluating the divided sentences.
この対策として、本実施形態では、分割した文章を連結させ、連結した文章を評価する。これにより、連結した文章における表記ゆれが整合するようにする。また、連結した文章の組合せについて、総当たりの組合せとすることにより、文章全体における表記ゆれが整合するようにする。 As a countermeasure against this, in the present embodiment, divided sentences are connected and the connected sentences are evaluated. This ensures that spelling variations in the concatenated sentences are consistent. In addition, by making a round-robin combination for the combination of the connected sentences, the notation variations in the entire sentences are matched.
図1は、実施形態による校正支援装置10が行う処理を説明する図である。図1の上部には、対象文章ABCDが示されている。対象文章ABCDは、校正の対象となる文章である。この図の例では、「取り扱いがあります。取り扱いは有ります。取扱いがあります。取扱はないですね。」と記載された文章を対象文章ABCDとする。
FIG. 1 is a diagram illustrating processing performed by a
まず、校正支援装置10は、対象文章を分割した分割文章を生成する。この図の例では、対象文章ABCDを4つの分割文章A~Dに分割した例が示されている。
First, the
次に、校正支援装置10は、分割文章を連結した連結文章を生成する。この図の例では、分割文章A~Dのうち、異なる2つの分割文章を連結させた連結文章AB、AC、AD、BC、BD、CDのそれぞれが生成された例が示されている。
Next, the
そして、校正支援装置10は、連結文章AB、AC、AD、BC、BD、CDのそれぞれについて評価を行い、それぞれのリスト(後述するリスト情報120)を生成する。校正支援装置10は、それぞれのリストに重複して登録されている単語がある場合、その単語とその要素群を併合させる。併合後のリストは、文章全体を評価した場合に生成されるリストと一致する。
Then, the
ここで、校正支援装置10は、連結文章AB、AC、AD、BC、BD、CDのそれぞれの評価を、並列に処理するようにしてもよい。例えば、校正支援装置10は、それぞれの連結文章の評価を並列に処理する。この場合、分割数に応じた数の評価が、並列に処理される。分割数を増やすことで、評価に要する時間を短縮させることが可能である。一方、文章全体を評価する場合と比較して、総計算数が増えることが考えられる。しかし、最近のコンピュータの性能向上により、総計算数が増えることによる処理時間へ影響はさほど大きいものではない。すなわち、総計算量が増加するとしても、並列に処理させることによる処理時間の短縮の効果が大きい。このため、長文の文章であっても校正に要する時間を増大させることがない。
Here, the
なお、校正支援装置10が、対象文章を幾つの分割文章に分割するかは任意に決定されてよい。連結させることを考慮すれば、対象文章を二つに分割し、分割した二つの文章を連結させる場合は、意味をなさない。このため、校正支援装置10は、対象文章を少なくとも三つ以上に分割すればよい。
It should be noted that the number of divided sentences into which the
図2は、実施形態による校正支援装置10の構成例を示すブロック図である。校正支援装置10は、校正の対象とする文章(対象文章)における表記ゆれの候補となる文字列を抽出するコンピュータ装置である。校正支援装置10として、例えば、サーバ装置、クラウド、PC(Personal Computer)などを適用することが可能である。
FIG. 2 is a block diagram showing a configuration example of the
校正支援装置10は、例えば、通信部11と、記憶部12と、制御部13とを備える。通信部11は、通信ネットワークなどを介して、外部の装置と通信する。通信部11は、例えば、外部に設けられたサーバ装置などから、対象文章を示すテキスト情報などを受信する。また、通信部11は、外部に設けられたサーバ装置などに、対象文章から抽出した表記ゆれの候補となる文字列を、校正結果として送信する。
The
記憶部12は、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部12は、校正支援装置10の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。記憶部12は、例えば、リスト情報120を記憶する。リスト情報120は、対象文章から抽出した表記ゆれの候補に関する情報である。
The
制御部13は、校正支援装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。制御部13は、校正支援装置10を統括的に制御する。制御部13は、例えば、取得部130と、分割部131と、連結部132と、評価部133と、装置制御部134とを備える。
The
取得部130は、対象文章を取得する。例えば、取得部130は、外部のサーバ装置等から通信部11を介して対象文章を示す情報を取得する。取得部130は、取得した対象文章を示す情報を、分割部131に出力する。
分割部131は、対象文章に基づいて、分割文章を生成する。例えば、分割部131は、分割文章のそれぞれに含まれる単語の数が同程度となるように、分割文章を生成する。この場合、分割部131は、対象文章を単語ごとに区切り、対象文章に記載された単語の数を算出する。分割部131は、算出した単語の数を、分割数で除算して得られた単語数に相当する記載の前後の文字列を検索対象として、対象文章を分割する境界を探索する。
The dividing
分割部131は、例えば、句点や、記号、読点などを、対象文章を分割する境界とする。記号は、例えば、感嘆符「!」や、疑問符「?」、音符「♪」、コロン「:」などである。句点や、記号、読点などを境界とするのは、これらが表記ゆれの対象となる可能性が低いためである。分割部131は、少なくとも、単語の途中に境界を設けないようにする。例えば、「取り扱い」との単語における「取り扱」と「い」との間に境界を設定してしまうと、前の分割文章において、元々「取り扱い」との単語であったものが、「取り扱」との単語として評価されてしまい、誤った評価をしてしまう可能性があるためである。
The dividing
分割部131は、対象文章を分割する境界を決定し、決定した境界で分割することによって複数の分割文章を生成する。分割部131は、生成した分割文章を示す情報を、連結部132に出力する。
The dividing
連結部132は、連結文章を生成する。連結部132は、例えば、互いに異なる二つの分割文章の組合せとして考えられる全パターンを、連結文章として生成する。連結部132は、生成した連結文章を示す情報を、評価部133に出力する。
The linking
評価部133は、連結文章のそれぞれを評価する。評価部133は、例えば、連結文章を単語ごとに区切り、区切った単語を順に、リスト(リスト情報120)に登録された単語と一致するか否か、及び類似するか否かを判定する。また、評価部133は、単語が、リストに登録された単語と一致も類似もしない場合、その単語をリストに登録する。また、評価部133は、単語が、リストに登録された単語と類似する場合、その単語を、リストに登録された単語(類似する単語)の要素として追加する。
The
装置制御部134は、校正支援装置10を統括的に制御する。例えば、装置制御部134は、通信部11が受信した対象文章を示すテキスト情報を、取得部130に出力する。装置制御部134は、評価部133が評価した結果として生成されたリスト(リスト情報120)を併合する。装置制御部134は、併合したリストを、表記ゆれの候補を示すリストとして、外部のサーバ装置に送信する。
The
図3~図8は、実施形態によるリスト情報120の例を示す図である。図3~図8には、例えば、リストNo、単語、要素1、要素2…などの項目が示されている。これらの項目は、図10Dの表に示された項目と同様であるためその説明を省略する。
3-8 are diagrams illustrating examples of
図3には、連結文章ABに対応して生成されたリストの例が、リスト情報120Aとして示されている。リスト情報120Aには、連結文章ABにおける、6-7文字目に記載された「あり」との単語と、16-17文字目に記載された「有り」との単語とが、表記ゆれの候補として抽出された例が示されている。
FIG. 3 shows an example of the list generated corresponding to the concatenated text AB as
図4には、連結文章ACに対応して生成されたリストの例が、リスト情報120Bとして示されている。リスト情報120Bには、連結文章ACにおける、1-4文字目に記載された「取り扱い」との単語と、21-23文字目に記載された「取扱い」との単語とが、表記ゆれの候補として抽出された例が示されている。
FIG. 4 shows an example of the list generated corresponding to the concatenated text AC as
図5には、連結文章ADに対応して生成されたリストの例が、リスト情報120Cとして示されている。リスト情報120Cには、連結文章ADにおける、1-4文字目に記載された「取り扱い」との単語と、30-31文字目に記載された「取扱」との単語とが、表記ゆれの候補として抽出された例が示されている。
FIG. 5 shows an example of the list generated corresponding to the concatenated text AD as
図6には、連結文章BCに対応して生成されたリストの例が、リスト情報120Dとして示されている。リスト情報120Dには、連結文章BCにおける、11-14文字目に記載された「取り扱い」との単語と、21-23文字目に記載された「取扱い」との単語とが、表記ゆれの候補として抽出された例が示されている。また、リスト情報120Dには、連結文章BCにおける、16-17文字目に記載された「有り」との単語と、25-26文字目に記載された「あり」との単語とが、表記ゆれの候補として抽出された例が示されている。
FIG. 6 shows an example of the list generated corresponding to the concatenated text BC as
図7には、連結文章BDに対応して生成されたリストの例が、リスト情報120Eとして示されている。リスト情報120Eには、連結文章BDにおける、11-14文字目に記載された「取り扱い」との単語と、30-31文字目に記載された「取扱」との単語とが、表記ゆれの候補として抽出された例が示されている。
FIG. 7 shows an example of the list generated corresponding to the linked text BD as
図8には、連結文章CDに対応して生成されたリストの例が、リスト情報120Fとして示されている。リスト情報120Fには、連結文章CDにおける、21-23文字目に記載された「取扱い」との単語と、30-31文字目に記載された「取扱」との単語とが、表記ゆれの候補として抽出された例が示されている。
FIG. 8 shows an example of the list generated corresponding to the concatenated text CD as
ここで、装置制御部134が、リスト(リスト情報120)を併合する方法について説明する。まず、装置制御部134は、それぞれのリストにて示された表記ゆれの候補となる単語が記載された位置を特定し、特定した位置が重複するものを併合する。
Here, a method for merging the lists (list information 120) by the
例えば、図3~図8に示すようなリスト情報120A~120Fが生成された場合、装置制御部134は、リスト情報120Aにおける「あり」と「有り」の表記ゆれ、及びリスト情報120Dにおける「有り」と「あり」の表記ゆれについて、それぞれのリストにおいて単語が記載された位置を特定する。
For example, when
リスト情報120Aにおける「あり」との単語が記載された位置は、6-7文字目である。リスト情報120Aにおける「有り」との単語が記載された位置は、16-17文字目である。リスト情報120Dにおける「有り」との単語が記載された位置は、16-17文字目である。リスト情報120Dにおける「あり」との単語が記載された位置は、25-26文字目である。
The position where the word “Yes” is written in the
それぞれのリストにおいて「有り」との単語が記載された位置が、17-18文字目で重複するものである。この場合、装置制御部134は、リスト情報120Aにおける「あり」と「有り」の表記ゆれ、及びリスト情報120Dにおける「有り」と「あり」の表記ゆれを、同一グループとみなして併合する。この結果、7-8文字目の「あり」と、16-17文字目の「有り」と、25-26文字目の「あり」とが、対象文章における表記ゆれの候補となる。
In each list, the position where the word "presence" is described overlaps at the 17th and 18th characters. In this case, the
また、装置制御部134は、リスト情報120Bにおける「取り扱い」と「取扱い」の表記ゆれ、リスト情報120Cにおける「取り扱い」と「取扱」の表記ゆれ、リスト情報120Dにおける「取り扱い」と「取扱い」の表記ゆれ、リスト情報120Eにおける「取り扱い」と「取扱」の表記ゆれ、及びリスト情報120Fにおける「取扱い」と「取扱」の表記ゆれについて、それぞれのリストにおいて単語が記載された位置を特定する。
In addition, the
リスト情報120Bにおける「取り扱い」との単語が記載された位置は、1-4文字目である。リスト情報120Bにおける「取扱い」との単語が記載された位置は、21-23文字目である。リスト情報120Cにおける「取り扱い」との単語が記載された位置は、1-4文字目である。リスト情報120Cにおける「取扱」との単語が記載された位置は、30-31文字目である。
The position where the word “handling” is written in the
リスト情報120Dにおける「取り扱い」との単語が記載された位置は、11-14文字目である。リスト情報120Dにおける「取扱い」との単語が記載された位置は、21-23文字目である。リスト情報120Eにおける「取り扱い」との単語が記載された位置は、11-14文字目である。リスト情報120Eにおける「取扱」との単語が記載された位置は、30-31文字目である。
The position where the word “handling” is written in the
リスト情報120Fにおける「取扱い」との単語が記載された位置は、21-23文字目である。リスト情報120Fにおける「取扱」との単語が記載された位置は、30-31文字目である。
The position where the word “handling” in the
装置制御部134は、それぞれのリストにおいて「取り扱い」との単語が記載された位置が、1-4文字目で重複するものについて併合する。装置制御部134は、リスト情報120Bにおける「取り扱い」と「取扱い」の表記ゆれ、及びリスト情報120Cにおける「取り扱い」と「取扱」の表記ゆれを、同一グループとみなして併合する。この結果、1-4文字目の「取り扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
The
また、装置制御部134は、それぞれのリストにおいて「取扱い」との単語が記載された位置が、21-23文字目で重複するものについて併合する。装置制御部134は、リスト情報120Bにおける「取り扱い」と「取扱い」の表記ゆれ、リスト情報120Dにおける「取り扱い」と「取扱い」の表記ゆれ、及びリスト情報120Fにおける「取扱い」と「取扱」の表記ゆれを、同一グループとみなして併合する。この結果、1-4文字目の「取り扱い」と、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
In addition, the
また、装置制御部134は、それぞれのリストにおいて「取り扱い」との単語が記載された位置が、11-14文字目で重複するものについて併合する。装置制御部134は、リスト情報120Dにおける「取り扱い」と「取扱い」の表記ゆれ、及びリスト情報120Eにおける「取り扱い」と「取扱い」の表記ゆれを、同一グループとみなして併合する。この結果、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
In addition, the
上記より、1-4文字目の「取り扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となるリスト(第1リスト)が生成される。また、1-4文字目の「取り扱い」と、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となるリスト(第2リスト)が生成される。11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となるリスト(第3リスト)が生成される。この場合、第1リストから第3リストのそれぞれの要素が互いに重複する。この場合、装置制御部134は、第1リストから第3リストを一つのリストに併合する。この結果、1-4文字目の「取り扱い」と、11-14文字目の「取扱い」と、21-23文字目の「取扱い」と、30-31文字目の「取扱」とが、対象文章における表記ゆれの候補となる。
From the above, the 1st to 4th characters "handling", the 21st to 23rd characters "handling", and the 30th to 31st characters "handling" are candidates for spelling variation in the target sentence (first list) is generated. In addition, the 1st to 4th letters “handling”, the 11th to 14th letters “handling”, the 21st to 23rd letters “handling”, and the 30th to 31st letters “handling” are A list (second list) of candidates for spelling variation is generated. The 11th to 14th characters "Handling", the 21st to 23rd characters "Handling", and the 30th to 31st characters "Handling" are candidates for spelling variation in the target sentence (third list). generated. In this case, the respective elements of the first to third lists overlap each other. In this case, the
図9は、実施形態による校正支援装置10が行う処理の流れを示すフローチャートである。校正支援装置10は、校正対象(対象文章)を取得し(ステップS10)、取得した対象文章を分割して(ステップS11)分割文章を生成する。校正支援装置10は、分割文章を連結して(ステップS12)、連結文章を生成する。校正支援装置10は、連結文章を取得し(ステップS13)、取得した連結文章を評価することによって、連結文章における表記ゆれの候補を抽出する(ステップS14)。校正支援装置10は、全ての連結文章について評価を行ったか否かを判定し(ステップS15)、まだ評価していない連結文章がある場合にはステップS13に戻る。全ての連結文章について評価を行った場合、校正支援装置10は、評価に伴って生成されたリスト(リスト情報120)について、重複して登録された単語を併合する(ステップS16)。校正支援装置10は、併合したリストを、表記ゆれの候補を抽出した結果として、例えば、外部のサーバ装置に送信する。
FIG. 9 is a flow chart showing the flow of processing performed by the
以上説明したように、実施形態の校正支援装置10は、取得部130と、分割部131と、連結部132と、評価部133とを備える。取得部130は、対象文章を取得する。分割部131は、対象文章を、少なくとも三つ以上に分割してなる分割文章を生成する。連結部132は、分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成する。評価部133は、連結文章における表記ゆれの候補となる文字列を抽出する。これにより、実施形態の校正支援装置10では、対象文章より短い連結文章における表記ゆれの候補となる文字列を抽出することができる。このため、対象文章が長文である場合であっても、対象文章より短い連結文章を校正対象とすることができる。したがって、長文の文章であっても校正に要する時間を増大させることなく、表記ゆれの候補となる文字列を抽出することが可能である。
As described above, the
また、実施形態の校正支援装置10では、評価部133は、連結文章に含まれる対象単語を、表記ゆれの有無を判定する単語の一覧を示すリスト情報120に登録された登録単語と比較する。評価部133は、対象単語が登録単語と一致しない又は類似しない場合、対象単語をリスト情報120に登録する。評価部133は、対象単語が登録単語と類似する場合、対象単語をリスト情報120において対象単語に類似する登録単語の要素に追加する。評価部133は、リスト情報120に登録された登録単語のうち、当該登録単語と当該登録単語の要素に追加された単語を、表記ゆれの候補とする。これにより、実施形態の校正支援装置10は、連結文章に含まれる対象単語をリスト情報120と比較し、一致しない又は類似しない場合に登録し、類似する場合に要素に追加する、という容易な方法にて、表記ゆれの候補を抽出することが可能である。
Further, in the
また、実施形態の校正支援装置10では、装置制御部134を更に備える。装置制御部134は、連結文章のそれぞれに対応して生成されたリスト情報120に基づいて、それぞれのリスト情報120に登録された登録単語のうち、複数のリスト情報120に重複して登録された登録単語を併合させる。これにより、実施形態の校正支援装置10では、連結文章のそれぞれのリスト情報120に基づいて、重複なく、対象文章における表記ゆれを抽出することができる。
Further, the
ここで、比較例を考える。評価に係る時間を短縮するための対策として、表記ゆれが発生しやすい単語のリストを用意し、リストに登録された単語のみを表記ゆれがないかチェックすることで校正の高速化を図ることが考えられる。しかし、この方法では予めリストに登録されていない単語の表記ゆれをチェックすることができない。このため、表記ゆれを見逃してしまう可能性がある。 Now consider a comparative example. As a measure to reduce the time required for evaluation, it is possible to prepare a list of words that are likely to have spelling variations, and check only the words registered in the list for spelling variations to speed up proofreading. Conceivable. However, this method cannot check spelling variations of words that are not registered in the list in advance. For this reason, there is a possibility of overlooking notation variations.
これに対し、本実施形態では、連結文章に対応するリスト情報120を生成する。リスト情報120は、連結文章に記載された単語が、他の単語と一致するか否か、類似するか否かに応じて作成される。このため、対応する連結文章を生成する。したがって、表記ゆれを見逃してしまう可能性を低減させて表記ゆれを見逃すリスクを低減させることが可能である。
On the other hand, in this embodiment,
また、実施形態の校正支援装置10では、連結部132は、互いに異なる二つの分割文章における全ての組合せに対応する連結文章を生成する。これにより、実施形態の校正支援装置10では、全ての分割文章について、一方の分割文章において統一された表記が、他方の分割文章における表記ゆれに該当するような場合であっても、互いの表記ゆれを抽出することができ、表記ゆれを見逃すリスクを低減させることが可能である。
In addition, in the
また、実施形態の校正支援装置10では、評価部133は、連結文章のそれぞれについて、表記ゆれの候補となる文字列を抽出する処理を、並列に実行する。これにより、実施形態の校正支援装置10では、評価に要する時間を短縮させることが可能である。
Further, in the
また、実施形態の校正支援装置10では、分割部131は、対象文章における句点、記号又は読点のいずれかを境界として、前記対象文章を分割する。これにより、実施形態の校正支援装置10では、単語の途中に境界が設定されることがなく、表記ゆれを見逃すリスクを低減させることが可能である。
In addition, in the
上述した実施形態における校正支援装置10の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
All or part of the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and design and the like are included within the scope of the gist of the present invention.
10…校正支援装置
130…取得部
131…分割部
132…連結部
133…評価部
DESCRIPTION OF
Claims (9)
前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成する分割部と、
前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成する連結部と、
前記連結文章における表記ゆれの候補となる文字列を抽出する評価部と、
を備える校正支援装置。 an obtaining unit that obtains a target sentence to be proofread; a dividing unit that generates divided sentences by dividing the target sentence into at least three or more;
a connecting unit for generating a connected sentence formed by connecting different divided sentences among the divided sentences, the connected sentence being shorter than the target sentence;
an evaluation unit that extracts a character string that is a candidate for spelling variation in the concatenated sentence;
A calibration support device.
前記連結文章に含まれる対象単語を、表記ゆれの有無を判定する単語の一覧を示すリスト情報に登録された登録単語と比較し、
前記対象単語が前記登録単語と一致しない又は類似しない場合、前記対象単語を前記リスト情報に登録し、
前記対象単語が前記登録単語と類似する場合、前記対象単語を前記リスト情報において前記対象単語に類似する前記登録単語の要素に追加する、
請求項1に記載の校正支援装置。 The evaluation unit
Comparing the target word contained in the linked sentence with the registered word registered in the list information indicating the list of words for determining the presence or absence of spelling variations,
if the target word does not match or is similar to the registered word, registering the target word in the list information;
when the target word is similar to the registered word, adding the target word to the elements of the registered word similar to the target word in the list information;
The calibration support device according to claim 1.
請求項2に記載の校正支援装置。 The evaluation unit regards, among the registered words registered in the list information, the registered words and the words added to the elements of the registered words as candidates for spelling variations,
The calibration support device according to claim 2.
請求項3に記載の校正支援装置。 Based on the list information generated corresponding to each of the linked sentences, among the registered words registered in each list information, the registered words duplicately registered in a plurality of the list information are merged. further comprising a device control unit that causes
The calibration support device according to claim 3.
請求項1から請求項4のいずれか一項に記載の校正支援装置。 The connecting unit generates the connected sentences corresponding to all combinations of the two divided sentences that are different from each other.
The proofreading support device according to any one of claims 1 to 4.
請求項1から請求項5のいずれか一項に記載の校正支援装置。 The evaluation unit executes, in parallel, a process of extracting character strings that are candidates for spelling variation for each of the concatenated sentences.
The proofreading support device according to any one of claims 1 to 5.
請求項1から請求項6のいずれか一項に記載の校正支援装置。 The dividing unit divides the target sentence using any one of a period, a symbol, or a comma in the target sentence as a boundary.
The proofreading support device according to any one of claims 1 to 6.
取得部が、校正の対象とする対象文章を取得し、
分割部が、前記対象文章を、少なくとも三つ以上に分割してなる分割文章を生成し、
連結部が、前記分割文章のうち、互いに異なる分割文章を連結してなる連結文章であって、対象文章より短い連結文章を生成し、
評価部が、前記連結文章における表記ゆれの候補となる文字列を抽出する、
校正支援方法。 A proofreading support method performed by a computer, wherein an acquisition unit acquires a target sentence to be proofread,
The dividing unit generates divided sentences by dividing the target sentence into at least three or more,
generating a connected sentence in which the connecting part is a connected sentence formed by connecting different divided sentences among the divided sentences, the connected sentence being shorter than the target sentence;
The evaluation unit extracts a character string that is a candidate for spelling variation in the concatenated sentence;
Proofreading assistance method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021082276A JP7718097B2 (en) | 2021-05-14 | 2021-05-14 | Proofreading support device, proofreading support method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021082276A JP7718097B2 (en) | 2021-05-14 | 2021-05-14 | Proofreading support device, proofreading support method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022175661A true JP2022175661A (en) | 2022-11-25 |
JP7718097B2 JP7718097B2 (en) | 2025-08-05 |
Family
ID=84145710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021082276A Active JP7718097B2 (en) | 2021-05-14 | 2021-05-14 | Proofreading support device, proofreading support method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7718097B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03184162A (en) * | 1989-12-13 | 1991-08-12 | Matsushita Electric Ind Co Ltd | Japanese document calibratioin assisting device |
JPH05314115A (en) * | 1992-05-12 | 1993-11-26 | Sharp Corp | Japanese sentence correcting and elaborating device |
JPH06325017A (en) * | 1993-05-11 | 1994-11-25 | Mitsubishi Electric Corp | Kana/kanji converting system |
JP2011133929A (en) * | 2009-12-22 | 2011-07-07 | Fujitsu Ltd | Document proofreading support device, program, and method |
-
2021
- 2021-05-14 JP JP2021082276A patent/JP7718097B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03184162A (en) * | 1989-12-13 | 1991-08-12 | Matsushita Electric Ind Co Ltd | Japanese document calibratioin assisting device |
JPH05314115A (en) * | 1992-05-12 | 1993-11-26 | Sharp Corp | Japanese sentence correcting and elaborating device |
JPH06325017A (en) * | 1993-05-11 | 1994-11-25 | Mitsubishi Electric Corp | Kana/kanji converting system |
JP2011133929A (en) * | 2009-12-22 | 2011-07-07 | Fujitsu Ltd | Document proofreading support device, program, and method |
Also Published As
Publication number | Publication date |
---|---|
JP7718097B2 (en) | 2025-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9858270B2 (en) | Converting data into natural language form | |
CN111177184A (en) | Natural language-based structured query language conversion method and related equipment | |
Eskander et al. | Foreign words and the automatic processing of Arabic social media text written in Roman script | |
US9594742B2 (en) | Method and apparatus for matching misspellings caused by phonetic variations | |
KR101509727B1 (en) | Apparatus for creating alignment corpus based on unsupervised alignment and method thereof, and apparatus for performing morphological analysis of non-canonical text using the alignment corpus and method thereof | |
JP2008539476A (en) | Spelling presentation generation method and system | |
US10410632B2 (en) | Input support apparatus and computer program product | |
CN102955773B (en) | For identifying the method and system of chemical name in Chinese document | |
US9870351B2 (en) | Annotating embedded tables | |
Eger et al. | A comparison of four character-level string-to-string translation models for (OCR) spelling error correction | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
CN110705261B (en) | Chinese text word segmentation method and system thereof | |
CN113076748A (en) | Method, device and equipment for processing bullet screen sensitive words and storage medium | |
JP2002117027A (en) | Feeling information extracting method and recording medium for feeling information extracting program | |
US9002772B2 (en) | Scalable rule-based processing system with trigger rules and rule evaluator | |
JP7040155B2 (en) | Information processing equipment, information processing methods and programs | |
US9317499B2 (en) | Optimizing generation of a regular expression | |
JP2016133960A (en) | Keyword extraction system, keyword extraction method, and computer program | |
JP2022175661A (en) | CALIBRATION SUPPORT DEVICE, CALIBRATION SUPPORT METHOD, AND PROGRAM | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
JP4734400B2 (en) | Document search apparatus and program | |
JP5795302B2 (en) | Morphological analyzer, method, and program | |
US10002450B2 (en) | Analyzing a document that includes a text-based visual representation | |
US20170031892A1 (en) | System and method for representing sequences of bits | |
US10803242B2 (en) | Correction of misspellings in QA system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250624 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250707 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7718097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |