JP2018163660A - Method and system for readability evaluation based on english syllable calculation method - Google Patents
Method and system for readability evaluation based on english syllable calculation method Download PDFInfo
- Publication number
- JP2018163660A JP2018163660A JP2018057837A JP2018057837A JP2018163660A JP 2018163660 A JP2018163660 A JP 2018163660A JP 2018057837 A JP2018057837 A JP 2018057837A JP 2018057837 A JP2018057837 A JP 2018057837A JP 2018163660 A JP2018163660 A JP 2018163660A
- Authority
- JP
- Japan
- Prior art keywords
- characters
- word
- character
- readability
- alphabet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】英語の音節計算法に基づいた可読性評価方法及びシステムを提供する。【解決手段】ターゲット文書を取得することによって、プリセット標準化方法を利用して標準化処理を行い、変換条件に従って変換を行い、得られた標準化された単語をスキャンして総音節数を計算し、最後に、可読性導出式に基づいて計算を行い、ターゲット文書の可読性係数及びリーディング難易度係数を得る。ターゲット文書を取得する様々な方法での可読性分析をサポートする。可読性分析の結果は、ディスプレイ端末を介して直接表示可能であり、ユーザに直感的にフィードバックする。可読性計算の実現性が向上すると共に、計算プロセスが簡単で、実施しやすく、計算結果が正確であるため、当該システムを多くの電子学習製品に容易に普及させて使用することができる。【選択図】図1A readability evaluation method and system based on an English syllable calculation method are provided. By obtaining a target document, standardization processing is performed using a preset standardization method, conversion is performed according to conversion conditions, the obtained standardized word is scanned to calculate the total number of syllables, and finally Then, the calculation is performed based on the readability derivation formula to obtain the readability coefficient and the reading difficulty coefficient of the target document. Supports readability analysis in various ways to obtain the target document. The result of the readability analysis can be directly displayed via the display terminal, and is intuitively fed back to the user. Since the feasibility of the readability calculation is improved, the calculation process is simple, easy to implement, and the calculation result is accurate, the system can be easily spread and used in many electronic learning products. [Selection] Figure 1
Description
本発明は、英語の情報処理の技術分野に関し、特に英語の音節計算法に基づいた可読性
評価方法及びシステムに関する。
The present invention relates to the technical field of information processing in English, and more particularly to a readability evaluation method and system based on an English syllable calculation method.
英語の文章についての可読性測定は、当該文章の難易度を客観的に判断する最も重要な
指標である。この指標に基づいて、文章の難易度を客観的、迅速且つ精確に、定量的に説
明することができる。当該指標の確定は、以下の分野において需要な意義を有する。
Measuring the readability of English sentences is the most important index for objectively judging the difficulty of the sentences. Based on this index, the difficulty level of a sentence can be quantitatively explained objectively, quickly and accurately. The determination of the index has significant significance in the following fields.
学生の教材に組み込まれた英語の文章及びその難易度を客観的且つ精確に選択して確定
する。英語の文章の異なる可読性指標により、幼稚園から大学院までの異なる学年の教材
における英語の文章についての選択がより科学的且つ正確となり、これにより、学年に従
って難易度及びレベルが異なる英語教材を学習することができる。現時点では、異なる学
年の英語教材における文章の難易度は、完全に編集者の主観的な判断によって決められて
おり、編集者によって、知識、能力、好み及び教育の目標が異なる。そのため、教材に選
択された英語教材は、客観的、科学的、定量的且つ統一された根拠を有せず、異なる学年
、異なる地域、異なるランク及び異なるレベルの学生のニーズを満たすことができず、学
生の学習に相応しい教材や資料を科学的にカスタマイズすることができない。
Objectively and accurately select and confirm the English sentences and their difficulty levels embedded in the student materials. Different readability indicators of English texts make the selection of English texts in different grade materials from kindergarten to graduate school more scientific and accurate, thereby learning English materials that vary in difficulty and level according to grade Can do. At present, the difficulty level of sentences in English materials of different grades is determined entirely by the subjective judgment of the editor, and the knowledge, ability, preference, and educational objectives vary from editor to editor. As a result, English language materials selected as materials do not have objective, scientific, quantitative and uniform grounds and cannot meet the needs of students at different grades, different regions, different ranks and different levels. , You cannot scientifically customize materials and materials suitable for student learning.
対人コミュニケーションにおいて、可読性の高い文章又は販売情報を迅速且つ正確に伝
達することにより、読者や顧客をより迅速且つ広範囲に引き付けることができる。医療、
交通、公共サービス等、すべての情報が英語をメディアとして伝達されるすべての業界や
部署において、人々は可読性の高い情報ほど理解しやすく、対人コミュニケーションがよ
り迅速且つ精確になる。
In interpersonal communication, it is possible to attract readers and customers more quickly and widely by quickly and accurately transmitting highly readable texts or sales information. Medical,
In all industries and departments where all information is transmitted in English as a medium, such as transportation and public services, people can understand more easily readable information, making interpersonal communication faster and more accurate.
現在のインターネット時代において、英語を運び手とするウェイボー(weibo)、ショ
ートメール、ウィーチャット(WeChat)、電子メール、ブログ、ウェブページのテキスト
、政府のオンラインレポート、ネットワークニュース、広告、パンフレット等において執
筆された文章は、可読性指標の検証を通じて可読性が高い合理的な範囲内において、より
迅速、正確且つ効率的な伝達効果を有する。
In the current Internet era, he writes for Weibo, a short mailer, WeChat, e-mail, blog, web page text, government online reports, network news, advertisements, brochures, etc. The written text has a more rapid, accurate and efficient transmission effect within a reasonable range of high readability through verification of the readability index.
英語自体の発音の複雑性、進化及び外来語の影響等の要因により、英語の音節について
の人工知能計算は、世界でも難問の1つである。計算言語学の分野では、音節の計算は、
データ駆動(機械学習)法及び言語規則のコンパイルアルゴリズムに基づいた方法(March
and, Y. and Damper, R. I. (2000). A multi-strategy approach to improving pronunc
iation by analogy. Computational Linguistics, 26(2): 195〜219、Damper, R. I. and
Marchand, Y. (2006). Information fusion approaches to the automatic pronunciati
on of print by analogy. Information Fusion, 7: 207〜20、Marchand, Y. and Damper,
R. I. (2006). Can syllabification improve pronunciation by analogy of English.
Natural Language Processing, 13(1): 1〜24)で行われる。データ駆動法は、コストが低
く、モデリングが簡単で、実施が速いというメリットを有するが、トレーニングコーパス
のタイプ及コーパスのサイズに大きく依存しているため、1種類の文体のトレーニングモ
デルを、別のタイプの文体に正確に用いることができない。言語規則のコンパイルアルゴ
リズムに基づいた方法には、専門家の知識が必要である。しかし、専門家のレベルが異な
り、音節の編集及び計算の規則が煩雑であり、しかも繰り返してテストする必要があるた
め、現在、音節の計算規則を包括的且つ完全に纏めてコンパイルすることができる統一さ
れた方法が未だ存在せず、また、従来の方法は、異なるユーザに対してすべての規則を取
り込んでコンパイルすることができない。従って、実際の用途において、測算された可読
性指標も異なり、そのため、読者を誤解させるおそれが生じる。一方、可読性評価は、英
語を運び手とするウェイボー(weibo)、ショートメール、ウィーチャット(WeChat)、
電子メール、ブログ等での評価結果を表示しておらず、検索エンジンも、ユーザの可読性
に対する検索結果を表示する機能を有していない。
Due to factors such as the complexity of pronunciation of English itself, evolution, and the influence of foreign words, artificial intelligence calculations for English syllables are one of the most difficult problems in the world. In the field of computational linguistics, the calculation of syllables is
Data-driven (machine learning) method and language rule compilation algorithm (March
and, Y. and Damper, RI (2000) .A multi-strategy approach to improving pronunc
iation by analogy. Computational Linguistics, 26 (2): 195-219, Damper, RI and
Marchand, Y. (2006). Information fusion approaches to the automatic pronunciati
on of print by analogy.Information Fusion, 7: 207-20, Marchand, Y. and Damper,
RI (2006). Can syllabification improve pronunciation by analogy of English.
Natural Language Processing, 13 (1): 1-24) Data-driven methods have the advantages of low cost, simple modeling, and fast implementation, but are highly dependent on the type of training corpus and the size of the corpus, so one type of stylistic training model can be Cannot be used correctly for type style. Expert knowledge is required for methods based on language rule compilation algorithms. However, since the level of experts is different, the rules for editing and calculating syllables are cumbersome, and it is necessary to test repeatedly, so it is now possible to compile syllable calculation rules comprehensively and completely. There is no uniform method yet, and the conventional method cannot capture and compile all the rules for different users. Therefore, in the actual application, the calculated readability index is different, which may cause misunderstanding of the reader. On the other hand, readability evaluations are based on Weibo, short mail, WeChat,
Evaluation results for e-mails, blogs, and the like are not displayed, and the search engine does not have a function for displaying search results for user readability.
本発明の目的は、上記の技術的欠点のうちの少なくとも1つを解決することである。 The object of the present invention is to solve at least one of the above technical drawbacks.
従って、本発明の1つの目的は、英語の音節計算法に基づいた可読性評価方法及びシス
テムを提供し、英語の音節計算法を用いてユーザが読もうとする英語の文章に対して可読
性評価及び難易度の分析を行い、学生の学習に相応しい教材や資料を科学的にカスタマイ
ズすることにある。
Accordingly, one object of the present invention is to provide a readability evaluation method and system based on an English syllable calculation method, and to perform readability evaluation on an English sentence to be read by a user using the English syllable calculation method. The task is to analyze the level of difficulty and to scientifically customize materials and materials suitable for student learning.
上記の目的を実現すべく、1つの実施形態として、本発明が提供する英語の音節計算法
に基づいた可読性評価方法は、ターゲット文書取得端末と標準化処理サーバと可読性コン
ピューティングサーバと可読性フィードバック端末とを含む可読性フィードバックプラッ
トフォームにおいて実現され、
所定の取得方法によってターゲット文書を取得する。句読点に基づいてターゲット文書
を文章分割して総文章数を得る。分割された各文章に正規表現によって単語分割処理を施
して、総単語数を得る、ターゲット文書取得端末が行うステップS1と、
ステップS1で得られたターゲット文書における各単語を入力語として、それぞれプリ
セット標準化方法に従って標準化処理を行い、標準化処理された複数の単語を得る、標準
化処理サーバが行うステップ2と、
ステップS2で得られたすべての標準化処理された単語を新たな入力語として、それぞ
れプリセット変換条件に従って音節数を算出する。各入力語の音節数の和を総音節数とす
る、標準化処理サーバが行うステップ3と、
前記総文章数、総単語数及び総音節数を下記2つのプリセット可読性導出式
caid Level)を計算する、可読性コンピューティングサーバが行うステップ4と、
可読性係数及びリーディング難易度係数の計算結果と、取得された目標文書とを同時に
表示して、ユーザにフィードバックする、可読性フィードバック端末が行うステップ5と
を含む。
In order to achieve the above object, as one embodiment, a readability evaluation method based on an English syllable calculation method provided by the present invention includes a target document acquisition terminal, a standardization processing server, a readability computing server, and a readability feedback terminal. Is implemented on a readability feedback platform including
A target document is acquired by a predetermined acquisition method. The target document is divided into sentences based on the punctuation marks to obtain the total number of sentences. Step S1 performed by the target document acquisition terminal that performs word division processing on each divided sentence with a regular expression to obtain the total number of words;
Step 2 performed by the standardization processing server that performs standardization processing according to a preset standardization method using each word in the target document obtained in step S1 as an input word, and obtains a plurality of standardized words;
Using all the standardized words obtained in step S2 as new input words, the number of syllables is calculated according to preset conversion conditions. Step 3 performed by the standardization processing server in which the sum of the number of syllables of each input word is set as the total number of syllables
The following two preset readability derivations for the total number of sentences, the total number of words, and the total number of syllables
step 4 performed by the readability computing server for calculating the caid level);
Step 5 performed by the readability feedback terminal for simultaneously displaying the calculation result of the readability coefficient and the reading difficulty coefficient and the obtained target document and feeding back to the user.
前記所定の取得方法は、
英語検索をサポートするすべてのウェブサイトを含む検索エンジンを使用してキーワー
ドに基づいて検索し、インデックスから要件を満たしているテキストスニペット又は文書
を検索する方法1、ユーザが文書を入力する方法2、及び、その他の方法のいずれかであ
る。
The predetermined acquisition method is:
Search 1 based on keywords using a search engine that includes all websites that support English search and search the text snippet or document that meets the requirements from the index 2; And any of the other methods.
ステップS1において方法1を用いた場合、検索エンジン及びキーワードによって検索
されたターゲット文書又はテキストスニペットを利用して、可読性係数及びリーディング
難易度係数の計算結果を、当該ターゲット文書若しくはテキストスニペットの下方又はタ
イトルの上方に同時に表示させる。
When the method 1 is used in step S1, the calculation result of the readability coefficient and the reading difficulty coefficient is calculated below the title or title of the target document or text snippet by using the target document or text snippet searched by the search engine and the keyword. Are displayed at the same time above.
ステップS1において方法2を用いた場合、可読性フィードバックプラットフォームの
ウィンドウの検出によってユーザが入力した目標文書を得て、且つ可読性ボタンの選択を
トリガすると、前記可読性フィードバックプラットフォームによって当該目標文書を分析
して、可読性係数及びリーディング難易度係数を計算し、これらの計算結果を、可読性フ
ィードバックプラットフォームにおけるウィンドウのタイトルの上方に自動的に表示させ
る。
When using method 2 in step S1, obtaining the target document entered by the user by detecting the window of the readability feedback platform and triggering the selection of the readability button, the target document is analyzed by the readability feedback platform; The readability coefficient and the reading difficulty coefficient are calculated, and the calculation results are automatically displayed above the title of the window in the readability feedback platform.
好ましくは、ステップS2における前記プリセット標準化方法は、サフィックス文字の
変換及び語頭のプレフィックスの付加を含む。
Preferably, the preset standardization method in step S2 includes conversion of a suffix character and addition of a prefix at the beginning.
前記サフィックス文字の変換において、入力語を一般的なサフィックス文字及び要変換
サフィックス文字に分ける。前記要変換サフィックス文字は、サフィックス2文字、サフ
ィックス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5
つのカテゴリを含む。前記一般的なサフィックス文字については変換しない。サフィック
スn文字における最後のn個の文字を、対応するサフィックス変換キーに変換する。ここ
で、n=2、3、4、5、7である。
In the conversion of the suffix character, the input word is divided into a general suffix character and a conversion required suffix character. The required conversion suffix characters are 5 suffixes: 2 suffixes, 3 suffix characters, 4 suffix characters, 5 suffix characters, and 7 suffix characters.
Includes one category. The general suffix characters are not converted. The last n characters in the suffix n characters are converted into the corresponding suffix conversion key. Here, n = 2, 3, 4, 5, and 7.
前記語頭のプレフィックスの付加において、入力語を一般的なプレフィックス文字及び
要変換プレフィックス文字に分ける。前記要変換プレフィックス文字は、プレフィックス
2文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つの
カテゴリを含む。前記一般的なプレフィックス文字については変換しない。プレフィック
スm文字における最初のm個の文字を、対応するプレフィックス変換キーに変換する。こ
こで、m=2、3、4、5である。
In the prefix addition, the input word is divided into a general prefix character and a conversion required prefix character. The conversion required prefix characters include four categories: prefix 2 characters, prefix 3 characters, prefix 4 characters, and prefix 5 characters. The general prefix character is not converted. The first m characters in the prefix m characters are converted into corresponding prefix conversion keys. Here, m = 2, 3, 4, and 5.
好ましくは、ステップS3におけるプリセット変換条件は、入力語のすべてが「y」を
含まない子音アルファベットの場合、音節の出力数を入力語の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長
が3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し
、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれ
か条件で処理を行うものであって
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。そして、置換語における
母音列の数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を
、1つの母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベット
によって分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」
の数量に関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り
、ただ1つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置
換語の最後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を
、母音列の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音
節数を母音列の数に等しくする。
Preferably, the preset conversion condition in step S3 is such that when all of the input words are consonant alphabets that do not include “y”, the number of syllable outputs is made equal to the word length of the input word,
If the input word contains any vowel alphabet or the alphabet “y” and the word length is less than 3, output the number of syllables as 1,
If the input word contains any vowel alphabet or the letter “y” and the word length is equal to 3,
(1) When the first and third characters are both “y” of an arbitrary vowel alphabet or alphabet and the second is a consonant alphabet, the number of syllables is output as 2,
(2) If the first, second and third characters are any vowel alphabet or “y” of the alphabet, the number of syllables is output as 3,
(3) In cases other than the above (1) and (2), processing is performed under any condition that the number of syllables is output as 1, and an arbitrary vowel alphabet or “y” of the alphabet is included in the input word. If it is included and the word length is greater than 3, the input word is scanned from the beginning to the end. If a feature word string exists in the input word, the feature word string is replaced with a corresponding extended word string to obtain a replacement word. Then, the number of vowel strings in the replacement word is calculated. One or a plurality of “a, e, i, o, u, or y” combined with one vowel string (that is, a plurality of vowel strings in a replacement word are separated by a consonant alphabet excluding y) "A, e, i, o, u or y" to be combined
A single vowel string unless any consonant alphabet excluding y exists in the middle, regardless of the quantity of When the last character of the replacement word is “e”, the last character of the replacement word is deleted. When the first two characters of the replacement word are “mc”, the number of syllables is obtained by adding 1 to the number of vowel strings. If the first two letters of the replacement word are not “mc”, the number of syllables is made equal to the number of vowel strings.
好ましくは、3文字から構成され、1番目の文字が、アルファベットaからアルファベ
ットzまでの任意のアルファベットであり、2番目の文字と3番目の文字との組合せは、
「ia」、「io」、「iu」、「ae」、「eo」及び「iy」のうちの1つである。
拡張語列は4文字で構成されている。拡張語列の1番目の文字、2番目の文字及び4番目
の文字は、対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ
同じであるものとして特徴語列が定義される。3番目の文字が特徴語列の1番目の文字と
同じであるものとして特徴語列が定義される。
Preferably, it is composed of three characters, the first character is an arbitrary alphabet from alphabet a to alphabet z, and the combination of the second character and the third character is:
One of “ia”, “io”, “iu”, “ae”, “eo”, and “ii”.
The extended word string is composed of 4 characters. The first word, the second character, and the fourth character of the extended word string are assumed to be the same as the first character, the second character, and the third character of the corresponding feature word string, respectively. Is defined. The feature word string is defined as the third character being the same as the first character of the feature word string.
本発明は、英語の音節計算法に基づいた可読性評価アプリケーションプラットフォーム
としてのシステムをさらに提供する。前記アプリケーションプラットフォームは、ターゲ
ット文書取得端末と標準化処理サーバと可読性コンピューティングサーバと可読性フィー
ドバック端末とを含む。前記ターゲット文書取得端末は、所定の取得方法によりターゲッ
ト文書を取得して、当該ターゲット文書を前記標準化処理サーバに送信するものであって
、
ターゲット文書に対して句読点に基づいて文章分割処理を行い且つ分割された各文章に
正規表現によって単語分割処理を施す前処理を行い、ターゲット文書が前処理された後に
取得されたターゲット文書の総文章数及び総単語数を、前記可読性コンピューティングサ
ーバに送信する。
The present invention further provides a system as a readability evaluation application platform based on the English syllable calculation method. The application platform includes a target document acquisition terminal, a standardization processing server, a readability computing server, and a readability feedback terminal. The target document acquisition terminal acquires a target document by a predetermined acquisition method, and transmits the target document to the standardization processing server,
Total text of the target document obtained after the target document is pre-processed by performing a pre-processing that performs a word division process on the target document based on punctuation marks, and a word division process using a regular expression for each divided sentence. The number and the total number of words are transmitted to the readability computing server.
前記標準化処理サーバは、ターゲット文書を読み取り、プリセット標準化方法に従って
ターゲット文書に対して標準化処理を行い、プリセット変換条件に従って総音節数を取得
して、当該総音節数を可読性コンピューティングサーバに送信するために用いられるもの
であって、標準化処理された単語を得る標準化処理モジュール、及び、標準化処理された
単語についてプリセット変換条件に従って音節数を算出するためのスキャン変換モジュー
ルを含む。各入力語の音節数の和を総音節数とする。
The standardization processing server reads the target document, performs standardization processing on the target document according to the preset standardization method, acquires the total syllable number according to the preset conversion condition, and transmits the total syllable number to the readable computing server. A standardization processing module for obtaining a standardized word, and a scan conversion module for calculating the number of syllables according to a preset conversion condition for the standardized word. The sum of the number of syllables of each input word is taken as the total number of syllables.
前記可読性コンピューティングサーバは、可読性係数及びリーディング難易度係数を得
るために、前記総文章数、総単語数及び総音節数を、可読性係数(Flesch Readability)
の計算式及びリーディング難易度係数(Flesch-Kincaid Level)の計算式を含むプリセッ
ト可読性導出式
Preset readability derivation formula including formula for calculating the reading difficulty factor (Flesch-Kincaid Level)
前記可読性フィードバック端末は、ディスプレイにおいてアクティブウィンドウとして
、可読性係数及びリーディング難易度係数の計算結果と取得されたターゲット文書とを同
時に表示してユーザにフィードバックするために用いられる。
The readability feedback terminal is used for simultaneously displaying the calculation result of the readability coefficient and the reading difficulty coefficient and the acquired target document as an active window on the display and feeding back to the user.
好ましくは、前記標準化処理モジュールには、サフィックス文字の変換及び語頭のプレ
フィックスの付加を含むプリセット標準化方法が設定されている。
Preferably, in the standardization processing module, a preset standardization method including conversion of a suffix character and addition of a prefix at the beginning is set.
前記サフィックス文字の変換において、入力語を一般的なサフィックス文字及び要変換
サフィックス文字に分ける。前記要変換サフィックス文字は、サフィックス2文字、サフ
ィックス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5
つのカテゴリを含む。前記一般的なサフィックス文字は変換されない。サフィックスn文
字における最後のn個の文字を、対応するサフィックス変換キーに変換する。ここで、n
=2、3、4、5、7である。
In the conversion of the suffix character, the input word is divided into a general suffix character and a conversion required suffix character. The required conversion suffix characters are 5 suffixes: 2 suffixes, 3 suffix characters, 4 suffix characters, 5 suffix characters, and 7 suffix characters.
Includes one category. The general suffix characters are not converted. The last n characters in the suffix n characters are converted into the corresponding suffix conversion key. Where n
= 2, 3, 4, 5, 7.
前記語頭のプレフィックスの付加において、入力語を一般的なプレフィックス文字及び
要変換プレフィックス文字に分ける。要変換プレフィックス文字は、プレフィックス2文
字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカテ
ゴリを含む。前記一般的なプレフィックス文字については変換しない。プレフィックスm
文字における最初のm個の文字は、対応するプレフィックス変換キーに変換される。ここ
で、m=2、3、4、5である。
In the prefix addition, the input word is divided into a general prefix character and a conversion required prefix character. The conversion required prefix characters include four categories: prefix 2 characters, prefix 3 characters, prefix 4 characters, and prefix 5 characters. The general prefix character is not converted. Prefix m
The first m characters in the character are converted to the corresponding prefix conversion key. Here, m = 2, 3, 4, and 5.
好ましくは、スキャン変換モジュールには、プリセット変換条件が設定されている。前
記プリセット変換条件は、
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語
の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し
、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれ
か条件で処理を行うものである。
Preferably, a preset conversion condition is set in the scan conversion module. The preset conversion conditions are:
If all of the input words are consonant alphabets that do not contain “y”, make the number of syllable outputs equal to the word length of the input word,
If the input word contains any vowel alphabet or the alphabet “y” and the word length is less than 3, output the number of syllables as 1,
If the input word contains any vowel alphabet or the letter “y” and the word length is equal to 3,
(1) When the first and third characters are both “y” of an arbitrary vowel alphabet or alphabet and the second is a consonant alphabet, the number of syllables is output as 2,
(2) If the first, second and third characters are any vowel alphabet or “y” of the alphabet, the number of syllables is output as 3,
(3) In cases other than the above (1) and (2), the process is performed under any condition that the number of syllables is output as one.
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。置換語における母音列の
数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの
母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベットによって
分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に
関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1
つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置換語の最
後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を、母音列
の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音節数を母
音列の数に等しくする。
If the input word contains any vowel alphabet or alphabet “y” and the word length is greater than 3, the input word is scanned from the beginning to the end. If a feature word string exists in the input word, the feature word string is replaced with a corresponding extended word string to obtain a replacement word. Calculate the number of vowel strings in the replacement word. One or a plurality of “a, e, i, o, u, or y” combined with one vowel string (that is, a plurality of vowel strings in a replacement word are separated by a consonant alphabet excluding y) Regardless of the number of “a, e, i, o, u, or y” to be combined, it is only 1 unless one of the consonant alphabets excluding y exists in the middle.
Two vowel strings). When the last character of the replacement word is “e”, the last character of the replacement word is deleted. When the first two characters of the replacement word are “mc”, the number of syllables is obtained by adding 1 to the number of vowel strings. If the first two letters of the replacement word are not “mc”, the number of syllables is made equal to the number of vowel strings.
好ましくは、3文字から構成され、1番目の文字が、アルファベットaからアルファベ
ットzまでの任意のアルファベットであり、2番目の文字と3番目の文字との組合せは、
「ia」、「io」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるも
のとして特徴語列が定義される。4文字で構成されており、1番目の文字、2番目の文字
及び4番目の文字が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字と
それぞれ同じであり、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡
張語列が定義される。
Preferably, it is composed of three characters, the first character is an arbitrary alphabet from alphabet a to alphabet z, and the combination of the second character and the third character is:
A feature word string is defined as being one of “ia”, “io”, “iu”, “ae”, “eo”, and “ii”. It is composed of four characters, and the first character, the second character, and the fourth character are the same as the first character, the second character, and the third character of the corresponding feature word string, respectively. The extended word string is defined as the first character being the same as the first character of the feature word string.
本発明に係る英語の音節計算法に基づいた可読性評価方法及びシステムは、従来の可読
性評価方法に対して、少なくとも以下のメリットを有する。
The readability evaluation method and system based on the English syllable calculation method according to the present invention has at least the following merits over the conventional readability evaluation method.
1、ユーザ自身で入力した文書であるか、走査装置によってスキャンされた電子文書で
あるか、又はネットワークを介して検索された文書であるかに関わらず、当該方法によっ
て可読性分析を行い、可読性分析の結果を、ディスプレイ端末を介して直接表示すること
ができ、ユーザに直感的にフィードバックすることができる。
1. Regardless of whether the document is a document input by the user, an electronic document scanned by a scanning device, or a document searched via a network, the readability analysis is performed by the method. These results can be directly displayed via the display terminal, and can be fed back intuitively to the user.
2、本発明に係るシステムでは、音節の計算を可読性計算式中の重要な1つとすること
により、可読性計算の実現性が向上すると共に、計算プロセスが簡単で、実施しやすく、
計算結果が正確であるため、当該システムを多くの電子学習製品に容易に普及させて使用
することができる。
2. In the system according to the present invention, by making syllable calculation an important one in the readability calculation formula, the feasibility of readability calculation is improved and the calculation process is simple and easy to implement,
Since the calculation result is accurate, the system can be easily spread and used in many electronic learning products.
本発明の追加態様及び利点は、以下の説明に部分的に記載されている。一部は、以下の
説明でより明白になり、又は、本発明の実施から明らかになる。
Additional aspects and advantages of the present invention are set forth in part in the following description. Some will become more apparent from the following description or will become apparent from the practice of the invention.
本発明に係る上記の内容及び/又は追加態様及び利点は、以下の図面と併せて実施形態
についての説明において明白に且つ理解しやすくなる。
The above contents and / or additional aspects and advantages of the present invention will be clearly and easily understood in the description of the embodiments in conjunction with the following drawings.
以下、本発明の実施形態について詳細に説明する。実施形態の例示は、図面に示されて
おり、同じ又は類似の参照番号は、同一若しくは類似の素子、又は、同一若しくは類似の
機能を有する素子を示す。以下、参考図面を介して説明する実施形態は、本発明を説明す
るための例示的なものであり、本発明を限定するものとして解釈されるべきではない。
Hereinafter, embodiments of the present invention will be described in detail. Illustrative embodiments are illustrated in the drawings, wherein the same or similar reference numerals indicate the same or similar elements or elements having the same or similar functions. Hereinafter, the embodiments described with reference to the drawings are exemplary for explaining the present invention, and should not be construed as limiting the present invention.
図1に示すように、本発明の実施形態に係る英語の音節計算法に基づいた可読性評価方
法は、以下のステップを含む。
As shown in FIG. 1, the readability evaluation method based on the English syllable calculation method according to the embodiment of the present invention includes the following steps.
ステップ1:所定の取得方法によってターゲット文書を取得する。句読点(punctuatio
n mark)に基づいてターゲット文書を文章分割して総文章数を得る。分割された各文章に
正規表現によって単語分割処理を施して、総単語数を得る。ターゲット文書の取得方法は
、以下のいずれであってもよいが、これらに限定されない。
Step 1: A target document is acquired by a predetermined acquisition method. Punctuation (punctuatio
n mark), the target document is divided into sentences to obtain the total number of sentences. Each divided sentence is subjected to word division processing using a regular expression to obtain the total number of words. The target document acquisition method may be any of the following, but is not limited thereto.
方法1:検索エンジンを使用してキーワードに基づいて検索し、インデックスから要件
を満たしている文書を検索する。
Method 1: A search engine is used to search based on keywords, and a document that satisfies the requirements is searched from the index.
方法2:ユーザが文書を入力する。 Method 2: The user inputs a document.
方法3:紙文書をスキャンする等の手段によって電子文書を形成する。 Method 3: An electronic document is formed by means such as scanning a paper document.
入力テキストの各単語又はターゲット文書の各単語に対して標準化処理を行う。標準化
処理は、音節計算の精度向上の重要な部分である。「The CMU(米国カーネギー・メロン
・大学)Pronouncing Dictionary、オックスフォード現代英英辞典(Oxford Advanced En
glish Dictionary)及びウェブスター辞典(Webster's Dictionary)」という3大辞書に
ついての繰り返しテストに基づくと、標準化処理が行われていない場合における語彙の音
節の計算精度は、約48%〜65%に過ぎないが、標準化処理後の計算精度は90%に達
することができる。標準化処理とは、複雑で不規則なアルファベットの組合せを、識別及
び計算しやすい規則に変換することである。単語分割後の各単語又は検索で見つかったタ
ーゲット文書の各単語を入力単語とみなし、各ステップで標準化変換された語彙を次のス
テップの入力語とする。
Standardization processing is performed on each word of the input text or each word of the target document. Standardization processing is an important part of improving the accuracy of syllable calculations. "The CMU (Carnegie Mellon University, USA) Pronouncing Dictionary, Oxford Advanced Encyclopedia (Oxford Advanced En
Based on repeated tests on the three major dictionaries “glish Dictionary” and “Webster's Dictionary”, the accuracy of vocabulary syllable calculation is only about 48% to 65% when standardization is not performed. However, the calculation accuracy after the standardization process can reach 90%. The standardization process is to convert a complicated and irregular alphabet combination into a rule that is easy to identify and calculate. Each word after word division or each word of the target document found by the search is regarded as an input word, and the vocabulary standardized and converted in each step is set as an input word in the next step.
ステップ2:ステップ1で得られたターゲット文書における各単語を入力語として、そ
れぞれプリセット標準化方法に従って標準化処理を行い、標準化処理された複数の単語を
得る。プリセット標準化方法は、サフィックス文字(接尾辞)の変換及び語基の前へのプ
レフィックス(接頭辞)の付加を含む。
Step 2: Using each word in the target document obtained in Step 1 as an input word, standardization processing is performed according to a preset standardization method to obtain a plurality of standardized words. Preset standardization methods include the conversion of suffix characters (suffixes) and the addition of prefixes (prefixes) in front of word bases.
サフィックス文字を変換する。入力語を一般的なサフィックス文字及び要変換サフィッ
クス文字に分ける。前記要変換サフィックス文字は、サフィックス2文字、サフィックス
3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカテ
ゴリを含む。前記一般的なサフィックス文字については変換しない。サフィックスn文字
における最後のn個(n=2、3、4、5、7)の文字を、対応するサフィックス変換キ
ーに変換する。サフィックス変換キーは、「子音」、「子音+母音+子音」、「子音+母
音+子音+母音」、「母音+子音+母音+子音」又は「母音+子音+母音+子音+母音」
の形式である。
Convert suffix characters. The input word is divided into general suffix characters and conversion required suffix characters. The conversion required suffix characters include five categories: suffix 2 characters, suffix 3 characters, suffix 4 characters, suffix 5 characters, and suffix 7 characters. The general suffix characters are not converted. The last n characters (n = 2, 3, 4, 5, 7) in the suffix n characters are converted into corresponding suffix conversion keys. Suffix conversion keys are "consonant", "consonant + vowel + consonant", "consonant + vowel + consonant + vowel", "vowel + consonant + vowel + consonant" or "vowel + consonant + vowel + consonant + vowel"
Of the form.
入力語の最後の3文字が、「s#39s」(#39は、情報交換用米国標準コード(A
SCII)におけるアポストロフィーを示す。)、「ses」、「sms」、「ces」
、「hes」、「ges」、「xes」、「yer」、「ile」、「cre」、「el
y」、「h#39s」又は「ole」である場合、これらの3文字を「dad」に変換す
る。ここで、「dad」(即ち、「子音+母音+子音」)は、これらの語尾3文字に対応
するサフィックス変換キーである。入力語の最後の3文字が「tua」又は「ual」で
ある場合、これらの3文字から変換された変換キーを「tada」(即ち、「子音+母音
+子音+母音」)とする。入力語の最後の3文字がフランス語系のサフィックス「ier
」又は「que」である場合、これらの文字を「k」(即ち、「子音」)に変換する。入
力語の最後の3文字が「les」であって、且つ最後から4番目の文字が「a」、「e」
、「i」、「o」、「u」及び「y」のうちの1つである場合、「les」を削除して、
語尾に接尾辞「son」を追加する。
The last three characters of the input word are “s # 39s” (# 39 is the US standard code for information exchange (A
Fig. 2 shows an apostrophe in SCII). ), "Ses", "sms", "ces"
, “Hes”, “ges”, “xes”, “yer”, “ile”, “cre”, “el
If it is “y”, “h # 39s” or “ole”, these three characters are converted to “dad”. Here, “dad” (that is, “consonant + vowel + consonant”) is a suffix conversion key corresponding to these three ending characters. When the last three characters of the input word are “tua” or “ua”, the conversion key converted from these three characters is “tada” (that is, “consonant + vowel + consonant + vowel”). The last three letters of the input word are the French suffix “ier”
"Or" que ", these characters are converted to" k "(ie," consonant "). The last three characters of the input word are “les”, and the fourth character from the last is “a”, “e”
, “I”, “o”, “u” and “y”, delete “les”,
Add the suffix “son” to the end of the word.
入力語の最後の7文字が「eations」、「iations」、「oations
」又は「uations」である場合、これらの7文字を「adada」に変換する。
The last 7 characters of the input word are “eations”, “iations”, “oations”
”Or“ uations ”, these seven characters are converted to“ adada ”.
入力語の最後の2文字が「sm」である場合、これらの2文字を「dob」(即ち、「
子音+母音+子音」)に変換する。
If the last two characters of the input word are “sm”, these two characters are replaced by “dob” (ie, “
Consonant + vowel + consonant ").
入力語の最後の5文字が「sions」、「sians」、「cians」又は「ti
ans」である場合、これらの5文字を「dob」に変換する。
The last 5 characters of the input word are “ions”, “sians”, “cians” or “ti”
If “ans”, these five characters are converted to “dob”.
入力語の最後の4文字が「eate」、「iate」、「oate」、「vour」、
「uous」又は「uate」である場合、これらの4文字を「adad」に変換する。
入力語の最後の4文字が「sm#39s」、「cian」、「eous」、「bled」
、「gled」、「dled」、「kled」、「pled」、「tled」又は「fl
ed」である場合、これらの4文字を「dob」に変換する。入力語の最後の4文字が「
sion」、「ious」、「oate」、「ce#39s」又は「cial」である場
合、これらの4文字を「dob」に変換する。
The last 4 characters of the input word are “eate”, “iate”, “oate”, “vour”,
If it is “uous” or “uate”, these four characters are converted to “adad”.
The last four characters of the input word are “sm # 39s”, “cian”, “eous”, “bled”
, “Gled”, “dled”, “kled”, “pled”, “tled” or “fl”
If “ed”, these four characters are converted to “dob”. The last 4 characters of the input word
In the case of “sion”, “ious”, “oate”, “ce # 39s” or “cial”, these four characters are converted to “dob”.
語頭にプレフィックスを付加する。入力語を一般的なプレフィックス文字及び要変換プ
レフィックス文字に分ける。要変換プレフィックス文字は、プレフィックス2文字、プレ
フィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカテゴリを含
む。一般的なプレフィックス文字については変換しない。プレフィックスm文字における
最初のm個(m=2、3、4、5)の文字を、対応するプレフィックス変換キーに変換す
る。プレフィックス変換キーは、「子音+母音+子音」、「子音+母音+子音+母音」、
「子音+母音+子音+母音+子音」又は「子音+母音+子音+母音+子音+母音」の形式
である。
Add a prefix to the beginning of the word. Divide input words into general prefix characters and conversion prefix characters. The conversion required prefix characters include four categories: prefix 2 characters, prefix 3 characters, prefix 4 characters, and prefix 5 characters. Do not convert general prefix characters. The first m (m = 2, 3, 4, 5) characters in the prefix m characters are converted into corresponding prefix conversion keys. Prefix conversion keys are “consonant + vowel + consonant”, “consonant + vowel + consonant + vowel”,
The format is “consonant + vowel + consonant + vowel + consonant” or “consonant + vowel + consonant + vowel + consonant + vowel”.
入力語の最初の2文字が「io」である場合、これらの2文字を「dido」(即ち、
「子音+母音+子音+母音」)に変換する。
If the first two letters of the input word are “io”, these two letters are changed to “dido” (ie,
"Consonant + vowel + consonant + vowel").
入力語の最初の5文字が「coinc」である場合、これらの5文字を「didod」
に変換する。入力語の最初の5文字が「heroi」である場合、これらの5文字を「d
idada」に変換する。
If the first 5 characters of the input word are “coinc”, these 5 characters are replaced with “didod”.
Convert to If the first five characters of the input word are “heroi”, these five characters are
to "idada".
入力語の最初の4文字が「nois」、「goin」又は「voic」である場合、こ
れらの4文字を「didod」に変換する。
If the first four characters of the input word are “nois”, “goin” or “voice”, these four characters are converted to “didod”.
入力語の最初の3文字が「rea」であり、且つ入力語の語長が4より大きい場合、こ
れらの3文字を「rera」に変換する。
If the first three characters of the input word are “rea” and the word length of the input word is greater than 4, these three characters are converted to “rera”.
ステップ3:ステップ2で得られたすべての標準化処理された単語を新たな入力語とし
て、それぞれプリセット変換条件に従って音節数を算出する。各入力語の音節数の和を総
音節数とする。
プリセット変換条件は、以下の通りである。
Step 3: Using all the standardized words obtained in Step 2 as new input words, the number of syllables is calculated according to preset conversion conditions. The sum of the number of syllables of each input word is taken as the total number of syllables.
The preset conversion conditions are as follows.
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語
の語長に等しくする。
If all of the input words are consonant alphabets that do not contain “y”, the number of syllable outputs is made equal to the word length of the input word.
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力する。
If the input word includes an arbitrary vowel alphabet or “y” of the alphabet, and the word length is less than 3, the number of syllables is output as 1.
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3に等しい場合、以下の条件で処理する。
When the input word includes an arbitrary vowel alphabet or “y” of the alphabet and the word length is equal to 3, processing is performed under the following conditions.
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力す
る。
(1) If the first and third characters are both “y” of an arbitrary vowel alphabet or alphabet and the second is a consonant alphabet, the number of syllables is output as two.
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力する。
(2) When the first, second, and third characters are any vowel alphabet or “y” of the alphabet, the number of syllables is output as 3.
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する。 (3) In cases other than (1) and (2) above, the syllable number is output as 1.
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。そして、置換語における
母音列の数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を
、1つの母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベット
によって分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」
の数量に関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り
、ただ1つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置
換語の最後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を
、母音列の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音
節数を母音列の数に等しいものとする。
If the input word contains any vowel alphabet or alphabet “y” and the word length is greater than 3, the input word is scanned from the beginning to the end. If a feature word string exists in the input word, the feature word string is replaced with a corresponding extended word string to obtain a replacement word. Then, the number of vowel strings in the replacement word is calculated. One or a plurality of “a, e, i, o, u, or y” combined with one vowel string (that is, a plurality of vowel strings in a replacement word are separated by a consonant alphabet excluding y) "A, e, i, o, u or y" to be combined
A single vowel string unless any consonant alphabet excluding y exists in the middle, regardless of the quantity of When the last character of the replacement word is “e”, the last character of the replacement word is deleted. When the first two characters of the replacement word are “mc”, the number of syllables is obtained by adding 1 to the number of vowel strings. If the first two characters of the replacement word are not “mc”, the number of syllables is equal to the number of vowel strings.
3文字から構成され、1番目の文字が、アルファベットaからアルファベットzまでの
任意のアルファベットであり、2番目の文字と3番目の文字との組合せが「ia」、「i
o」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるものとして特徴語
列が定義される。4文字で構成されており、1番目の文字、2番目の文字及び4番目の文
字が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ同じで
あり、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡張語列が定義さ
れる。
The first character is an arbitrary alphabet from alphabet a to alphabet z, and the combination of the second character and the third character is “ia”, “i”.
A feature word string is defined as being one of “o”, “iu”, “ae”, “eo”, and “ii”. It is composed of four characters, and the first character, the second character, and the fourth character are the same as the first character, the second character, and the third character of the corresponding feature word string, respectively. The extended word string is defined as the first character being the same as the first character of the feature word string.
例えば入力語が「io」を含む「abiocoen」である場合、「bio」は特徴語
列であり、拡張語列「bibo」に置換されて置換語「abibocoen」が得られる
。「abibocoen」に「a」、「i」、「o」及び「oe」という4つの母音列が
含まれ、且つ最初の2文字が「mc」でないため、入力語「abiocoen」の音節数
は4である。
For example, when the input word is “abiocoen” including “io”, “bio” is a feature word string, and is replaced with the extended word string “bibo” to obtain the replacement word “abibocoen”. Since “abibocoen” includes four vowel strings “a”, “i”, “o”, and “oe”, and the first two characters are not “mc”, the number of syllables of the input word “abbiocoen” is four. It is.
また、例えば入力語が特徴語列を含まない「McGovern」である場合、置換語と
入力語とは同じである。「McGovern」に「o」及び「e」という2つの母音列が
含まれ、且つ最初の2文字が「mc」であるため、入力語「McGovern」の音節数
は3である。
For example, when the input word is “McGovern” that does not include the feature word string, the replacement word and the input word are the same. Since “McGovern” includes two vowel strings “o” and “e”, and the first two letters are “mc”, the number of syllables of the input word “McGovern” is three.
さらに、入力語が特徴語列を含まない「grime」である場合、置換語と入力語とは
同じであり、且つ「grime」の最後の1文字は「e」である。「e」を削除した後の
新しい置換語は「grim」であり、「grim」に「i」という1つの母音列のみが含
まれているため、入力語「girme」の音節数は1である。
Further, when the input word is “grime” that does not include the feature word string, the replacement word and the input word are the same, and the last character of “grime” is “e”. The new replacement word after deleting “e” is “grim”, and since “grim” includes only one vowel string “i”, the number of syllables of the input word “girl” is 1. .
ステップ4:総文章数、総単語数及び総音節数をプリセット可読性導出式
caid Level)を計算する。
Step 4: Preset readability formula for total number of sentences, total number of words, and total number of syllables
caid Level).
ステップ5:可読性フィードバックプラットフォームにおいて、可読性係数及びリーデ
ィング難易度係数の計算結果と、取得された目標文書とを同時に表示して、ユーザにフィ
ードバックする。表示方法は、以下の数種類を含むが、これらに限定されない。
Step 5: In the readability feedback platform, the calculation result of the readability coefficient and the reading difficulty coefficient and the acquired target document are simultaneously displayed and fed back to the user. Display methods include, but are not limited to, the following several types.
方法1:検索エンジン及びキーワードによって検索されたターゲット文書又はテキスト
スニペット(snippet)を利用して、可読性係数及びリーディング難易度係数の計算結果
を、当該ターゲット文書若しくはテキストスニペットの下方又はタイトルの上方に同時に
表示させる。
Method 1: Using the target document or text snippet searched by the search engine and the keyword, the calculation result of the readability coefficient and the reading difficulty coefficient is simultaneously below the target document or text snippet or above the title. Display.
方法2:可読性フィードバックプラットフォームのウィンドウにおいて、ユーザがター
ゲット文書を入力し、可読性ボタンを選択する。可読性係数及びリーディング難易度係数
の計算結果を、可読性フィードバックプラットフォームにおけるウィンドウのタイトルの
上方に自動的に表示させる。
Method 2: In the readability feedback platform window, the user enters the target document and selects the readability button. The calculation result of the readability coefficient and the reading difficulty coefficient is automatically displayed above the title of the window in the readability feedback platform.
図5に示すように、英語の音節計算法に基づいた可読性評価システムは、ターゲット文
書取得端末1、標準化処理サーバ2、可読性コンピューティングサーバ3及び可読性フィ
ードバック端末4を含む。
As shown in FIG. 5, the readability evaluation system based on the English syllable calculation method includes a target document acquisition terminal 1, a standardization processing server 2, a readability computing server 3, and a readability feedback terminal 4.
ターゲット文書取得端末1は、取得方法によってターゲット文書を取得して、ターゲッ
ト文書を標準化処理サーバに送信するために用いられる。ターゲット文書取得端末は、タ
ーゲット文書に対して前処理を行い、句読点に基づいて文章分割処理を行い、分割された
各文章に正規表現によって単語分割処理を施す。ターゲット文書取得端末は、ターゲット
文書が前処理された後に取得されたターゲット文書の総文章数及び総単語数を、可読性コ
ンピューティングサーバに送信する。
The target document acquisition terminal 1 is used for acquiring a target document by an acquisition method and transmitting the target document to a standardization processing server. The target document acquisition terminal performs preprocessing on the target document, performs sentence division processing based on punctuation marks, and performs word division processing on each divided sentence using a regular expression. The target document acquisition terminal transmits the total number of sentences and the total number of words of the target document acquired after the target document is preprocessed to the readable computing server.
標準化処理サーバ2は、プリセット標準化方法が設定されている標準化処理モジュール
、及びスキャン変換モジュールを含む。プリセット標準化方法は、サフィックス文字の変
換及び語頭のプレフィックスの付加を含む。
The standardization processing server 2 includes a standardization processing module in which a preset standardization method is set, and a scan conversion module. Preset standardization methods include suffix character conversion and prefix prefix addition.
サフィックス文字を変換する。入力語を一般的なサフィックス文字及び要変換サフィッ
クス文字に分ける。要変換サフィックス文字は、サフィックス2文字、サフィックス3文
字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカテゴリ
を含む。一般的なサフィックス文字については変換しない。サフィックスn文字における
最後のn個の文字を、対応するサフィックス変換キーに変換する。ここで、n=2、3、
4、5、7である。語頭にプレフィックスを付加する。入力語を一般的なプレフィックス
文字及び要変換プレフィックス文字に分ける。要変換プレフィックス文字は、プレフィッ
クス2文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4
つのカテゴリを含む。一般的なプレフィックス文字については変換しない。プレフィック
スm文字における最初のm個の文字を、対応するプレフィックス変換キーに変換する。こ
こで、m=2、3、4、5である。
Convert suffix characters. The input word is divided into general suffix characters and conversion required suffix characters. The conversion required suffix characters include five categories: suffix 2 characters, suffix 3 characters, suffix 4 characters, suffix 5 characters, and suffix 7 characters. Do not convert general suffix characters. The last n characters in the suffix n characters are converted into the corresponding suffix conversion key. Where n = 2, 3,
4, 5, and 7. Add a prefix to the beginning of the word. Divide input words into general prefix characters and conversion prefix characters. Conversion required prefix characters are 4 prefix characters, 3 prefix characters, 4 prefix characters, 5 prefix characters.
Includes one category. Do not convert general prefix characters. The first m characters in the prefix m characters are converted into corresponding prefix conversion keys. Here, m = 2, 3, 4, and 5.
スキャン変換モジュールには、プリセット変換条件が設定されている。前記プリセット
変換条件は、以下の通りである。
Preset conversion conditions are set in the scan conversion module. The preset conversion conditions are as follows.
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語
の語長に等しくする。
If all of the input words are consonant alphabets that do not contain “y”, the number of syllable outputs is made equal to the word length of the input word.
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力する。
If the input word includes an arbitrary vowel alphabet or “y” of the alphabet, and the word length is less than 3, the number of syllables is output as 1.
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3に等しい場合、以下の条件で処理する。
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力す
る。
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力する。
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する。
When the input word includes an arbitrary vowel alphabet or “y” of the alphabet and the word length is equal to 3, processing is performed under the following conditions.
(1) If the first and third characters are both “y” of an arbitrary vowel alphabet or alphabet and the second is a consonant alphabet, the number of syllables is output as two.
(2) When the first, second, and third characters are any vowel alphabet or “y” of the alphabet, the number of syllables is output as 3.
(3) In cases other than (1) and (2) above, the syllable number is output as 1.
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。置換語における母音列の
数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの
母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベットによって
分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に
関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1
つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置換語の最
後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を、母音列
の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音節数を母
音列の数に等しいものとする。
If the input word contains any vowel alphabet or alphabet “y” and the word length is greater than 3, the input word is scanned from the beginning to the end. If a feature word string exists in the input word, the feature word string is replaced with a corresponding extended word string to obtain a replacement word. Calculate the number of vowel strings in the replacement word. One or a plurality of “a, e, i, o, u, or y” combined with one vowel string (that is, a plurality of vowel strings in a replacement word are separated by a consonant alphabet excluding y) Regardless of the number of “a, e, i, o, u, or y” to be combined, it is only 1 unless one of the consonant alphabets excluding y exists in the middle.
Two vowel strings). When the last character of the replacement word is “e”, the last character of the replacement word is deleted. When the first two characters of the replacement word are “mc”, the number of syllables is obtained by adding 1 to the number of vowel strings. If the first two characters of the replacement word are not “mc”, the number of syllables is equal to the number of vowel strings.
可読性コンピューティングサーバ3は、可読性係数及びリーディング難易度係数を得る
ために、総文章数、総単語数及び総音節数を、可読性係数(Flesch Readability)の計算
式及びリーディング難易度係数(Flesch-Kincaid Level)の計算式を含むプリセット可読
性導出式
可読性フィードバック端末4は、可読性係数及びリーディング難易度係数の計算結果を
ターゲット文書に取り込み、表示装置を介してユーザにフィードバックするために用いら
れる。
The readability feedback terminal 4 is used for fetching the calculation results of the readability coefficient and the reading difficulty coefficient into the target document and feeding it back to the user via the display device.
ターゲット文書取得端末によるターゲット文書の取得方法は、次のいずれであってもよ
いが、これらに限定されない。方法1:検索エンジンを使用してキーワードに基づいて検
索し、インデックスから要件を満たしている文書を検索する。方法2:ユーザは文書を入
力する。方法3:紙文書をスキャンする等の手段によって電子文書を形成する。ユーザ自
身で入力した文書であるか、走査装置によってスキャンされた電子文書であるか、又はネ
ットワークを介して検索された文書であるかに関わらず、当該方法によって可読性分析を
行い、可読性分析の結果を、ディスプレイ端末を介して直接表示することができ、ユーザ
に直感的にフィードバックすることができる。
The target document acquisition method by the target document acquisition terminal may be any of the following, but is not limited thereto. Method 1: A search engine is used to search based on keywords, and a document that satisfies the requirements is searched from the index. Method 2: The user inputs a document. Method 3: An electronic document is formed by means such as scanning a paper document. Regardless of whether it is a document input by the user, an electronic document scanned by a scanning device, or a document searched through a network, the readability analysis is performed by the method, and the result of the readability analysis Can be directly displayed via the display terminal, and can be fed back intuitively to the user.
図2に示されている実施形態1は、本発明に採用された2番目の取得方法(ユーザによ
る文字入力の方法)によってターゲット文書を取得するものである。図に表示されている
ターゲット文書は、意識の流れの巨匠であるアイルランドの作家ジェイムズ・ジョイス(
James Joyce)による『フィネガンズ・ウェイク』(Finnegans Wake)という有名な作品
から抜粋された最初の2つの段落である。この作品は、英語圏で最も曖昧でわかりにくい
小説として西洋で広く認められている小説である。なぜならば、作者が自作単語、アンコ
モン言葉、奇妙な言葉、古代のスラング、混成語、長い単語等を多数使用しているからで
ある。これらの単語は、英語辞書に収録されていないか稀に収録されているため、辞書の
音節を調べる通常の方法では可読性を計算することができない。本発明に係る標準化処理
方法及びプリセット変換条件によって、可読性の計算結果を得ることができる。また、可
読性の式及びターゲット文書を可読性評価システムにおける表示窓に同時に表示すること
ができる。
In the first embodiment shown in FIG. 2, the target document is acquired by the second acquisition method (character input method by the user) employed in the present invention. The target document shown in the figure is Irish writer James Joyce, a master of the flow of consciousness (
These are the first two paragraphs excerpted from a famous work by James Joyce called Finnegans Wake. This work is widely recognized in the West as the most ambiguous and unclear novel in English-speaking countries. This is because the author uses a lot of self-made words, uncommon words, strange words, ancient slang, mixed words, long words, etc. These words are either not or rarely recorded in the English dictionary, so the readability cannot be calculated by the usual method of examining the syllables in the dictionary. The calculation result of readability can be obtained by the standardization processing method and preset conversion conditions according to the present invention. Further, the readability formula and the target document can be simultaneously displayed on the display window in the readability evaluation system.
図3は、実施形態2における、可読性計算結果及び元の文書を同時に表示するインター
フェイス図である。図4は、可読性計算結果及び元の文書を同時に表示する他のインター
フェイス図である。本発明に採用されているこの2つの図は、ツイッター(Twitter)(
登録商標)においてキーワード「climate」を検索した後にフィードバックされた結果で
ある。可読性指標は、検索結果の各ツイート又はミニブログに取り込まれて、ユーザにフ
ィードバックされる。ツイッターがインスタントメッセンジャーのソーシャルツールであ
るため、ツイートの言語の特徴として、ネット用語や略語が多く、ツイートにインターネ
ットアドレスが混在し、自作単語や口語も多いため、多くの語彙は、英語辞書にないか収
録が少なく、辞書の音節を調べる通常の方法では可読性を計算することができない。本発
明に係る方法を採用して、キーワード「climate」に関連するツイートを検索すれば、可
読性コンピューティングサーバは、各ツイートの可読性を計算し、計算された可読性係数
及びリーディング難易度係数と、検索された各ツイートとを同時に表示する。例えば、図
3のタイトルが「Pure Climate Skeptic」であるツイートは、可読性係数が21.8であ
り、リーディング難易度係数が34.8である。
FIG. 3 is an interface diagram for simultaneously displaying the readability calculation result and the original document in the second embodiment. FIG. 4 is another interface diagram for simultaneously displaying the readability calculation result and the original document. The two figures used in the present invention are Twitter (Twitter) (
This is a result fed back after searching the keyword “climate” in the registered trademark. The readability index is captured in each tweet or miniblog of the search result and fed back to the user. Because Twitter is an instant messenger social tool, there are many internet terms and abbreviations as the characteristics of the language of tweets, Internet addresses are mixed in tweets, and many words are self-made or spoken, so many vocabularies are not in the English dictionary. However, there is little recording, and the normal method of examining syllables in the dictionary cannot calculate readability. If the method according to the present invention is used to search for tweets related to the keyword “climate”, the readability computing server calculates the readability of each tweet, and calculates the readability coefficient and reading difficulty coefficient that are calculated. Each tweet is displayed at the same time. For example, a tweet having the title “Pure Climate Skeptic” in FIG. 3 has a readability coefficient of 21.8 and a reading difficulty coefficient of 34.8.
なお、ターゲット文書を取得する際に、キーワードを検索するための検索エンジンは、
英語で検索可能なすべての検索サイト、ネットワークプラットフォーム、ネットワークデ
ータベースを示す。一般的なものとして、ツイッター、グーグル(Google)、バイドゥ(
Baidu)、サンリューリン検索(360 Search)、有道(youdao)検索等がある。
Note that when retrieving the target document, the search engine for searching for keywords is
List all search sites, network platforms, and network databases that can be searched in English. Common ones are Twitter, Google (Google), Baidu (
Baidu), Sanlurin search (360 Search), and road search (youdao).
本発明の論理的根拠は、計算言語学の音節計算に関する、データ駆動(機械学習)に基
づいた方法及び規則に基づいた方法という2つの方法から導かれたものである。データ駆
動の方法は、トレーニングデータに対する統計に由来し、トレーニングデータのサイズや
タイプに大きく依存している。トレーニングデータに基づいて確立されたモデルは、トレ
ーニングデータのレベルと同様なターゲットデータのみ予測することができる。ターゲッ
トデータがモデルデータと大きく異なる場合、モデルの予測精度は大幅に低下する。規則
に基づいた方法は、専門家の知識に由来し、言語学者の長年の、高度に概念化且つ統一さ
れた、言語現象に対する包括的な経験の概要に基づいたものである。本発明の規則は、3
大英語辞書に基づいて確立されたものである。本発明は、高い汎用性及び様々なテキスト
への適合性を有し、アプリケーションの実行方法が簡単であり、様々なタイプのモデルに
対してトレーニングする必要がなく、拡張性が高く、スピードが速く、様々なタイプ及び
サイズのテキストに適用することができる。
The rationale of the present invention is derived from two methods for calculating syllables in computational linguistics, a method based on data driving (machine learning) and a method based on rules. Data driven methods are derived from statistics on training data and are highly dependent on the size and type of training data. A model established based on training data can only predict target data similar to the level of training data. If the target data is significantly different from the model data, the prediction accuracy of the model is greatly reduced. The rules-based method derives from expert knowledge and is based on a long-standing, highly conceptualized and unified comprehensive experience of linguistic phenomena in linguists. The rules of the present invention are 3
Established based on a large English dictionary. The present invention is highly versatile and adaptable to various texts, is simple to execute applications, does not need to be trained on various types of models, is highly scalable and fast. Can be applied to various types and sizes of text.
本発明に係る方法は、大量のテキストに基づいて試行錯誤によって確定されたものであ
る。3大英語辞書に対してテストを行った後、音節数を計算する正確率はそれぞれ、The
CMU Pronouncing Dictionaryが92%、オックスフォード現代英英辞典が90%、ウェブ
スター辞典が90%である。
The method according to the present invention is determined by trial and error based on a large amount of text. After testing the three major English dictionaries, the accuracy rate for calculating the number of syllables is
CMU Pronouncing Dictionary is 92%, Oxford Modern English-English Dictionary is 90%, Webster Dictionary is 90%.
本明細書の記載において、「1つの実施形態」、「いくつかの実施形態」、「例示」、
「具体例」又は「いくつかの例示」等の参考用語についての記載は、実施形態又は例示と
併せて説明する具体的な特性、構造、材料又は特徴は、本発明の少なくとも1つの実施形
態又は例示に含まれている。本明細書において、上記の用語に対する例示的な表現は、必
ずしも同一実施形態又は同一例示を示しているものではない。また、説明された具体的な
特性、構造、材料又は特徴は、任意の1つ又は複数の実施形態若しくは例示において適切
な形態で結合され得る。
In this description, “one embodiment”, “some embodiments”, “exemplary”,
Descriptions of reference terms such as “specific examples” or “several illustrations” include those specific characteristics, structures, materials, or features described in conjunction with the embodiments or examples in at least one embodiment or Included in the illustration. In the present specification, exemplary expressions for the above terms do not necessarily indicate the same embodiments or the same examples. Also, the particular characteristics, structures, materials, or features described may be combined in any suitable form in any one or more embodiments or examples.
Claims (8)
化処理サーバと可読性コンピューティングサーバと可読性フィードバック端末とを含む可
読性フィードバックプラットフォームにおいて実現され、
所定の取得方法によってターゲット文書を取得し、句読点に基づいてターゲット文書を
文章に分割して総文章数を得て、分割された各文章に正規表現によって単語分割処理を施
して、総単語数を得る、ターゲット文書取得端末が行うステップS1と、
ステップS1で得られたターゲット文書における各単語を入力語として、それぞれプリ
セット標準化方法に従って標準化処理を行い、標準化処理された複数の単語を得る、標準
化処理サーバが行うステップ2と、
ステップS2で得られたすべての標準化処理された単語を新たな入力語として、それぞ
れプリセット変換条件に従って音節数を算出し、各入力語の音節数の和を総音節数とする
、標準化処理サーバが行うステップ3と、
総文章数、総単語数及び総音節数をプリセット可読性導出式
caid Level)を計算する、可読性コンピューティングサーバが行うステップS4と、
可読性係数及びリーディング難易度係数の計算結果と、取得された目標文書とを同時に
表示して、ユーザにフィードバックする、可読性フィードバック端末が行うステップ5と
を含み、
前記所定の取得方法は、
英語検索をサポートするすべての検索エンジンを使用してキーワードに基づいて検索し
、インデックスから要件を満たしているテキストスニペット又は文書を検索する方法1、
ユーザが文書を入力する方法2、及び、その他の方法のいずれかであり、
ステップS1において方法1を用いた場合には、検索エンジン及びキーワードによって
検索されたターゲット文書又はテキストスニペットを利用して、可読性係数及びリーディ
ング難易度係数の計算結果を、当該ターゲット文書若しくはテキストスニペットの下方又
はタイトルの上方に同時に表示させ、
ステップS1において方法2を用いた場合には、可読性フィードバックプラットフォー
ムのウィンドウの検出によってユーザが入力した目標文書を得て、且つ可読性選択ボタン
をトリガすると、前記可読性フィードバックプラットフォームによって当該目標文書を分
析して、可読性係数及びリーディング難易度係数を計算し、これらの計算結果を、可読性
フィードバックプラットフォームにおけるウィンドウのタイトルの上方に表示させること
を特徴とする可読性評価方法。 A readability evaluation method based on an English syllable calculation method, which is realized in a readability feedback platform including a target document acquisition terminal, a standardization processing server, a readability computing server, and a readability feedback terminal.
The target document is acquired by a predetermined acquisition method, the target document is divided into sentences based on the punctuation marks, the total number of sentences is obtained, and word division processing is performed on each divided sentence by a regular expression to obtain the total number of words. Step S1 performed by the target document acquisition terminal,
Step 2 performed by the standardization processing server that performs standardization processing according to a preset standardization method using each word in the target document obtained in step S1 as an input word, and obtains a plurality of standardized words;
A standardization processing server that calculates all standardized words obtained in step S2 as new input words, calculates the number of syllables according to preset conversion conditions, and sets the sum of the number of syllables of each input word as the total syllable Step 3 to perform,
Preset readability derivation formula for total sentence count, total word count, and total syllable count
caid Level) is performed by the readability computing server,
A step 5 performed by the readability feedback terminal, which simultaneously displays the calculation result of the readability coefficient and the reading difficulty coefficient and the obtained target document and feeds back to the user;
The predetermined acquisition method is:
Search for text snippets or documents that meet the requirements from the index using all search engines that support English search, and index 1,
Any one of method 2 and other methods in which a user inputs a document;
When Method 1 is used in step S1, the calculation result of the readability coefficient and the reading difficulty coefficient is calculated below the target document or text snippet by using the target document or text snippet searched by the search engine and the keyword. Or display it at the same time above the title,
When method 2 is used in step S1, the target document input by the user is obtained by detecting the window of the readability feedback platform, and when the readability selection button is triggered, the target document is analyzed by the readability feedback platform. The readability coefficient and the reading difficulty coefficient are calculated, and the calculation results are displayed above the title of the window in the readability feedback platform.
のプレフィックスの付加を含み、
前記サフィックス文字の変換において、入力語を一般的なサフィックス文字及び要変換
サフィックス文字に分け、要変換サフィックス文字は、サフィックス2文字、サフィック
ス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカ
テゴリを含み、一般的なサフィックス文字については変換せず、サフィックスn文字(n
=2、3、4、5、7)における最後のn個の文字を、対応するサフィックス変換キーに
変換し、
前記語頭のプレフィックスの付加において、入力語を一般的なプレフィックス文字及び
要変換プレフィックス文字に分け、前記要変換プレフィックス文字は、プレフィックス2
文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカ
テゴリを含み、前記一般的なプレフィックス文字については変換せず、プレフィックスm
文字(m=2、3、4、5)における最初のm個の文字を、対応するプレフィックス変換
キーに変換することを特徴とする請求項1に記載の英語の音節計算法に基づいた可読性評
価方法。 The preset standardization method in step S2 includes conversion of a suffix character and addition of a prefix at the beginning,
In the conversion of the suffix characters, the input word is divided into general suffix characters and conversion required suffix characters. The conversion required suffix characters are 5 suffixes, 3 suffixes, 4 suffix characters, 5 suffix characters and 7 suffix characters. It contains two categories and does not convert general suffix characters.
= 2, 3, 4, 5, 7) convert the last n characters to the corresponding suffix conversion key,
In adding the prefix at the beginning, the input word is divided into a general prefix character and a conversion required prefix character, and the conversion required prefix character is prefix 2.
It includes four categories of characters, prefix 3 characters, prefix 4 characters, prefix 5 characters, the general prefix characters are not converted, and the prefix m
The readability evaluation based on the English syllable calculation method according to claim 1, wherein the first m characters in the characters (m = 2, 3, 4, 5) are converted into corresponding prefix conversion keys. Method.
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語
の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し
、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれ
か条件で処理を行うものであって、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3より大きい場合、入力語を語頭から語尾へスキャンし、入力語に特徴語列が存在する場
合、特徴語列を対応する拡張語列に置き換えて置換語を得て、置換語における母音列の数
を計算し、
1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの母音列(即ち
置換語における複数の母音列は、yを除いた子音アルファベットによって分離された複数
の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に関わらず、yを
除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1つの母音列であ
る)とし、置換語の最後の1文字が「e」である場合、当該置換語の最後の1文字を削除
し、置換語の最初の2文字が「mc」である場合、音節数を、母音列の数に1を加えたも
のとし、置換語の最初の2文字が「mc」でない場合、音節数を母音列の数に等しいもの
とすることを特徴とする請求項1に記載の英語の音節計算法に基づいた可読性評価方法。 The preset conversion conditions in step S3 are:
If all of the input words are consonant alphabets that do not contain “y”, make the number of syllable outputs equal to the word length of the input word,
If the input word contains any vowel alphabet or the alphabet “y” and the word length is less than 3, output the number of syllables as 1,
If the input word contains any vowel alphabet or the letter “y” and the word length is equal to 3,
(1) When the first and third characters are both “y” of an arbitrary vowel alphabet or alphabet and the second is a consonant alphabet, the number of syllables is output as 2,
(2) If the first, second and third characters are any vowel alphabet or “y” of the alphabet, the number of syllables is output as 3,
(3) In cases other than the above (1) and (2), the process is performed under any condition that the syllable number is output as 1,
If the input word contains any vowel alphabet or “y” of the alphabet and the word length is greater than 3, the input word is scanned from the beginning to the end, and if the input word has a characteristic word string, the characteristic word string Is replaced with the corresponding extended word string to obtain a replacement word, and the number of vowel strings in the replacement word is calculated,
One or a plurality of combined “a, e, i, o, u, or y” is converted into one vowel string (ie, a plurality of vowel strings in a replacement word are separated by a consonant alphabet excluding y). A character string, regardless of the quantity of “a, e, i, o, u or y” combined, it is only one vowel string as long as there is no consonant alphabet in the middle except y) When the last character of the replacement word is “e”, the last one character of the replacement word is deleted, and when the first two characters of the replacement word are “mc”, the number of syllables is expressed as a vowel string. 2. The English syllable according to claim 1, wherein if the first two characters of the replacement word are not “mc”, the number of syllables is equal to the number of vowel strings. Readability evaluation method based on calculation method.
任意のアルファベットであり、2番目の文字と3番目の文字との組合せが「ia」、「i
o」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるものとして特徴語
列が定義され、4文字で構成されており、1番目の文字、2番目の文字及び4番目の文字
が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ同じであ
り、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡張語列が定義され
ることを特徴とする請求項3に記載の英語の音節計算法に基づいた可読性評価方法。 The first character is an arbitrary alphabet from alphabet a to alphabet z, and the combination of the second character and the third character is “ia”, “i”.
The feature word string is defined as being one of “o”, “iu”, “ae”, “eo”, and “ii”, is composed of four characters, the first character, the second character The character and the fourth character are the same as the first character, the second character, and the third character of the corresponding feature word string, respectively, and the third character is the same as the first character of the feature word string 4. The method of evaluating readability based on an English syllable calculation method according to claim 3, wherein an extended word string is defined as a thing.
性フィードバック端末とを含み、
前記ターゲット文書取得端末は、所定の取得方法によりターゲット文書を取得して、当
該ターゲット文書を前記標準化処理サーバに送信するものであって、ターゲット文書に対
して句読点に基づいて文章分割処理を行い且つ分割された各文章に正規表現によって単語
分割処理を施す前処理を行い、ターゲット文書が前処理された後に取得されたターゲット
文書の総文章数及び総単語数を、前記可読性コンピューティングサーバに送信し、
前記標準化処理サーバは、ターゲット文書を読み取り、プリセット標準化方法に従って
ターゲット文書に対して標準化処理を行い、プリセット変換条件に従って総音節数を取得
して、当該総音節数を可読性コンピューティングサーバに送信するために用いられるもの
であって、標準化処理された単語を得る標準化処理モジュール、及び、標準化処理された
単語についてプリセット変換条件に従って音節数を算出するためのスキャン変換モジュー
ルを含み、各入力語の音節数の和を総音節数とし、
前記可読性コンピューティングサーバは、可読性係数及びリーディング難易度係数を得
るために、前記総文章数、総単語数及び総音節数を、可読性係数(Flesch Readability)
の計算式及びリーディング難易度係数(Flesch-Kincaid Level)の計算式を含むプリセッ
ト可読性導出式
前記可読性フィードバック端末は、ディスプレイにおいてアクティブウィンドウとして
、可読性係数及びリーディング難易度係数の計算結果と取得されたターゲット文書とを同
時に表示してユーザにフィードバックするために用いられることを特徴とする英語の音節
計算法に基づいた可読性評価システム。 A target document acquisition terminal, a standardization processing server, a readability computing server, and a readability feedback terminal,
The target document acquisition terminal acquires a target document by a predetermined acquisition method, transmits the target document to the standardization processing server, performs a sentence division process on the target document based on punctuation marks, and A pre-processing for performing word division processing on each divided sentence with a regular expression is performed, and the total number of sentences and the total number of words of the target document acquired after the target document is pre-processed are transmitted to the readable computing server. ,
The standardization processing server reads the target document, performs standardization processing on the target document according to the preset standardization method, acquires the total syllable number according to the preset conversion condition, and transmits the total syllable number to the readable computing server. Including a standardization processing module for obtaining a standardized word, and a scan conversion module for calculating the number of syllables according to a preset conversion condition for the standardized word, the number of syllables of each input word Is the total number of syllables,
The readability computing server calculates the total number of sentences, the total number of words, and the total number of syllables to obtain a readability coefficient and a reading difficulty coefficient.
Preset readability derivation formula including formula for calculating the reading difficulty factor (Flesch-Kincaid Level)
The readability feedback terminal is used to simultaneously display the calculation result of the readability coefficient and the reading difficulty coefficient and the acquired target document as an active window on the display and to feed back to the user. Readability evaluation system based on calculation method.
付加を含むプリセット標準化方法が設定されており、
前記サフィックス文字の変換において、入力語を一般的なサフィックス文字及び要変換
サフィックス文字に分け、要変換サフィックス文字は、サフィックス2文字、サフィック
ス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカ
テゴリを含み、一般的なサフィックス文字については変換せず、サフィックスn文字(n
=2、3、4、5、7)における最後のn個の文字を、対応するサフィックス変換キーに
変換し、
前記語頭のプレフィックスの付加において、入力語を一般的なプレフィックス文字及び
要変換プレフィックス文字に分け、前記要変換プレフィックス文字は、プレフィックス2
文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカ
テゴリを含み、前記一般的なプレフィックス文字については変換せず、プレフィックスm
文字(m=2、3、4、5)における最初のm個の文字を、対応するプレフィックス変換
キーに変換することを特徴とする請求項5に記載の英語の音節計算法に基づいた可読性評
価システム。 In the standardization processing module, a preset standardization method including suffix character conversion and prefix prefix is set.
In the conversion of the suffix characters, the input word is divided into general suffix characters and conversion required suffix characters. The conversion required suffix characters are 5 suffixes, 3 suffixes, 4 suffix characters, 5 suffix characters and 7 suffix characters. It contains two categories and does not convert general suffix characters.
= 2, 3, 4, 5, 7) convert the last n characters to the corresponding suffix conversion key,
In adding the prefix at the beginning, the input word is divided into a general prefix character and a conversion required prefix character, and the conversion required prefix character is prefix 2.
It includes four categories of characters, prefix 3 characters, prefix 4 characters, prefix 5 characters, the general prefix characters are not converted, and the prefix m
6. The readability evaluation based on the English syllable calculation method according to claim 5, wherein the first m characters in the characters (m = 2, 3, 4, 5) are converted into corresponding prefix conversion keys. system.
ット変換条件は、
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語
の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し
、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれ
か条件で処理を行うものであって、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が3
より大きい場合、入力語を語頭から語尾へスキャンし、入力語に特徴語列が存在する場合
、特徴語列を対応する拡張語列に置き換えて置換語を得て、置換語における母音列の数を
計算し、
1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの母音列(即ち
置換語における複数の母音列は、yを除いた子音アルファベットによって分離された複数
の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に関わらず、yを
除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1つの母音列であ
る)とし、置換語の最後の1文字が「e」である場合、当該置換語の最後の1文字を削除
し、置換語の最初の2文字が「mc」である場合、音節数を、母音列の数に1を加えたも
のとし、置換語の最初の2文字が「mc」でない場合、音節数を母音列の数に等しいもの
とすることを特徴とする請求項5に記載の英語の音節計算法に基づいた可読性評価システ
ム。 Preset conversion conditions are set in the scan conversion module, and the preset conversion conditions are:
If all of the input words are consonant alphabets that do not contain “y”, make the number of syllable outputs equal to the word length of the input word,
If the input word contains any vowel alphabet or the alphabet “y” and the word length is less than 3, output the number of syllables as 1,
If the input word contains any vowel alphabet or the letter “y” and the word length is equal to 3,
(1) When the first and third characters are both “y” of an arbitrary vowel alphabet or alphabet and the second is a consonant alphabet, the number of syllables is output as 2,
(2) If the first, second and third characters are any vowel alphabet or “y” of the alphabet, the number of syllables is output as 3,
(3) In cases other than the above (1) and (2), the process is performed under any condition that the syllable number is output as 1,
The input word contains any vowel alphabet or the letter “y” and the word length is 3
If it is larger, the input word is scanned from the beginning to the end, and if there is a feature word string in the input word, the feature word string is replaced with the corresponding extended word string to obtain a replacement word, and the number of vowel strings in the replacement word Calculate
One or a plurality of combined “a, e, i, o, u, or y” is converted into one vowel string (ie, a plurality of vowel strings in a replacement word are separated by a consonant alphabet excluding y). A character string, regardless of the quantity of “a, e, i, o, u or y” combined, it is only one vowel string as long as there is no consonant alphabet in the middle except y) When the last character of the replacement word is “e”, the last one character of the replacement word is deleted, and when the first two characters of the replacement word are “mc”, the number of syllables is expressed as a vowel string. 6. The English syllable according to claim 5, wherein if the first two characters of the replacement word are not "mc", the number of syllables is equal to the number of vowel strings. Readability evaluation system based on calculation method.
任意のアルファベットであり、2番目の文字と3番目の文字との組合せは、「ia」、「
io」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるものとして特徴
語列が定義され、4文字で構成されており、1番目の文字、2番目の文字及び4番目の文
字が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ同じで
あり、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡張語列が定義さ
れることを特徴とする請求項7に記載の英語の音節計算法に基づいた可読性評価システム
。 The first character is an arbitrary alphabet from alphabet a to alphabet z, and the combination of the second character and the third character is “ia”, “
A feature word string is defined as being one of io, iu, ae, eo, and ii, and is composed of four characters, the first character, the second character The character and the fourth character are the same as the first character, the second character, and the third character of the corresponding feature word string, respectively, and the third character is the same as the first character of the feature word string 8. The readability evaluation system based on the English syllable calculation method according to claim 7, wherein an extended word string is defined as a thing.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710188588.1A CN106897272B (en) | 2017-03-27 | 2017-03-27 | Application method and platform of English syllable calculation method in readability evaluation |
| CN201710188588.1 | 2017-03-27 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018163660A true JP2018163660A (en) | 2018-10-18 |
| JP6626917B2 JP6626917B2 (en) | 2019-12-25 |
Family
ID=59193828
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018057837A Expired - Fee Related JP6626917B2 (en) | 2017-03-27 | 2018-03-26 | Readability evaluation method and system based on English syllable calculation method |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP6626917B2 (en) |
| CN (1) | CN106897272B (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021021820A1 (en) * | 2019-07-31 | 2021-02-04 | Institute for Healthcare Advancement | Method for improving health literacy of patient materials |
| CN116194925A (en) * | 2020-09-17 | 2023-05-30 | 微软技术许可有限责任公司 | Automatic language detection from non-character subtoken signals |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI702537B (en) * | 2018-09-28 | 2020-08-21 | 智齡科技股份有限公司 | Smart text of nursing generating system based on lexical analysis and smart nursing information platform using the same |
| CN109522560B (en) * | 2018-11-27 | 2020-05-12 | 龙马智芯(珠海横琴)科技有限公司 | Method for memorizing words, computer-readable storage medium and computer device |
| CN112115701B (en) * | 2020-09-07 | 2021-07-09 | 北京语言大学 | News reading text readability evaluation method and system |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4773009A (en) * | 1986-06-06 | 1988-09-20 | Houghton Mifflin Company | Method and apparatus for text analysis |
| JPH09134358A (en) * | 1995-11-13 | 1997-05-20 | Oki Electric Ind Co Ltd | Machine translation system |
| US20100153425A1 (en) * | 2008-12-12 | 2010-06-17 | Yury Tulchinsky | Method for Counting Syllables in Readability Software |
| WO2012071630A1 (en) * | 2010-12-02 | 2012-06-07 | Accessible Publishing Systems Pty Ltd | Text conversion and representation system |
| JP2017054158A (en) * | 2015-09-07 | 2017-03-16 | 信也 赤木 | Sentence evaluation apparatus, sentence evaluation method, and program |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101814066A (en) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | Text reading difficulty judging device and method thereof |
| CN103530280A (en) * | 2012-07-03 | 2014-01-22 | 宋曜廷 | System and method for constructing Chinese text readability model by data dimension reduction method and nonlinear algorithm |
| CN105630940B (en) * | 2015-12-21 | 2019-03-22 | 天津大学 | A kind of information retrieval method based on readable index |
-
2017
- 2017-03-27 CN CN201710188588.1A patent/CN106897272B/en active Active
-
2018
- 2018-03-26 JP JP2018057837A patent/JP6626917B2/en not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4773009A (en) * | 1986-06-06 | 1988-09-20 | Houghton Mifflin Company | Method and apparatus for text analysis |
| JPH09134358A (en) * | 1995-11-13 | 1997-05-20 | Oki Electric Ind Co Ltd | Machine translation system |
| US20100153425A1 (en) * | 2008-12-12 | 2010-06-17 | Yury Tulchinsky | Method for Counting Syllables in Readability Software |
| WO2012071630A1 (en) * | 2010-12-02 | 2012-06-07 | Accessible Publishing Systems Pty Ltd | Text conversion and representation system |
| JP2017054158A (en) * | 2015-09-07 | 2017-03-16 | 信也 赤木 | Sentence evaluation apparatus, sentence evaluation method, and program |
Non-Patent Citations (1)
| Title |
|---|
| 大場 五夫: "常識を覆したTranText 後編", THE BASIC, vol. 第167号, JPN6019008082, 1 May 1997 (1997-05-01), JP, pages 126 - 131, ISSN: 0003993058 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021021820A1 (en) * | 2019-07-31 | 2021-02-04 | Institute for Healthcare Advancement | Method for improving health literacy of patient materials |
| US11380444B2 (en) | 2019-07-31 | 2022-07-05 | Institute for Healthcare Advancement | Method for improving health literacy of patient materials |
| CN116194925A (en) * | 2020-09-17 | 2023-05-30 | 微软技术许可有限责任公司 | Automatic language detection from non-character subtoken signals |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6626917B2 (en) | 2019-12-25 |
| CN106897272B (en) | 2020-07-07 |
| CN106897272A (en) | 2017-06-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108717406B (en) | Text emotion analysis method and device and storage medium | |
| US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
| JP6626917B2 (en) | Readability evaluation method and system based on English syllable calculation method | |
| Anthony | Visualisation in corpus-based discourse studies | |
| CN111488466B (en) | Chinese tagged error corpus generation method, computing device and storage medium | |
| JP6757840B2 (en) | Sentence extraction system, sentence extraction method, and program | |
| Ljubešić et al. | Predicting the level of text standardness in user-generated content | |
| KR102182248B1 (en) | System and method for checking grammar and computer program for the same | |
| Balluff et al. | Automatically finding actors in texts: A performance review of multilingual named entity recognition tools | |
| Islam et al. | Text readability classification of textbooks of a low-resource language | |
| US20200285324A1 (en) | Character inputting device, and non-transitory computer readable recording medium storing character inputting program | |
| CN111259159B (en) | Data mining method, device and computer readable storage medium | |
| Adedamola et al. | Development and evaluation of a system for normalizing Internet slangs in social media texts | |
| Olensky | Data accuracy in bibliometric data sources and its impact on citation matching | |
| Lines | The past, problems, and potential of readability analysis | |
| Asahiah | Development of a Standard Yorùbá digital text automatic diacritic restoration system | |
| CN113642337A (en) | Data processing method and device, translation method, electronic device and computer readable storage medium | |
| KR102072708B1 (en) | A method and computer program for inferring genre of a text contents | |
| Puspitasari et al. | Identify fake author in Indonesia crime cases: A forensic authorsip analysis using n-gram and stylometric features | |
| Isroilova | Analyzing language use through corpora in different contexts | |
| KR20230129305A (en) | A Method and System for Analyzing a Piece of Text Comprising Chinese Characters | |
| Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
| Puspitasari et al. | Authorship Analysis In Electronic Texts Using Similarity Comparison Method | |
| Rai et al. | Identification of landscape preferences by using social media analysis | |
| Alkhazi | Compression-Based Parts-of-Speech Tagger for the Arabic Language |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180502 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180502 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190115 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190611 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191126 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191202 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6626917 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |