JP2008084064A - テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム - Google Patents
テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム Download PDFInfo
- Publication number
- JP2008084064A JP2008084064A JP2006264088A JP2006264088A JP2008084064A JP 2008084064 A JP2008084064 A JP 2008084064A JP 2006264088 A JP2006264088 A JP 2006264088A JP 2006264088 A JP2006264088 A JP 2006264088A JP 2008084064 A JP2008084064 A JP 2008084064A
- Authority
- JP
- Japan
- Prior art keywords
- text
- classifier
- feature
- support vector
- classification processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 テキストがあるカテゴリーに属すか否かを判定するテキスト分類処理方法を提供する。
【解決手段】 テキスト分類処理方法は、テキストから一定長以下の文字列を抽出し、文字列の特徴量を計算し、特徴量を素性とした特徴ベクトルを生成する。テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、訓練データ集合のテキストを特徴ベクトルに変換し、ラベルとともに特徴ベクトルをサポートベクトルマシンに適用して、学習を行って、サポートベクトルマシンによるテキスト分類器を生成する。あるカテゴリーに属すか否かが未知のテキストが与えられると、未知テキストの特徴ベクトルを生成し、生成されたテキスト分類器を用いて、テキストがそのカテゴリーに属するか否かを判定する。
【選択図】 図1
【解決手段】 テキスト分類処理方法は、テキストから一定長以下の文字列を抽出し、文字列の特徴量を計算し、特徴量を素性とした特徴ベクトルを生成する。テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、訓練データ集合のテキストを特徴ベクトルに変換し、ラベルとともに特徴ベクトルをサポートベクトルマシンに適用して、学習を行って、サポートベクトルマシンによるテキスト分類器を生成する。あるカテゴリーに属すか否かが未知のテキストが与えられると、未知テキストの特徴ベクトルを生成し、生成されたテキスト分類器を用いて、テキストがそのカテゴリーに属するか否かを判定する。
【選択図】 図1
Description
本発明は、例えば、形態素解析が困難な文字列を含むテキストについて、当該テキストがあるカテゴリーに属すか否かを判定するテキスト分類処理を行うテキスト分類処理方法、および、そのような分類を実現する分類器をカテゴリーに属すか否かについてあらかじめラベル付けされたテキスト集合の訓練データ集合から構築するための方法に関するもののである。
テキスト分類については、これまでに多くの研究開発がなされてきた。例えば、不適切な電子メイル(ジャンクメイルあるいはスパムと呼ばれるユーザーにとって不要な電子メイル)を除去したり、カスタマーセンターにおいて、問い合わせメイルを自動的に担当者に振り分けたり、することを目的として開発され、ニュース記事をトピック毎に整理したり等、さまざまな応用を目指して、多くの研究開発がなされている。
テキスト分類を実現する一つの方法は、あらかじめ用意した分類器により分類する方法である。典型的には、あらかじめ定義したIF・THENルールに基づいてテキストを分類する方法である。例えば、「東証」、「終値」という単語と数字が出現すれば「株式市場」に関するテキストであるというようなルールを用いて、テキストを分類する方法である。しかし、残念ながら、このような方法によるテキスト分類は、テキストの数や語彙数が増大すると、整合性を保ちつつ、分類のためのルールを維持管理してくことが困難になるという問題がある。
従って、近年では、このような静的な分類器を用いる手法に代わって、データから必要に応じて、動的に分類器を学習させる手法が主流となっている。この種の分類器については、IF・THENルール、ニューラルネットワーク、決定木、確率モデル、分離超平面等、さまざまな表現形式が用いられるが、各表現形式毎にさまざまな学習アルゴリズムが提案されている。これらの分類器の学習法については、一般的に知られているところであり、それぞれの説明は当業者にとっては周知であるので、ここでの説明は省略する。
ここでは、本発明において利用するサポートベクトルマシン(非特許文献1)について概要を説明する。データがn次元空間上の点として表現されており、さらに、これらの点には、あるカテゴリーに属するか否かを表す2種類のラベル+1と−1の内一つが付与されているとする。このとき、サポートベクトルマシンは、これらのラベル付のデータをある基準の下で最適に分離するn次元空間の超平面を計算し、この超平面によりデータを分類する方法である。そして、データの分類では、ラベルが未知のデータが与えられると、このデータが超平面のどちら側にあるかを調べることにより、このデータのラベルを予測することができる。つまり、何らかの方法で、テキストをn次元空間上の点(特徴ベクトルと呼ばれる)として表現してしまえば、テキストがあるカテゴリーに属するか否かを判定する分類器を、サポートベクトルマシンを用いて、n次元空間の超平面を計算し、データから学習させて、適宜に分類器を生成することができる。
テキスト分類器の学習にサポートベクトルマシンを用いる利点の一つは、超平面の次元が仮に非常に高次元であったとしても、カーネルトリックと呼ばれる方法を用いると、この次元に依存しない計算量で、超平面を学習させることができるという点である。もう一つの利点は、特徴ベクトルの次元が非常に高次元であったとしても、分類器が訓練データに過剰に適合して一般性を失う危険性(オーバーフィッティングと呼ばれる)が、他の学習法と比較して小さいことが経験的に知られている点である。
例えば、非特許文献2においては、テキストを、出現する単語の特徴量を成分(素性)とする特徴ベクトルとして表現した場合、サポートベクトルマシンを用いることで、他の学習法を用いるよりも高精度の分類器を学習可能であることが示されている。しかも、1万個を超える単語を用いても、オーバーフィッティングを起こすことなく、むしろ学習性能が向上することが示されている。なお、サポートベクトルマシンのテキスト分類への適用に関するより詳細な情報及び理論的な解析については、非特許文献4を参照することができる。
特許文献1においては、日本語のテキストから形態素解析により単語を抽出して、品詞情報などに基づいて単語を分析して、単語を素性とする特徴ベクトルを生成した上で、サポートベクトルマシンを適用する技術を開示している。
特許文献2には、空白または句読点で区切られたトークンを基本的な素性として、特徴ベクトルを計算した上で、サポートベクトルマシンを用いて超平面を学習させ、得られた超平面の重みベクトルを含むある種の単調関数を分類器として用いるテキスト分類技術を開示している。
これらの文献に見られるように、テキスト分類においては、単語を素性する特徴ベクトルが用いられることが多いが、単語の並びが重要な場合には、特許文献3に見られるように、単語のN個の連接(Nグラムと呼ばれる)を素性とする場合もある。また、特許文献5、特許文献6あるいは特許文献18等に見られるように、素性として用いるべき単語、フレーズ、あるいは係り受けの構造などを、あらかじめ素性辞書に用意しておき、この辞書を用いて素性を抽出し、特徴ベクトルを生成する方法も一般的に用いられている。
また、日本語のテキストの場合、英語のテキストとは異なり、単語が分かち書きされていないので、通常、形態素解析により単語を抽出するが、この際、やはり素性(形態素)辞書を用いることになる。素性辞書を用いることの問題点は、辞書に登録されていない素性を抽出できないことであるが、前後の関係などから、未登録語を未知語として検出できる場合も多いので、標準的な日本語のテキスト分類において、素性辞書の使用が問題になることは少なく、実際、以下に引用した日本語テキスト分類に関する特許文献においては、いずれも何らかの素性辞書を用いている。
一方で、素性辞書を用いずに、テキスト中の任意の文字列を分析の対象とする方法も知られている。例えば、特許文献4では、テキスト中に現れる長さNの文字列(文字のNグラムと呼ぶ)を抽出し重要度を計算することで、この文字列が一般表現であるか専門表現であるかを判定する技術を開示している。このような、文字Nグラムの使用は、素性辞書に制約されないという長所を持つ一方、言語的に意味のない文字列が抽出されてしまうという問題があり、このような文字列をいかに排除するかが特許文献4で開示された技術の要点の一つである。しかし、テキストのカテゴリー分類に適用する場合は、ある文字列が言語的に意味があるかどうかは問題ではなく、分類に寄与するかどうかが問題となるわけであり、任意の文字Nグラムを素性とする特徴ベクトルを用いて、テキスト分類器の学習を行い、学習の過程で分類に寄与しない文字列を自動的に排除するような手法が有効であるかどうかは、興味深い未知の問題である。
このような問題に関する数少ない研究としては、非特許文献3が挙げられる。ここでは、単語が分かち書きされた英語のテキストに対して、連続する3文字を一つの素性とする特徴ベクトルを用いた場合のテキスト分類性能を、言語知識を用いて生成した特徴ベクトルのテキスト分類性能と比較している。非特許文献3によれば、文字Nグラムを用いる場合、1000個より多い素性を用いるだけで性能が劣化し始めるということ、また、品詞に基づく素性の選別や語の活用部分を除去するステミングといった言語知識を利用することでより良い性能が得られることを報告している。しかし、素性の数が多くてもオーバーフィッティングを起こし難いサポートベクトルマシンを用いた場合、あるいは、単語が分かち書きされておらず、しかも上述したような言語的な知識が有効に機能しないような日本語テキストを対象とする場合、文字Nグラムを素性とする手法が有効であるかどうかは、興味深い未知の問題であって、本発明が解決する課題である。
この種のテキスト分類に関係する従来における技術の文献としては、次のような各文献が参照できる。
特開2001−22727号公報
特表2002−519766号公報
特開2004−348239号公報
特開平11−272702号公報
特開2005−234731号公報
特開2005−190284号公報
特開2004−240517号公報
特開2004−234051号公報
特開2003−271616号公報
特開2002−7433号公報
特開2002−304401号公報
特開2001−312501号公報
特開2000−172691号公報
特開平11−328211号公報
特開平11−296552号公報
特開平11−167581号公報
特開平11−161671号公報
特開平9−26963号公報
特開2003−256801号公報
V.Vapnik: The Nature of Statistical Learning Theory, Springer−Verlag, 1995.
T.Joachims: Text Categorization with Support Vector Machines: Learning with Many Relevant Features, Proc. of European Conference on Machine Learning, pp.137−142, 1998.
G.Neumann and S.Schmeier: Combining shallow text processing and machine learning in real world applications, Proc. of Machine Learning for Information Filtering, 1999.
T.Joachims: Learning to classify text using support vector machines: methods,theory,and algorithms,Kluwer Academic Publishers,2002.
N.Cristianini and J.Shawe−Taylor: An Introduction to Support Vector Machines, Cambridge University Press, 2002.
I.Guyon et al.: Gene selection for cancer classification using support vector machines, Machine Learning, pp.389−422, Vol.46, 2002.
ところで、例えば、形態素解析が困難な文字列を含むようなテキストについては、すなわち、テキストの特性が異なる場合については、そのテキスト分類を行う際には、従来の技術のテキスト分類の手法がそのままでは適用できない。特に、インターネット上の日本語の掲示板サイトにおいて、不適切な書き込みテキストを同定して、除去する場合に適用するには、従来のテキスト分類手法では十分な分類精度が得られない。掲示板サイトにおける書き込みテキストは、ニュース記事や電子メイルに見られるテキストとは異なる以下のような特徴を有している。
(a)人名、製品名などの固有名詞、ジャーゴン、伏字、絵文字等の一般的な辞書には登録されていな語が多数出現する。
(b)書き込みは、文法的に正しくない場合が多い。
(c)一件の書き込みは短い。一方で、書き込み件数は非常に多い。
(a)人名、製品名などの固有名詞、ジャーゴン、伏字、絵文字等の一般的な辞書には登録されていな語が多数出現する。
(b)書き込みは、文法的に正しくない場合が多い。
(c)一件の書き込みは短い。一方で、書き込み件数は非常に多い。
単語が分かち書きされる英語とは異なり、日本語のテキストから単語を抽出するためには、通常、形態素解析等の言語処理が行われる。このような言語処理には、辞書や文法のような言語的な知識が、陽にあるいは暗黙のうちに用いられる。掲示板サイトの書き込みテキストの場合には、例えば、上述した特性(a)、特性(b)の影響で、言語知識の有効性が低下し、間違った形態素への分割や、未登録語を未知語と認識できない場合が頻繁に起こってしまい、形態素解析の性能が著しく劣化してしまう。したがって、間違った形態素から生成された特徴ベクトルを用いたテキスト分類の性能も、同様に劣化してしまうという問題がある。
また、掲示板サイトの書き込みが不適切か否かを判定するテキスト分類器の学習に、サポートベクトルマシンを用いる場合、学習に要する計算コストの問題が生じる。一般的には、サポートベクトルマシンによる分類器を学習させるために要する計算時間は、他の学習法に比べて長くなる傾向があり、経験的には、訓練データの数の2乗から3乗に比例する時間を要する。したがって、掲示板サイトの書き込み件数が増加すると、学習に要する時間が急速に増加してしまうという問題が生じる。また、学習の効率化のために、カーネルマトリックスと呼ばれる訓練データの特徴ベクトル間の内積を格納した行列を用いる場合が多いが、この場合には、行列を格納するためには、訓練データ数の2乗に比例するメモリ領域が必要になり、掲示板サイトの書き込み件数の増加にともなって、急速にメモリ消費量が増加してしまうという問題も生じる。
本発明は、上記のような様々な問題を解決するためになされたものであり、本発明の目的は、素性辞書などの言語知識を用いることなく、テキストのみを用いて、特徴ベクトルを生成し、カテゴリーが付与された大量の特徴ベクトルを訓練データとして与える場合においても、計算時間・領域に関して効率良く、テキスト分類器の学習を行うことができ、カテゴリーが未知のテキストが与えられると、これに対応する特徴ベクトル生成し、学習されたテキスト分類器を用いて、テキストのカテゴリーを判定することができるテキスト分類処理法、テキスト分類処理装置ならびにテキスト分類処理プログラムを提供することにある。
上記のような目的を達成するため、本発明は、第1の態様として、本発明によるテキスト分類処理方法は、例えば、形態素解析が困難な文字列を含むテキストを格納したデータ格納装置と、前記テキストがあるカテゴリーに属すか否かを判定するテキスト分類処理を行うデータ処理装置を備え、前記テキストを分類するテキスト分類処理方法であって、前記テキストから一定長以下の任意の文字列を抽出し、当該文字列の特徴量を計算し、前記特徴量を素性とした特徴ベクトルを生成する特徴ベクトル生成過程と、前記テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、前記訓練データ集合のテキストを前記特徴ベクトル生成過程により特徴ベクトルに変換し、ラベルとともに前記特徴ベクトルをサポートベクトルマシンに適用して、当該サポートベクトルマシンに学習を行って、サポートベクトルマシンによるテキスト分類器を生成する分類器生成過程と、あるカテゴリーに属すか否かが未知のテキストが与えられる場合に、前記特徴ベクトル生成過程により当該テキストの特徴ベクトルを生成し、前記分類器生成過程により生成されたテキスト分類器を用いて、当該テキストがそのカテゴリーに属するか否かを判定するカテゴリー判定過程との処理をデータ処理装置により実行するように構成される。
この場合に、前記分類器生成過程は、訓練データ集合を複数の部分集合に分割し、各部分集合に対して順番に、サポートベクトルマシンを適用し、一時的な分類器を学習させた後、その分類器からサポートベクトルを抽出し、抽出されたサポートベクトルと次の部分集合を混合し、再びサポートベクトルマシンの入力とするという処理を繰り返すように構成される。
本発明は、第2の態様として、本発明によるテキスト分類処理装置が、例えば、形態素解析が困難な文字列を含むテキストを格納したデータ格納装置と、前記テキストがあるカテゴリーに属すか否かを判定するテキスト分類処理を行うデータ処理装置を備え、前記テキストを分類するテキスト分類処理装置であって、前記テキストから一定長以下の任意の文字列を抽出し、当該文字列の特徴量を計算し、前記特徴量を素性とした特徴ベクトルを生成する特徴ベクトル生成手段と、前記テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、前記訓練データ集合のテキストを前記特徴ベクトル生成手段により特徴ベクトルに変換し、ラベルとともに前記特徴ベクトルをサポートベクトルマシンに適用して、当該サポートベクトルマシンに学習を行って、サポートベクトルマシンによるテキスト分類器を生成する分類器生成手段と、あるカテゴリーに属すか否かが未知のテキストが与えられる場合に、前記特徴ベクトル生成手段により当該テキストの特徴ベクトルを生成し、前記分類器生成手段により生成されたテキスト分類器を用いて、当該テキストがそのカテゴリーに属するか否かを判定するカテゴリー判定手段とを備えるように構成される。
この場合に、前記分類器生成手段は、訓練データ集合を複数の部分集合に分割し、各部分集合に対して順番に、サポートベクトルマシンを適用し、一時的な分類器を学習させた後、その分類器からサポートベクトルを抽出し、抽出されたサポートベクトルと次の部分集合を混合し、再びサポートベクトルマシンの入力とするという処理を繰り返すように構成される。
また、本発明は、第3の態様として、本発明によるテキスト分類処理プログラムは、例えば、形態素解析が困難な文字列を含むテキストがあるカテゴリーに属すか否かを判定するテキスト分類処理をコンピュータにより実行するテキスト分類処理プログラムであって、前記テキストから一定長以下の任意の文字列を抽出し、当該文字列の特徴量を計算し、前記特徴量を素性とした特徴ベクトルを生成する特徴ベクトル生成手段と、前記テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、前記訓練データ集合のテキストを前記特徴ベクトル生成手段により特徴ベクトルに変換し、ラベルとともに前記特徴ベクトルをサポートベクトルマシンに適用して、当該サポートベクトルマシンに学習を行って、サポートベクトルマシンによるテキスト分類器を生成する分類器生成手段と、あるカテゴリーに属すか否かが未知のテキストが与えられる場合に、前記特徴ベクトル生成手段により当該テキストの特徴ベクトルを生成し、前記分類器生成手段により生成されたテキスト分類器を用いて、当該テキストがそのカテゴリーに属するか否かを判定するカテゴリー判定手段と、としてコンピュータを機能させるものある。
この場合に、前記分類器生成手段は、訓練データ集合を複数の部分集合に分割し、各部分集合に対して順番に、サポートベクトルマシンを適用し、一時的な分類器を学習させた後、その分類器からサポートベクトルを抽出し、抽出されたサポートベクトルと次の部分集合を混合し、再びサポートベクトルマシンの入力とするという処理を繰り返すように構成される。
このように構成された本発明のテキスト分類処理方法、テキスト分類処理装置およびテキスト分類処理プログラムによれば、言語知識の有効性の乏しいテキストに対して、素性辞書などの言語知識を用いることなく、一定長以下の任意の文字列を素性とする特徴ベクトルを生成し、カテゴリーに入るか否かのラベルが付与された特徴ベクトル集合から、テキスト分類器をサポートベクトルマシンに学習させることが可能になる。これが少ない計算資源で行うことができ、しかも、カテゴリーが未知のテキストが与えられるとき、学習された分類器を用いて、このテキストのカテゴリーを高精度に判定(予測)することが可能になる。
以下、本発明を実施する場合の一形態について図面を参照して説明する。図1は、本発明に係るテキスト分類処理方法の処理フローの一例を示すフローチャートである。本発明のテキスト分類処理においては、基本的な処理として、図1に示すように、テキストに現れる長さが一定長以下の任意の文字列を抽出し特徴量を計算して、これら特徴量を素性とする特徴ベクトルを生成する特徴ベクトル生成過程(P1)と、カテゴリーが付与された特徴ベクトル集合を入力として、サポートベクトルマシンを用いて分類器を生成する分類器生成過程(P2)と、未分類テキストを、前記特徴ベクトル生成過程(P1)により特徴ベクトルに変換した後、前記分類器生成過程(P2)により学習された分類器を用いてカテゴリーを判定するカテゴリー判定過程(P3)の各処理を行う。
すなわち、本発明によるテキスト分類処理では、例えば、形態素解析が困難な文字列を含むテキストを格納したデータ格納装置と、前記テキストがあるカテゴリーに属すか否かを判定するテキスト分類処理を行うデータ処理装置を備えており、このデータ処理装置により、テキストを分類するテキスト分類処理を行う。この場合に、テキストから一定長以下の任意の文字列を抽出し、当該文字列の特徴量を計算し、前記特徴量を素性とした特徴ベクトルを生成する特徴ベクトル生成過程(P1)と、テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、訓練データ集合のテキストを前記特徴ベクトル生成過程により特徴ベクトルに変換し、ラベルとともに前記特徴ベクトルをサポートベクトルマシンに適用して、当該サポートベクトルマシンに学習を行って、サポートベクトルマシンによるテキスト分類器を生成する分類器生成過程(P2)と、あるカテゴリーに属すか否かが未知のテキストが与えられる場合に、前記特徴ベクトル生成過程(P1)により当該テキストの特徴ベクトルを生成し、前記分類器生成過程により生成されたテキスト分類器を用いて、当該テキストがそのカテゴリーに属するか否かを判定するカテゴリー判定過程(P3)との処理を実行する。
更に詳細に説明する。テキスト分類処理を実行する場合に、まず、与えられた分類済みテキストは、計算機の主記憶上に読み込まれ(ステップ101)、特徴生成ベクトル過程(P1)により、テキスト中に現れる長さ一定長以下の文字列を素性とする特徴ベクトルが計算される(ステップ102)。
図2は、特徴ベクトル生成過程(P1)の詳細な処理フローを示す図である。特徴ベクトル生成過程(P1)では、まず、テキストが分類済みであるか否かを判定し(ステップ121)、テキストが分類済みである場合には、テキストから、長さN以下の任意の文字列sが抽出され、この文字列sの各テキストtiにおける出現頻度TF(s,ti)と、この文字列が出現するテキストの数DF(s)を計算する(ステップ122)。このテキスト中に現れる長さN以下の任意の文字列の出現頻度は、トライとよばれるデータ構造を用いて効率よく計算できる。このトライとよばれるデータ構造を用いる計算は、当業者には周知であり、ここでの説明は省略する。
次に、全ての素性の中から、数千から数万個の素性を選択し(ステップ123)、任意のtに対して、特徴量f(si,t)を成分とするベクトルを生成し(ステップ124)、これを特徴ベクトルとする。ここでは、素性の選択(ステップ123)を行うが、これはあまりに素性の数が多すぎる場合、オーバーフィッティングの危険性が増大したり、分類器学習時の計算コストが許容できなくなる恐れがあるからである。素性の選択には、相互情報量、カイ二乗検定などの公知の技術を用いる。
このようにして、選択された素性s1,…,sdを用いて、各テキストtiが、d次元の特徴ベクトル(f(s1,ti),…,f(sd,ti))に変換される。f(sj,ti)は、素性sjの特徴量であり、例えば、単純にTF(sj,ti)を用いたり、TF(sj,ti)にlog(D/DF(sj))(ただし、Dはテキストの総数)を乗じたTFIDF値などの標準的指標を用いる。また、これらの値は、ある特定の閾値を超えるか否かで2値化することもできる。その場合、特徴ベクトルは2値ベクトルとなり、計算資源を節約した実装が可能になる。
なお、特徴ベクトルの成分は、多くの場合ゼロであるので、スパースベクトル技法を用いて、大きな一つの配列ではなくて、二つの小さな配列を用いるようにした実装も可能である。すなわち、一つ目の配列には、ゼロでない値を持つ成分のインデックスを保持し、二つめの配列にはゼロでない成分の実際の値を保持する。特に、特徴ベクトルが2値ベクトルの場合は、二つ目の配列は不要となる。
分類済みのテキスト集合は、上述したような処理を経て、分類ラベルが付与された特徴ベクトルの集合に変換され、その後、これを訓練データとして、分類器生成過程(P2)において分類器が学習される(ステップ103)。
図3は、分類器生成過程(P2)の詳細な処理フローを説明する図である。分類器生成過程(P2)の処理では、まず、分類ラベルが付与された特徴ベクトル集合は、k個の部分集合D1,…,Dkに分割される(ステップ131)。この分割の処理は、訓練データが多すぎるために、サポートベクトルマシンの訓練に要する時間やメモリが許容できなくなることを防ぐためである。分割のサイズは、許容できる計算資源の範囲で、できるだけ大きなサイズに分割することが望ましい。したがって、もし、全ての訓練データを用いた学習が許容できるのであれば、k=1とすることが望ましい。また、分割された訓練データは、カテゴリーに属するデータと属さないデータの割合が、どれもほぼ等しくなるように分割することが望ましい。
次に、サポートベクトルの集合Sを空集合に初期化した(ステップ132)後で、各1≦i≦kに対して、以下の処理を繰り返す(ステップ133〜137)。すなわち、訓練データTをDi∪Sとし(ステップ134)、Tを用いてサポートベクトルマシンを訓練して分類器を計算し(ステップ135)、訓練した分類器からサポートベクトルを抽出して、これを新たなSとする。これをサポートベクトルの集合として(ステップ136)、この処理を繰り返す。
サポートベクトルマシンの訓練法については、本発明の本質的な部分でないので、説明を省略するが、詳細については、非特許文献1あるいは非特許文献4等に記述されているので参照できる。ここでは、本発明の理解に必要な部分だけを以下に述べるに留める。
M個の訓練データ集合
{(yi,xi)|yi=+1あるいは−1,xiは特徴ベクトル,1≦i≦M}
が与えられるとき、サポートベクトルマシンは、ある凸二次計画問題を解き、その解を
α1 *,…,αM *とするとき、以下のような超平面
を分類境界として出力する。ただし、b*は、αi *>0であるiに対して、
yid(xi)=1であるように決定する。
{(yi,xi)|yi=+1あるいは−1,xiは特徴ベクトル,1≦i≦M}
が与えられるとき、サポートベクトルマシンは、ある凸二次計画問題を解き、その解を
α1 *,…,αM *とするとき、以下のような超平面
yid(xi)=1であるように決定する。
ここで、αi *≠0である訓練データxiはサポートベクトルと呼ばれ、分類境界に最も近いところに位置する、超平面を定義するにあたって本質的なデータである。多くの場合、サポートベクトルは、訓練データに比べてかなり少ない数となり、図3に示す分類器生成過程(P2)の処理(ステップ134〜ステップ137)では、訓練データの部分集合を全て受け渡す代わりに、それと同じ情報量を持ちながらより数の少ないサポートベクトルを受け渡すことで、全ての訓練データを用いて得られる超平面を近似している。
また、ここでのK(x,xi)は、カーネル関数と呼ばれ、データ間の類似性を表す関数であり、公知の多項式カーネル、ガウシアンカーネルなどを用いることができるほか、特徴ベクトルが2値ベクトルである場合は、特許文献19で開示されたブーリアンカーネルを用いることもできる。
このような、サポートベクトルの抽出と学習データとの混合という方法は、また、インクリメンタルな分類器の学習とすることも可能である。つまり、図3のSの初期化(ステップ132)において、Sを空集合にするのではなく、既に学習されている分類器から抽出したサポートベクトル集合としてSを初期化すれば、既存の分類器に対するインクリメンタルな学習が実現できる。
さらに、非特許文献6あるいは特許文献19で示された素性選択法を用いて、最終的に得られた超平面を分析し、分類に寄与しない素性を除去した上で、より分類精度の高い超平面を再学習することも可能である。
このように、未分類テキストが存在する場合に(ステップ104)、未分類テキストを読み込み(ステップ105)、特徴ベクトル生成過程(P1)の処理を行い(ステップ106)、学習された超平面を用いて、カテゴリー判定過程(P3)の処理(ステップ107)を行って、未分類のテキストのカテゴリーを判定する。より詳細に説明すると、特徴ベクトル生成過程(P1)により、未分類テキストを特徴ベクトルxに変換し、d(x)を計算し、この値が閾値Dmax以上であれば、+1のカテゴリーに、閾値Dmin以下であれば−1のカテゴリーに分類し、Dminより大きくDmaxよりも小さい場合は、カテゴリーが不定であると判定する処理を行う。
図4は、本発明によるテキスト分類処理装置のハードウェア構成の一例を示すブロック図である。図4に示すように、ここでのテキスト分類処理装置10は、ハードウェア構成として、システム制御プログラムが組み込まれたROMを内蔵しデータ処理を行うCPU(Central Processing Unit)10aによって装置全体のシステム制御がなされる。CPU10aには、バス10gを介してRAM(Random Access Memory)10b、ハードディスクドライブ(HDD:Hard Disk Drive)10c、グラフィック処理装置10d、入力インタフェース10e、及び通信インタフェース10fが接続されている。
RAM10bには、CPU10aに実行させるOS(Operating System)のプログラムや、本発明によるテキスト分類処理プログラムの少なくとも一部が一時的に格納される。また、RAM10bには、CPU10aによる処理に必要な各種データが保存される。HDD10cには、上記のOSやアプリケーションプログラム、各種データなどが格納される。
グラフィック処理装置10dには、モニタ10hが接続されている。グラフィック処理装置10dは、CPU10aからの命令に従って、入出力処理を行うための画像をモニタ10hの表示画面に表示させる。入力インタフェース10eには、キーボード10iと、マウス10jとが接続されている。入力インタフェース10eは、キーボード10iやマウス10jから送られてくる信号を、バス10gを介してCPU10aに送信する。
通信インタフェース10fは、ネットワーク30に接続されて、本発明によるテキスト分類処理装置が、ネットワークシステムの中のサーバとして用いられる構成とされてもよい。もちろん、装置単体として動作するように構成されてもよい。図5に示すように、ネットワークに接続された分類サーバ20として動作する場合は、ユーザーが利用するクライアント21は、ネットワーク30を介して、分類サーバ20にアクセスし、分類済みテキスト集合を送信して、分類器の構築を要求したり、未分類テキスト集合を送信して、テキストの分類を要求し、分類カテゴリーを受信するようにして、システムを利用することができる。また、この際に、用いられるテキスト集合は、ファイルサーバ22に格納しておき、クライアント21は、分類サーバ20に対してファイルサーバ22上のファイル名を指定し、分類サーバ20は、必要に応じて、指定されたファイルをネットワークを介して読み込むことも可能である。
次に、テキスト分類処理装置10が備える処理モジュールの各機能について説明する。図6は、テキスト分類処理装置の機能ブロック図であり、テキスト分類処理装置10は、処理モジュールとして、特徴ベクトル生成手段(B1)と分類器生成手段(B2)とカテゴリー判定手段(B3)を有している。
特徴ベクトル生成手段(B1)は、分類済みのテキスト集合が与えられる場合には、テキスト中に現れる一定長以下の任意の文字列を抽出した後、素性とする文字列を数千〜数万個に絞り込む。そして、各テキスト、各素性毎に特徴量を計算し、この特徴量を成分とする特徴ベクトルを生成する。また、特徴ベクトル生成手段(B1)は、未分類テキスト集合が与えられるとき、既に選択された素性に対して特徴量を計算して、これを成分とする特徴ベクトルを生成する。
分類器生成手段(B2)は、分類ラベルが付与された特徴ベクトル集合から、サポートベクトルマシンを用いて分類器(B4)を構築し、RAM10bあるいはHDD10cに格納する。この際、既に述べたように、特徴ベクトル集合が大きすぎる場合には、複数の部分集合に分割し、各部分集合に対して順番に、サポートベクトルマシンを適用し、一時的な分類器を学習させた後、その分類器からサポートベクトルを抽出し、抽出されたサポートベクトルと次の部分集合を混合し、再びサポートベクトルマシンの入力とするという処理を繰り返すことができる。
カテゴリー判定手段(B3)は、未分類のテキストが与えられるとき、前期特徴ベクトル生成手段(B1)により、このテキストの特徴ベクトルを生成し、前記分類器生成手段(B2)により生成された分類器を用いて、このテキストがカテゴリーに属するか否かを判定する。
図7は、本発明によるテキスト分類処理を図5で示すような分類サーバ20上で実行する場合のプログラムのフローチャートである。この処理では、図7に示すように、クライアント21から学習リクエストがあると、分類済みテキストを読み込み(S1)、特徴ベクトル生成ステップ(S2)によってテキストから特徴ベクトルを生成し、分類器生成ステップ(S3)によって分類器を生成する。そして、生成された分類器をRAM10bあるいはHDD10cに格納した後、クライアント21に処理終了通知(S5)を行って、再びリクエストを待って待機する。また、分類リクエストがある場合は、未分類テキストを読み込み(S6)、特徴ベクトル生成ステップ(S3)によって特徴ベクトルを生成し、RAM10bあるいはHDD10c上に格納された分類器を読み込んだ後、カテゴリー判定ステップ(S8)によって未分類テキストのカテゴリーを判別(予測)し、クライアント21に送信して(S9)、再び待機する。
このプログラムがインストールされた分類サーバ20は、各ステップの処理を実行することにより、特徴ベクトル生成手段、分類器生成手段、カテゴリー判定手段として機能するテキスト分類処理装置を構成する。
以上に説明したように、本発明によるテキスト分類処理装置によれば、例えば、インターネット掲示板の書き込みテキストのような、大量で、しかも一般的な言語知識の適用が困難なテキストに対して、不適切な書き込みを高効率・高精度に同定・除去可能なテキストフィルタリング装置として利用される。
Claims (6)
- 形態素解析が困難な文字列を含むテキストを格納したデータ格納装置と、前記テキストがあるカテゴリーに属すか否かを判定するテキスト分類処理を行うデータ処理装置を備え、前記テキストを分類するテキスト分類処理方法であって、
前記テキストから一定長以下の任意の文字列を抽出し、当該文字列の特徴量を計算し、前記特徴量を素性とした特徴ベクトルを生成する特徴ベクトル生成過程と、
前記テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、前記訓練データ集合のテキストを前記特徴ベクトル生成過程により特徴ベクトルに変換し、ラベルとともに前記特徴ベクトルをサポートベクトルマシンに適用して、当該サポートベクトルマシンに学習を行って、サポートベクトルマシンによるテキスト分類器を生成する分類器生成過程と、
あるカテゴリーに属すか否かが未知のテキストが与えられる場合に、前記特徴ベクトル生成過程により当該テキストの特徴ベクトルを生成し、前記分類器生成過程により生成されたテキスト分類器を用いて、当該テキストがそのカテゴリーに属するか否かを判定するカテゴリー判定過程と
の処理をデータ処理装置により実行することを特徴とするテキスト分類処理方法。 - 請求項1に記載のテキスト分類処理方法において、
前記分類器生成過程は、
訓練データ集合を複数の部分集合に分割し、各部分集合に対して順番に、サポートベクトルマシンを適用し、一時的な分類器を学習させた後、その分類器からサポートベクトルを抽出し、抽出されたサポートベクトルと次の部分集合を混合し、再びサポートベクトルマシンの入力とするという処理を繰り返す
ことを特徴とするテキスト分類処理方法。 - 形態素解析が困難な文字列を含むテキストを格納したデータ格納装置と、前記テキストがあるカテゴリーに属すか否かを判定するテキスト分類処理を行うデータ処理装置を備え、前記テキストを分類するテキスト分類処理装置であって、
前記テキストから一定長以下の任意の文字列を抽出し、当該文字列の特徴量を計算し、前記特徴量を素性とした特徴ベクトルを生成する特徴ベクトル生成手段と、
前記テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、前記訓練データ集合のテキストを前記特徴ベクトル生成手段により特徴ベクトルに変換し、ラベルとともに前記特徴ベクトルをサポートベクトルマシンに適用して、当該サポートベクトルマシンに学習を行って、サポートベクトルマシンによるテキスト分類器を生成する分類器生成手段と、
あるカテゴリーに属すか否かが未知のテキストが与えられる場合に、前記特徴ベクトル生成手段により当該テキストの特徴ベクトルを生成し、前記分類器生成手段により生成されたテキスト分類器を用いて、当該テキストがそのカテゴリーに属するか否かを判定するカテゴリー判定手段と、
を備えることを特徴とするテキスト分類処理装置。 - 請求項1に記載のテキスト分類処理装置において、
前記分類器生成手段は、
訓練データ集合を複数の部分集合に分割し、各部分集合に対して順番に、サポートベクトルマシンを適用し、一時的な分類器を学習させた後、その分類器からサポートベクトルを抽出し、抽出されたサポートベクトルと次の部分集合を混合し、再びサポートベクトルマシンの入力とするという処理を繰り返す
ことを特徴とするテキスト分類処理装置。 - 形態素解析が困難な文字列を含むテキストがあるカテゴリーに属すか否かを判定するテキスト分類処理をコンピュータにより実行するテキスト分類処理プログラムであって、
前記テキストから一定長以下の任意の文字列を抽出し、当該文字列の特徴量を計算し、前記特徴量を素性とした特徴ベクトルを生成する特徴ベクトル生成手段と、
前記テキストがあるカテゴリーに属するか否かに関するラベルがあらかじめ付与された訓練データ集合が与えられた場合に、前記訓練データ集合のテキストを前記特徴ベクトル生成手段により特徴ベクトルに変換し、ラベルとともに前記特徴ベクトルをサポートベクトルマシンに適用して、当該サポートベクトルマシンに学習を行って、サポートベクトルマシンによるテキスト分類器を生成する分類器生成手段と、
あるカテゴリーに属すか否かが未知のテキストが与えられる場合に、前記特徴ベクトル生成手段により当該テキストの特徴ベクトルを生成し、前記分類器生成手段により生成されたテキスト分類器を用いて、当該テキストがそのカテゴリーに属するか否かを判定するカテゴリー判定手段と、
としてコンピュータを機能させるテキスト分類処理プログラム。 - 請求項1に記載のテキスト分類処理プログラムにおいて、
前記分類器生成手段は、
訓練データ集合を複数の部分集合に分割し、各部分集合に対して順番に、サポートベクトルマシンを適用し、一時的な分類器を学習させた後、その分類器からサポートベクトルを抽出し、抽出されたサポートベクトルと次の部分集合を混合し、再びサポートベクトルマシンの入力とするという処理を繰り返す
ことを特徴とするテキスト分類処理プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006264088A JP2008084064A (ja) | 2006-09-28 | 2006-09-28 | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006264088A JP2008084064A (ja) | 2006-09-28 | 2006-09-28 | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008084064A true JP2008084064A (ja) | 2008-04-10 |
Family
ID=39354872
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006264088A Pending JP2008084064A (ja) | 2006-09-28 | 2006-09-28 | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008084064A (ja) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010041420A1 (ja) * | 2008-10-10 | 2010-04-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体 |
| JP2012022499A (ja) * | 2010-07-14 | 2012-02-02 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
| JP2013525868A (ja) * | 2009-12-24 | 2013-06-20 | ズオン−バン ミン | 文書中に表現されているセンチメントを求めるためのシステム及び方法 |
| JP2013225207A (ja) * | 2012-04-20 | 2013-10-31 | Docomo Technology Inc | 特許調査支援装置、特許調査支援方法、およびプログラム |
| JP2014056331A (ja) * | 2012-09-11 | 2014-03-27 | Hitachi Advanced Systems Corp | 文書分類方法、文書分類プログラム及び文書分類装置 |
| KR101630436B1 (ko) * | 2015-04-01 | 2016-06-15 | 한국과학기술원 | 언어의 비종속적 자질 추출 방법 |
| JP2019520614A (ja) * | 2017-05-05 | 2019-07-18 | 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co.,Ltd. | Sns情報に基づくリスクイベント認識システム、方法、電子装置及び記憶媒体 |
| JP2019197336A (ja) * | 2018-05-08 | 2019-11-14 | 株式会社日本経済新聞社 | 学習データ生成装置、方法、およびプログラム |
| CN110750643A (zh) * | 2019-09-29 | 2020-02-04 | 上证所信息网络有限公司 | 上市公司非定期公告的分类方法、装置及存储介质 |
| CN110866169A (zh) * | 2019-09-30 | 2020-03-06 | 北京瑞航核心科技有限公司 | 一种基于学习的物联网实体消息解析方法 |
| JP2020107085A (ja) * | 2018-12-27 | 2020-07-09 | 楽天株式会社 | 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム |
| JP2020532012A (ja) * | 2017-08-29 | 2020-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 |
| CN112470172A (zh) * | 2018-05-04 | 2021-03-09 | 国际商业机器公司 | 使用随机序列嵌入的符号序列分析的计算效率 |
| CN114579752A (zh) * | 2022-05-09 | 2022-06-03 | 中国人民解放军国防科技大学 | 基于特征重要度的长文本分类方法、装置和计算机设备 |
| JPWO2023119360A1 (ja) * | 2021-12-20 | 2023-06-29 | ||
| JP2024039774A (ja) * | 2022-09-12 | 2024-03-25 | 楽天グループ株式会社 | ライブ配信システム、推定方法、及びプログラム |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004348239A (ja) * | 2003-05-20 | 2004-12-09 | Fujitsu Ltd | テキスト分類プログラム |
-
2006
- 2006-09-28 JP JP2006264088A patent/JP2008084064A/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004348239A (ja) * | 2003-05-20 | 2004-12-09 | Fujitsu Ltd | テキスト分類プログラム |
Cited By (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010041420A1 (ja) * | 2008-10-10 | 2010-04-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体 |
| US8510249B2 (en) | 2008-10-10 | 2013-08-13 | Nec Corporation | Determining whether text information corresponds to target information |
| JP2013525868A (ja) * | 2009-12-24 | 2013-06-20 | ズオン−バン ミン | 文書中に表現されているセンチメントを求めるためのシステム及び方法 |
| JP2012022499A (ja) * | 2010-07-14 | 2012-02-02 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
| JP2013225207A (ja) * | 2012-04-20 | 2013-10-31 | Docomo Technology Inc | 特許調査支援装置、特許調査支援方法、およびプログラム |
| JP2014056331A (ja) * | 2012-09-11 | 2014-03-27 | Hitachi Advanced Systems Corp | 文書分類方法、文書分類プログラム及び文書分類装置 |
| KR101630436B1 (ko) * | 2015-04-01 | 2016-06-15 | 한국과학기술원 | 언어의 비종속적 자질 추출 방법 |
| JP2019520614A (ja) * | 2017-05-05 | 2019-07-18 | 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co.,Ltd. | Sns情報に基づくリスクイベント認識システム、方法、電子装置及び記憶媒体 |
| JP2020532012A (ja) * | 2017-08-29 | 2020-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 |
| JP7002638B2 (ja) | 2017-08-29 | 2022-01-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習 |
| US11823013B2 (en) | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
| JP7316722B2 (ja) | 2018-05-04 | 2023-07-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダムシーケンス埋込みを用いた記号シーケンス解析における計算効率 |
| CN112470172A (zh) * | 2018-05-04 | 2021-03-09 | 国际商业机器公司 | 使用随机序列嵌入的符号序列分析的计算效率 |
| JP2021522598A (ja) * | 2018-05-04 | 2021-08-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ランダムシーケンス埋込みを用いた記号シーケンス解析における計算効率 |
| JP2019197336A (ja) * | 2018-05-08 | 2019-11-14 | 株式会社日本経済新聞社 | 学習データ生成装置、方法、およびプログラム |
| JP2020107085A (ja) * | 2018-12-27 | 2020-07-09 | 楽天株式会社 | 学習装置、妥当性判定装置、学習方法、妥当性判定方法、学習プログラム、及び妥当性判定プログラム |
| CN110750643A (zh) * | 2019-09-29 | 2020-02-04 | 上证所信息网络有限公司 | 上市公司非定期公告的分类方法、装置及存储介质 |
| CN110750643B (zh) * | 2019-09-29 | 2024-02-09 | 上证所信息网络有限公司 | 上市公司非定期公告的分类方法、装置及存储介质 |
| CN110866169B (zh) * | 2019-09-30 | 2023-04-07 | 北京奥陌科技有限公司 | 一种基于学习的物联网实体消息解析方法 |
| CN110866169A (zh) * | 2019-09-30 | 2020-03-06 | 北京瑞航核心科技有限公司 | 一种基于学习的物联网实体消息解析方法 |
| JPWO2023119360A1 (ja) * | 2021-12-20 | 2023-06-29 | ||
| WO2023119360A1 (ja) * | 2021-12-20 | 2023-06-29 | 日本電信電話株式会社 | 情報識別装置、情報識別方法、および、プログラム |
| JP7710144B2 (ja) | 2021-12-20 | 2025-07-18 | Ntt株式会社 | 情報識別装置、情報識別方法、および、プログラム |
| CN114579752B (zh) * | 2022-05-09 | 2023-05-26 | 中国人民解放军国防科技大学 | 基于特征重要度的长文本分类方法、装置和计算机设备 |
| CN114579752A (zh) * | 2022-05-09 | 2022-06-03 | 中国人民解放军国防科技大学 | 基于特征重要度的长文本分类方法、装置和计算机设备 |
| JP2024039774A (ja) * | 2022-09-12 | 2024-03-25 | 楽天グループ株式会社 | ライブ配信システム、推定方法、及びプログラム |
| JP7629427B2 (ja) | 2022-09-12 | 2025-02-13 | 楽天グループ株式会社 | ライブ配信システム、推定方法、及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Abbasi et al. | Selecting attributes for sentiment classification using feature relation networks | |
| Sebastiani | Classification of text, automatic | |
| Anwar et al. | Design and Implementation of a Machine Learning‐Based Authorship Identification Model | |
| JP5137567B2 (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
| Ali et al. | Urdu text classification | |
| JP2008084064A (ja) | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム | |
| Alhojely et al. | Recent progress on text summarization | |
| Mulyanto et al. | Systematic literature review of text feature extraction | |
| Sarwar et al. | Author verification of nahj al-balagha | |
| Afuan et al. | Sentiment Analysis of the Kampus Merdeka Program on Twitter Using Support Vector Machine and a Feature Extraction Comparison: TF-IDF vs. FastText | |
| Bade et al. | Lexicon-based language relatedness analysis | |
| Chen et al. | Using latent Dirichlet allocation to improve text classification performance of support vector machine | |
| CN116361638A (zh) | 问答搜索方法、装置及存储介质 | |
| Yuan et al. | Personalized sentence generation using generative adversarial networks with author-specific word usage | |
| Ali et al. | Optimized Identification of Sentence-Level Multiclass Events on Urdu-Language-Text Using Machine Learning Techniques | |
| CN110688559A (zh) | 一种检索方法及装置 | |
| Dewangan et al. | Improving topic coherence using parsimonious language model and latent semantic indexing | |
| Alharbi et al. | Neural networks based on Latent Dirichlet Allocation for news web page classifications | |
| Sriharsha et al. | Language Detection using Natural Language Processing | |
| Vichianchai et al. | Thai Word Segmentation using a Replacing the English Alphabet Approach to Enhance Thai Text Sentiment Analysis | |
| Shabbir et al. | Advancing NLP for Shahmukhi Punjabi: Word embedding and text classification with a novel dataset | |
| Obike et al. | Feature Engineering for Agile Requirement Management Using Semantic Analysis | |
| Konuma et al. | Japanese Author Attribution Using BERT Finetuning with Stylometric | |
| Hossen et al. | An Efficient Classification Model for Cyber Text | |
| Dewi et al. | Classifying User Apps Review for Software Evolution: A Preliminary Experiment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080421 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101006 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101019 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110426 |