JP6778655B2 - 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム - Google Patents
単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6778655B2 JP6778655B2 JP2017113768A JP2017113768A JP6778655B2 JP 6778655 B2 JP6778655 B2 JP 6778655B2 JP 2017113768 A JP2017113768 A JP 2017113768A JP 2017113768 A JP2017113768 A JP 2017113768A JP 6778655 B2 JP6778655 B2 JP 6778655B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- concatenation
- string
- morphological analysis
- example data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
20,220 演算部
30 シード抽出部
32 正例データ拡張部
34 負例データ拡張部
36 識別モデル学習部
40,240 単語連接識別モデル
100 単語連接識別モデル学習装置
200 単語連接検出装置
230 解析部
232 単語連接検出部
240 単語連接識別モデル
250 出力部
Claims (7)
- 所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、文字数が閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語列の少なくとも一方をシードとして抽出し、前記シードを正例データとするシード抽出部と、
前記シードに含まれる単語についての読みによる置換、又は所定の口語表現を表す文字の追加若しくは音の類似した文字への変換を含む文字列のルールにより置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する負例データ拡張部と、
前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する識別モデル学習部と、
を含む単語連接識別モデル学習装置。 - 前記シードに含まれる単語を、前記所定のドメインとは別のドメインのテキストに含まれる単語に置き換え、前記置き換えた結果として得られる単語列が、前記別のドメインのテキスト集合に予め定めた閾値以上出現する場合、前記置き換えた結果として得られる単語列を、正例データとして追加する正例データ拡張部を更に含む請求項1に記載の単語連接識別モデル学習装置。
- テキストを入力として、形態素解析を行う解析部と、
前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め請求項1又は請求項2に記載の単語連接識別モデル学習装置により学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出する単語連接検出部と、
を含む単語連接検出装置。 - シード抽出部が、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、文字数が閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語列の少なくとも一方をシードとして抽出し、前記シードを正例データとするステップと、
負例データ拡張部が、前記シードに含まれる単語についての読みによる置換、又は所定の口語表現を表す文字の追加若しくは音の類似した文字への変換を含む文字列のルールにより置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成するステップと、
識別モデル学習部が、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習するステップと、
を含む単語連接識別モデル学習方法。 - 解析部が、テキストを入力として、形態素解析を行うステップと、
単語連接検出部が、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め請求項4に記載の単語連接識別モデル学習方法により学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出するステップと、
を含む単語連接検出方法。 - コンピュータを、請求項1又は請求項2に記載の単語連接識別モデル学習装置の各部として機能させるためのプログラム。
- コンピュータを、請求項3に記載の単語連接検出装置の各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017113768A JP6778655B2 (ja) | 2017-06-08 | 2017-06-08 | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017113768A JP6778655B2 (ja) | 2017-06-08 | 2017-06-08 | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018206262A JP2018206262A (ja) | 2018-12-27 |
| JP6778655B2 true JP6778655B2 (ja) | 2020-11-04 |
Family
ID=64957953
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017113768A Active JP6778655B2 (ja) | 2017-06-08 | 2017-06-08 | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6778655B2 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111538806B (zh) * | 2019-01-21 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
| CN110851738B (zh) * | 2019-10-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 获取poi状态信息的方法、装置、设备和计算机存储介质 |
| JP6843450B1 (ja) * | 2019-11-08 | 2021-03-17 | リーダー電子株式会社 | 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 |
| JP7476578B2 (ja) * | 2020-03-06 | 2024-05-01 | 富士フイルムビジネスイノベーション株式会社 | 学習装置及びプログラム |
| WO2023148831A1 (ja) * | 2022-02-01 | 2023-08-10 | 日本電信電話株式会社 | 疑似負例生成装置、疑似負例生成方法、及びプログラム |
| JP7745528B2 (ja) * | 2022-10-19 | 2025-09-29 | Kddi株式会社 | 文の知識誤りを検出する知識判定装置、プログラム及び方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05225183A (ja) * | 1992-02-10 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | 日本文単語誤り自動検出装置 |
| JP2013182346A (ja) * | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 助詞誤り訂正装置、方法、及びプログラム |
| KR101636902B1 (ko) * | 2012-08-23 | 2016-07-06 | 에스케이텔레콤 주식회사 | 문법의 오류 검출 방법 및 이를 위한 장치 |
| JP5976037B2 (ja) * | 2014-05-26 | 2016-08-23 | 日本電信電話株式会社 | モデル学習装置、ランキング装置、方法、及びプログラム |
-
2017
- 2017-06-08 JP JP2017113768A patent/JP6778655B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2018206262A (ja) | 2018-12-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Roark et al. | Processing South Asian languages written in the Latin script: the Dakshina dataset | |
| JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
| Azmi et al. | A survey of automatic Arabic diacritization techniques | |
| CN111611810A (zh) | 一种多音字读音消歧装置及方法 | |
| Alharbi et al. | Part-of-speech tagging for Arabic Gulf dialect using Bi-LSTM | |
| Alkanhal et al. | Automatic stochastic arabic spelling correction with emphasis on space insertions and deletions | |
| KR102204395B1 (ko) | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 | |
| KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
| Chua et al. | Text normalization infrastructure that scales to hundreds of language varieties | |
| Tennage et al. | Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation | |
| CN113822052B (zh) | 一种文本错误检测方法、装置、电子设备及存储介质 | |
| JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
| Hassan et al. | Arabic spelling correction using supervised learning | |
| Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
| Sazhok et al. | Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings. | |
| Deka et al. | A study of t’nt and crf based approach for pos tagging in assamese language | |
| Lauc et al. | AyutthayaAlpha: A Thai-Latin Script Transliteration Transformer | |
| Núñez et al. | Phonetic normalization for machine translation of user generated content | |
| Orosz et al. | Lessons learned from tagging clinical Hungarian. | |
| Uchimoto et al. | Morphological analysis of a large spontaneous speech corpus in Japanese | |
| Murthy et al. | Kannada spell checker with sandhi splitter | |
| WO2020012813A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
| KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
| Sonnadara et al. | Sinhala spell correction: A novel benchmark with neural spell correction | |
| Kumar et al. | Learning agglutinative morphology of indian languages with linguistically motivated adaptor grammars |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190827 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200515 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200731 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201012 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6778655 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |