JP2022111020A - 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置 - Google Patents
文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置 Download PDFInfo
- Publication number
- JP2022111020A JP2022111020A JP2021097090A JP2021097090A JP2022111020A JP 2022111020 A JP2022111020 A JP 2022111020A JP 2021097090 A JP2021097090 A JP 2021097090A JP 2021097090 A JP2021097090 A JP 2021097090A JP 2022111020 A JP2022111020 A JP 2022111020A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- model
- fine
- tuning
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
310:文書DB
320:類似度モデル
330:類似文書ペア集合
340:非類似文書ペア集合
Claims (16)
- 少なくとも1つのプロセッサを含むコンピュータ装置の転移学習方法であって、
前記少なくとも1つのプロセッサにより、文書間の類似度を出力するように類似度モデルを事前学習させる段階、
前記少なくとも1つのプロセッサにより、前記事前学習された類似度モデルの第1出力関数をファインチューニングのための第2出力関数と交換してファインチューニングモデルを生成する段階、および
前記少なくとも1つのプロセッサにより、前記ファインチューニングモデルが入力される文書に対して少なくとも1つのスコアを出力するように前記ファインチューニングモデルを学習させる段階
を含む、転移学習方法。 - 前記第1出力関数は、N×Mの大きさの行列を掛ける演算を含み、
前記第2出力関数は、K×Mの大きさの行列を掛ける演算を含み、
前記N、前記M、および前記Kは自然数であること
を特徴とする、請求項1に記載の転移学習方法。 - 前記ファインチューニングモデルを学習させる段階は、
入力される各文書のK個の項目ごとに確率値を算出するK分類モデルを前記ファインチューニングモデルとして学習させ、
前記Kは自然数であること
を特徴とする、請求項1に記載の転移学習方法。 - 前記ファインチューニングモデルを学習させる段階は、
入力される文書のスコアと正解ラベルとのCEE(Cross Entropy Error)を最小化する前記スコアを出力するように前記ファインチューニングモデルを学習させること
を特徴とする、請求項1に記載の転移学習方法。 - 前記正解ラベルは、前記入力される文書に対して予め決定された、前記入力される文書の悪質な書き込みの有無に対する値を含み、
前記ファインチューニングモデルは、前記入力される文書の悪質な書き込みの有無を前記スコアとして出力するように学習される悪質書き込み探知モデルであること
を特徴とする、請求項4に記載の転移学習方法。 - 前記事前学習させる段階は、
前記少なくとも1つのプロセッサにより、同じ属性をもつ複数の類似文章ペアを含む類似文章ペア集合およびランダムに抽出された複数の非類似文章ペアを含む非類似文章ペア集合をデータベースから抽出する段階、
前記少なくとも1つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記非類似文章ペアそれぞれに対する意味的類似度を取得する段階、および
前記少なくとも1つのプロセッサにより、前記複数の類似文章ペア、前記複数の非類似文章ペア、および前記意味的類似度を利用して類似度モデルを学習させる段階
を含むことを特徴とする、請求項1に記載の転移学習方法。 - 前記意味的類似度を取得する段階は、
前記少なくとも1つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記複数の非類似文章ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算する段階、および
前記少なくとも1つのプロセッサにより、前記複数の類似文章ペアそれぞれに対して計算された数学的類似度は増加させる一方、前記複数の非類似文章ペアそれぞれに対して計算された数学的類似度は減少させることにより、前記複数の類似文章ペアそれぞれおよび前記複数の非類似文章ペアそれぞれに対する意味的類似度を計算する段階
を含むことを特徴とする、請求項6に記載の転移学習方法。 - 前記意味的類似度を計算する段階は、
前記複数の類似文章ペアそれぞれに対して計算された数学的類似度を第1非線形関数に入力して増加させ、前記複数の非類似文章ペアそれぞれに対して計算された数学的類似度を第2非線形関数に入力して減少させ、
前記第1非線形関数および前記第2非線形関数は、前記第1非線形関数が、同一するすべての入力値に対して前記第2非線形関数よりも高い値を算出するという条件を満たす2つの非線形関数であること
を特徴とする、請求項7に記載の転移学習方法。 - 前記属性は、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも1つを含むことを特徴とする、請求項6に記載の転移学習方法。
- 請求項1~9のうちのいずれか一項に記載の転移学習方法をコンピュータ装置に実行させる、コンピュータプログラム。
- 請求項1~9のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
- コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサにより、
文書間の類似度を出力するように類似度モデルを事前学習させ、
前記事前学習された類似度モデルの第1出力関数をファインチューニングのための第2出力関数と交換してファインチューニングモデルを生成し、
前記ファインチューニング学習モデルが入力される文書に対して少なくとも1つのスコアを出力するように前記ファインチューニングモデルを学習させること
を特徴とする、コンピュータ装置。 - 前記第1出力関数は、N×Mの大きさの行列を掛ける演算を含み、
前記第2出力関数は、K×Mの大きさの行列を掛ける演算を含み、
前記N、前記M、および前記Kは自然数であること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサにより、
入力される各文書のK個の項目ごとに確率値を算出するK分類モデルを前記ファインチューニングモデルとして学習させ、
前記Kは自然数であること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記少なくとも1つのプロセッサにより、
入力される文書のスコアと正解ラベルとのCEE(Cross Entropy Error)を最小化する前記スコアを出力するように前記ファインチューニングモデルを学習させること
を特徴とする、請求項12に記載のコンピュータ装置。 - 前記事前学習のために、前記少なくとも1つのプロセッサにより、
前記少なくとも1つのプロセッサにより、同じ属性をもつ複数の類似文章ペアを含む類似文章ペア集合およびランダムに抽出された複数の非類似文章ペアを含む非類似文章ペア集合をデータベースから抽出し、
前記少なくとも1つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記非類似文章ペアそれぞれに対する意味的類似度を取得し、
前記少なくとも1つのプロセッサにより、前記複数の類似文章ペア、前記複数の非類似文章ペア、および前記意味的類似度を利用して類似度モデルを学習させること
を特徴とする、請求項12に記載のコンピュータ装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020210007453A KR102554750B1 (ko) | 2021-01-19 | 2021-01-19 | 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템 |
| KR10-2021-0007453 | 2021-01-19 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022111020A true JP2022111020A (ja) | 2022-07-29 |
| JP7236501B2 JP7236501B2 (ja) | 2023-03-09 |
Family
ID=82405745
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021097090A Active JP7236501B2 (ja) | 2021-01-19 | 2021-06-10 | 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12469322B2 (ja) |
| JP (1) | JP7236501B2 (ja) |
| KR (2) | KR102554750B1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117057413B (zh) * | 2023-09-27 | 2024-03-15 | 传申弘安智能(深圳)有限公司 | 强化学习模型微调方法、装置、计算机设备及存储介质 |
| KR102820323B1 (ko) * | 2024-11-18 | 2025-06-13 | 더에이아이랩(주) | 문제 유사도 기반 학습 추천 방법 및 이를 수행하는 학습 추천 시스템 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20060294101A1 (en) * | 2005-06-24 | 2006-12-28 | Content Analyst Company, Llc | Multi-strategy document classification system and method |
| US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
| US9355171B2 (en) * | 2009-10-09 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Clustering of near-duplicate documents |
| US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
| WO2020061578A1 (en) * | 2018-09-21 | 2020-03-26 | Arizona Board Of Regents On Behalf Of Arizona State University | Method and apparatus for collecting, detecting and visualizing fake news |
| KR102439606B1 (ko) | 2018-10-30 | 2022-09-01 | 삼성에스디에스 주식회사 | 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치 |
| US11689561B2 (en) * | 2019-11-11 | 2023-06-27 | Microsoft Technology Licensing, Llc | Detecting unknown malicious content in computer systems |
| KR102179086B1 (ko) * | 2020-03-11 | 2020-11-16 | 주식회사 씨몬 | 컨벤션 참가자 매칭 방법, 장치, 및 시스템 |
| US11379720B2 (en) * | 2020-03-20 | 2022-07-05 | Avid Technology, Inc. | Adaptive deep learning for efficient media content creation and manipulation |
| US20230245650A1 (en) * | 2020-06-11 | 2023-08-03 | Google Llc | Using canonical utterances for text or voice communication |
| US11580764B2 (en) * | 2021-06-22 | 2023-02-14 | Microsoft Technology Licensing, Llc. | Self-supervised document-to-document similarity system |
-
2021
- 2021-01-19 KR KR1020210007453A patent/KR102554750B1/ko active Active
- 2021-06-10 JP JP2021097090A patent/JP7236501B2/ja active Active
- 2021-06-23 US US17/355,406 patent/US12469322B2/en active Active
-
2023
- 2023-01-20 KR KR1020230008765A patent/KR102595384B1/ko active Active
Non-Patent Citations (3)
| Title |
|---|
| "Sentence-BERTを理解する", [ONLINE], JPN6022036394, 4 August 2020 (2020-08-04), ISSN: 0004862579 * |
| 田村 光太郎: "仮説推論と充足可能問題、BERTによる推理小説の知識処理", THE 34TH ANNUAL CONFERENCE OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE,2020, JPN6022036395, 9 June 2020 (2020-06-09), ISSN: 0004862580 * |
| 鵜野 和也: "はじめての自然言語処理 第9回Sentence BERTによる類似文章検索の検証", [ONLINE], JPN6022036393, 23 June 2020 (2020-06-23), ISSN: 0004862578 * |
Also Published As
| Publication number | Publication date |
|---|---|
| US12469322B2 (en) | 2025-11-11 |
| JP7236501B2 (ja) | 2023-03-09 |
| KR20230019257A (ko) | 2023-02-07 |
| KR102595384B1 (ko) | 2023-10-27 |
| US20220230014A1 (en) | 2022-07-21 |
| KR20220104984A (ko) | 2022-07-26 |
| KR102554750B1 (ko) | 2023-07-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111967266B (zh) | 中文命名实体识别系统、模型构建方法和应用及相关设备 | |
| CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
| CN113505601B (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
| WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
| CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
| JP7112475B2 (ja) | ベクトル量子化を利用した重複文書探知方法およびシステム | |
| CN111177569A (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
| CN110119477B (zh) | 一种信息推送方法、装置和存储介质 | |
| CN113392179B (zh) | 文本标注方法及装置、电子设备、存储介质 | |
| JP2021093163A (ja) | ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム | |
| Raschka et al. | Python machine learning second edition | |
| CN115131058B (zh) | 账号识别方法、装置、设备及存储介质 | |
| CN113407704A (zh) | 文本匹配方法、装置、设备及计算机可读存储介质 | |
| KR102595384B1 (ko) | 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템 | |
| CN118861193A (zh) | 搜索词分析模型数据处理方法、装置和计算机设备 | |
| CN111813936A (zh) | 基于深度学习的新闻资讯呈现方法及相关设备 | |
| CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
| Zhao et al. | Hot question prediction in Stack Overflow | |
| CN111091198A (zh) | 一种数据处理方法及装置 | |
| CN113792549B (zh) | 一种用户意图识别的方法、装置、计算机设备及存储介质 | |
| CN117252208A (zh) | 客户识别方法、装置、电子设备及可读存储介质 | |
| CN114282023B (zh) | 指纹生成方法、装置、服务器及存储介质 | |
| CN116578774A (zh) | 一种预估排序方法、装置、计算机设备及存储介质 | |
| CN115222047A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
| CN115526177A (zh) | 对象关联模型的训练 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210610 |
|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210616 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221025 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230214 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230227 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7236501 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |