JP2022111020A

JP2022111020A - 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置

Info

Publication number: JP2022111020A
Application number: JP2021097090A
Authority: JP
Inventors: 成旻金; Sung Min Kim; 京鎬崔; Kyoungho Choi; 圭▲ほ▼ 李; Kyuho Lee
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-01-19
Filing date: 2021-06-10
Publication date: 2022-07-29
Anticipated expiration: 2041-06-10
Also published as: US12469322B2; JP7236501B2; KR20230019257A; KR102595384B1; US20220230014A1; KR20220104984A; KR102554750B1

Abstract

【課題】転移学習のための新たな事前学習方法及びコンピュータ装置と、これをファインチューニング過程に引き継がせるための手順を提供する。【解決手段】転移学習方法であって、少なくとも１つのプロセッサにより、文書間の類似度を出力するように類似度モデルを事前学習させる段階（６１０）、少なくとも１つのプロセッサにより、事前学習された類似度モデルの第１出力関数をファインチューニングのための第２出力関数と交換してファインチューニングモデルを生成する段階（６２０）、および少なくとも１つのプロセッサにより、ファインチューニングモデルが入力される文書に対して少なくとも１つのスコアを出力するようにファインチューニングモデルを学習させる段階（６３０）、を含む。【選択図】図６

Description

新規性喪失の例外適用申請有り

以下の説明は、文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置に関する。

機械学習モデルを構築するときに品質に影響を与える主な要素は、学習データの量と質である。偏りのない理想値、欠測値のない豊富なデータを基にした学習モデルは、優れた性能を示す可能性が高い。しかし、すべての分野において学習データが豊富なわけではない。学習データの不足は不完全なモデル（ＩｎｃｏｍｐｌｅｔｅＭｏｄｅｌ）に繋がる。このような制約を克服するために、学習方法自体に関する研究、すなわち、メタ学習に関する研究が活発に進められている。学習に使用できるほどの良質なデータを十分に確保することができない場合には、他の分野の豊富なデータを基にした優れた性能のモデルから一部の階層を再利用してモデルを構築する方法が考えられる。このような学習技法が「転移学習（ＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇ）」と呼ばれるものである。

文書分類モデルの性能を高めるための一般的な転移学習方法論では、文章の一部分だけが入力として与えられた状態から、与えられていないトークンを予測する言語モデリング、あるモデルに対して関連性のある異なる分類問題を同時に学習させるマルチタスクラーニング、与えられた２つの文章が連続する２つの文章であるかを分類するタスクなどを実行する。２つの文章の類似度が人間によって付与されたデータを利用する類似度学習方法も使用されている。

このような従来技術が共通して抱えている限界は、分類しようとする文書集合内において２つの文書の特定の属性が互いに一致するかどうかが極めて重要な意味をもつ場合であっても、これを適切に活用することができないという点である。言語モデリング方法論には、文章を構成するトークンの数に比例してモデルの計算費用が増加するという短所があり、マルチタスクラーニング方法論は、タスクの数だけラベリングされた文書集合を必要とする。２つの文章が連続する文章であるかを判別するには、各文書集合内の各文書が短文であったり、文章の分離が容易でないタイプであったりする場合には適用することが難しい。現在、２つの文書の類似度を学習する方法論では、人間によって類似度が付与されたデータを利用しているため、データの構築に人力動員が前提となっているという問題がある。

韓国公開特許第１０－２０２０－００４８４７４号公報

転移学習のための新たな事前学習（ｐｒｅ－ｔｒａｉｎｉｎｇ）方法と、これをファインチューニング（ｆｉｎｅｔｕｎｉｎｇ）過程に引き継がせるための手順を提供する。

少なくとも１つのプロセッサを含むコンピュータ装置の転移学習方法であって、前記少なくとも１つのプロセッサにより、文書間の類似度を出力するように類似度モデルを事前学習させる段階、前記少なくとも１つのプロセッサにより、前記事前学習された類似度モデルの第１出力関数をファインチューニングのための第２出力関数と交換してファインチューニングモデルを生成する段階、および前記少なくとも１つのプロセッサにより、前記ファインチューニングモデルが入力される文書に対して少なくとも１つのスコアを出力するように前記ファインチューニングモデルを学習させる段階を含む、転移学習方法を提供する。

一側によると、前記第１出力関数はＮ×Ｍの大きさをもつ行列を掛ける演算を含み、前記第２出力関数はＫ×Ｍの大きさをもつ行列を掛ける演算を含み、前記Ｎ、前記Ｍ、および前記Ｋは自然数であることを特徴としてよい。

他の側面によると、前記ファインチューニングモデルを学習させる段階は、入力される各文書のＫ個の項目ごとに確率値を算出するＫ分類モデルを前記ファインチューニングモデルとして学習させ、前記Ｋは自然数であることを特徴としてよい。

また他の側面によると、前記ファインチューニングモデルを学習させる段階は、入力される文書のスコアと正解ラベルとの間のＣＥＥ（ＣｒｏｓｓＥｎｔｒｏｐｙＥｒｒｏｒ）を最小化する前記スコアを出力するように前記ファインチューニングモデルを学習させることを特徴としてよい。

また他の側面によると、前記正解ラベルは、前記入力される文書に対して予め決定された、前記入力される文書への悪質な書き込みの有無に対する値を含み、前記ファインチューニングモデルは、前記入力される文書への悪質な書き込みの有無を前記スコアとして出力するように学習される悪質書き込み探知モデルであることを特徴としてよい。

また他の側面によると、前記事前学習させる段階は、前記少なくとも１つのプロセッサにより、同じ属性をもつ複数の類似文章ペアを含む類似文章ペア集合およびランダムに抽出された複数の非類似文章ペアを含む非類似文章ペア集合をデータベースから抽出する段階、前記少なくとも１つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記非類似文章ペアそれぞれに対する意味的類似度を取得する段階、および前記少なくとも１つのプロセッサにより、前記複数の類似文章ペア、前記複数の非類似文章ペア、および前記意味的類似度を利用して類似度モデルを学習させる段階を含むことを特徴としてよい。

また他の側面によると、前記意味的類似度を取得する段階は、前記少なくとも１つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記複数の非類似文章ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算する段階、および前記少なくとも１つのプロセッサにより、前記複数の類似文章ペアそれぞれに対して計算された数学的類似度は増加させる一方、前記複数の非類似文章ペアそれぞれに対して計算された数学的類似度は減少させることで、前記複数の類似文章ペアそれぞれおよび前記複数の非類似文章ペアそれぞれに対する意味的類似度を計算する段階を含むことを特徴としてよい。

また他の側面によると、前記意味的類似度を計算する段階は、前記複数の類似文章ペアそれぞれに対して計算された数学的類似度を第１非線形関数に入力して増加させ、前記複数の非類似文章ペアそれぞれに対して計算された数学的類似度を第２非線形関数に入力して減少させ、前記第１非線形関数および前記第２非線形関数は、前記第１非線形関数が、同一するすべての入力値に対して前記第２非線形関数よりも高い値を算出するという条件を満たす２つの非線形関数であることを特徴としてよい。

さらに他の側面によると、前記属性は、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも１つを含むことを特徴としてよい。

コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサにより、文書間の類似度を出力するように類似度モデルを事前学習させ、前記事前学習された類似度モデルの第１出力関数をファインチューニングのための第２出力関数と交換してファインチューニングモデルを生成し、前記ファインチューニングモデルが入力される文書に対して少なくとも１つのスコアを出力するように前記ファインチューニングモデルを学習させることを特徴とする、コンピュータ装置を提供する。

分類しようとする文書集合内の各文書がもつ有意味な属性を転移学習過程で活用することができ、事前学習に必要なデータを構築するにあたり、人力を必要としない完全自動化を実現することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。本発明の一実施形態における、事前学習のための転移学習システムの例を示した図である。本発明の一実施形態における、事前学習のための類似度モデルの学習過程の例を示した図である。本発明の一実施形態における、ファインチューニングモデルの学習過程の例を示した図である。本発明の一実施形態における、転移学習方法の例を示したフローチャートである。本発明の一実施形態における、悪質書き込み探知モデルの例を示した図である。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係る転移学習システムは、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る転移学習方法は、転移学習システムに含まれる少なくとも１つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係る転移学習方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して転移学習方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境のうちの一例を説明したものに過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、コンテンツ提供サービス、グループ通話サービス（または、音声会議サービス）、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど）を提供するシステムであってよい。

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示したコンピュータ装置２００によって実現されてよい。

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１７０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信モジュール２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータ装置２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。

本発明の実施形態において、「文書」とは、ブログリスティングやニュース、書き込みなどのように任意の作成者によってウェブ上にアップロードされた掲示物を含むものであってよい。一般に文書は１つ以上の文章を含み、混乱のおそれがない限り、文書及び文章は可換に使用されてもよい。また、「属性」とは、文書に対して予め定義される特徴であって、一例として、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも１つに基づいて決定されてよい。ここで、文書の掲示セクションは、１つのサービスにおいて文書が表示されるセクションに基づいてよい。一例として、２つの文書の掲示セクションが同じであるということは、１つのサービスにおいて文書が表示される複数の掲示セッションのうち、２つの文書が掲示された掲示セッションが同じである場合を意味してよい。作成者が属性によって定義される場合、同じ作成者の２つの互いに異なるブログリスティングは同じ属性の文書として認識されてよい。他の例として、作成者、掲示セクション、および１時間範囲が属性として定義される場合、同じ作成者によって同じ掲示セクションに１時間以内に登録された２つの書き込みは、同じ属性の文書として認識されてよい。また、文書間の「重複」とは、２つの文書が閾値以上の類似度を有することを意味してよい。例えば、文書間の類似度の値を０．００～１．００の範囲で表現し、重複のための閾値を０．９５と仮定するとき、文書１と文書２との意味的類似度の値が０．９７であれば、文書１と文書２は重複する文書として決定されてよい。言い換えれば、２つの文書の内容が互いに完全に同じでなかったとしても、一定以上に類似する内容を含む文書は重複する文書として決定されてよい。

先ず、事前学習に必要なデータを構築するために多数の文書を格納しているデータベース上から、２つの文書で構成された多数のペアを任意抽出方式によって抽出してよい。抽出した文書ペアのうち、２つの文書が特定の属性（ａｔｔｒｉｂｕｔｅ）に対して同じ値を有するものは類似文章ペアと称し、そうでないものは非類似文章ペアと称する。一貫した規則を適用しながら、類似文書ペアに対しては全般的に高い類似度をもつように、非類似文書ペアに対しては全般的に低い類似度をもつように目標類似度を付与してよい。以後、転移学習過程を実行しようとするモデルが文書ペアの入力を受けて算出する値と各文書ペアに付与された目標類似度との誤差を最小化することを目標として事前学習を行ってよい。

この後、事前学習過程を終えたモデルを利用しながら、本来目標としていた文書分類学習のためのファインチューニングが行われてよい。

転移学習のための詳細なデータ構築過程は、次のとおりとなる。

多数の文書を格納しているデータベース上に存在する文書の属性のうちのある属性が２つの文書に共通する値であるとき、２つの文書の内容が有意な関連性を有するものであるかを判断する。このような属性が定められれば、該当の属性が共通する２つの文書からなる多数の文書ペアをデータベースから抽出し、これを類似文章ペアと称する。これとは反対に、該当の属性が共通しない２つの文書からなる多数の文書ペアも抽出され、これを非類似文章ペアと称する。この次に適切な２つの関数を設定しなければならないが、ある関数は類似度を定義しようとする範囲、例えば、０～１の間の実数値を該当の範囲内で適切に上向になるようにし、これを類似度上向き関数と称し、他のある関数は同じ範囲の実数値を該当の範囲内で適切に下向になるようにし、これを類似度下向き関数と称する。また、先に収集していたすべての文書ペアに対し、各ペアを構成する２つの文書の類似度を伝統的な文書類似度測定方法によって算出するが、類似文章ペアに対しては伝統的な文書類似度測定方法によって算出された類似度値に対して類似度上向き関数を適用し、これを該当の文書ペアの目標類似度とし、非類似文章ペアに対しては同じ方法によって算出された類似度値に対して類似度下向き関数を適用し、これを該当の文書ペアの目標類似度とする。

このように構築された学習データを利用して事前学習を実行する過程は、次とおりとなる。

先ず、事前学習を実行するモデルは、２つの文書の入力を受けて１つの実数値を算出する形態で構成されなければならない。上述した形態の演算を実行するためには、ある文書に対して１つのベクトル表現（ｖｅｃｔｏｒｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を算出する形態でモデルを構成し、同じモデルによって２つの文書をそれぞれベクトル表現で抽象化した後、２つのベクトル表現間の適切な演算によって類似度を算出してよい。一例として、２つの文書ベクトル間のコサイン類似度を算出する方法がある。このような演算構造によってモデルが学習データ上の各文書ペアの類似度を算出するとき、算出された類似度と該当の文書ペアに付与された目標類似度との誤差が最小化するように学習させてよい。

図３は、本発明の一実施形態における、事前学習のための転移学習システムの例を示した図である。本実施形態に係る転移学習システム３００は、上述したコンピュータ装置２００によって実現されてよく、コンピュータ装置２００が含むプロセッサ２２０の制御にしたがって後述する事前学習のための類似度モデルの学習過程を処理してよい。

転移学習システム３００は、文書ＤＢ３１０に含まれた文書間の類似度と文書間に付与された目標類似度（または、正解類似度）との誤差が最小化するように類似度モデル３２０を学習させてよい。

文書ＤＢ３１０は、転移学習システム３００を実現する物理的な装置（第１装置）に含まれて文書を提供するように実現されてもよいが、転移学習システム３００の外部に位置する他の物理的な装置（第２装置）に実現され、第１装置と第２装置がネットワーク１７０を介して互いに通信する形態で文書を提供するように実現されてもよい。

転移学習システム３００は、類似文章ペア集合３３０と非類似文章ペア集合３４０を文書ＤＢ３１０から抽出してよい。ここで、類似文章ペア集合３３０は、予め定義された属性が等しい文章ペアの集合を意味してよく、非類似文章ペア集合３４０は、属性を考慮せずに任意に（ランダムに）抽出された文章ペアの集合を意味してよい。実施形態によっては、非類似文章ペア集合３４０は、予め定義された属性が同じでない文章ペアの集合を意味してもよい。

一実験例では、１億４千万件の書き込みのうち、予め定義された属性の文章ペアである「同じ作成者が同じ掲示セクションで１時間以内に作成した文章ペア」３５００万件を類似文章ペア集合３３０として抽出し、任意の２つの書き込みからなる３５００万件の文章ペアを非類似文章ペア集合３４０として抽出した。ここで、仮説１は、２つの書き込みの抽出回数が無限大に向かって増加することにより、同じ属性の２つの書き込みの意味が類似する確率αが任意に抽出された２つの書き込みの意味が類似する確率βよりも高いということであり、仮説２は、数学的尺度を利用した類似度（以下、数学的類似度とする）の値が同じであるとき、同じ属性の２つの書き込みの数学的類似度は数学的尺度によって過小評価される確率が高く、任意に抽出された２つの書き込みの数学的類似度は数学的尺度によって過大評価される確率が高いということである。このような仮説１と仮説２は、一実験例から得られた各数学的類似度の書き込みを比較することによって確認された。例えば、数学的類似度は０．２以下と低いが属性は等しい２つの書き込みに意味的／主題的類似性が存在する場合の比重は高かった反面、数学的類似度は０．７以上と高い、任意に抽出された２つの書き込みには、意味的／主題的類似性が見られない場合の比重が高かった。

このように確認された仮説に基づき、本実施形態に係る転移学習システム３００は、先ず、類似文章ペア集合３３０の類似文章ペアそれぞれと非類似文章ペア集合３４０の非類似文章ペアそれぞれに対して数学的尺度を利用して数学的類似度を計算してよい。このとき、転移学習システム３００は、計算された数学的類似度を属性の同一状況に応じて増加させるか減少させることで、文章ペアそれぞれに対する意味的類似度を決定してよい。例えば、類似文章ペア集合３３０の類似文章ペアそれぞれに対して計算された数学的類似度は数学的類似度の値が過小評価されたものと見なし、計算された数学的類似度の値を適切に増加させることによって意味的類似度を計算してよい。これとは逆に、非類似文章ペア集合３４０の非類似文章ペアそれぞれに対して計算された数学的類似度は数学的類似度の値が過大評価されたものと見なし、計算された数学的類似度の値を適切に減少させることによって意味的類似度を計算してよい。

より具体的な例として、転移学習システム３００は、類似文章ペアの数学的類似度の値を第１非線形関数（一例として、上述した類似度上向き関数）に入力して類似文章ペアの数学的類似度の値を増加させてよく、非類似文章ペアの数学的類似度の値を第２非線形関数（一例として、上述した類似度下向き関数）に入力して非類似文章ペアの数学的類似度の値を減少させてよい。第１非線形関数は、類似文章ペアに対しては過小評価された数学的類似度の値を増加させるためのものとなり、第２非線形関数は、非類似文章ペアに対しては過大評価された数学的類似度の値を減少させるためのものとなり、例えば、第１非線形関数はすべての入力値に対して第２非線形関数よりも高い値を算出するという条件を満たす２つの非線形関数は、第１非線形関数および第２非線形関数として活用されてよい。

文章ペアに対して計算された意味的類似度は、類似度モデル３２０のための正解類似度（または、目標類似度）として見なされてよい。例えば、転移学習システム３００は、類似文章ペア集合３３０、非類似文章ペア集合３４０、および正解類似度を学習データとして活用して類似度モデル３２０を学習させてよい。例えば、類似度モデル３２０は、入力される文章ペアに対して意味的類似度を算出するように学習されてよい。

より具体的な例として、類似度モデル３２０は、入力される文章ペアに対し、出力値が正解スコアとの平均二乗誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ：ＭＳＥ）を最小化するように学習されてよい。例えば、類似度モデル３２０は、平均二乗誤差を利用した損失関数に出力値と正解スコアを入力して損失が最小化するように学習されてよい。一方、類似度モデル３２０としては、周知のディープラーニングモデルのうちの少なくとも１つが活用されてよい。例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）やＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などが類似度モデル３２０を実現するために活用されてよい。この場合、類似度モデル３２０は、文章ペアの入力を受けて０～１範囲の実数（意味的類似度）を出力するように実現されてよい。このとき、出力される値の範囲は一例に過ぎず、０～１の範囲に限定されてはならない。

図４は、本発明の一実施形態における、事前学習のための類似度モデルの学習過程の例を示した図である。図３で説明した類似度モデル３２０は、共通モデル構造４１０と出力関数４２０を含んでよい。共通モデル構造４１０は、特徴学習のための行列の形態であってよく、出力関数は、Ｎ次元ベクトルを出力するためにＮ×Ｍの大きさの行列を掛ける演算であってよい。このような類似度モデル３２０の構造自体は、ＣＮＮやＲＮＮなどのディープラーニングモデルによって容易に理解できるであろう。

このような図４の実施形態では、類似度モデル３２０が、文章ペアとしての書き込みＡ（４３１）と書き込みＢ（４３２）に対するＮ次元ベクトルｖ１（４４１）とＮ次元ベクトルｖ２（４４２）をそれぞれ出力し、出力されたｖ１（４４１）とｖ２（４４２）との類似度４５０を計算する例を示している。このとき、類似度モデル３２０は、類似度４５０と書き込みＡ（４３１）と書き込みＢ（４３２）に対して予め得られた正解類似度４６０とのＭＳＥ４７０を最小化する類似度４５０が出力されるように学習されてよい。

このとき、学習された類似度モデル３２０の共通モデル構造４１０が、ファインチューニングのために活用されてよい。

図５は、本発明の一実施形態における、ファインチューニングモデルの学習過程の例を示した図である。本実施形態に係るファインチューニングモデルは、図４で学習された共通モデル構造４１０とファインチューニングのための出力関数５１０を含んでよい。

上述したのように、事前学習の出力関数４２０は、Ｎ次元ベクトルを算出するためのＮ×Ｍの大きさの行列を掛ける演算であってよく、一例として、６４次元（Ｎが６４の場合）の全結合層（６４Ｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で実現されてよい。このような出力関数４２０は、ファインチューニングで必要とする適切な大きさの他の行列と交換されてよい。例えば、各文書でＫ個の項目ごとに０～１の間の確率値を算出しなければならないＫ分類モデル（Ｋ－ＢｉｎａｒｙＣｌａｓｓｉｆｉｃａｔｉｏｎＭｏｄｅｌ）を学習させることが事前学習後に実行しなければならない段階であるとすれば、ファインチューニングモデルの出力関数５１０は、Ｋ次元ベクトルを算出するためのＫ×Ｍの大きさの行列を掛ける演算であってよい。一例として、出力関数５１０は、１次元（Ｋが１の場合）の全結合層（１Ｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で実現されてよい。出力関数５１０の行列は、事前学習されたことのない新たな行列であるため、任意の値に初期化（ｒａｎｄｏｍｉｎｉｔｉａｌｉｚａｔｉｏｎ）されてよい。このように、事前学習で学習された共通モデル構造４１０と交換された出力関数５１０を活用してファインチューニングモデルを学習することによって転移学習がなされてよい。

このとき、図５の実施形態に係るファインチューニングでは、書き込み５２０に対するスコア５３０を出力するようにファインチューニングモデルが学習される例を示している。このとき、図５の実施形態に係るファインチューニングモデルは、スコア５３０と正解ラベル５４０との交差エントロピー誤差（ＣＥＥ：ＣｒｏｓｓＥｎｔｒｏｐｙＥｒｒｏｒ）５５０を最小化するスコア５３０を出力するように学習されてよい。正解ラベル５４０は、書き込み５２０が悪質な書き込みであるかによって予め決定されてよい。

ファインチューニングの目標に応じ、事前学習段階では多様な属性が類似文章ペアを構成するために活用されてよい。例えば、文書の種類のうちの１つとして、インターネットコミュニティの書き込みが悪質なものであるかに対する確率モデルを学習させることがファインチューニングの目標であるとすれば、悪質な書き込みを頻繁に作成するユーザが別途存在するという仮定を立てることができる。このような過程に基づき、互いに異なる書き込みの作成者が一致するか否かに関する知識（ｋｎｏｗｌｅｄｇｅ）をファインチューニングモデルが認知していれば、ファインチューニングモデルが悪質な書き込みを分類する過程において、該当の悪質な書き込みを行ったユーザが使いそうな他の類似の書き込みに登場する表現も悪質な書き込みである確率が高いと推論できるようにすることにより、ファインチューニングモデルの悪質書き込み探知性能を高めることができる。この他にも、解決しようとするファインチューニングによる問題の特性により、書き込みがなされたコンテンツの一致状況、作成時間、またはこのような属性の組み合わせなども、類似文章ペアを構成するための条件として活用されてよい。

図６は、本発明の一実施形態における、転移学習方法の例を示したフローチャートである。本実施形態に係る転移学習方法は、コンピュータ装置２００によって実行されてよい。このとき、コンピュータ装置２００のプロセッサ２２０は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのコンピュータプログラムのコードとによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ２２０は、コンピュータ装置２００に記録されたコードが提供する制御命令にしたがってコンピュータ装置２００が図６の方法に含まれる段階６１０～６３０を実行するようにコンピュータ装置２００を制御してよい。

段階６１０で、コンピュータ装置２００は、文書間の類似度を出力するように類似度モデルを事前学習させてよい。一例として、コンピュータ装置２００は、同じ属性をもつ複数の類似文章ペアを含む類似文章ペア集合およびランダムに抽出された複数の非類似文章ペアを含む非類似文章ペア集合をデータベースから抽出してよい。ここで、属性は、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも１つを含んでよい。このような属性による文書間の類似度に関する知識は類似度モデルに学習されてよく、以後に類似度モデルによって生成されるファインチューニングモデルに引き継がれてよい。

先ず、コンピュータ装置２００は、複数の類似文章ペアそれぞれおよび非類似文章ペアそれぞれに対する意味的類似度を取得してよい。このために、コンピュータ装置２００は、複数の類似文章ペアそれぞれおよび複数の非類似文章ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算してよく、複数の類似文章ペアそれぞれに対して計算された数学的類似度は増加させて複数の非類似文章ペアそれぞれに対して計算された数学的類似度は減少させることにより、複数の類似文章ペアそれぞれおよび複数の非類似文章ペアそれぞれに対する意味的類似度を計算してよい。より詳しく説明すると、コンピュータ装置２００は、複数の類似文章ペアそれぞれに対して計算された数学的類似度を第１非線形関数に入力して増加させ、複数の非類似文章ペアそれぞれに対して計算された数学的類似度を第２非線形関数に入力して減少させてよい。この場合、第１非線形関数および第２非線形関数は、第１非線形関数が、同一するすべての入力値に対して第２非線形関数よりも高い値を算出するという条件を満たす２つの非線形関数であってよい。

このように意味的類似度が計算された後、コンピュータ装置２００は、複数の類似文章ペア、複数の非類似文章ペア、および意味的類似度を利用して類似度モデルを学習させてよい。一例として、コンピュータ装置２００は、入力される文章ペアに対し、出力値が正解類似度との平均二乗誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ：ＭＳＥ）を最小化するように類似度モデルを学習させてよい。

段階６２０で、コンピュータ装置２００は、事前学習された類似度モデルの第１出力関数をファインチューニングのための第２出力関数と交換してファインチューニングモデルを生成してよい。ここで、第１出力関数は、Ｎ×Ｍの大きさの行列を掛ける演算を含んでよく、第２出力関数は、Ｋ×Ｍの大きさの行列を掛ける演算を含んでよい。このとき、Ｎ、Ｍ、Ｋはそれぞれ自然数であってよく、事前学習とファインチューニングは互いに異なる目的を果たすための学習であるという関係により、Ｎ、Ｍ、Ｋはそれぞれ互いに異なる自然数であってもよい。

段階６３０で、コンピュータ装置２００は、ファインチューニングモデルが入力される文書に対して少なくとも１つのスコアを出力するようにファインチューニングモデルを学習させてよい。一実施形態によると、コンピュータ装置２００は、入力される各文書のＫ（Ｋは自然数）個の項目ごとに確率値を算出するＫ分類モデルをファインチューニングモデルとして学習させてよい。例えば、入力される文書が複数の項目のうちのどの項目に属する文書であるかを区分するようにファインチューニングモデルを学習させる場合、このようなＫ分類モデルが活用されてよい。他の実施形態によると、コンピュータ装置２００は、入力される文書のスコアと正解ラベルとのＣＥＥ（ＣｒｏｓｓＥｎｔｒｏｐｙＥｒｒｏｒ）を最小化するスコアを出力するようにファインチューニングモデルを学習させてよい。このとき、正解ラベルは、入力される文書に対して予め決定された、入力される文書の悪質な書き込みの有無に対する値を含んでよく、この場合、ファインチューニングモデルは、入力される文書の悪質な書き込みの有無をスコアとして出力するように学習される悪質書き込み探知モデルであってよい。このような悪質書き込み探知モデルは、Ｋが１である場合のＫ分類モデルであってよく、入力される文書が１つの項目（悪質な書き込み）に属するか否かのスコアを出力してよい。

上述したように、ファインチューニングモデルは、事前学習モデルとしての類似度モデルを引き継ぐため、ファインチューニングモデルは、類似度モデルが学習した文書間の有意味な属性に関する知識を活用することができるようになる。これだけでなく、事前学習モデルとしての類似度モデルは、同じ属性を含むか否かに応じて文書のデータベースから類似文章ペアと非類似文章ペアを自動で抽出して学習データを構築するため、事前学習に必要なデータを構築するにあたり、人力を必要としない完全自動化を可能にすることができる。

図７は、本発明の一実施形態における、悪質書き込み探知モデルの例を示した図である。図７は、書き込みに対する１億件のデータを学習した類似度モデルを有する事前学習７１０と、書き込みに対する３３万件のデータを学習したファインチューニングモデルを有するファインチューニング７２０を示している。このとき、ファインチューニングモデルは、類似度モデルの共通モデル構造７３０を引き継いでよい。悪質な書き込みを探知するためのファインチューニング７２０では、書き込みが悪質なものであるかに対する正解ラベルをもつ学習データを生成するために人力動員が必要となるため、多数の学習データを生成するには困難がある。この反面、事前学習７１０では、データベースの書き込みが同じ属性であるか否かによって学習データを自動で生成することができるため、相対的に極めて多くのデータを学習することが可能となる。

したがって、ファインチューニング７２０では、事前学習７１０によって学習された類似度モデルの共通モデル構造７３０を引き継ぎながら、悪質な書き込みを探知するために生成された学習データを追加で学習することにより、悪質な書き込みを探知する性能を大幅に高めることができる。ファインチューニング７２０では、類似度モデルの出力関数（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）をファインチューニングのための出力関数と交換することによってファインチューニングモデルを生成する。このとき、共通モデル構造７３０では、実際の実験例で使用された構造として、埋め込みマトリックス（Ｅｍｂｅｄｄｉｎｇｍａｔｒｉｘ）、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）、ＢｉＬＳＴＭ（ｂｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ）、プーリング層（ＰｏｏｌｉｎｇＬａｙｅｒ）を示しているが、これに限定されてはならず、各構成要素はディープラーニングモデルの周知の技術によって理解できるであろう。

上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）および前記ＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に格納されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

３００：転移学習システム
３１０：文書ＤＢ
３２０：類似度モデル
３３０：類似文書ペア集合
３４０：非類似文書ペア集合

Claims

少なくとも１つのプロセッサを含むコンピュータ装置の転移学習方法であって、
前記少なくとも１つのプロセッサにより、文書間の類似度を出力するように類似度モデルを事前学習させる段階、
前記少なくとも１つのプロセッサにより、前記事前学習された類似度モデルの第１出力関数をファインチューニングのための第２出力関数と交換してファインチューニングモデルを生成する段階、および
前記少なくとも１つのプロセッサにより、前記ファインチューニングモデルが入力される文書に対して少なくとも１つのスコアを出力するように前記ファインチューニングモデルを学習させる段階
を含む、転移学習方法。
前記第１出力関数は、Ｎ×Ｍの大きさの行列を掛ける演算を含み、
前記第２出力関数は、Ｋ×Ｍの大きさの行列を掛ける演算を含み、
前記Ｎ、前記Ｍ、および前記Ｋは自然数であること
を特徴とする、請求項１に記載の転移学習方法。
前記ファインチューニングモデルを学習させる段階は、
入力される各文書のＫ個の項目ごとに確率値を算出するＫ分類モデルを前記ファインチューニングモデルとして学習させ、
前記Ｋは自然数であること
を特徴とする、請求項１に記載の転移学習方法。
前記ファインチューニングモデルを学習させる段階は、
入力される文書のスコアと正解ラベルとのＣＥＥ（ＣｒｏｓｓＥｎｔｒｏｐｙＥｒｒｏｒ）を最小化する前記スコアを出力するように前記ファインチューニングモデルを学習させること
を特徴とする、請求項１に記載の転移学習方法。
前記正解ラベルは、前記入力される文書に対して予め決定された、前記入力される文書の悪質な書き込みの有無に対する値を含み、
前記ファインチューニングモデルは、前記入力される文書の悪質な書き込みの有無を前記スコアとして出力するように学習される悪質書き込み探知モデルであること
を特徴とする、請求項４に記載の転移学習方法。
前記事前学習させる段階は、
前記少なくとも１つのプロセッサにより、同じ属性をもつ複数の類似文章ペアを含む類似文章ペア集合およびランダムに抽出された複数の非類似文章ペアを含む非類似文章ペア集合をデータベースから抽出する段階、
前記少なくとも１つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記非類似文章ペアそれぞれに対する意味的類似度を取得する段階、および
前記少なくとも１つのプロセッサにより、前記複数の類似文章ペア、前記複数の非類似文章ペア、および前記意味的類似度を利用して類似度モデルを学習させる段階
を含むことを特徴とする、請求項１に記載の転移学習方法。
前記意味的類似度を取得する段階は、
前記少なくとも１つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記複数の非類似文章ペアそれぞれに対して数学的尺度を利用した数学的類似度を計算する段階、および
前記少なくとも１つのプロセッサにより、前記複数の類似文章ペアそれぞれに対して計算された数学的類似度は増加させる一方、前記複数の非類似文章ペアそれぞれに対して計算された数学的類似度は減少させることにより、前記複数の類似文章ペアそれぞれおよび前記複数の非類似文章ペアそれぞれに対する意味的類似度を計算する段階
を含むことを特徴とする、請求項６に記載の転移学習方法。
前記意味的類似度を計算する段階は、
前記複数の類似文章ペアそれぞれに対して計算された数学的類似度を第１非線形関数に入力して増加させ、前記複数の非類似文章ペアそれぞれに対して計算された数学的類似度を第２非線形関数に入力して減少させ、
前記第１非線形関数および前記第２非線形関数は、前記第１非線形関数が、同一するすべての入力値に対して前記第２非線形関数よりも高い値を算出するという条件を満たす２つの非線形関数であること
を特徴とする、請求項７に記載の転移学習方法。
前記属性は、文書の作成者、文書の掲示セクション、および文書の登録時間範囲のうちの少なくとも１つを含むことを特徴とする、請求項６に記載の転移学習方法。
請求項１～９のうちのいずれか一項に記載の転移学習方法をコンピュータ装置に実行させる、コンピュータプログラム。
請求項１～９のうちのいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサにより、
文書間の類似度を出力するように類似度モデルを事前学習させ、
前記事前学習された類似度モデルの第１出力関数をファインチューニングのための第２出力関数と交換してファインチューニングモデルを生成し、
前記ファインチューニング学習モデルが入力される文書に対して少なくとも１つのスコアを出力するように前記ファインチューニングモデルを学習させること
を特徴とする、コンピュータ装置。
前記第１出力関数は、Ｎ×Ｍの大きさの行列を掛ける演算を含み、
前記第２出力関数は、Ｋ×Ｍの大きさの行列を掛ける演算を含み、
前記Ｎ、前記Ｍ、および前記Ｋは自然数であること
を特徴とする、請求項１２に記載のコンピュータ装置。
前記少なくとも１つのプロセッサにより、
入力される各文書のＫ個の項目ごとに確率値を算出するＫ分類モデルを前記ファインチューニングモデルとして学習させ、
前記Ｋは自然数であること
を特徴とする、請求項１２に記載のコンピュータ装置。
前記少なくとも１つのプロセッサにより、
入力される文書のスコアと正解ラベルとのＣＥＥ（ＣｒｏｓｓＥｎｔｒｏｐｙＥｒｒｏｒ）を最小化する前記スコアを出力するように前記ファインチューニングモデルを学習させること
を特徴とする、請求項１２に記載のコンピュータ装置。
前記事前学習のために、前記少なくとも１つのプロセッサにより、
前記少なくとも１つのプロセッサにより、同じ属性をもつ複数の類似文章ペアを含む類似文章ペア集合およびランダムに抽出された複数の非類似文章ペアを含む非類似文章ペア集合をデータベースから抽出し、
前記少なくとも１つのプロセッサにより、前記複数の類似文章ペアそれぞれおよび前記非類似文章ペアそれぞれに対する意味的類似度を取得し、
前記少なくとも１つのプロセッサにより、前記複数の類似文章ペア、前記複数の非類似文章ペア、および前記意味的類似度を利用して類似度モデルを学習させること
を特徴とする、請求項１２に記載のコンピュータ装置。