[go: up one dir, main page]

JP2025076620A - Verification device, verification method, and verification program - Google Patents

Verification device, verification method, and verification program Download PDF

Info

Publication number
JP2025076620A
JP2025076620A JP2023188309A JP2023188309A JP2025076620A JP 2025076620 A JP2025076620 A JP 2025076620A JP 2023188309 A JP2023188309 A JP 2023188309A JP 2023188309 A JP2023188309 A JP 2023188309A JP 2025076620 A JP2025076620 A JP 2025076620A
Authority
JP
Japan
Prior art keywords
text
supporting
verification
question
contradiction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023188309A
Other languages
Japanese (ja)
Inventor
仁彦 淺尾
Yoshihiko Asao
健太郎 鳥澤
Kentaro Torisawa
龍 飯田
Ryu Iida
鍾勲 呉
Jong Hoon Oh
ジュリアン クロエツェー
Kloetzer Julien
清敬 大竹
Kiyotaka Otake
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2023188309A priority Critical patent/JP2025076620A/en
Priority to PCT/JP2024/037651 priority patent/WO2025094768A1/en
Publication of JP2025076620A publication Critical patent/JP2025076620A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】大規模言語モデルの出力のように、表面上は自然な文であっても虚偽を含むものについて、その内容について検証し、適切な処理が行える検証装置、検証方法、及び検証プログラムを提供する。【解決手段】検証装置64は、入力された文章から、検証対象部分を抽出するテキスト選択部132と、検証対象部分の内容を支持する支持テキストと、検証対象部分の内容と矛盾する矛盾テキストとを既存のテキストの集合から収集するための支持ネットワーク作成部134及び矛盾ネットワーク作成部136と、収集された支持テキスト及び矛盾テキストの間に所定の関係が成立するか否かに従って、検証対象部分を維持する処理と、検証対象部分を編集する処理とを選択的に実行するテキスト編集装置108とを含む。【選択図】図1[Problem] To provide a verification device, verification method, and verification program that can verify the content of sentences that appear natural on the surface but contain falsehoods, such as the output of a large-scale language model, and perform appropriate processing. [Solution] A verification device (64) includes a text selection unit (132) that extracts a verification target portion from an input sentence, a support network creation unit (134) and a contradiction network creation unit (136) that collect, from a collection of existing texts, supporting text that supports the content of the verification target portion and contradiction text that contradicts the content of the verification target portion, and a text editing device (108) that selectively executes a process of maintaining the verification target portion and a process of editing the verification target portion depending on whether a predetermined relationship is established between the collected supporting text and contradiction text. [Selected Figure] Figure 1

Description

この発明は、自然言語処理技術に関し、特に、大規模言語モデルにより生成された自然言語の文章のように、真偽が不明な部分を含む文章などを検証するための技術に関する。 This invention relates to natural language processing technology, and in particular to technology for verifying sentences that include parts whose truth is unknown, such as natural language sentences generated by large-scale language models.

現在、大規模言語モデルが非常に注目されている。特に、大規模言語モデルの中には、オンラインで利用可能であり、プロンプトと呼ばれる文字列を入力することにより、そのプロンプトに続く自然言語文を出力するものがある。そうした大規模言語モデルは、多様な話題に対して様々な文を出力できる。そのため、人々が情報を得たり、新たなアイディアを得たり、文章を作成したりする際に大規模言語モデルを有効に利用できる。 Currently, large-scale language models are attracting a great deal of attention. In particular, some large-scale language models are available online, and when a character string called a prompt is input, they output a natural language sentence following the prompt. Such large-scale language models can output a variety of sentences for a variety of topics. Therefore, large-scale language models can be effectively used when people obtain information, get new ideas, and create sentences.

しかし、大規模言語モデルの出力は、自然な文ではあるものの、その内容が誤りであることがあるという問題がある。基本的には、大規模言語モデルは、予め行われた学習により統計的に獲得したパラメータに従い、各単語の出現確率を計算して出力単語を定めているに過ぎないためである。 However, the output of a large-scale language model, although it is a natural sentence, can contain errors. This is because large-scale language models basically only determine the output words by calculating the probability of each word's occurrence according to parameters acquired statistically through prior learning.

情報処理装置により生成された文章、又は人間により作成された文章について、誤りを検出し、訂正候補を提案する技術として、後掲の特許文献1に開示された技術がある。 Technology for detecting errors and suggesting correction candidates in text generated by an information processing device or in text created by a human being is disclosed in Patent Document 1, which is listed below.

特開2023-83926号公報JP 2023-83926 A

特許文献1に開示された技術は、文章内に文章表現ルールに適合しない表現があるときに、その表現の部分を文章表現ルールに適合するように修正するためのものである。大規模言語モデルの出力のように、出力が自然な表現であるときには、特許文献1に開示された技術は適用できない。 The technology disclosed in Patent Document 1 is intended to correct an expression in a sentence that does not conform to the sentence expression rules so that the expression conforms to the sentence expression rules. When the output is a natural expression, such as the output of a large-scale language model, the technology disclosed in Patent Document 1 cannot be applied.

大規模言語モデルの出力に虚偽が含まれる可能性があることは広く知られているが、その虚偽の部分を修正したり指摘したりするための技術はまだ提案されていない。 It is widely known that the output of large-scale language models may contain falsehoods, but no technology has yet been proposed to correct or point out these falsehoods.

それゆえにこの発明の目的は、大規模言語モデルの出力のように、表面上は自然な文であっても虚偽を含むものについて、その内容について検証し、適切な処理が行える検証装置、検証方法、及び検証プログラムを提供することである。 The object of the present invention is therefore to provide a verification device, verification method, and verification program that can verify the content of sentences that appear natural on the surface but contain falsehoods, such as the output of a large-scale language model, and perform appropriate processing.

この発明の第1の局面に係る検証装置は、入力された文章から、検証対象部分を抽出する対象部分抽出手段と、検証対象部分の内容を支持する支持テキストと、否定する矛盾テキストとを既存のテキストの集合から収集するためのテキスト収集手段と、テキスト収集手段により収集された支持テキストの集合及び矛盾テキストの集合の間に所定の関係が成立するか否かに従って、異なる方法により検証対象部分を編集する処理を実行する選択的編集手段とを含む。 The verification device according to the first aspect of the present invention includes a target portion extraction means for extracting a portion to be verified from an input sentence, a text collection means for collecting supporting text that supports the content of the portion to be verified and contradicting text that denies it from a collection of existing texts, and a selective editing means for executing a process of editing the portion to be verified in a different manner depending on whether a predetermined relationship is established between the collection of supporting text and the collection of contradicting text collected by the text collection means.

好ましくは、テキスト収集手段は、検証対象部分の表現を支持する回答を得るための支持特定質問と、検証対象部分の内容と矛盾する回答を得るための矛盾特定質問とを生成し、それら各質問について、既存のテキストの集合から回答を得る処理を再帰的に実行することにより、支持テキストと矛盾テキストとを収集する回答収集手段とを含む。 Preferably, the text collection means includes an answer collection means that generates support-specific questions for obtaining answers that support the expression of the part to be verified and contradiction-specific questions for obtaining answers that contradict the content of the part to be verified, and collects supporting text and contradictory text by recursively executing a process of obtaining answers from a set of existing texts for each of the questions.

より好ましくは、書換手段は、矛盾テキストのいずれかを所定の基準に従って選択する矛盾テキスト選択手段と、入力された文章のうち、修正後の新たなテキストが挿入される挿入箇所を決定する挿入箇所決定手段と、矛盾テキスト選択手段により選択された矛盾テキストに基づいて新たなテキストを生成し挿入箇所に挿入する挿入手段とを含む。 More preferably, the rewriting means includes a contradictory text selection means for selecting one of the contradictory texts according to a predetermined criterion, an insertion point determination means for determining an insertion point in the input sentence where the new corrected text is to be inserted, and an insertion means for generating new text based on the contradictory text selected by the contradictory text selection means and inserting the new text at the insertion point.

さらに好ましくは、書換手段はさらに、新たなテキストを大規模言語モデルに入力することにより大規模言語モデルが出力するテキストを、新たなテキストに続けて追加するテキスト追加手段を含む。 More preferably, the rewriting means further includes a text adding means for inputting new text into the large-scale language model and adding the text output by the large-scale language model following the new text.

好ましくは、書換手段は、さらに、矛盾テキストの少なくとも一部を削除する削除手段を含む。 Preferably, the rewriting means further includes a deletion means for deleting at least a portion of the contradictory text.

より好ましくは、検証対象部分を編集する処理は、矛盾テキスト又は支持テキストのいずれかを所定の基準に従って選択するテキスト選択処理と、検証対象部分の少なくとも一部を、テキスト選択処理において選択された矛盾テキスト又は支持テキストに基づいて編集する編集処理とを含む。 More preferably, the process of editing the portion to be verified includes a text selection process for selecting either the contradictory text or the supporting text according to a predetermined criterion, and an editing process for editing at least a portion of the portion to be verified based on the contradictory text or the supporting text selected in the text selection process.

さらに好ましくは、検証対象部分を編集する処理は、さらに、新たなテキストを大規模言語モデルに入力することにより大規模言語モデルが出力するテキストを、新たなテキストに続けて追加するテキスト追加処理を含む。 More preferably, the process of editing the portion to be verified further includes a text addition process of inputting new text into the large-scale language model and adding the text output by the large-scale language model immediately following the new text.

好ましくは、検証対象部分を編集する処理は、さらに、矛盾テキストの少なくとも一部を削除する削除手段を含む。 Preferably, the process of editing the portion to be verified further includes a deletion means for deleting at least a portion of the contradictory text.

この発明の第2の局面に係る検証方法は、コンピュータが、入力された文章から、検証対象部分を抽出するステップと、コンピュータが、検証対象部分の内容を支持する支持テキストと、否定する矛盾テキストとを既存のテキストの集合から収集するステップと、コンピュータが、収集するステップにおいて収集された支持テキストの集合及び矛盾テキストの集合の間に所定の関係が成立するか否かに従って、異なる方法に従って検証対象部分を編集する処理を選択的に実行するステップとを含む。 The verification method according to the second aspect of the present invention includes a step in which the computer extracts a portion to be verified from an input sentence, a step in which the computer collects supporting text that supports the content of the portion to be verified and contradicting text that denies the content from a collection of existing text, and a step in which the computer selectively executes a process of editing the portion to be verified according to different methods depending on whether a predetermined relationship is established between the collection of supporting text and the collection of contradicting text collected in the collection step.

この発明の第3の局面に係る検証プログラムは、コンピュータを、入力された文章から、検証対象部分を抽出する対象部分抽出手段と、検証対象部分の内容を支持する支持テキストと、否定する矛盾テキストとを既存のテキストの集合から収集するためのテキスト収集手段と、テキスト収集手段により収集された支持テキスト及び矛盾テキストの間に所定の関係が成立するか否かに従って、異なる方法に従って検証対象部分を編集する処理を実行する選択的編集手段として機能させる。 The verification program according to the third aspect of the present invention causes a computer to function as a target portion extraction means for extracting a portion to be verified from an input sentence, a text collection means for collecting supporting text that supports the content of the portion to be verified and contradicting text that denies it from a collection of existing texts, and a selective editing means for executing a process of editing the portion to be verified according to different methods depending on whether a predetermined relationship is established between the supporting text and contradicting text collected by the text collection means.

この発明の上記及び他の目的、特徴、局面及び利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。 The above and other objects, features, aspects and advantages of the present invention will become apparent from the following detailed description of the present invention taken in conjunction with the accompanying drawings.

図1は、この発明の第1実施形態に係る文章の対話システムの機能的構成を示すブロック図である。FIG. 1 is a block diagram showing the functional configuration of a text dialogue system according to a first embodiment of the present invention. 図2は、図1に示すテキスト選択部の機能的構成を示すブロック図である。FIG. 2 is a block diagram showing the functional configuration of the text selection unit shown in FIG. 図3は、図1に示す矛盾ネットワーク記憶部及び支持ネットワーク記憶部により生成される意味的ネットワークの概略形状を示す図である。FIG. 3 is a diagram showing a schematic shape of a semantic network generated by the contradiction network storage unit and the support network storage unit shown in FIG. 図4は、図1に示す矛盾ネットワーク記憶部の機能的構成を示すブロック図である。FIG. 4 is a block diagram showing the functional configuration of the contradiction network storage unit shown in FIG. 図5は、図1に示すテキスト編集装置の機能を実現するプログラムの制御構造を示すフローチャートである。FIG. 5 is a flowchart representing a control structure of a program implementing the functions of the text editing device shown in FIG. 図6は、代替テキストを生成する処理を実現するテキスト生成装置の構成の1例を示すブロック図である。FIG. 6 is a block diagram showing an example of the configuration of a text generator that realizes the process of generating alternative text. 図7は、この発明の各実施形態に係る対話システムを実現するコンピュータの外観図である。FIG. 7 is an external view of a computer that realizes a dialogue system according to each embodiment of the present invention. 図8は、図7に示すコンピュータのハードウェアブロック図である。FIG. 8 is a hardware block diagram of the computer shown in FIG. 図9は、この発明の第2実施形態に係る対話システムの機能的構成を示すブロック図である。FIG. 9 is a block diagram showing the functional configuration of a dialogue system according to the second embodiment of the present invention. 図10は、図9に示すネットワーク作成部の機能的ブロック図である。FIG. 10 is a functional block diagram of the network creation unit shown in FIG. 図11は、図10に示すネットワーク作成部を実現するためのプログラムの制御構造を示すフローチャートである。FIG. 11 is a flowchart showing a control structure of a program for implementing the network creation unit shown in FIG. 図12は、第2実施形態の変形例において、意味的ネットワークを構築するための再帰的プログラムの制御構造を示すフローチャートである。FIG. 12 is a flowchart showing a control structure of a recursive program for constructing a semantic network in the modification of the second embodiment.

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下に記載する実施形態において、各テキストは実際にはトークン列に変換して処理される。しかし、説明を分かりやすくするために、トークン列への変換及びトークン列からテキストへの逆変換などについては、以下の説明においては具体的には示さない。 In the following description and drawings, the same parts are given the same reference numbers. Therefore, detailed description thereof will not be repeated. Note that in the embodiment described below, each text is actually converted into a token string and then processed. However, to make the description easier to understand, the conversion into a token string and the reverse conversion from a token string to text will not be specifically shown in the following description.

第1実施形態
1 構成
1.1 対話システム50
図1を参照して、この発明の第1実施形態に係る対話システム50は、ユーザがテキスト入力装置60を用いて入力したテキストに応答して、自然言語による応答文を生成し出力する大規模言語モデル62と、大規模言語モデル62の出力である応答文の内容を検証し、必要に応じて応答文を編集して出力するための検証装置64と、検証装置64が応答文の検証に使用するための、インターネット68上の多数のコンピュータと通信可能であり、受けた質問に対する適切な1又は複数の回答をウェブ上から検索するためのウェブベース質問応答システム66と、検証装置64が出力した編集後の応答文をユーザの入力に対する応答として出力するための出力装置70とを含む。
First embodiment 1 Configuration 1.1 Dialogue system 50
Referring to FIG. 1, a dialogue system 50 according to a first embodiment of the present invention includes a large-scale language model 62 that generates and outputs a response sentence in a natural language in response to text input by a user using a text input device 60, a verification device 64 that verifies the content of the response sentence that is the output of the large-scale language model 62 and edits and outputs the response sentence as necessary, a web-based question answering system 66 that is capable of communicating with a number of computers on the Internet 68 and that searches the web for one or more appropriate answers to a received question, and that is used by the verification device 64 to verify the response sentence, and an output device 70 that outputs the edited response sentence output by the verification device 64 as a response to the user's input.

この実施形態においては、大規模言語モデル62は、検証装置64とは別のシステムであり、検証装置64とインターネットを介して通信可能な、独立したシステムである。またテキスト入力装置60は大規模言語モデル62と通信可能であり、出力装置70はテキスト入力装置60と同じ位置に存在していることが想定されている。また、この実施形態において、ウェブベース質問応答システム66も検証装置64とは独立したシステムであり、大規模言語モデル62と同様、様々なユーザからの入力を処理する機能を持っている。なお、ウェブベース質問応答システム66は、一つの質問に対する回答の個数の指定を受けて、一つの質問に対しては指定された個数の回答を上限として出力することが可能だと想定されている。また、この実施形態においては、ウェブベース質問応答システム66が出力する各回答には、その回答が質問に対する回答としてどの程度ふさわしいかを示すスコアが付されている。ウェブベース質問応答システム66に相当するサービスとしては、例えば本願の出願人が提供している「WISDOM X」がある。 In this embodiment, the large-scale language model 62 is a separate system from the verification device 64, and is an independent system capable of communicating with the verification device 64 via the Internet. It is assumed that the text input device 60 can communicate with the large-scale language model 62, and the output device 70 is located at the same location as the text input device 60. In this embodiment, the web-based question answering system 66 is also a system independent of the verification device 64, and has the function of processing inputs from various users, just like the large-scale language model 62. It is assumed that the web-based question answering system 66 is capable of receiving a designation of the number of answers to one question, and outputting up to the designated number of answers to one question. In this embodiment, each answer output by the web-based question answering system 66 is assigned a score indicating how suitable the answer is as an answer to the question. An example of a service equivalent to the web-based question answering system 66 is "WISDOM X" provided by the applicant of the present application.

なお、大規模言語モデル62及びウェブベース質問応答システム66は、この実施形態においては、検証装置64とは別のサービスである。しかし、検証装置64の内部にこれらが備えられていてもよい。また、ウェブベース質問応答システム66としては、質問を受けると、その都度、インターネット68を検索するのではなくてもよい。例えばウェブベース質問応答システム66は、予めインターネット68から多くのテキストを収集して保存しておき、その範囲内において質問に対する回答候補を検索してもよい。また、後述するように、ウェブベース質問応答システム66の一部として、大規模言語モデル62と同様の、予め学習済の大規模言語モデルを利用してもよい。 In this embodiment, the large-scale language model 62 and the web-based question-answering system 66 are separate services from the verification device 64. However, they may be provided inside the verification device 64. Furthermore, the web-based question-answering system 66 does not have to search the Internet 68 each time a question is received. For example, the web-based question-answering system 66 may collect and store a large amount of text from the Internet 68 in advance, and search for answer candidates to a question within that range. Furthermore, as described below, a pre-trained large-scale language model similar to the large-scale language model 62 may be used as part of the web-based question-answering system 66.

1.2 検証装置64
この実施形態において、検証装置64は、大規模言語モデル62の出力の先頭文から順番に処理対象を選択し、各処理対象についてその内容が適切か否かを判定することにより大規模言語モデル62の出力の検証を行う。なお、処理対象としては、文単位でもよいし、重文のように複数個の文が接続されて1文となっている場合には、それら各文を単位としてもよい。また、複文のように1つの文に他の文が埋め込まれている場合には、埋め込まれた文について最初に処理し、次に全体について処理するようにしてもよい。実際には、これらの処理が絡み合って行われることになる。これら処理対象を定める方法としては、ルールベースでもよいし、1文単位の入力を受け、処理対象となるテキストに分解して出力するように予め学習済の機械学習モデルを使用してもよい。
1.2 Verification Device 64
In this embodiment, the verification device 64 selects processing targets in order from the first sentence of the output of the large-scale language model 62, and verifies the output of the large-scale language model 62 by determining whether the contents of each processing target are appropriate. The processing target may be a sentence, or in the case of a compound sentence in which multiple sentences are connected to form one sentence, each sentence may be treated as a unit. In the case of a compound sentence in which another sentence is embedded in one sentence, the embedded sentence may be processed first, and then the entire sentence may be processed. In reality, these processes are performed in a tangled manner. The method of determining these processing targets may be a rule-based method, or a machine learning model that has been trained in advance may be used to receive input in sentence units, break it down into text to be processed, and output it.

検証装置64は、大規模言語モデル62の出力する文内の処理対象のテキストを順に選択し、処理対象のテキストに基づき、その処理対象の内容を支持するテキスト(これらを「支持テキスト」という。)、及び処理対象の内容と矛盾するテキスト(これらを「矛盾テキスト」という。)を、ウェブベース質問応答システム66を使用して収集し、支持テキストからなる意味的ネットワークである支持ネットワーク、及び矛盾テキストからなる意味的ネットワークである矛盾ネットワークを作成するための意味的ネットワーク作成装置102を含む。支持ネットワーク及び矛盾ネットワークについては、図3を参照して後述する。 The verification device 64 includes a semantic network creation device 102 that sequentially selects texts to be processed within sentences output by the large-scale language model 62, collects texts that support the content of the text to be processed (these are called "supporting texts") and texts that contradict the content of the text to be processed (these are called "contradiction texts") using a web-based question-answering system 66, and creates a support network, which is a semantic network made up of supporting texts, and a contradiction network, which is a semantic network made up of contradiction texts. The support network and the contradiction network will be described later with reference to FIG. 3.

検証装置64はさらに、意味的ネットワーク作成装置102が作成する矛盾ネットワーク及び支持ネットワークをそれぞれ記憶するための矛盾ネットワーク記憶部104及び支持ネットワーク記憶部106と、矛盾ネットワーク記憶部104に記憶された矛盾ネットワーク及び支持ネットワーク記憶部106に記憶された支持ネットワークの各々に対して所定の計算方法によりスコアを計算することにより、処理対象のテキストがウェブ上のテキストにより支持されているか、ウェブ上のテキストと矛盾しているかを判定するための支持・矛盾判定部107と、支持・矛盾判定部107による判定結果に従って、処理対象のテキストをそのまま維持する処理と、処理対象のテキストに対して必要な編集を行う処理とを選択的に実行して出力するためのテキスト編集装置108とを含む。矛盾ネットワーク記憶部104及び支持ネットワーク記憶部106は、同じ記憶装置内に設けられてもよいし、互いに異なる記憶装置内に設けられてもよい。またこれら記憶装置は、意味的ネットワーク作成装置102と別の装置内に設けられてもよいし、同じ装置内に設けられてもよい。なお、この実施形態においては、処理対象のテキストがウェブ上のテキストにより支持されていると判定されたときに、処理対象のテキストについてはそのまま維持している。しかし、この発明はそのような実施形態には限定されない。そうしたテキストについても編集を行ってもよい。例えば、処理対象のテキストに青などの下線を引き、収集された支持テキストの集合のうち、処理対象のテキストを支持するテキストとして最もスコアの高いウェブ上の文書へのリンクを付与するようにしてもよい。なお、この実施形態のように何もしない場合も、一つの「編集処理」と考えることができる。 The verification device 64 further includes a contradiction network storage unit 104 and a support network storage unit 106 for respectively storing the contradiction network and the support network created by the semantic network creation device 102, a support/conflict determination unit 107 for determining whether the text to be processed is supported by the text on the web or contradicts the text on the web by calculating a score by a predetermined calculation method for each of the contradiction network stored in the contradiction network storage unit 104 and the support network stored in the support network storage unit 106, and a text editing device 108 for selectively executing and outputting a process of maintaining the text to be processed as is and a process of making necessary edits to the text to be processed according to the determination result by the support/conflict determination unit 107. The contradiction network storage unit 104 and the support network storage unit 106 may be provided in the same storage device or in different storage devices. Furthermore, these storage devices may be provided in a device different from the semantic network creation device 102 or in the same device. In this embodiment, when it is determined that the text to be processed is supported by text on the web, the text to be processed is left as is. However, the invention is not limited to this embodiment. Such text may also be edited. For example, the text to be processed may be underlined in blue or other colors, and a link to the document on the web that has the highest score as text supporting the text to be processed from the collection of collected supporting texts may be added. Note that the case where nothing is done, as in this embodiment, can also be considered as one type of "editing process."

意味的ネットワーク作成装置102は、大規模言語モデル62の出力する自然言語のテキストを記憶するためのテキスト記憶部130と、テキスト記憶部130に記憶されたテキストのうち、処理対象のテキストを選択して順に出力するためのテキスト選択部132と、テキスト選択部132により選択された処理対象のテキストを使用して、それぞれ支持ネットワーク及び矛盾ネットワークを作成するため支持ネットワーク作成部134及び矛盾ネットワーク作成部136とを含む。 The semantic network creation device 102 includes a text storage unit 130 for storing natural language text output by the large-scale language model 62, a text selection unit 132 for selecting text to be processed from the text stored in the text storage unit 130 and outputting it in sequence, and a support network creation unit 134 and a contradiction network creation unit 136 for creating a support network and a contradiction network, respectively, using the text to be processed selected by the text selection unit 132.

テキスト選択部132は、この実施形態においては、テキスト記憶部130に記憶されているテキストを文単位に分解し、さらに、各テキストに対して所定のルールを適用することにより、必要ならばその文をより小さなテキストに分解し、支持ネットワーク作成部134及び矛盾ネットワーク作成部136の各々に順に入力する機能を持つ。もちろん、テキスト選択部132としては、ルールベースでテキストを分解するだけではなく、学習済の機械学習モデルを用いて、入力されたテキストを複数のテキストに分解するようにしてもよい。 In this embodiment, the text selection unit 132 has a function of breaking down the text stored in the text storage unit 130 into sentences, and further breaking down the sentences into smaller texts, if necessary, by applying a predetermined rule to each text, and inputting them in sequence to the support network creation unit 134 and the contradiction network creation unit 136. Of course, the text selection unit 132 may not only break down text based on rules, but also break down the input text into multiple texts using a trained machine learning model.

1.2.1 支持ネットワーク作成部134
図2を参照して、支持ネットワーク作成部134は、テキスト選択部132から処理対象のテキストを受取り、そのテキストの内容を支持する記載をウェブから収集し、支持テキストの候補として出力する処理を、再帰的に実行するための再帰的支持テキスト収集部180を含む。ここで、「テキストの内容を支持する記載をウェブから収集する処理を、再帰的に実行する」ことの意味については後述する。
1.2.1 Support network creation unit 134
2, support network creation unit 134 includes a recursive support text collection unit 180 for recursively executing a process of receiving a text to be processed from text selection unit 132, collecting descriptions supporting the content of the text from the web, and outputting the descriptions as candidate support texts. The meaning of "recursively executing a process of collecting descriptions supporting the content of the text from the web" will be described later.

支持ネットワーク作成部134はさらに、再帰的支持テキスト収集部180により収集された支持テキストの各候補が、処理対象のテキストを適切に支持するものか否かを検証するための支持テキスト検証部182と、支持テキスト検証部182が支持テキストの候補の検証を行う際に使用する、予め学習済の機械学習モデルである支持テキスト検証用モデル184と、支持テキスト検証部182により適切と判定された支持テキストの候補を、支持テキストからなる意味的ネットワークに新たなノードとして追加するための意味的ネットワーク追加部186とを含む。 The support network creation unit 134 further includes a support text verification unit 182 for verifying whether each candidate support text collected by the recursive support text collection unit 180 appropriately supports the text to be processed, a support text verification model 184, which is a pre-trained machine learning model used by the support text verification unit 182 when verifying the candidate support text, and a semantic network addition unit 186 for adding the candidate support text determined to be appropriate by the support text verification unit 182 as a new node to a semantic network consisting of the support text.

図3を参照して、この実施形態において、支持ネットワーク300とは、処理対象のテキストをルートノード310、処理の途中で得られた支持テキストをノード、ある支持テキストから次の支持テキストが得られた場合、これら支持テキストのノードを互いに結ぶ線をエッジとするネットワーク(グラフ)のことをいう。この場合、各エッジは、親ノード(ルートに近いノード)から子ノード(ルートから遠いノード)へのエッジに対応すると考えることができる。同じ質問に対して回答が複数ある場合には、それらを別ノードとし、エッジも別々のものとすればよい。ある支持テキストから次の支持テキストを得る処理は、既に説明したように再帰的に行われるが、その詳細については後述する。 Referring to FIG. 3, in this embodiment, the support network 300 refers to a network (graph) in which the text to be processed is the root node 310, the support texts obtained during processing are nodes, and when a next support text is obtained from a certain support text, the lines connecting these support text nodes are edges. In this case, each edge can be considered to correspond to an edge from a parent node (a node closer to the root) to a child node (a node farther from the root). When there are multiple answers to the same question, they can be treated as separate nodes and the edges can also be separate. The process of obtaining the next support text from a certain support text is performed recursively as already explained, and the details will be described later.

再帰的支持テキスト収集部180は、入力されたテキストから、そのテキストを支持するような回答が期待できる質問(「支持特定質問」と呼ぶ。)を生成するための支持質問生成部210と、支持質問生成部210により生成された質問の各々をウェブベース質問応答システム66(図1)に入力することにより、ウェブベース質問応答システム66から各質問に対する1又は複数の回答を出力させるための質問発行部212と、ウェブベース質問応答システム66が出力する1又は複数の回答を受信し、元になった質問を特定する情報とともに支持テキスト検証部182に出力するための回答受信部214とを含む。なお、支持テキスト検証部182により適切な支持テキストと検証されたテキストは支持質問生成部210にも与えられる。 The recursive supporting text collection unit 180 includes a supporting question generation unit 210 for generating questions (called "support-specific questions") that are expected to produce answers that support the input text from the input text, a question issuing unit 212 for inputting each of the questions generated by the supporting question generation unit 210 into the web-based question answering system 66 (FIG. 1) to output one or more answers to each question from the web-based question answering system 66, and an answer receiving unit 214 for receiving one or more answers output by the web-based question answering system 66 and outputting them to the supporting text verification unit 182 together with information identifying the original question. Note that the text verified as an appropriate supporting text by the supporting text verification unit 182 is also provided to the supporting question generation unit 210.

支持質問生成部210は、処理対象のテキスト選択部132から与えられたテキストに基づいて質問を生成するだけではなく、再帰的支持テキスト収集部180により得られた質問であって、支持テキスト検証部182により選択されたテキストの入力を受け、そのテキストからも質問を生成する。支持質問生成部210はまた、処理対象のテキストから得られた質問の回答に基づいて得られたテキストについてもさらに質問を生成する。このように、再帰的支持テキスト収集部180は、処理対象のテキストだけではなく、処理対象のテキストを支持するテキストについても、その支持テキストを支持するテキストを収集し、さらにそのテキストを支持するテキストを集める、というように動作する。すなわち、再帰的支持テキスト収集部180の動作は再帰的である。 The supporting question generator 210 not only generates questions based on the text provided by the target text selector 132, but also receives input of text obtained by the recursive supporting text collector 180 and selected by the supporting text verifyer 182, and generates questions from that text. The supporting question generator 210 also generates further questions for text obtained based on answers to questions obtained from the target text. In this way, the recursive supporting text collector 180 operates in such a way that it collects text supporting the supporting text, and further collects text supporting the supporting text, not only for the target text, but also for text supporting the target text. In other words, the operation of the recursive supporting text collector 180 is recursive.

支持質問生成部210による質問の生成は以下のように行われる。支持質問生成部210には、最初に処理対象のテキストが入力される。支持質問生成部210は、この処理対象のテキストに対して、所定のルールを適用して1又は複数個の質問を生成する。この実施形態においては、所定のルールには、処理対象のテキストが肯定文なら肯定形の質問となるように、否定文なら否定形の質問文となるようにする、という制約が課される。 Questions are generated by the supporting question generation unit 210 as follows. The supporting question generation unit 210 first receives the text to be processed. The supporting question generation unit 210 applies a predetermined rule to the text to be processed to generate one or more questions. In this embodiment, the predetermined rule imposes a constraint that if the text to be processed is a positive sentence, then the question should be in the positive form, and if the text to be processed is a negative sentence, then the question should be in the negative form.

ここで生成される質問としては、例えば何型質問、YES/NO型質問、なぜ型質問、どのようにして型質問などがある。 The questions that are generated here include, for example, what type questions, yes/no type questions, why type questions, how type questions, etc.

例えば、処理対象のテキストが「地球温暖化対策で自動車をどのように変えたらいいかというと、電気自動車にするのがいい」というものだったとする。 For example, suppose the text to be processed is, "If we want to change our cars to combat global warming, we should make them electric cars."

何型質問とは、例えば「地球温暖化対策で自動車を何にするのがいい?」というように「何」を聞く質問のことをいう。この質問は、もとのテキストの内容に関する情報又はその代替となる情報がウェブ上にあるかを確認する質問である。 A "what" type question is one that asks "what," such as "What type of car should we get to combat global warming?" This type of question is used to check whether information about the content of the original text or alternative information is available on the Web.

YES/NO型質問とは、例えば、「地球温暖化対策で自動車をどのように変えたらいいかというと、電気自動車にするのがいいか?」というように、YES又はNOで回答できる質問のことをいう。この質問は、処理対象のテキストの内容と合致する情報、すなわち処理対象のテキストの内容の根拠となる情報がウェブ上にあるか否かを確認するための質問である。またこの質問は、見方を変えれば、処理対象のテキストの内容と矛盾する情報がウェブ上にあるか否かを確認するための質問であるということもできる。 A YES/NO question is one that can be answered with a YES or NO, such as, "If we want to change our cars to combat global warming, should we switch to electric cars?" This question is asked to check whether there is information on the web that matches the content of the text to be processed, that is, information that serves as the basis for the content of the text to be processed. Looking at it from another perspective, this question can also be said to be a question that checks whether there is information on the web that contradicts the content of the text to be processed.

なぜ型質問とは、例えば、「地球温暖化対策で自動車を変えるとすると、電気自動車にするのがいいのはなぜなのか?」というように、理由を聞く質問のことをいう。この質問は、ウェブ上に処理対象のテキストの根拠があるか否かを確認する質問である。 A why-type question is one that asks for a reason, such as, "If you were to change your car to combat global warming, why would an electric car be a good choice?" This question is used to check whether there is evidence of the text being processed on the web.

どのようにして型質問とは、例えば、「地球温暖化対策で自動車をどのように電気自動車に変えるのがいい?」又は「地球温暖化対策で自動車を電気自動車にするとどうなる?」のような質問である。こうした質問は、処理対象のテキストにより表される事象の経緯又はその後の展開に関する情報をウェブ上において探し、その内容を確認するための質問である。こうした情報がウェブ上にあれば、その内容が望ましいものか否かについて判定ができる。この判定には、自然言語処理のためのモデルを用いることができる。さらに、内容が誰にとって望ましいのかについても同様にモデルを用いて判定できる。 Examples of how-type questions are questions such as "How should we change our cars to electric vehicles to combat global warming?" or "What would happen if we changed our cars to electric vehicles to combat global warming?" These types of questions are used to search the web for information about the history or subsequent developments of the event represented by the text being processed, and to confirm that content. If such information is available on the web, it is possible to determine whether the content is desirable or not. A natural language processing model can be used to make this determination. Furthermore, a model can also be used to determine for whom the content is desirable.

質問のタイプとしては、これら以外にも様々なものが可能である。ただし、この実施形態においては、支持質問生成部210により質問を生成する際のルールとしては、処理対象のテキストの内容と矛盾するものであってはならないことを前提としている。 There are many other possible types of questions. However, in this embodiment, the rule for generating questions by the supporting question generator 210 is that the questions must not contradict the content of the text being processed.

なお、何型質問の場合には、処理対象のテキストと合致する情報とあわせて、他の選択肢に相当する情報が得られる場合がある。例えば「電気自動車」とともに「ハイブリッド自動車」のような情報が得られる場合がある。そうした場合には、処理対象のテキストの後ろに、例えば「(ハイブリッド自動車がよいという意見もあります。)」のようなテキストを追加するような処理も可能である。 In the case of a "what" type question, information corresponding to other options may be obtained along with information that matches the text being processed. For example, information such as "hybrid car" may be obtained along with "electric car." In such a case, it is possible to process the text being processed by adding text such as "(Some people also think that hybrid cars are better.)" after the text being processed.

1.2.2 矛盾ネットワーク作成部136
図4を参照して、矛盾ネットワーク作成部136は、テキスト選択部132から受けた処理対象のテキストを否定形に変換する否定形生成部350と、否定形生成部350から、否定形に変換された処理対象のテキストを受取り、そのテキストの内容を支持する記載、すなわち元の処理対象の内容と矛盾する記載をウェブから収集し、矛盾テキストの候補として出力する処理を、再帰的に実行するための再帰的矛盾テキスト収集部352を含む。ここで、「テキストの内容と矛盾する記載をウェブから収集する処理を、再帰的に実行する」ことの意味については、支持質問生成部210に対して説明したものと同様である。ただし、元になる処理対象のテキストが否定形に変換されているため、そのテキストから得られた質問文に対する回答として収集されるテキストは、元の処理対象テキストと矛盾するテキスト(矛盾テキスト)となる点が支持質問生成部210と異なる。すなわち、否定形生成部350が生成する否定形の質問文は、処理対象のテキストと矛盾する矛盾テキストを特定するための質問(矛盾特定質問)と呼んでもよい。もちろん、矛盾テキストを収集するための質問としてはこれ以外の質問を利用することもできる。例えば、処理対象テキストに出現する特定の名詞、名詞句又は動詞を、その名詞、名詞句又は動詞と反対の意味を持つ名詞、名詞句又は動詞に変えることにより矛盾特定質問を生成してもよい。たとえば「~は無駄だ。」という表現と「~は有用だ。」という表現のような組み合わせ、必ずしも反対語ではないが「減少する。」と「増える。」など、互いに逆の意味として言い換えできるようなものを用いてもよい。
1.2.2 Contradiction Network Creation Unit 136
4, the contradiction network creation unit 136 includes a negated form generation unit 350 that converts the target text received from the text selection unit 132 into a negative form, and a recursive contradictory text collection unit 352 that receives the target text converted into a negative form from the negated form generation unit 350, collects statements supporting the content of the text, i.e., statements contradicting the original target content, from the web, and outputs them as candidates for contradictory text. Here, the meaning of "recursively collecting statements contradictory to the content of the text from the web" is the same as that explained for the supporting question generation unit 210. However, it differs from the supporting question generation unit 210 in that since the original target text is converted into a negative form, the text collected as a response to the question obtained from the text becomes a text contradictory to the original target text (contradiction text). In other words, the negative form question generated by the negative form generation unit 350 may be called a question for identifying a contradictory text that contradicts the target text (contradiction identification question). Of course, questions other than the above can be used as questions for collecting contradictory text. For example, a contradiction-identifying question may be generated by changing a specific noun, noun phrase, or verb that appears in the text to be processed to a noun, noun phrase, or verb that has an opposite meaning to the noun, noun phrase, or verb. For example, a combination such as "~ is useless" and "~ is useful" or expressions that can be paraphrased as the opposite meaning to each other, such as "decreases" and "increases," which are not necessarily antonyms, may be used.

矛盾ネットワーク作成部136はさらに、再帰的矛盾テキスト収集部352により収集された矛盾テキストの各候補が、処理対象のテキストと矛盾するものとして適切か否かを検証するための矛盾テキスト検証部354と、矛盾テキスト検証部354が矛盾テキストの候補の検証を行う際に使用する、予め学習済の機械学習モデルである矛盾テキスト検証用モデル356と、矛盾テキスト検証部354により適切と判定された矛盾テキストの候補を、矛盾テキストからなる意味的ネットワークに新たなノードとして追加するための意味的ネットワーク追加部358とを含む。 The contradiction network creation unit 136 further includes a contradiction text verification unit 354 for verifying whether each contradiction text candidate collected by the recursive contradiction text collection unit 352 is appropriate as being in contradiction with the text to be processed, a contradiction text verification model 356 that is a pre-trained machine learning model used when the contradiction text verification unit 354 verifies the contradiction text candidates, and a semantic network addition unit 358 for adding the contradiction text candidates determined to be appropriate by the contradiction text verification unit 354 as new nodes to a semantic network consisting of contradiction text.

再帰的矛盾テキスト収集部352は、入力されたテキストから、処理対象のテキストと矛盾する回答が期待される質問(矛盾特定質問)を生成するための矛盾質問生成部370と、矛盾質問生成部370により生成された質問の各々をウェブベース質問応答システム66(図1)に入力することにより、ウェブベース質問応答システム66から各質問に対する1又は複数の回答を出力させるための質問発行部372と、ウェブベース質問応答システム66が出力する1又は複数の回答を受信し、元になった質問を特定する情報とともに矛盾テキスト検証部354に出力するための回答受信部374とを含む。なお、矛盾テキスト検証部354により適切な矛盾テキストであると検証されたテキストは、矛盾質問生成部370にも与えられる。矛盾特定質問は、例えば、入力されたテキストを否定形にした上で質問に変形することにより得られる。 The recursive contradictory text collection unit 352 includes a contradictory question generation unit 370 for generating questions (contradiction-specific questions) from the input text that are expected to have answers that contradict the text to be processed, a question issuing unit 372 for inputting each of the questions generated by the contradictory question generation unit 370 to the web-based question answering system 66 (FIG. 1) to output one or more answers to each question from the web-based question answering system 66, and an answer receiving unit 374 for receiving one or more answers output by the web-based question answering system 66 and outputting them to the contradictory text verification unit 354 together with information identifying the original question. Note that the text verified by the contradictory text verification unit 354 as being an appropriate contradictory text is also provided to the contradictory question generation unit 370. The contradiction-specific questions can be obtained, for example, by negating the input text and then transforming it into a question.

矛盾質問生成部370は、否定形生成部350から与えられたテキストに基づいて質問を生成するだけではなく、再帰的矛盾テキスト収集部352により得られた質問であって矛盾テキスト検証部354により選択されたテキストからも質問を生成する。矛盾質問生成部370は、さらに、処理対象のテキストを否定形に変換したテキストから得られた質問の回答に基づいて再帰的テキスト収集部800により得られたテキストについても、さらに質問を生成する。再帰的矛盾テキスト収集部352は、こうした処理を繰り返す。すなわち、再帰的矛盾テキスト収集部352の動作も再帰的である。 The contradictory question generator 370 not only generates questions based on the text provided by the negative form generator 350, but also generates questions from the questions obtained by the recursive contradictory text collector 352 and selected by the contradictory text verification unit 354. The contradictory question generator 370 further generates questions for the text obtained by the recursive text collector 800 based on the answers to questions obtained from the text obtained by converting the target text into a negative form. The recursive contradictory text collector 352 repeats this process. In other words, the operation of the recursive contradictory text collector 352 is also recursive.

なお、矛盾ネットワーク作成部136において、処理対象となるテキストが否定形に変換される。再帰的矛盾テキスト収集部352における処理と、矛盾テキスト検証部354、矛盾テキスト検証用モデル356、及び意味的ネットワーク追加部358による処理は、実質的に、それぞれ、図2に示す再帰的支持テキスト収集部180、支持テキスト検証部182及び意味的ネットワーク追加部186と同じだが、最初の入力が否定形に変換されているため、矛盾ネットワーク作成部136により得られるテキストはいずれも矛盾テキストとなる。 The text to be processed is converted to a negative form in the contradiction network creation unit 136. The processing in the recursive contradiction text collection unit 352 and the processing by the contradiction text verification unit 354, the contradiction text verification model 356, and the semantic network addition unit 358 are substantially the same as those in the recursive supporting text collection unit 180, the supporting text verification unit 182, and the semantic network addition unit 186 shown in FIG. 2, respectively, but because the initial input is converted to a negative form, all texts obtained by the contradiction network creation unit 136 are contradictory texts.

矛盾質問生成部370による質問の生成は、図2に示す支持質問生成部210によるものと実質的に同じである。 The generation of questions by the contradiction question generator 370 is substantially the same as that by the supporting question generator 210 shown in FIG. 2.

例えば、処理対象のテキストが「地球温暖化対策で自動車をどのように変えたらいいかというと、電気自動車にするのがいい」というものだったとする。否定形生成部350により、この質問が「地球温暖化対策で自動車をどのように変えたらいいかというと、電気自動車にするのはよくない」となる。 For example, suppose the text to be processed is, "When it comes to how cars should be changed to combat global warming, electric cars are a good idea." The negative form generation unit 350 changes this question to, "When it comes to how cars should be changed to combat global warming, electric cars are not a good idea."

これに対する何型質問とは、例えば「地球温暖化対策で自動車を何にするのがよくない?」というように「何」を聞く質問のことをいう。この質問は、もとのテキストの内容を否定する情報又はその代替となる情報がウェブ上にあるかを確認する質問となる。 A "what" type question is one that asks "what," such as "What kind of car would be a good way to combat global warming?" This question is used to check whether there is information on the web that contradicts the content of the original text or alternative information.

矛盾テキストに関するYES/NO型質問とは、例えば、「地球温暖化対策で自動車を電気自動車にするのはよくないか?」となる。処理対象のテキストを否定した内容と合致する情報がウェブ上にあるか否かを確認するための質問である。 An example of a yes/no question about contradictory text is, "Isn't it a good idea to switch to electric cars as a measure against global warming?" This is a question to check whether there is information on the web that matches the negation of the text being processed.

なぜ型質問は、例えば、「地球温暖化対策で自動車を変えるとすると、電気自動車にするのがよくないのはなぜなのか?」となる。この質問は、ウェブ上に処理対象のテキストを否定する根拠があるか否かを確認する質問である。 An example of a why-type question would be, "If we were to change our car to combat global warming, why would it be bad to switch to an electric car?" This question is used to check whether there is evidence on the web that denies the text being processed.

どのようにして型質問とは、例えば、「地球温暖化対策で自動車をどのようにして電気自動車に変えない?」又は「地球温暖化対策で自動車を電気自動車にしないとどうなる?」のような質問となる。こうした質問は、処理対象のテキストを否定する事象の経緯又はその後の展開に関する情報がウェブ上にあるか否かを確認する質問である。こうした情報がウェブ上にあれば、処理対象のテキストを否定した内容が事実である可能性が高い。 Examples of how-type questions are questions such as "How can we avoid switching to electric cars as a measure against global warming?" or "What would happen if we didn't switch to electric cars as a measure against global warming?" These types of questions are used to check whether there is information on the Web about the history or subsequent developments of an event that negates the text being processed. If such information is available on the Web, then there is a high possibility that the content that negates the text being processed is a fact.

質問のタイプとしては、これら以外にも様々なものが可能である。ただし、図2の支持質問生成部210とは異なり、矛盾質問生成部370により質問を生成する際のルールは、処理対象のテキストの内容と矛盾するような回答を得るための質問を生成するものでなければならない。別の言い方をすれば、矛盾質問生成部370により質問を生成する際のルールは、処理対象のテキストと矛盾した内容と整合する質問を生成するようなものでなければならない。 There are many other possible types of questions. However, unlike the supporting question generator 210 in FIG. 2, the rules for generating questions by the contradictory question generator 370 must be such that they generate questions that will elicit answers that contradict the content of the text being processed. In other words, the rules for generating questions by the contradictory question generator 370 must be such that they generate questions that are consistent with content that contradicts the text being processed.

なお、支持ネットワーク作成部134による再帰的な支持テキストの収集処理、及び再帰的矛盾テキスト収集部352による再帰的な矛盾テキストの収集処理は、適切な終了条件が充足された時点で終了させる必要がある。終了条件としては、例えば、テキストの生成を開始してから生成されたテキスト又はその候補の数が上限に達したとき、という条件が可能である。又は、テキストの生成を開始してから生成された質問の数が上限に達したとき、という条件も終了条件として可能である。他には、生成されたテキストの数と質問の数との和が上限に達したとき、という条件も可能である。 The recursive support text collection process by the support network creation unit 134 and the recursive contradiction text collection process by the recursive contradiction text collection unit 352 must be terminated when an appropriate termination condition is met. The termination condition can be, for example, when the number of texts or their candidates generated since the start of text generation reaches an upper limit. Alternatively, the termination condition can be when the number of questions generated since the start of text generation reaches an upper limit. Another possible condition is when the sum of the number of generated texts and the number of questions reaches an upper limit.

また、支持質問及び否定質問の生成時に、1つの入力対象のテキストについて生成される質問の数に上限を設けたり、1つの質問に対して得られる回答(支持テキストの候補又は矛盾テキストの候補)の数に上限を設けたりしてもよい。さらに、1つの質問に対して得られる回答については、一定のスコア(信頼度)以上のものに限定してもよい。 When generating supporting and negative questions, an upper limit may be placed on the number of questions that can be generated for one input text, or on the number of answers (candidate supporting text or candidate contradictory text) that can be obtained for one question. Furthermore, answers that can be obtained for one question may be limited to those with a certain score (confidence) or higher.

質問の生成は、支持ネットワーク300により示されるような意味的ネットワークを生成しながら行われる。この際、ネットワークを生成する順序として、深さ方向優先と幅方向優先との双方が可能である。深さ方向優先の場合には、一定の深さ(層)に達した時点でその先の探索をやめてバックトラックさせることが望ましい。また幅方向優先の場合には、一定の深さ(層)に達した時点において、又は一定以上のスコアが得られなかった時点において、ネットワークの生成自体を終了させるようにしてもよい。 Questions are generated while generating a semantic network such as that shown by the support network 300. In this case, the order in which the network is generated can be either depth-first or breadth-first. In the case of depth-first, it is desirable to stop searching once a certain depth (layer) is reached and backtrack. In the case of breadth-first, the generation of the network itself may be terminated once a certain depth (layer) is reached or once a score above a certain level is not obtained.

1.2.3 支持・矛盾判定部107及びテキスト編集装置108
図1に示す支持・矛盾判定部107及びテキスト編集装置108をコンピュータにより実現するためのプログラムの制御構造を図5に示す。図5を参照して、このプログラムは、支持ネットワークと矛盾ネットワークとの双方の生成が完了した後に実行される。このプログラムは、支持ネットワークに付与されるスコアSpと、矛盾ネットワークに付与されるスコアSnとを算出するステップ400と、ステップ400において算出されたスコアSp及びSnにより、処理対象のテキストの内容の信頼度を算出するステップ402とを含む。
1.2.3 Support/Contradiction Determination Unit 107 and Text Editing Device 108
Fig. 5 shows a control structure of a program for implementing the support/contradiction determination unit 107 and the text editing device 108 shown in Fig. 1 by a computer. Referring to Fig. 5, this program is executed after the generation of both the support network and the contradiction network is completed. This program includes step 400 of calculating a score Sp to be assigned to the support network and a score Sn to be assigned to the contradiction network, and step 402 of calculating the reliability of the content of the text to be processed based on the scores Sp and Sn calculated in step 400.

スコアSp及びSnの算出方法としては様々なものが考えられる。例えば、以下のようなものが考えられる。 There are various possible methods for calculating the scores Sp and Sn. For example, the following methods are possible:

A)得られたテキスト(支持テキスト又は矛盾テキスト)、すなわちノードの数の総和
B)意味的ネットワークの生成途中において生成された質問(すなわちエッジ)の数の総和
C)ノードの数とエッジの数との総和
D)各支持テキストに付与されるスコアの総和と、各矛盾テキストに付与されるスコアの総和(各テキストのスコアとしては、支持テキストについて支持テキスト検証用モデル184により出力されたスコアを用いることができる。矛盾テキストについても同様。各テキストのスコアとして定数を割り当てることもできる。この定数を「1」とすると、上記C)と同様となる。)
E)上記した種々の総和の算出において、各ノードとルートノードとの距離(距離としては、例えば各ノードとルートノードとの間に介在するエッジの数、また各ノードとルートノードとの間に介在するノードの数などを用いることができる。)が大きくなるに従って小さくなるような重みを、各ノードのスコアに乗じて得た値
A) The sum of the obtained texts (supporting texts or contradicting texts), i.e., the total number of nodes. B) The sum of the number of questions (i.e., edges) generated during the generation of the semantic network. C) The sum of the number of nodes and the number of edges. D) The sum of the scores assigned to each supporting text and the sum of the scores assigned to each contradicting text. (The score output by the supporting text verification model 184 for the supporting text can be used as the score for each text. The same applies to the contradicting text. A constant can also be assigned as the score for each text. If this constant is set to "1", the result will be the same as C) above.)
E) In the calculation of the various sums described above, a weight that decreases as the distance between each node and the root node increases (for example, the number of edges between each node and the root node, or the number of nodes between each node and the root node, etc. can be used as the distance) is multiplied by the score of each node.

なお、上記実施形態においては、支持ネットワーク作成部134は支持テキストのみを、矛盾ネットワーク作成部136は矛盾テキストのみを収集している。しかし、この発明はそのような実施形態には限定されない。各意味的ネットワークに属する各テキストのスコアを計算するにあたり、例えば支持ネットワークの構築の際に、「支持テキストの一部と矛盾する」テキストが見つかる場合もある。そうした場合は支持ネットワークの有効性が減少することになる。「矛盾テキスト」に関しても、その矛盾テキストに関する矛盾特定質問等によって、それと矛盾するテキストが見つかった場合には、同様に、矛盾ネットワークの有効性が減少することになる。こうした矛盾の関係は再帰的に続けることができる。その過程において、矛盾の矛盾は、結局、ネットワークの有効性を増やす方向に働く。また、「矛盾の矛盾の矛盾」はネットワークの有効性を減らす方向に働く。スコアSp及びSnの計算においてはこれらの事情を考慮することが望ましい。 In the above embodiment, the support network creation unit 134 collects only the supporting texts, and the contradiction network creation unit 136 collects only the contradiction texts. However, the present invention is not limited to such an embodiment. When calculating the score of each text belonging to each semantic network, for example, when constructing a support network, a text that "contradicts a part of the supporting text" may be found. In such a case, the effectiveness of the support network will decrease. Similarly, when a contradictory text is found by a contradiction identification question regarding the contradiction text, the effectiveness of the contradiction network will decrease. Such contradiction relationships can continue recursively. In the process, the contradiction of the contradiction will ultimately work to increase the effectiveness of the network. Also, the "contradiction of the contradiction of the contradiction" will work to decrease the effectiveness of the network. It is desirable to take these circumstances into consideration when calculating the scores Sp and Sn.

こうしたことから、支持ネットワーク、矛盾ネットワークのスコアの計算については、二通りの処理を行うと好ましい。 For this reason, it is preferable to use two different processes to calculate the scores of the support network and contradiction network.

第1は、これら各意味的ネットワークの中の各テキストに関する矛盾テキストもその意味的ネットワークの構成要素に含まれると考えることである。この場合、その意味的ネットワークのスコアについては、そのテキストのスコアに応じて減じることが合理的である。 The first is to consider that the contradictory texts for each text in each of these semantic networks are also included as components of that semantic network. In this case, it is reasonable to reduce the score of the semantic network according to the score of that text.

第2は、上記したようなテキストを、他方の意味的ネットワークの中に移動する、という考え方である。この場合には、例えば各意味的ネットワークに属するテキストのスコアに適切な重みを乗じたものの総和をその意味的ネットワークのスコアとするような操作が合理的である。なお、例えば支持ネットワーク構築の際に見つかった矛盾テキストは、矛盾ネットワーク内の任意のノードの子ノードとして追加すればよい。ただし、例えばルートノードの直下に追加する、そのテキストが見つかった階層と同じ階層(又は一つ上の改装)の任意のノードの子ノードとして追加する、など、一定の方針に従ってノードの移動を行うことが望ましい。 The second is the idea of moving the text mentioned above into the other semantic network. In this case, it is reasonable to operate it so that the score of the semantic network is the sum of the scores of the text belonging to each semantic network multiplied by an appropriate weight. Incident text found, for example, when constructing a support network, can be added as a child node of any node in the contradiction network. However, it is desirable to move the node according to a certain policy, such as adding it directly under the root node, or adding it as a child node of any node at the same level (or one level above) as the level where the text was found.

第1の場合も第2の場合も、考え方としては同じである。すなわち、各意味的ネットワークの有効性を示すスコアは、おおむねそのサイズにより決定される。しかし、ネットワーク内に、その意味的ネットワークの意味(支持/矛盾)に反する意味を持つテキストがあった場合には、そのスコアは、そのテキストに応じた値だけ減じられるようにするということである。 In both the first and second cases, the idea is the same: the score indicating the effectiveness of each semantic network is determined largely by its size. However, if there is text in the network whose meaning contradicts the meaning of the semantic network (supporting/contradicting), the score is reduced by an amount corresponding to that text.

加えて、再帰的にこうした操作を繰り返すと、得られるテキストとオリジナルの文章の真偽との間の関係が薄くなっていくと考えられる。したがって、上記したとおり、再帰の段数に従って、ネットワークの有効性への影響は減らしていくことが望ましい。こうした点も考慮すると、各意味的ネットワークのスコアについては、サイズを基本としつつ、再帰的に特定される矛盾テキストの存在と、そこに至るまでの再帰の段数等を考慮した加減算等を行って計算することが望ましい。 In addition, it is believed that when these operations are repeated recursively, the relationship between the obtained text and the truth of the original sentence becomes weaker. Therefore, as mentioned above, it is desirable to reduce the impact on the effectiveness of the network according to the number of recursive stages. Taking this into consideration, it is desirable to calculate the score of each semantic network based on its size, while also performing additions and subtractions that take into account the presence of contradictory text identified recursively and the number of recursive stages leading up to that point.

支持・矛盾判定部107による判定において、最も単純なのは、支持ネットワークと矛盾ネットワークとのうち、スコアの大きな方を採用する、というルールに従うことである。例えばSp>Snであれば、処理対象のテキストの内容には信頼がおける、と判断し、Sp<Snであれば処理対象のテキストの内容には信頼がおけない、と判断すればよい。すなわち、SpとSnとの和に対するSpの割合を信頼度とする。そして、Sp>1/2なら対象テキストは信頼できると判定し、Sp<1/2なら信頼できないと判定する。 The simplest method for the support/contradiction determination unit 107 to make a judgment is to follow the rule that the support network or the contradiction network with the larger score is adopted. For example, if Sp>Sn, it is determined that the content of the text to be processed is reliable, and if Sp<Sn, it is determined that the content of the text to be processed is unreliable. In other words, the ratio of Sp to the sum of Sp and Sn is taken as the reliability. If Sp>1/2, the target text is determined to be reliable, and if Sp<1/2, it is determined to be unreliable.

この実施形態においては、信頼度の計算は上記したとおりの信頼度を使用する。しかし、この信頼度と比較される対象として、この実施形態においては、例えば1/2より大きな第1しきい値と、1/2より小さな第2しきい値とを設ける。すなわち、図5を参照して、このプログラムはさらに、信頼度が第1しきい値より大きいか否かに従って制御の流れを分岐させるステップ404と、ステップ404における判定が肯定的なときに、処理対象のテキストを信頼できるものとし、支持ネットワークのノードの中で最もスコアが高かったノードに対応するテキスト(及びそのテキスト又はそのテキストを含むパッセージのURL(Uniform Resource Locator))を、その処理対象のテキストの根拠を示すものとして文書内のその処理対象のテキスト部分に注釈又はリンクなどの形で埋めこむよう文書を編集するステップ406とを含む。なお、ステップ406においては、特に文書を変更しないようにしてもよい(変更しないことも「編集」の一種である。)。又は、その部分に信頼がおけることを示すように、処理対象のテキスト部分を太字で示したり、緑の下線を引いたりする編集を行ってもよい。 In this embodiment, the reliability is calculated using the reliability as described above. However, in this embodiment, for example, a first threshold value larger than 1/2 and a second threshold value smaller than 1/2 are set as targets to be compared with the reliability. That is, referring to FIG. 5, the program further includes step 404 for branching the flow of control according to whether the reliability is greater than the first threshold value, and step 406 for editing the document when the determination in step 404 is positive, in which the text to be processed is deemed reliable and the text corresponding to the node with the highest score among the nodes in the support network (and the URL (Uniform Resource Locator) of that text or a passage containing that text) is embedded in the text portion of the document in the form of an annotation or link, etc., as an indication of the basis of the text to be processed. Note that in step 406, the document may not be changed in particular (not changing is also a type of "editing"). Alternatively, the text portion to be processed may be edited by showing it in bold or underlining it in green to indicate that the portion is reliable.

なお、ステップ404の判定は上記したものに限らない。例えば、スコアSpの値が所定のしきい値を超えているときには、スコアSnの値にかかわらず、ステップ404の判定が肯定となるようにしてもよい。逆に、スコアSnの値が所定のしきい値を超えているときには、スコアSpの値にかかわらず、ステップ404の判定が否定となるようにしてもよい。さらに、両者ともその値がしきい値を超えているときには、値が大きな方を採用するようにしてもよい。スコアSp及びSnによる判定については、これ以外にも様々な方法が考えられる。 The judgment in step 404 is not limited to the above. For example, when the value of score Sp exceeds a predetermined threshold, the judgment in step 404 may be positive regardless of the value of score Sn. Conversely, when the value of score Sn exceeds a predetermined threshold, the judgment in step 404 may be negative regardless of the value of score Sp. Furthermore, when both values exceed the threshold, the larger value may be adopted. There are various other possible methods for making judgments based on scores Sp and Sn.

このプログラムはさらに、ステップ404における判定が否定的な時に、信頼度が第2しきい値より小さいか否かに従って制御の流れを分岐させるステップ408と、ステップ408における判定が肯定的なときに、矛盾テキストの中で最もスコアが高かったものを用いて、処理対象のテキストの少なくとも一部を削除し、削除された部分、又はそのほか、もとの文の文型から定まる適切な箇所に、矛盾テキストの内容に従った代替テキストを追加することにより、処理対象のテキストを変更するステップ410と、ステップ408における判定が否定的なときに、処理対象のテキスト部分に、その部分は信頼がおけるともおけないとも判断できないことを示すような、何らかの編集を行うステップ412とを含む。ステップ412における編集としては、例えば、該当する文字列は変更せず、その部分に赤い下線を引いたりすることが考えられる。場合によっては、該当する文字列は変更せずに、その後にかっこ書きで矛盾テキストの中で最もスコアの高かったテキストを引用し、「(この部分については、…(引用部分)…のような意見もある。)」というような文字列を追加してもよい。 This program further includes step 408, when the determination in step 404 is negative, branching the flow of control according to whether the reliability is less than a second threshold value; step 410, when the determination in step 408 is positive, modifying the text to be processed by deleting at least a part of the text to be processed using the text with the highest score among the contradictory texts and adding alternative text according to the content of the contradictory text to the deleted part or other appropriate part determined from the sentence pattern of the original sentence; and step 412, when the determination in step 408 is negative, performing some kind of editing on the part of the text to be processed to indicate that the part cannot be judged to be reliable or unreliable. As an example of editing in step 412, it is possible to leave the relevant character string unchanged and underline the part in red. In some cases, it is also possible to leave the relevant character string unchanged and add a character string such as "(Regarding this part, there are also opinions such as ... (quoted part) ...)" after the text with the highest score among the contradictory texts in parentheses.

このプログラムはさらに、ステップ404における判定が肯定的でかつステップ406の処理が完了した後、又は、ステップ404における判定が否定的で、かつステップ408における判定の結果、ステップ410又はステップ412の処理が完了した後に実行され、編集後のテキストにより、テキスト記憶部130に記憶されているテキストを更新するステップ414と、テキスト記憶部130に記憶されているテキストのうち、編集箇所の次のテキストを処理対象として選択し、上記した処理を開始するようにテキスト選択部132(図1を参照)に指示した後、現在の処理対象のテキストに対する処理を終了するステップ416とを含む。 This program further includes step 414, which is executed after the determination in step 404 is positive and the processing in step 406 is completed, or after the determination in step 404 is negative and, as a result of the determination in step 408, the processing in step 410 or step 412 is completed, for updating the text stored in the text storage unit 130 with the edited text, and step 416, which selects the text next to the edited portion from the text stored in the text storage unit 130 as the processing target, instructs the text selection unit 132 (see FIG. 1) to start the above-mentioned processing, and then ends the processing on the current text to be processed.

図6は、例えば図1に示すテキスト編集装置108のうち、図5に示すステップ410において使用される代替テキストを生成する処理を実現するテキスト生成装置420の構成の1例を示す。図6を参照して、テキスト生成装置420は、テキスト記憶部130に記憶されている原テキスト、及び矛盾テキストなどを含む入力430に応答して、原テキストの一部を削除し、所定位置に矛盾テキストを挿入する編集を行って出力するためのテキスト交換部432を含む。 Figure 6 shows an example of the configuration of a text generator 420 that realizes the process of generating alternative text used in step 410 shown in Figure 5, for example, in the text editing device 108 shown in Figure 1. Referring to Figure 6, the text generator 420 includes a text exchange unit 432 that responds to an input 430 including original text stored in the text storage unit 130, contradictory text, etc., and performs editing by deleting a part of the original text and inserting contradictory text at a predetermined position, and outputs the edited text.

テキスト交換部432への入力430は、テキスト記憶部130に記憶されている原テキストを含む。この原テキストのうち、処理対象のテキストの開始位置及び終了位置のトークンにはそれぞれラベルが付されている。入力430はさらに、編集の際に使用される矛盾テキストを含む。この矛盾テキストは、矛盾ネットワークの第1層に含まれる矛盾テキストのうち、最もスコアが高いものである。入力430はさらに、この矛盾テキストが得られたときの質問の種類を示す情報を含む。 The input 430 to the text exchange unit 432 includes the original text stored in the text storage unit 130. In this original text, the tokens at the start and end positions of the text to be processed are labeled. The input 430 further includes the contradiction text used during editing. This contradiction text is the highest-scoring contradiction text included in the first layer of the contradiction network. The input 430 further includes information indicating the type of question when this contradiction text was obtained.

テキスト交換部432は、この実施形態においては、テキスト交換用モデル436を使用してこの処理を行う。テキスト交換用モデル436への入力434は、原テキストのうち、処理対象のテキストと、その前後の所定長(例えば前後1文ずつ)のテキストと、交換されるテキストの元になる矛盾テキストとである。テキスト交換用モデル436は、入力されたテキストのうち、処理対象のテキストの一部を、矛盾テキスト又は矛盾テキストの一部により置き換えて交換後テキスト438として出力する機能を持つ。テキスト交換用モデル436は、処理対象のどの部分を矛盾テキストのどの部分により置換するか、及び、置換される部分の前後をどのように修正すべきかについて、質問の種類により決めるように予め訓練されている。テキスト交換用モデル436による交換の態様は、質問の種類により異なる。 In this embodiment, the text exchange unit 432 performs this process using a text exchange model 436. The input 434 to the text exchange model 436 is the original text, the text to be processed, a predetermined length of text before and after it (for example, one sentence before and after), and the contradictory text that is the source of the exchanged text. The text exchange model 436 has the function of replacing a part of the input text to be processed with the contradictory text or a part of the contradictory text, and outputting it as exchanged text 438. The text exchange model 436 is trained in advance to determine which part of the text to be processed should be replaced with which part of the contradictory text, and how the part before and after the replaced part should be modified, depending on the type of question. The mode of exchange by the text exchange model 436 differs depending on the type of question.

テキスト生成装置420はさらに、大規模言語モデル446と、テキスト交換部432が出力する編集後のテキスト440と、そのテキストの基礎となった質問の種類を示す情報442とに基づき、大規模言語モデル446への入力となるプロンプトを作成し、大規模言語モデル446に入力するためのプロンプト作成部444と、大規模言語モデル446の出力するテキスト448を、テキスト交換部432から出力される編集後のテキスト440の末尾に追加することによりテキストを統合し、テキスト記憶部130に記憶されている原テキストを新たなテキストにより置換し、編集後テキスト452として出力する処理を行うためのテキスト統合部450とを含む。テキスト統合部450はまた、図1に示すように、テキスト選択部132に対して、新たなテキストにおいて、編集箇所の直後から処理を続行するように指示を行う。テキスト選択部132によって選択されるテキストが終了すれば、大規模言語モデル62の出力するテキストに対する検証処理が終了する。なお、処理対象のテキストがテキスト記憶部130に記憶されているテキストの末尾に近づいた場合には、大規模言語モデル446から出力されるテキストの長さを制限することにより、終了時期を早めるようにしてもよい。 The text generator 420 further includes a prompt creation unit 444 for creating a prompt to be input to the large-scale language model 446 based on the large-scale language model 446, the edited text 440 output by the text exchange unit 432, and information 442 indicating the type of question on which the text is based, and inputting the prompt to the large-scale language model 446, and a text integration unit 450 for integrating the text by adding the text 448 output by the large-scale language model 446 to the end of the edited text 440 output by the text exchange unit 432, replacing the original text stored in the text storage unit 130 with the new text, and outputting it as edited text 452. As shown in FIG. 1, the text integration unit 450 also instructs the text selection unit 132 to continue processing in the new text from immediately after the edited portion. When the text selected by the text selection unit 132 is finished, the verification process for the text output by the large-scale language model 62 is finished. In addition, if the text to be processed approaches the end of the text stored in the text storage unit 130, the end time may be brought forward by limiting the length of the text output from the large-scale language model 446.

2 動作
上記第1実施形態に係る対話システム50は以下のように動作する。ユーザがテキスト入力装置60を用いて大規模言語モデル62にプロンプトを入力することにより、大規模言語モデル62はテキストを出力する。このテキストは原テキストとしてテキスト記憶部130に記憶される。
2 Operation The dialogue system 50 according to the first embodiment operates as follows: When a user inputs a prompt to the large-scale language model 62 using the text input device 60, the large-scale language model 62 outputs text. This text is stored in the text storage unit 130 as original text.

テキスト選択部132は、テキスト記憶部130の先頭の文を選択し、必要ならさらにこの文を処理対象のテキストからなる部分に分割して、その先頭部分を処理対象のテキストとして支持ネットワーク作成部134及び矛盾ネットワーク作成部136に入力する。 The text selection unit 132 selects the first sentence in the text storage unit 130, and if necessary, further divides this sentence into portions that comprise the text to be processed, and inputs the first portion of the selected portion to the support network creation unit 134 and the contradiction network creation unit 136 as the text to be processed.

支持ネットワーク作成部134の支持質問生成部210(図2)は、入力された処理対象のテキストに基づいて、支持テキストを得るための1又は複数の質問を生成する。質問発行部212がそれらの質問をウェブベース質問応答システム66に与える。ウェブベース質問応答システム66は、与えられた各質問に対する1又は複数の回答をインターネット68において検索し、支持ネットワーク作成部134の回答受信部214に与える。回答受信部214は、ウェブベース質問応答システム66から受信した回答と、質問発行部212が質問を生成する基礎としたテキスト(処理対象のテキスト又は支持テキスト)とを支持テキスト検証用モデル184に入力し、ウェブベース質問応答システム66から得られた回答が、その基礎となったテキストの内容を支持するものか否かを判定する。回答受信部214は、得られた回答が、基礎となったテキストを支持する(根拠となる)ものである場合には、その回答を採用し意味的ネットワーク追加部186に与え、そうでない場合にはその回答を破棄する。 The supporting question generator 210 (FIG. 2) of the support network creator 134 generates one or more questions for obtaining supporting text based on the input text to be processed. The question generator 212 provides these questions to the web-based question answering system 66. The web-based question answering system 66 searches the Internet 68 for one or more answers to each given question, and provides them to the answer receiver 214 of the support network creator 134. The answer receiver 214 inputs the answers received from the web-based question answering system 66 and the text (the text to be processed or the supporting text) on which the question generator 212 generated the questions to the supporting text verification model 184, and determines whether the answers obtained from the web-based question answering system 66 support the content of the text on which they were based. If the obtained answers support (serve as evidence) the text on which they were based, the answer receiver 214 adopts the answers and provides them to the semantic network adder 186, and if not, discards the answers.

支持ネットワーク作成部134の支持質問生成部210はさらに、ウェブベース質問応答システム66から得られた回答のうち、支持テキスト検証部182により採用された回答の各々についてさらに上記した方法を繰り返し、それぞれ回答を得て、その基礎となる支持テキストを支持するテキストを採用する。このように支持ネットワーク作成部134は、最初の入力に対する支持テキストを求め、さらにその支持テキストに対する支持テキストを求め、さらにその支持テキストを支持する支持テキストを求める、というように再帰的な処理を行う。支持ネットワーク作成部134の意味的ネットワーク追加部186は、取得した支持テキストにより支持ネットワークを作成し、支持ネットワーク記憶部106に格納する。支持ネットワーク作成部134は、得られた支持テキストの総数が上限に達した時点においてこの処理を終了する。 The supporting question generator 210 of the support network creator 134 further repeats the above-mentioned method for each answer adopted by the supporting text verification unit 182 among the answers obtained from the web-based question answering system 66, obtains each answer, and adopts text that supports the underlying supporting text. In this way, the support network creator 134 performs recursive processing, such as obtaining supporting text for the initial input, obtaining supporting text for that supporting text, and obtaining supporting text that supports that supporting text. The semantic network adder 186 of the support network creator 134 creates a support network from the obtained supporting text, and stores it in the support network storage unit 106. The support network creator 134 ends this processing when the total number of obtained supporting texts reaches an upper limit.

矛盾ネットワーク作成部136は、入力された処理対象のテキストを否定形に変形した後、支持ネットワーク作成部134と同様に、その質問に対する1又は複数の回答をウェブベース質問応答システム66から得ることにより、入力された処理対象のテキストを否定形に変形したテキストを支持する(処理対象のテキストと矛盾する)矛盾テキストを収集する。矛盾ネットワーク作成部136はさらに、収集された矛盾テキストを使用して、ウェブベース質問応答システム66から矛盾テキストを得る処理を再帰的に実行する。矛盾ネットワーク作成部136は、得られた矛盾テキストの総数が上限に達した時点において矛盾テキストの収集を終了する。矛盾ネットワーク作成部136は、収集された矛盾テキストを用いて矛盾ネットワークを生成し、矛盾ネットワーク記憶部104に格納する。 The contradiction network creation unit 136 transforms the input text to be processed into a negative form, and then, similar to the support network creation unit 134, obtains one or more answers to the question from the web-based question-answering system 66 to collect contradictory text that supports (contradicts) the text obtained by transforming the input text to be processed into a negative form. The contradiction network creation unit 136 further recursively executes a process of obtaining contradictory text from the web-based question-answering system 66 using the collected contradictory text. The contradiction network creation unit 136 ends the collection of contradictory text when the total number of obtained contradictory texts reaches an upper limit. The contradiction network creation unit 136 generates a contradiction network using the collected contradictory text and stores it in the contradiction network storage unit 104.

図5を参照して、図1に示すテキスト編集装置108は、得られた支持ネットワークのスコアSpと矛盾ネットワークのスコアSnとを算出する(ステップ400)。テキスト編集装置108はSpとSnとから、処理対象のテキストの信頼度を算出する(ステップ402)。信頼度が第1しきい値より大きければ、テキスト編集装置108は基本的に、入力された処理対象のテキストを維持し、根拠として最もスコアの高い支持テキストを与えた回答(又はその回答を含むパッセージ)への参照(リンク)を埋め込んで出力する。この参照の埋め込みは必ずしも必要ではない。この埋め込みに替えて、又は埋め込みに加えて、処理対象のテキストの後ろに、かっこ書きで、処理対象のテキストに記載された事物に対する代替事物に関するテキストに関する記載、又はそのテキストへの参照を埋め込んでもよい。なお、記載を変更せず維持することも「編集」の一種である。 Referring to FIG. 5, the text editing device 108 shown in FIG. 1 calculates the obtained support network score Sp and contradiction network score Sn (step 400). The text editing device 108 calculates the reliability of the text to be processed from Sp and Sn (step 402). If the reliability is greater than the first threshold, the text editing device 108 basically maintains the input text to be processed and outputs it with an embedded reference (link) to the answer (or a passage including the answer) that provided the support text with the highest score as the basis. This embedding of the reference is not necessarily required. Instead of or in addition to this embedding, a description of a text relating to an alternative thing to the thing described in the text to be processed, or a reference to that text, may be embedded in parentheses after the text to be processed. Note that maintaining the description without changing it is also a type of "editing".

テキスト編集装置108は、この後、変更後のテキストにより、テキスト記憶部130に記憶された原テキストを置換する(ステップ414)。さらにテキスト編集装置108は、原テキストのうち、変更箇所の次の文又はその一部を処理対象のテキストとして次の処理を開始するようにテキスト選択部132に指示する(ステップ416)。 The text editing device 108 then replaces the original text stored in the text storage unit 130 with the modified text (step 414). The text editing device 108 then instructs the text selection unit 132 to start the next process on the sentence or part of the sentence next to the modified portion of the original text as the text to be processed (step 416).

一方、ステップ404における判定が否定的なときには、テキスト編集装置108は、信頼度が第2しきい値より小さいか否かを判定する(ステップ408)。ステップ408における判定が肯定的なら、テキスト編集装置108は矛盾テキストのうち、最も高いスコアの矛盾テキストを用いて、処理対象のテキストを含む原テキストを変更する処理(図6のテキスト生成装置420による処理)を実行する。この後、制御はステップ414に進む。ステップ414以下の処理については既に説明したとおりである。 On the other hand, if the determination in step 404 is negative, the text editing device 108 determines whether the confidence level is less than the second threshold value (step 408). If the determination in step 408 is positive, the text editing device 108 executes a process of modifying the original text including the target text by using the contradictory text with the highest score among the contradictory texts (processing by the text generating device 420 in FIG. 6). After this, control proceeds to step 414. The processes from step 414 onwards have already been described.

ステップ408における判定が否定的なときには、テキスト編集装置108は、処理対象となるテキストの箇所に、そのテキストの根拠が薄弱であることを示すアラート表示を注釈として追加するよう、原テキストを変更する。この後、制御はステップ414に進む。ステップ414以下の処理については既に説明したとおりである。なお、注釈にはさらに、そのテキストと矛盾するような矛盾テキストへの参照を埋めこむようにしてもよい。 If the determination in step 408 is negative, the text editing device 108 modifies the original text so that an alert indication is added as an annotation to the portion of the text to be processed, indicating that the evidence for the text is weak. Thereafter, control proceeds to step 414. The processing from step 414 onwards has already been described. Note that the annotation may further include a reference to a contradictory text that contradicts the text.

こうして、テキスト記憶部130に保持されている原テキストに対する編集処理が処理対象のテキストを1箇所ずつ進めることにより行われる。最終的な原テキストのうち、さらに編集を行うことができる箇所がなくなった時点(又はそれ以外の所定の終了条件、例えば原テキストのうち未処理の部分が所定の文数以下となったとき、という条件が充足された時点)で処理は終了し、テキスト記憶部130に最終的に保存されているテキストが編集後のテキストとして出力される。 In this way, the editing process for the original text held in the text storage unit 130 is performed by progressing through the text to be processed one location at a time. When there are no more locations in the final original text that can be edited (or when some other predetermined end condition is met, such as when the unprocessed portion of the original text falls to a predetermined number of sentences or less), the process ends, and the text finally stored in the text storage unit 130 is output as the edited text.

上記実施形態においては、大規模言語モデル62(図1)と大規模言語モデル446(図6)とは別個のものであることを想定している。しかしこの発明はそのような実施形態には限定されない。両者が同一であってもよい。また、大規模言語モデル62及び大規模言語モデル446の各々について、対話システム50の一部であってもよいし、対話システム50の外部の他の主体により提供されているサービスに含まれるものであってもよい。 In the above embodiment, it is assumed that the large-scale language model 62 (FIG. 1) and the large-scale language model 446 (FIG. 6) are separate. However, the present invention is not limited to such an embodiment. The two may be the same. Furthermore, each of the large-scale language model 62 and the large-scale language model 446 may be part of the dialogue system 50, or may be included in a service provided by another entity outside the dialogue system 50.

さらに、上記実施形態においては、図6に示すテキスト交換部432は機械学習モデルにより、原テキストを編集する。しかしこの発明はそのような実施形態には限定されない。ルールベースにより原テキストを編集するようにしてもよい。又は、原テキストの削除部分を特定する機械学習モデル、原テキストのうち、変更後のテキストの挿入箇所を特定する機械学習モデル、テキスト挿入後の前後のテキストの変更態様を特定する機械学習モデルなどを使用してもよい。また、各モデル又はルールを、支持テキスト又は矛盾テキストの基礎となった質問の種類により変更するようにしてもよい。 Furthermore, in the above embodiment, the text exchange unit 432 shown in FIG. 6 edits the original text using a machine learning model. However, the present invention is not limited to such an embodiment. The original text may be edited using a rule base. Alternatively, a machine learning model that identifies the portion of the original text to be deleted, a machine learning model that identifies the portion of the original text where the changed text is to be inserted, or a machine learning model that identifies the change in the text before and after the text is inserted may be used. Also, each model or rule may be changed depending on the type of question that is the basis of the supporting text or contradictory text.

なお、図6に示す大規模言語モデル446がどのようなものかにより、プロンプト作成部444の機能は異なってくる。例えば、テキスト交換部432により変更されたテキストそのものを大規模言語モデル446に入力することにより、大規模言語モデル446がその続きのテキストを出力するように大規模言語モデル446の訓練を行ってもよい。又は、大規模言語モデル446からの出力を制御するために、何らかのキーワードをプロンプトの形で大規模言語モデル446に入力するようにしてもよい。 The function of the prompt creation unit 444 differs depending on the type of large-scale language model 446 shown in FIG. 6. For example, the text itself changed by the text exchange unit 432 may be input to the large-scale language model 446, and the large-scale language model 446 may be trained so that the large-scale language model 446 outputs the subsequent text. Alternatively, in order to control the output from the large-scale language model 446, some keyword may be input to the large-scale language model 446 in the form of a prompt.

上記した実施形態においては、大規模言語モデルの出力を、既存のテキストに根拠となる記載があるか否かに従ってそのまま維持したり、修正したりする。既存のテキストの大部分は人間により編集又は見直しされたものであると考えられる。したがって、大規模言語モデルの出力が、一見したときには自然に見えたとしても、上記実施形態のように既存のテキストに根拠が見いだせなかったり、矛盾する記載が見つかったりすれば、その出力が信頼できないものであると判定できる。また、上記実施形態のようにそうしたテキストを既存の根拠ある記載に基づいて編集することにより、大規模言語モデルの出力の信頼性を高めることができる。 In the above-described embodiment, the output of the large-scale language model is maintained as is or modified depending on whether or not there is a supporting description in the existing text. It is believed that most existing text has been edited or revised by humans. Therefore, even if the output of the large-scale language model appears natural at first glance, if no supporting description can be found in the existing text or a contradictory description is found, as in the above-described embodiment, it can be determined that the output is unreliable. Furthermore, by editing such text based on existing supporting descriptions as in the above-described embodiment, the reliability of the output of the large-scale language model can be increased.

また、上記実施形態においては、テキストの信頼度を支持ネットワークと矛盾ネットワークとのスコアに基づいて算出しており、そのスコアは各ネットワークのサイズを基準としている。支持ネットワーク及び矛盾ネットワークは、それぞれかなりの数の支持テキスト又は矛盾テキストを含むことになる。しかも、支持テキスト及び矛盾テキストの大部分は、さらにその根拠となる支持テキスト及び矛盾テキストを持つ。したがって、支持ネットワーク及び矛盾ネットワークに含まれるテキストの数は大きく、しかもその範囲は広い。大規模言語モデルの出力の信頼度を既存のテキストに基づいて判定しようとする場合、その判定を誤らせるために、誤った情報、偽の情報をウェブに埋めこむという方法がある。しかし、そうした試みによりウェブに埋め込まれた情報であっても、支持ネットワーク及び矛盾ネットワークのように、多くのテキストに基づいて、かつ各テキストのさらに元となる根拠までネットワークとして収集する場合には、他の信頼できる情報と比較して、誤った情報、偽の情報の量は相対的に小さくなる。その結果、上記実施形態においてテキストが信頼できるかどうかについての判断が誤ったものになる可能性を小さくできる。 In the above embodiment, the reliability of a text is calculated based on the scores of the support network and the contradiction network, and the scores are based on the size of each network. The support network and the contradiction network each contain a considerable number of support texts or contradiction texts. Moreover, most of the support texts and contradiction texts further have support texts and contradiction texts that serve as their basis. Therefore, the number of texts contained in the support network and the contradiction network is large and the range is wide. When attempting to determine the reliability of the output of a large-scale language model based on existing texts, there is a method of embedding erroneous information and false information in the web in order to make the determination incorrect. However, even if the information embedded in the web by such an attempt is based on many texts and even the basis on which each text is based is collected as a network, as in the support network and the contradiction network, the amount of erroneous information and false information is relatively small compared to other reliable information. As a result, the possibility of an incorrect judgment on whether a text is reliable in the above embodiment can be reduced.

上記実施形態においては、テキストが信頼できるものであると判定されたときであっても、その根拠となる既存のテキスト又はそのテキストを含むパッセージへの参照をテキストに埋めこむことができる。そのため、ユーザは、編集後のテキストについてその根拠を容易に確認できる。その結果、ユーザは大規模言語モデルの出力を、信頼をもって利用でき、大規模言語モデルの有用性を高めることができる。 In the above embodiment, even when a text is determined to be reliable, a reference to an existing text on which the text is based or to a passage containing the text can be embedded in the text. This allows the user to easily confirm the basis for the edited text. As a result, the user can use the output of the large-scale language model with confidence, and the usefulness of the large-scale language model can be increased.

なお、上記実施の形態において、質問に対する回答を得るために、ウェブベース質問応答システム66を使用している。しかし、この発明はそのような実施形態には限定されない。例えば、大規模言語モデル62のような言語モデルの場合、質問に対して回答を与えることも可能である。そうした回答が誤りである可能性は、ウェブベース質問応答システム66などのシステムと比較して高い。しかし、この実施形態のように、得られた回答について、さらにその根拠となる記載が確認できるウェブベース質問応答システム66を併用するのであれば、大規模言語モデルもウェブベース質問応答システム66のようなシステムに加えて使用することが可能である。たとえば、質問をウェブベース質問応答システム66と並行して大規模言語モデルにも与えるような実施形態が考えられる。 In the above embodiment, a web-based question-answering system 66 is used to obtain answers to questions. However, the present invention is not limited to such an embodiment. For example, in the case of a language model such as the large-scale language model 62, it is possible to provide answers to questions. The possibility that such answers will be incorrect is high compared to systems such as the web-based question-answering system 66. However, as in this embodiment, if the web-based question-answering system 66 is used in combination with the web-based question-answering system 66, which allows the obtained answers to be confirmed with further explanations that serve as the basis for the answers, the large-scale language model can be used in addition to a system such as the web-based question-answering system 66. For example, an embodiment can be considered in which questions are given to the large-scale language model in parallel with the web-based question-answering system 66.

上記した実施形態において使用する機械学習モデルの大部分は、自然言語を処理するためのものである。各モデルの学習には、上記実施形態における各モデルの機能(入力及び出力の組み合わせ)に応じた学習データを使用すればよい。 Most of the machine learning models used in the above-described embodiments are for processing natural language. To train each model, training data corresponding to the function (combination of input and output) of each model in the above-described embodiments may be used.

3 ハードウェア構成
図7は、例えば図1に示すこの発明の第1実施形態に関する対話システム50のうち、検証装置64を実現するコンピュータシステム600の外観図である。図8は、コンピュータシステム600のハードウェアブロック図である。以下、コンピュータシステム600のハードウェア構成を説明する。
3. Hardware Configuration Fig. 7 is an external view of a computer system 600 which realizes the verification device 64 in the dialogue system 50 according to the first embodiment of the present invention shown in Fig. 1. Fig. 8 is a hardware block diagram of the computer system 600. The hardware configuration of the computer system 600 will be described below.

図7を参照して、このコンピュータシステム600は、DVD(Digital Versatile Disc)ドライブ662を有するコンピュータ650と、いずれもコンピュータ650に接続された、ユーザと対話するためのキーボード654、マウス656、及びモニタ652とを含む。もちろんこれらはオペレータとの対話が必要となったときのための構成の一例であって、オペレータとの対話に利用できる一般のハードウェア及びソフトウェア(例えばタッチパネル、音声入力、ポインティングデバイス一般)であればどのようなものも利用できる。 Referring to FIG. 7, this computer system 600 includes a computer 650 having a DVD (Digital Versatile Disc) drive 662, and a keyboard 654, a mouse 656, and a monitor 652, all connected to the computer 650, for interacting with a user. Of course, these are just examples of configurations for when interaction with an operator becomes necessary, and any general hardware and software (e.g., a touch panel, voice input, pointing devices in general) that can be used for interacting with an operator can be used.

図7及び図8を参照して、コンピュータ650は、DVDドライブ662に加えて、CPU(Central Processing Unit)710と、GPU(Graphics Processing Unit)712と、CPU710、GPU712、及びDVDドライブ662に接続されたバス720とを含む。コンピュータ650はさらに、バス720に接続され、コンピュータ650のブートアッププログラムなどを記憶するROM(Read-Only Memory)714と、バス720に接続され、プログラムを構成する命令、システムプログラム、及び作業データなどを記憶するRAM(Random Access Memory)716と、バス720に接続された不揮発性メモリであるSSD(Solid State Drive)718とを含む。SSD718は、CPU710及びGPU712が実行するプログラム、並びにCPU710及びGPU712が実行するプログラムが使用するデータなどを記憶するためのものである。コンピュータ650はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークI/F(Interface)726と、USB(Universal Serial Bus)メモリ702が着脱可能であり、USBメモリ702とコンピュータ650内の各部との通信を提供するUSBポート664とを含む。 7 and 8, the computer 650 includes, in addition to the DVD drive 662, a CPU (Central Processing Unit) 710, a GPU (Graphics Processing Unit) 712, and a bus 720 connected to the CPU 710, the GPU 712, and the DVD drive 662. The computer 650 further includes a ROM (Read-Only Memory) 714 connected to the bus 720 and storing a boot-up program of the computer 650, a RAM (Random Access Memory) 716 connected to the bus 720 and storing instructions constituting a program, a system program, working data, and the like, and a SSD (Solid State Drive) 718, which is a non-volatile memory connected to the bus 720. The SSD 718 is for storing programs executed by the CPU 710 and the GPU 712, and data used by the programs executed by the CPU 710 and the GPU 712. The computer 650 further includes a network I/F (Interface) 726 that provides a connection to a network that enables communication with other terminals, and a USB port 664 to which a USB (Universal Serial Bus) memory 702 is detachable and that provides communication between the USB memory 702 and each part in the computer 650.

コンピュータ650はさらに、マイクロフォン660及びスピーカ658とバス720とに接続され、CPU710により生成され、RAM716又はSSD718に保存された音声信号、映像信号及びテキストデータをCPU710の指示に従って読み出し、アナログ変換及び増幅処理をしてスピーカ658を駆動したり、マイクロフォン660からのアナログの音声信号をデジタル化し、RAM716又はSSD718の、CPU710により指定される任意のアドレスに保存したりする機能を持つ音声I/F722を含む。 The computer 650 further includes an audio I/F 722 that is connected to the microphone 660 and speaker 658 and the bus 720, and has the function of reading out the audio signals, video signals, and text data generated by the CPU 710 and stored in the RAM 716 or SSD 718 according to instructions from the CPU 710, converting them to analog and amplifying them to drive the speaker 658, and digitizing the analog audio signal from the microphone 660 and storing it in an arbitrary address in the RAM 716 or SSD 718 specified by the CPU 710.

上記実施形態においては、図1に示す検証装置64の各機能を実現するプログラムなどは、いずれも例えば図8に示すROM714、SSD718、DVD700又はUSBメモリ702、若しくはネットワークI/F726及びネットワーク704を介して接続された図示しない外部装置の記憶媒体などに格納される。典型的には、これらのデータ及びパラメータなどは、例えば外部からSSD718に書込まれ、コンピュータ650の実行時にはRAM716にロードされる。 In the above embodiment, the programs that realize the functions of the verification device 64 shown in FIG. 1 are all stored, for example, in the ROM 714, SSD 718, DVD 700, or USB memory 702 shown in FIG. 8, or in a storage medium of an external device (not shown) connected via the network I/F 726 and the network 704. Typically, these data and parameters are written, for example, from outside to the SSD 718, and loaded into the RAM 716 when the computer 650 is executed.

このコンピュータシステム600を、図1に示す検証装置64の各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、DVDドライブ662に装着されるDVD700に記憶され、DVDドライブ662からSSD718に転送される。又は、これらのプログラムはUSBメモリ702に記憶され、USBメモリ702をUSBポート664に装着し、プログラムをSSD718に転送する。又は、このプログラムはネットワーク704を通じてコンピュータ650に送信されSSD718に記憶されてもよい。もちろん、キーボード654、モニタ652及びマウス656を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをSSD718に格納してもよい。 Computer programs for operating the computer system 600 to realize the functions of each component of the verification device 64 shown in FIG. 1 are stored on a DVD 700 inserted into the DVD drive 662, and transferred from the DVD drive 662 to the SSD 718. Alternatively, these programs may be stored in a USB memory 702, which is inserted into the USB port 664 and the programs transferred to the SSD 718. Alternatively, the programs may be sent to the computer 650 via the network 704 and stored in the SSD 718. Of course, the source program may be input using the keyboard 654, monitor 652, and mouse 656, and the compiled object program may be stored in the SSD 718.

プログラムは実行のときにRAM716にロードされる。プログラムがスクリプト言語により記述されている場合には、オペレータがキーボード654などを用いて入力したスクリプトをSSD718に格納してもよい。仮想マシン上において動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ650にインストールしておく必要がある。図2に示す支持テキスト検証用モデル184、図4に示す矛盾テキスト検証用モデル356、図6に示すテキスト交換用モデル436及び大規模言語モデル446などには、ディープニューラルネットワークなどの機械学習モデルが使用される。コンピュータシステム600においては、他の装置において学習済の機械学習モデルを使用してもよいし、コンピュータシステム600を学習装置として使用して機械学習モデルの学習を行ってもよい。 The program is loaded into RAM 716 when executed. If the program is written in a script language, the script entered by the operator using keyboard 654 or the like may be stored in SSD 718. In the case of a program that runs on a virtual machine, a program that functions as a virtual machine must be installed in computer 650 in advance. Machine learning models such as deep neural networks are used for the supporting text verification model 184 shown in FIG. 2, the contradictory text verification model 356 shown in FIG. 4, the text exchange model 436 and the large-scale language model 446 shown in FIG. 6, and the like. In computer system 600, a machine learning model that has already been trained in another device may be used, or the computer system 600 may be used as a training device to train the machine learning model.

CPU710は、その内部のプログラムカウンタと呼ばれるレジスタ(図示せず)により示されるアドレスに従ってRAM716からプログラムを読み出して命令を解釈する。CPU710は、命令の実行に必要なデータを命令により指定されるアドレスに従ってRAM716、SSD718又はそれ以外の機器から読み出して命令により指定される処理を実行する。CPU710は、実行結果のデータを、RAM716、SSD718、CPU710内のレジスタなど、プログラムにより指定されるアドレスに格納する。アドレスによっては、実行結果のデータは例えばネットワークI/F726を介してコンピュータから外部に出力される。出力先は、例えば図1に示すウェブベース質問応答システム66である。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、DVD700から、USBメモリ702から、又はネットワーク704を介して、RAM716に直接にロードしてもよい。なお、CPU710が実行するプログラムのうち、一部のタスク(主として数値計算)については、プログラムに含まれる命令により、又はCPU710による命令実行時の解析結果に従って、GPU712に対し発行される。 The CPU 710 reads the program from the RAM 716 according to the address indicated by a register (not shown) called a program counter inside the CPU 710 and interprets the command. The CPU 710 reads data required for executing the command from the RAM 716, the SSD 718, or other devices according to the address specified by the command, and executes the process specified by the command. The CPU 710 stores the execution result data at an address specified by the program, such as the RAM 716, the SSD 718, or a register in the CPU 710. Depending on the address, the execution result data is output from the computer to the outside via, for example, the network I/F 726. The output destination is, for example, the web-based question answering system 66 shown in FIG. 1. At this time, the value of the program counter is also updated by the program. The computer program may be directly loaded into the RAM 716 from the DVD 700, the USB memory 702, or via the network 704. Of the programs executed by the CPU 710, some tasks (mainly numerical calculations) are issued to the GPU 712 according to instructions contained in the programs or according to the analysis results when the CPU 710 executes the instructions.

コンピュータ650により上記した実施形態に係る検証装置64(図1)の各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ650を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ650上において動作するOS(Operating System)若しくはサードパーティのプログラム、コンピュータ650にインストールされる各種ツールキットのモジュール又はプログラムの実行環境により提供される場合もある。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中において、所望の結果が得られるように制御されたやり方によって適切な機能又はモジュールなどをコンパイル時に静的にリンクすることにより、又は実行時に動的に呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ650の動作方法は周知である。したがって、この部分においてはコンピュータ650の動作方法の説明は繰り返さない。 The program for implementing the functions of each part of the verification device 64 (FIG. 1) according to the embodiment described above by the computer 650 includes a plurality of instructions written and arranged to operate the computer 650 to implement those functions. Some of the basic functions required to execute the instructions may be provided by the OS (Operating System) or third-party programs running on the computer 650, or by modules of various toolkits or the program execution environment installed on the computer 650. Therefore, the program does not necessarily include all of the functions required to implement the system and method of this embodiment. The program only needs to include instructions to execute the operations of each of the above-mentioned devices and their components by statically linking appropriate functions or modules at compile time or dynamically calling them at run time in a controlled manner to obtain the desired results. The method of operation of the computer 650 for this purpose is well known. Therefore, the description of the method of operation of the computer 650 will not be repeated in this section.

なお、GPU712は並列処理を行うことが可能であり、機械学習及び推論に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中に発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、CPU710からGPU712にディスパッチされ、実行され、その結果が直接に、又はRAM716の所定アドレスを介してCPU710に返され、プログラム中の所定の変数に代入される。 The GPU 712 is capable of parallel processing, and can execute a large amount of calculations associated with machine learning and inference simultaneously in parallel or in a pipelined manner. For example, parallel calculation elements discovered in a program when the program is compiled, or parallel calculation elements discovered when the program is executed, are dispatched from the CPU 710 to the GPU 712 as needed, and executed. The results are returned to the CPU 710 directly or via a specified address in the RAM 716, and assigned to a specified variable in the program.

第2実施形態
1 構成
図9を参照して、この第2実施形態に係る対話システム750は、テキスト入力装置60と、テキスト入力装置60の出力を受けて検証対象となるテキストを出力する大規模言語モデル62と、大規模言語モデル62の出力である応答文の内容を検証し、必要に応じて応答文を編集して出力するための検証装置760と、検証装置760が応答文の検証に使用するウェブベース質問応答システム66と、検証装置760が出力した編集後の応答文をユーザの入力に対する応答として出力するための出力装置70とを含む。
Second Embodiment 1. Configuration Referring to FIG. 9 , a dialogue system 750 according to the second embodiment includes a text input device 60, a large-scale language model 62 that receives the output of the text input device 60 and outputs a text to be verified, a verification device 760 for verifying the contents of a response sentence that is the output of the large-scale language model 62 and editing and outputting the response sentence as necessary, a web-based question answering system 66 used by the verification device 760 to verify the response sentence, and an output device 70 for outputting the edited response sentence output by the verification device 760 as a response to a user input.

検証装置760は、大規模言語モデル62の出力する文内のテキストを順に選択し、処理対象のテキストに基づき、その処理対象に関する支持テキストと矛盾テキストとの双方を含む意味的ネットワークを作成するための意味的ネットワーク作成装置770と、意味的ネットワーク作成装置770が作成した意味的ネットワークを記憶するためのネットワーク記憶部772と、ネットワーク記憶部772に記憶された支持テキスト及び矛盾テキストに基づいて、処理対象のテキストが信頼できるものか否かを判定するための支持・矛盾判定部774と、支持・矛盾判定部774による判定結果にしたがって、必要であれば処理対象のテキストを編集して出力するためのテキスト編集装置108とを含む。 The verification device 760 includes a semantic network creation device 770 that sequentially selects text within a sentence output by the large-scale language model 62 and creates a semantic network including both supporting text and contradictory text related to the text to be processed based on the text to be processed, a network storage unit 772 that stores the semantic network created by the semantic network creation device 770, a support/contradiction determination unit 774 that determines whether the text to be processed is reliable based on the supporting text and contradictory text stored in the network storage unit 772, and a text editing device 108 that edits and outputs the text to be processed, if necessary, according to the determination result by the support/contradiction determination unit 774.

意味的ネットワーク作成装置770は、図1に示すものと同じテキスト記憶部130及びテキスト選択部132と、テキスト選択部132により選択された処理対象のテキストに基づいて1又は複数の質問を作成してウェブベース質問応答システム66に与えることにより、ウェブベース質問応答システム66の回答として出力されるウェブ上の文書のテキストを収集し、それらテキストに基づいて、支持テキスト及び矛盾テキストの双方を含む意味的ネットワークを作成しネットワーク記憶部772に格納するためのネットワーク作成部780とを含む。 The semantic network creation device 770 includes the same text storage unit 130 and text selection unit 132 as shown in FIG. 1, and a network creation unit 780 for creating one or more questions based on the text to be processed selected by the text selection unit 132, providing the questions to the web-based question answering system 66, collecting text from documents on the web that are output as answers to the web-based question answering system 66, and creating a semantic network including both supporting text and contradictory text based on the text, and storing the network in the network storage unit 772.

図10を参照して、図9に示すネットワーク作成部780は、テキスト選択部132により選択された処理対象のテキストを起点として質問を生成し、ウェブベース質問応答システム66を利用してその回答を得て、さらにその回答に基づいて新たな質問を生成して次の回答を得る、という再帰的な処理を行うことにより、多くの支持テキスト及び矛盾テキストを収集するための再帰的テキスト収集部800と、2つのテキストの入力を受け、一方のテキストが、他方のテキストを支持するテキストか否かを示すスコアを出力するように予め訓練されたテキスト検証用モデル802と、処理対象のテキストと、再帰的テキスト収集部800により収集された個別のテキストとをテキスト検証用モデル802に与えることにより、再帰的テキスト収集部800により収集されたテキストが処理対象のテキストを支持しているか否かを判定し、判定結果に従って再帰的テキスト収集部800により収集されたテキストを支持テキストと矛盾テキストに分類し出力するためのテキスト検証部804とを含む。 Referring to FIG. 10, the network creation unit 780 shown in FIG. 9 includes a recursive text collection unit 800 for collecting many supporting and contradictory texts by performing recursive processing in which a question is generated starting from the text to be processed selected by the text selection unit 132, an answer is obtained using the web-based question answering system 66, and a new question is generated based on the answer to obtain the next answer. A text verification model 802 that is pre-trained to receive two texts and output a score indicating whether one text supports the other text, and a text verification unit 804 that provides the text to be processed and the individual texts collected by the recursive text collection unit 800 to the text verification model 802 to determine whether the text collected by the recursive text collection unit 800 supports the text to be processed, and classifies the text collected by the recursive text collection unit 800 into supporting text and contradictory text according to the determination result and outputs the result.

なお、テキスト検証用モデル802は、第1テキストと、第2テキストとを分離トークンを挟んで連結した文字列を入力とし、第2テキストが第1テキストを支持するテキストである確率と、第2テキストが第1テキストと矛盾するテキストである確率とを第2テキストのスコアとして出力するように予め訓練されている。 The text verification model 802 is pre-trained to receive as input a string formed by concatenating the first text and the second text with a separation token between them, and to output the probability that the second text is a text that supports the first text and the probability that the second text is a text that contradicts the first text as a score for the second text.

再帰的テキスト収集部800は、入力されたテキストに基づいて、第1実施形態において述べた手法を用いて複数の質問を生成し出力する質問生成部810を含む。ただし質問生成部810の場合、第1実施形態に係る支持質問生成部210及び矛盾質問生成部370と異なり、生成する質問については特に制約はなく、入力されたテキストに対する支持特定質問と矛盾特定質問との双方を生成する。 The recursive text collection unit 800 includes a question generation unit 810 that generates and outputs multiple questions based on the input text using the method described in the first embodiment. However, unlike the supporting question generation unit 210 and the contradiction question generation unit 370 in the first embodiment, the question generation unit 810 has no particular restrictions on the questions it generates, and generates both supporting and contradiction-specific questions for the input text.

再帰的テキスト収集部800はさらに、質問生成部810の生成する質問をウェブベース質問応答システム66に入力するための質問発行部212と、各質問に対してウェブベース質問応答システム66が出力する1又は複数の回等を受信しテキスト検証部804に与えるための回答受信部214とを含む。 The recursive text collection unit 800 further includes a question issuing unit 212 for inputting the questions generated by the question generating unit 810 to the web-based question answering system 66, and an answer receiving unit 214 for receiving one or more times output by the web-based question answering system 66 for each question and providing the answer to the text verification unit 804.

2 プログラムによる実現
図11は、図10に示すネットワーク作成部780を実現するための再帰的プログラムの制御構造を示すフローチャートである。図11を参照して、このプログラムは、引数としてテキストの集合を受ける再帰関数として実現される。この実施形態においては引数としてのテキストの集合は配列として準備され、実際にプログラムに渡されるのはその配列のアドレスである。
2. Implementation by a Program Fig. 11 is a flowchart showing a control structure of a recursive program for implementing network creation unit 780 shown in Fig. 10. Referring to Fig. 11, this program is implemented as a recursive function receiving a set of texts as an argument. In this embodiment, the set of texts as an argument is prepared as an array, and it is the address of the array that is actually passed to the program.

このプログラムは、入力された全てのテキストについて、又は総回答数+K×生成された質問数(Kは正の整数)が第1しきい値より大きくなるまで、ステップ852の質問作成処理を繰り返し実行することにより1又は複数の質問を生成するステップ850と、ステップ850において生成された質問の全てについて、または得られた回答の総数(累計数)が第2しきい値以上となるまで、ウェブベース質問応答システム66を使用して各質問に対する回答の探索を行うステップ856を実行するステップ854と、ステップ854において探索された各回答について、後述するステップ860を実行するステップ858と、ステップ858の処理が終了した後、それまでの処理により得られた回答の総数(累計数)が第3しきい値より大きいか否かに従って制御の流れを分岐させるステップ862と、ステップ862における判定が否定的なときに、ステップ856において探索された回答の集合を引数として、自分自身を再帰的に呼び出す処理を実行した後、プログラムの実行を終了し呼び出し元に制御を戻すステップ864とを含む。ステップ862における判定が肯定的ならば、このプログラムは実行を終了し、制御を呼び出し元に戻す。 This program includes step 850 of generating one or more questions by repeatedly executing the question generation process of step 852 for all input text or until the total number of answers + K × the number of questions generated (K is a positive integer) is greater than a first threshold value; step 854 of executing step 856 of searching for answers to each question using the web-based question answering system 66 for all questions generated in step 850 or until the total number of answers obtained (cumulative number) is equal to or greater than a second threshold value; step 858 of executing step 860 (described later) for each answer searched for in step 854; step 862 of branching the flow of control according to whether the total number of answers obtained by the process up to that point (cumulative number) is greater than a third threshold value after the process of step 858 is completed; and step 864 of executing a process of recursively calling itself with the set of answers searched for in step 856 as an argument when the determination in step 862 is negative, and then terminating the execution of the program and returning control to the caller. If the determination in step 862 is positive, the program terminates its execution and returns control to the caller.

ステップ860は、処理対象の回答が支持テキストか矛盾テキストかを図10に示すテキスト検証用モデル802を使用して判定し、そのテキストに支持テキストか矛盾テキストかを示すタグを付すステップ880と、ステップ880によりタグ付けされたテキストを、質問の元になったテキストに対応するノードの子ノードとして、テキスト検証用モデル802により得られたスコアとステップ880において得られたタグとを付して意味的ネットワークに追加するステップ882とを含む。 Step 860 includes step 880 of determining whether the answer being processed is supporting text or contradicting text using the text verification model 802 shown in FIG. 10 and tagging the text with a tag indicating whether it is supporting text or contradicting text, and step 882 of adding the text tagged in step 880 to the semantic network as a child node of the node corresponding to the text that is the source of the question, with the score obtained by the text verification model 802 and the tag obtained in step 880 attached.

ステップ852における終了条件として使用される整数Kには、以下のような意味がある。この実施形態においては、1つの入力テキストから得られる質問は一般に複数である。また各質問に対して得られる回答も一般に複数である。その結果、1つの入力テキストから回答を探索する処理を1回行っただけで得られるテキストは非常に多くなる。再帰的な処理を行うことにより、得られる回答は指数関数的に増加する。こうした処理のためには大きな計算コストが必要となるため、適切なときに処理を終了させる必要がある。この実施形態においては、その条件として得られた回答の総数(複数回の再帰的処理による累積数)が一定のしきい値(第3しきい値)を超えたときをその目安としている。しかし、図11に示す例において、これまでの処理により得られた回答の総数が第3しきい値に近いときに、ステップ850及びステップ854の処理を完全に実行すると、最終的に得られる回答の総数が第3しきい値を大きく超え、処理に長時間を要することになる可能性がある。そこで、ステップ850においては、これまでに得られた回答の総数(累積値)が第3しきい値に近い場合には、生成する質問数を限定することとしている。この実施形態においては、1つの質問に対して得られる回答の数の目安として定数K(≧1)を想定し、これまでの総回答数+K×入力テキスト数が第1しきい値より大きくなったときにステップ850の処理を終了することとしている。定数Kが正確に決まる場合(1つの質問に対して得られる回答数が一定数である場合)も含めて、第3しきい値は、第1しきい値と等しくても等しくなくてもよい。 The integer K used as the termination condition in step 852 has the following meaning. In this embodiment, a single input text generally produces multiple questions. Also, a single input text generally produces multiple answers. As a result, a large amount of text can be obtained by performing a single process of searching for answers. By performing recursive processing, the number of answers obtained increases exponentially. Since such processing requires a large computational cost, it is necessary to terminate the processing at an appropriate time. In this embodiment, the condition is set to the time when the total number of answers obtained (the cumulative number obtained by multiple recursive processes) exceeds a certain threshold (the third threshold). However, in the example shown in FIG. 11, when the total number of answers obtained by the processing up to this point is close to the third threshold, if the processing of steps 850 and 854 is completely performed, the total number of answers finally obtained may greatly exceed the third threshold, and the processing may take a long time. Therefore, in step 850, when the total number of answers obtained up to this point (the cumulative value) is close to the third threshold, the number of questions to be generated is limited. In this embodiment, a constant K (≧1) is assumed as a guideline for the number of answers that can be obtained for one question, and the processing of step 850 ends when the total number of answers so far + K × the number of input texts becomes greater than the first threshold. The third threshold may or may not be equal to the first threshold, including cases where the constant K is precisely determined (where the number of answers that can be obtained for one question is a fixed number).

ステップ854における終了条件として、「回答総数(累積数)が第2しきい値より大きくなったとき」を設けているのも、処理時間に制限を設けるという主旨によるものである。なお、第2しきい値は一般的には第3しきい値と等しくすればよいが、第3しきい値と多少異なっていても特に問題はない。 The termination condition in step 854 is "when the total number of responses (cumulative number) becomes greater than the second threshold value" in order to limit the processing time. Generally, the second threshold value should be equal to the third threshold value, but there is no problem if the second threshold value is slightly different from the third threshold value.

なお、ステップ850及びステップ854において追加した、各しきい値を用いた終了条件は、必ずしも設けなくてもよい。その場合には処理時間が長くなる可能性があるが、第3しきい値が小さい場合などにはこれらの条件を用いなくてもよい。 Note that the termination conditions using each threshold value added in steps 850 and 854 do not necessarily have to be provided. In that case, the processing time may become longer, but these conditions do not have to be used when the third threshold value is small, for example.

3 動作
第2実施形態に係る対話システム750は以下のように動作する。図9を参照して、ユーザがテキスト入力装置60を介してプロンプトを大規模言語モデル62に入力する。大規模言語モデル62がプロンプトに続くテキストを出力する。このテキストはテキスト記憶部130に記憶される。
3 Operation The dialogue system 750 according to the second embodiment operates as follows. With reference to Fig. 9, a user inputs a prompt via the text input device 60 to the large-scale language model 62. The large-scale language model 62 outputs the text following the prompt. This text is stored in the text storage unit 130.

テキスト選択部132は、まずテキスト記憶部130に記憶されている先頭の文(又は文の一部)を選択し、処理対象のテキストとしてネットワーク作成部780に与える。 The text selection unit 132 first selects the first sentence (or part of a sentence) stored in the text storage unit 130 and provides it to the network creation unit 780 as the text to be processed.

図10を参照して、ネットワーク作成部780の再帰的テキスト収集部800において、再帰的テキスト収集部800が処理対象のテキストから1又は複数の質問を生成し、質問発行部212に入力する。このとき、質問生成部810は、支持特定質問と矛盾特定質問との双方を生成する。 Referring to FIG. 10, in the recursive text collection unit 800 of the network creation unit 780, the recursive text collection unit 800 generates one or more questions from the text to be processed and inputs them to the question issuing unit 212. At this time, the question generating unit 810 generates both a support-specific question and a contradiction-specific question.

質問発行部212は、質問生成部810から受けた質問の各々をウェブベース質問応答システム66に入力する。ウェブベース質問応答システム66は、各質問に対してインターネット68を検索し、その質問に対する回答として適切と判定されたテキストを回答として出力する。回答受信部214は、これら回答のテキストを受信し、テキスト検証部804に与える。 The question issuing unit 212 inputs each of the questions received from the question generating unit 810 to the web-based question answering system 66. The web-based question answering system 66 searches the Internet 68 for each question and outputs text determined to be appropriate as an answer to the question as an answer. The answer receiving unit 214 receives the text of these answers and provides it to the text verifying unit 804.

テキスト検証部804は、回答受信部214から受けた回答のテキストの各々を、質問生成部810から入力された処理対象のテキストの後に、分離トークンを挟んで結合し、テキスト検証用モデル802に入力する。テキスト検証用モデル802は、この入力に応答して、回答のテキストが処理対象のテキストの内容を支持する確率と、回答のテキストが処理対象のテキストの内容と矛盾している確率とを回答のテキストのスコアとして出力する。テキスト検証部804は、テキスト検証用モデル802の出力に基づいて、回答のテキストが支持テキストか矛盾テキストかを示すタグを回答テキストに付与し、そのスコアととともに意味的ネットワーク追加部806に与える。テキスト検証部804はまた、回答のテキストを質問生成部810にも入力する。 The text verification unit 804 combines each of the answer texts received from the answer receiving unit 214 with the processing target text input from the question generating unit 810, sandwiching a separation token between them, and inputs the combined text to the text verification model 802. In response to this input, the text verification model 802 outputs the probability that the answer text supports the content of the processing target text and the probability that the answer text contradicts the content of the processing target text as a score for the answer text. Based on the output of the text verification model 802, the text verification unit 804 assigns a tag to the answer text indicating whether the answer text is supporting text or contradicting text, and provides the tag and score to the semantic network adding unit 806. The text verification unit 804 also inputs the answer text to the question generating unit 810.

意味的ネットワーク追加部806は、テキスト検証部804から受けた回答のテキストを意味的ネットワークに新たなノードとして追加する。このとき、意味的ネットワーク追加部806は、今回の回答のテキストが得られた質問の元になったテキストを特定し、そのテキストに対応するノードの子ノードとして、新たなノードを追加する。 The semantic network addition unit 806 adds the answer text received from the text verification unit 804 as a new node to the semantic network. At this time, the semantic network addition unit 806 identifies the text that was the source of the question from which the current answer text was obtained, and adds a new node as a child node of the node corresponding to that text.

一方、質問生成部810は、今度はテキスト検証部804から受けた新たなテキストに基づいて1又は複数の質問を生成し、各質問を質問発行部812に与える。質問発行部212は、各質問をウェブベース質問応答システム66に入力する。回答受信部214は、各質問に対してウェブベース質問応答システム66が出力する1又は複数の回答のテキストを受信し、テキスト検証部804に与える。 Meanwhile, the question generator 810 now generates one or more questions based on the new text received from the text verifier 804, and provides each question to the question issuer 812. The question issuer 212 inputs each question to the web-based question answering system 66. The answer receiver 214 receives the text of one or more answers output by the web-based question answering system 66 for each question, and provides it to the text verifier 804.

以下、ネットワーク作成部780は上記した再帰的な処理を繰り返し実行する。意味的ネットワークに追加されたノード数(テキスト数)が第3しきい値を超えると、テキストの収集処理が終了する。この結果、図9に示すネットワーク記憶部772には、処理対象のテキストに関する支持テキストと矛盾テキストとの双方を含む意味的ネットワークが格納されている。 The network creation unit 780 then repeatedly executes the recursive process described above. When the number of nodes (number of texts) added to the semantic network exceeds the third threshold, the text collection process ends. As a result, the network storage unit 772 shown in FIG. 9 stores a semantic network that includes both supporting text and contradictory text related to the text being processed.

図9を参照して、支持・矛盾判定部774は、ネットワーク記憶部772に記憶されている意味的ネットワーク内の各ノードに付与されているラベル及び/又はスコアに基づいて、テキスト入力装置60を介して入力された処理対象のテキストが信頼できるものか否かを判定し、その結果をテキスト編集装置108に与える。テキスト編集装置108は、第1実施形態の場合と同様に、処理対象のテキストを必要に応じて編集し、信頼できるテキストか、信頼できないテキストかを明確に示したり、処理対象のテキストであって信頼できないテキストを、意味的ネットワークの作成時に得られた信頼できるテキストにより置き換えたりする編集を行う。テキスト編集装置108はこの編集が終わると、編集後のテキストによりテキスト記憶部130の内容を更新する。テキスト編集装置108はさらに、テキスト選択部132に対して、テキスト記憶部130に記憶されているテキストのうち、処理されたテキストの次のテキストを選択するように指示を出す。 Referring to FIG. 9, the support/contradiction determination unit 774 determines whether the text to be processed input via the text input device 60 is reliable or not based on the label and/or score assigned to each node in the semantic network stored in the network storage unit 772, and provides the result to the text editing device 108. As in the first embodiment, the text editing device 108 edits the text to be processed as necessary to clearly indicate whether the text is reliable or unreliable, or to replace the unreliable text in the text to be processed with reliable text obtained when the semantic network was created. After completing this editing, the text editing device 108 updates the contents of the text storage unit 130 with the edited text. The text editing device 108 further instructs the text selection unit 132 to select the next text after the processed text from the texts stored in the text storage unit 130.

テキスト選択部132は、この指示に応答して、処理されたテキストの直後のテキスト(直後の文など)を選択してネットワーク作成部780に与える。ネットワーク作成部780は、このテキストを起点として新た意味的ネットワークを作成する。以下、テキスト記憶部130に記憶されているテキストの末尾に達するまで、前述した処理が繰り返される。
この実施形態によれば、意味的ネットワークには処理対象のテキストの支持テキストと矛盾テキストとの双方が含まれる。再帰的処理において、支持テキストから矛盾テキストが得られたり、矛盾テキストから支持テキストが得られたりした場合にも、それらを別々のネットワークに区別する必要がない。第1実施形態と比較して、支持テキストと矛盾テキストとの収集のための処理が単純となるという効果がある。
In response to this instruction, the text selection unit 132 selects the text immediately following the processed text (such as the immediately following sentence) and provides it to the network creation unit 780. The network creation unit 780 creates a new semantic network using this text as a starting point. The above-mentioned process is repeated until the end of the text stored in the text storage unit 130 is reached.
According to this embodiment, the semantic network includes both supporting text and contradicting text of the text to be processed. In the recursive process, even if a contradicting text is obtained from a supporting text, or a supporting text is obtained from a contradicting text, it is not necessary to distinguish them into separate networks. Compared with the first embodiment, this has the advantage that the process for collecting supporting text and contradicting text is simpler.

なお、図11に示す再帰的プログラムは、第1実施形態においても、わずかな修正を行うことにより利用できる。 The recursive program shown in Figure 11 can also be used in the first embodiment with minor modifications.

4 変形例
上記第2実施形態における意味的ネットワークの生成処理(図11に示すフローチャート)は、ツリー探索における幅方向優先探索に類似した処理である。すなわち、第2実施形態においては、最初にルートノードが、次に第2層の子ノードが生成され、その後に、第2層の各ノードに対する子ノードの集まりという形により、第3層の子ノードが生成される、という順序に従って意味的ネットワークが作成される。
The process of generating a semantic network in the second embodiment (the flow chart shown in FIG. 11) is similar to the breadth-first search in a tree search. That is, in the second embodiment, the root node is generated first, then the child nodes in the second layer are generated, and then the child nodes in the third layer are generated in the form of a collection of child nodes for each node in the second layer. In this order, the semantic network is created.

しかし、この発明における意味的ネットワークの作成は、既に述べたように幅方向優先の順序によるものに限定されるわけではない。深さ方向優先により意味的ネットワークを生成してもよい。図12に、そうした変形例を実現するための、図11に対応するプログラム(再帰的関数)の概略フローチャートを示す。 However, the creation of a semantic network in this invention is not limited to a breadth-first order as already mentioned. A semantic network may be generated in a depth-first order. Figure 12 shows a schematic flowchart of a program (recursive function) corresponding to Figure 11 for realizing such a modified example.

図12を参照して、この再帰的関数の引数は、深さ方向にノードを追加する場合の層の深さを指定する定数N(>0)と、処理対象のテキストについて再帰的に支持テキスト及び矛盾テキストを探索する起点となるテキストとを含む。 Referring to Figure 12, the arguments of this recursive function include a constant N (>0) that specifies the depth of the layer when adding nodes in the depth direction, and the text that serves as the starting point for recursively searching for supporting text and contradictory text in the text being processed.

このプログラムは、引数Nの値が0か否かに従って制御の流れを分岐させるステップ910を含む。ステップ910における判定が肯定的なときには、このプログラムは実行を終了し、制御を呼び出し元のプログラムに戻す。 This program includes step 910, which branches the flow of control depending on whether the value of argument N is 0 or not. If the determination in step 910 is positive, the program ends execution and returns control to the calling program.

このプログラムはさらに、ステップ910における判定が否定的なときに、引数のテキストに基づいて1又は複数の質問を生成するステップ912を含む。ステップ912においては、支持特定質問及び矛盾特定質問の双方が生成される。 The program further includes step 912 of generating one or more questions based on the text of the argument when the determination in step 910 is negative. In step 912, both support-specific and contradiction-specific questions are generated.

このプログラムはさらに、ステップ912において生成された各質問について、その質問に対する1又は複数の回答を探索するステップ916を実行するステップ914と、ステップ914において探索された各回答について、後述するステップ920を実行するステップ918とを含む。 The program further includes step 914, which for each question generated in step 912, performs step 916 to search for one or more answers to the question, and step 918, which for each answer searched for in step 914, performs step 920, described below.

ステップ920は、処理すべき回答が、処理対象のテキストに対する支持テキストか矛盾テキストかを、第2実施形態において利用したテキスト検証用モデル802と同様のモデルを用いて判定し、判定結果に従って、処理すべき回答にタグ付けするステップ940を含む。この実施形態においても、ステップ940においては、タグとともに処理すべき回答が支持テキストである確率と、処理すべき回答が矛盾テキストである確率とが、その回答のスコアとして付与される。 Step 920 includes step 940, which uses a model similar to the text verification model 802 used in the second embodiment to determine whether the answer to be processed is supporting text or contradictory text for the text to be processed, and tags the answer to be processed according to the determination result. In this embodiment, in step 940, the probability that the answer to be processed is supporting text and the probability that the answer to be processed is contradictory text are assigned as a score to the answer, together with the tag.

ステップ920はさらに、ステップ940に続き、ステップ940においてタグ付けされたスコアが付与された回答を、意味的ネットワーク内に追加するステップ942を含む。ステップ942においては、まず、処理すべき回答が得られた質問が特定される。さらに、その質問の元になったテキストが特定される。そして、意味的ネットワークのうち、その特定されたテキストに対応するノードの子ノードとして、新たなテキストが追加される。 Step 920 further includes, following step 940, step 942 of adding the answers tagged and scored in step 940 into the semantic network. In step 942, the question for which the answer is to be processed is first identified. Then, the text from which the question originates is identified. The new text is then added as a child node of the node in the semantic network that corresponds to the identified text.

ステップ920はさらに、最初に受け取った引数Nから1を減算した値N―1と、ステップ920において処理された回答との組み合わせを引数として、自身を再帰的に呼び出すステップ944を含む。 Step 920 further includes step 944 of recursively calling itself with arguments N-1, which is the value obtained by subtracting 1 from the initially received argument N, and the answer processed in step 920.

簡単のために、N=2として図12に制御構造を示す関数の動作を説明する。最初に、この関数が呼び出される。そのときの引数はN=2と、処理すべきテキスト(説明を簡単にするため、これを「引数テキスト」と呼ぶ。)とである。ステップ910における判定が否定的なため、ステップ912が実行される。その結果、引数テキストを元にして1又は複数の質問が生成される。 For simplicity, the operation of the function whose control structure is shown in Figure 12 will be explained assuming N = 2. First, this function is called. The arguments at that time are N = 2 and the text to be processed (for ease of explanation, this will be called "argument text"). Since the determination in step 910 is negative, step 912 is executed. As a result, one or more questions are generated based on the argument text.

続いて、ステップ912において生成された1又は複数の質問の各々に基づき、ステップ914において回答探索処理が実行される。この処理においては、1又は複数の質問の各々に対して1又は複数の回答が得られる。その結果、得られる回答の数は多数となる。 Next, in step 914, an answer search process is performed based on each of the one or more questions generated in step 912. In this process, one or more answers are obtained for each of the one or more questions. As a result, the number of answers obtained is large.

さらに、各回答に対してステップ918の処理が実行される。具体的には、1番目の回答のテキスト(これを「第1テキスト」という。)が選択され、ステップ940において第1テキストがタグ付けされ、ステップ942において第1テキストが意味的ネットワークに新たなノードとして追加される。その後、引数をN―1(=1)及び第1テキストとしてこのプログラムが再帰的に呼び出される。 Then, the process of step 918 is executed for each answer. Specifically, the text of the first answer (called the "first text") is selected, the first text is tagged in step 940, and the first text is added as a new node to the semantic network in step 942. After that, the program is recursively called with arguments N-1 (=1) and the first text.

この結果、新たな引数に対してステップ910が実行される。引数の値が1であるため、ステップ910における判定は否定的となり、ステップ912以下が実行される。その結果、第1テキストから得られた複数の質問に基づいて、複数の回答が得られる。ここでそれらの回答の先頭のテキストを、第1テキストから得られた回答の先頭という意味を表すために、「第1‐1テキスト」と呼ぶ。第1‐1テキストについても、ステップ940においてタグ付けがされ、ステップ942において意味的ネットワークに新たなノードとして追加される。さらに、ステップ944において、N‐2(=0)及び第1‐1テキストの組み合わせを引数として、この関数が再帰的に呼び出される。 As a result, step 910 is executed for the new argument. Because the value of the argument is 1, the determination in step 910 is negative, and step 912 and subsequent steps are executed. As a result, multiple answers are obtained based on multiple questions obtained from the first text. Here, the first text of these answers is called "first-1 text" to indicate that it is the first of the answers obtained from the first text. The first-1 text is also tagged in step 940, and added as a new node to the semantic network in step 942. Furthermore, in step 944, this function is recursively called with the combination of N-2 (=0) and the first-1 text as arguments.

再帰的に呼び出されたこの関数において、ステップ910の判定が実行される。引数の値が0であるため、ステップ910における判定が肯定的となり、この関数の実行は終了し、呼び出し元の関数、すなわち引数N=1のときのステップ944に制御が戻る。ステップ944に制御が戻るため、ステップ944の実行は終了し、ステップ920の次の繰り返しが開始される。より具体的には、第1‐1テキストに続くテキスト(これを「第1‐2テキスト」と呼ぶ。)について、第1‐1テキストに対する処理と同様の処理が実行される。以下同様にして、第1テキストから得られたテキスト(第1‐1テキストから第1―最終テキスト)の全てについて処理が終了すると、N=1のときのステップ918の実行が終了する。その結果、N=1のときのこの関数の実行が終了し、制御はN=2のときのステップ944に戻る。ステップ944が終了することにより、N=2のときの、ステップ918の処理が第1テキストに続く第2テキストについて実行される。 In this recursively called function, the judgment of step 910 is executed. Since the argument value is 0, the judgment in step 910 is positive, the execution of this function is terminated, and control returns to the calling function, i.e., step 944 when argument N=1. Since control returns to step 944, the execution of step 944 is terminated, and the next iteration of step 920 is started. More specifically, for the text following the 1-1 text (this is called the "1-2 text"), a process similar to the process for the 1-1 text is executed. In the same manner, when the process is completed for all the texts obtained from the 1 text (from the 1-1 text to the 1-final text), the execution of step 918 when N=1 is terminated. As a result, the execution of this function when N=1 is terminated, and control returns to step 944 when N=2. With the completion of step 944, the process of step 918 when N=2 is executed for the second text following the 1 text.

このように、図12に制御構造を示す再帰的プログラムを実行することにより、最初に引数Nにより指定した段数まで深さ優先で意味的ネットワークが作成され、それを繰り返すことによりさらに幅方向に沿って意味的ネットワークが広げられていく。 In this way, by executing the recursive program whose control structure is shown in Figure 12, a semantic network is first created in a depth-first order up to the number of levels specified by the argument N, and by repeating this process, the semantic network is further expanded in the width direction.

このようにして意味的ネットワークを作成した後は、第2実施形態と同様にして処理対象のテキストに対する編集が実行される。 After creating the semantic network in this way, editing is performed on the text to be processed in the same manner as in the second embodiment.

上記した実施形態のいずれにおいても、多量の計算が必要となる。しかし、それらの計算は、ある段階からは互いに並行に行うことが可能である。したがって、GPUを用いることにより、入力テキストの検証を効率的に行うことが可能である。 In each of the above embodiments, a large amount of calculations is required. However, these calculations can be performed in parallel with each other from a certain stage. Therefore, by using a GPU, it is possible to efficiently verify the input text.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。 The embodiments disclosed herein are merely examples, and the present invention is not limited to the above-described embodiments. The scope of the present invention is indicated by each claim in the claims, taking into consideration the detailed description of the invention, and includes all modifications within the scope and meaning equivalent to the wording described therein.

50 対話システム
60 テキスト入力装置
62、446 大規模言語モデル
64 検証装置
66 ウェブベース質問応答システム
68 インターネット
70 出力装置
102 意味的ネットワーク作成装置
104 矛盾ネットワーク記憶部
106 支持ネットワーク記憶部
108 テキスト編集装置
130 テキスト記憶部
132 テキスト選択部
134 支持ネットワーク作成部
136 矛盾ネットワーク作成部
180 再帰的支持テキスト収集部
182 支持テキスト検証部
184 支持テキスト検証用モデル
186、358 意味的ネットワーク追加部
210 支持質問生成部
212、372 質問発行部
214 回答受信部
300 支持ネットワーク
350 否定形生成部
352 再帰的矛盾テキスト収集部
354 矛盾テキスト検証部
356 矛盾テキスト検証用モデル
370 矛盾質問生成部
432 テキスト交換部
436 テキスト交換用モデル
438 交換後テキスト
444 プロンプト作成部
450 テキスト統合部
50 Dialogue system 60 Text input device 62, 446 Large-scale language model 64 Verification device 66 Web-based question answering system 68 Internet 70 Output device 102 Semantic network creation device 104 Contradiction network storage unit 106 Support network storage unit 108 Text editing device 130 Text storage unit 132 Text selection unit 134 Support network creation unit 136 Contradiction network creation unit 180 Recursive support text collection unit 182 Support text verification unit 184 Model for verifying support text 186, 358 Semantic network addition unit 210 Support question generation unit 212, 372 Question issuing unit 214 Answer receiving unit 300 Support network 350 Negation form generation unit 352 Recursive contradiction text collection unit 354 Contradiction text verification unit 356 Model for verifying contradiction text 370 Contradiction question generation unit 432 Text exchange unit 436 Model for text exchange 438 Exchanged text 444 Prompt creation section 450 Text integration section

Claims (6)

入力された文章から、検証対象部分を抽出する対象部分抽出手段と、
前記検証対象部分の内容を支持する支持テキストと、前記検証対象部分の内容と矛盾するする矛盾テキストとを既存のテキストの集合から収集するためのテキスト収集手段と、
前記テキスト収集手段により収集された前記支持テキストの集合及び前記矛盾テキストの集合の間に所定の関係が成立するか否かに従って、異なる方法により前記検証対象部分を編集する処理を実行する選択的編集手段とを含む、検証装置。
a target portion extraction means for extracting a verification target portion from an input sentence;
a text collection means for collecting supporting text that supports the content of the portion to be verified and contradictory text that contradicts the content of the portion to be verified from a collection of existing texts;
and selective editing means for executing a process of editing the portion to be verified in a different manner depending on whether a predetermined relationship is established between the set of supporting texts and the set of contradictory texts collected by the text collection means.
前記テキスト収集手段は、前記検証対象部分の表現に基づいて、前記検証対象部分の内容を支持する回答を得るための支持特定質問と、前記検証対象部分と矛盾する回答を得るための矛盾特定質問とを生成し、それら各質問について、前記既存のテキストの集合から回答を得る処理を再帰的に実行することにより、前記支持テキストと前記矛盾テキストとを収集する回答収集手段とを含む、請求項1に記載の検証装置。 The verification device according to claim 1, wherein the text collection means includes answer collection means for generating support-specific questions for obtaining answers that support the content of the verification target portion and contradiction-specific questions for obtaining answers that contradict the verification target portion based on the expression of the verification target portion, and for each of the questions, recursively executing a process of obtaining an answer from the set of existing texts, thereby collecting the supporting text and the contradiction text. 前記検証対象部分を編集する前記処理は、
前記矛盾テキスト又は前記支持テキストのいずれかを所定の基準に従って選択するテキスト選択処理と、
前記検証対象部分の少なくとも一部を、前記テキスト選択処理において選択された前記矛盾テキスト又は前記支持テキストに基づいて編集する編集処理とを含む、請求項1に記載の検証装置。
The process of editing the part to be verified includes:
a text selection process for selecting either the contradictory text or the supporting text according to predetermined criteria;
The verification device according to claim 1 , further comprising an editing process for editing at least a part of the portion to be verified based on the contradictory text or the supporting text selected in the text selection process.
前記検証対象部分を編集する前記処理は、さらに、前記新たなテキストを大規模言語モデルに入力することにより前記大規模言語モデルが出力するテキストを、前記新たなテキストに続けて追加するテキスト追加処理を含む、請求項3に記載の検証装置。 The verification device according to claim 3, wherein the process of editing the portion to be verified further includes a text addition process of inputting the new text into a large-scale language model and adding text output by the large-scale language model subsequent to the new text. コンピュータが、入力された文章から、検証対象部分を抽出するステップと、
コンピュータが、前記検証対象部分の内容を支持する支持テキストと、前記検証対象部分の内容と矛盾する矛盾テキストとを既存のテキストの集合から収集するステップと、
コンピュータが、前記収集するステップにおいて収集された前記支持テキストからなる集合及び前記矛盾テキストからなる集合の間に所定の関係が成立するか否かに従って、異なる方法に従って前記検証対象部分を編集するステップとを含む、検証方法。
A step in which a computer extracts a portion to be verified from an input sentence;
A computer collects supporting text that supports the content of the portion to be verified and contradicting text that contradicts the content of the portion to be verified from a collection of existing texts;
and a step of editing the portion to be verified according to different methods by a computer depending on whether a predetermined relationship is established between the set of supporting texts and the set of contradictory texts collected in the collecting step.
コンピュータを、
入力された文章から、検証対象部分を抽出する対象部分抽出手段と、
前記検証対象部分の内容を支持する支持テキストと、前記検証対象部分の内容と矛盾する矛盾テキストとを既存のテキストの集合から収集するためのテキスト収集手段と、
前記テキスト収集手段により収集された前記支持テキストの集合及び前記矛盾テキストの集合の間に所定の関係が成立するか否かに従って、異なる方法に従って前記検証対象部分を編集する選択的編集手段として機能させる、検証プログラム。
Computer,
a target portion extraction means for extracting a verification target portion from an input sentence;
a text collection means for collecting supporting text that supports the content of the portion to be verified and contradictory text that contradicts the content of the portion to be verified from a collection of existing texts;
a selective editing means for editing the part to be verified in different ways depending on whether a predetermined relationship is established between the set of supporting texts and the set of contradictory texts collected by the text collecting means.
JP2023188309A 2023-11-02 2023-11-02 Verification device, verification method, and verification program Pending JP2025076620A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023188309A JP2025076620A (en) 2023-11-02 2023-11-02 Verification device, verification method, and verification program
PCT/JP2024/037651 WO2025094768A1 (en) 2023-11-02 2024-10-23 Verification apparatus, verification method, and verification program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023188309A JP2025076620A (en) 2023-11-02 2023-11-02 Verification device, verification method, and verification program

Publications (1)

Publication Number Publication Date
JP2025076620A true JP2025076620A (en) 2025-05-16

Family

ID=95582249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023188309A Pending JP2025076620A (en) 2023-11-02 2023-11-02 Verification device, verification method, and verification program

Country Status (2)

Country Link
JP (1) JP2025076620A (en)
WO (1) WO2025094768A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120317046A1 (en) * 2011-06-10 2012-12-13 Myslinski Lucas J Candidate fact checking method and system
US8819047B2 (en) * 2012-04-04 2014-08-26 Microsoft Corporation Fact verification engine

Also Published As

Publication number Publication date
WO2025094768A1 (en) 2025-05-08

Similar Documents

Publication Publication Date Title
Uc-Cetina et al. Survey on reinforcement learning for language processing
Nuruzzaman et al. A survey on chatbot implementation in customer service industry through deep neural networks
JP2021182430A (en) Training methods and devices for semantic analysis models, electronic devices and storage media
KR102259390B1 (en) System and method for ensemble question-answering
US7983901B2 (en) Computer-aided natural language annotation
CN111078836A (en) Machine reading comprehension method, system and device based on external knowledge enhancement
JP5540335B2 (en) Natural language sentence generation device and computer program
US8930296B2 (en) Method and system for programming virtual robots using a template
JP7342971B2 (en) Dialogue processing device, learning device, dialogue processing method, learning method and program
WO2023278052A1 (en) Automated troubleshooter
US12106045B2 (en) Self-learning annotations to generate rules to be utilized by rule-based system
Guy et al. The PENG ASP system: architecture, language and authoring tool
CN107103363A (en) A kind of construction method of the software fault expert system based on LDA
CN116467417A (en) Question answer generation method, device, equipment and storage medium
JP2025076620A (en) Verification device, verification method, and verification program
US20230140480A1 (en) Utterance generation apparatus, utterance generation method, and program
CN115562649B (en) Auxiliary writing method and system for source codes of computer mixed program language
CN118364068A (en) Intelligent question-answering method, device, equipment and medium
JP3715470B2 (en) Response generation apparatus, dialogue management apparatus, response generation method, and computer-readable recording medium storing response generation program
JP7044245B2 (en) Dialogue system reinforcement device and computer program
CN118656829B (en) Method and device for processing interface path information, storage medium and electronic device
JP2024138678A (en) Hypothesis generation device and hypothesis generation method
Talita et al. Challenges in building domain ontology for minority languages
US20240004619A1 (en) Using indentation to trim output of a language synthesis model
JPWO2004084156A1 (en) Template-Interactive learning system based on template structure