TWI772975B - 契約書的自動相似度比對與解析方法 - Google Patents
契約書的自動相似度比對與解析方法 Download PDFInfo
- Publication number
- TWI772975B TWI772975B TW109140785A TW109140785A TWI772975B TW I772975 B TWI772975 B TW I772975B TW 109140785 A TW109140785 A TW 109140785A TW 109140785 A TW109140785 A TW 109140785A TW I772975 B TWI772975 B TW I772975B
- Authority
- TW
- Taiwan
- Prior art keywords
- sentence
- parsed
- statement
- contract
- data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 238000002864 sequence alignment Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 17
- 238000013434 data augmentation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Landscapes
- Synchronisation In Digital Transmission Systems (AREA)
- Hardware Redundancy (AREA)
- Executing Machine-Instructions (AREA)
- Machine Translation (AREA)
Abstract
一種契約書的自動相似度比對與解析方法,藉由一電腦系統來執行,該電腦系統儲存一待解析契約書資料,及多筆參考契約書資料,該待解析契約書資料包括多個待解析語句,每一參考契約書資料包括多個參考語句,該方法包含以下步驟:(A)對於每一待解析語句,將該待解析語句與該等參考語句進行相似度比對,以從該等參考契約書資料的該等參考語句中獲得一與該待解析語句最相似的目標參考語句;及(B)對於每一待解析語句,根據該待解析語句該目標參考語句,利用一用於解析二語句之關聯性的解析模型產生一包括該待解析語句與該目標參考語句之關聯性的解析結果。
Description
本發明是有關於一種解析方法,特別是指一種契約書的自動相似度比對與解析方法。
法律契約是我們日常生活中非常重要的文件。契約是雙方當事人基於意思表示合致而成立的法律行為,為私法自治的主要表現,規定了雙方的責任和義務。由於涉及法律,若沒有詳細考慮契約內容,進而創建和簽署契約,可能會冒著陷入不公平或爭議情況的風險,並招致後來的訴訟費用。
然而,缺乏足夠法律知識的個人用戶難以發現契約中法律問題的不利之處以及契約聲明背後的意圖。即使是專業律師,也可能仍需要花費大量時間來解析新契約。
因為要理解法律聲明並發現潛在的缺陷,需要大量的法律和領域知識,對於現有的電腦難以實現取代人類心智活動來解析契約。
因此,本發明的目的,即在提供一種能自動解析契約書的契約書的自動相似度比對與解析方法。
於是,本發明契約書的自動相似度比對與解析方法,藉由一電腦系統來執行,該電腦系統儲存一待解析契約書資料,及多筆參考契約書資料,該待解析契約書資料包括多個待解析語句,每一參考契約書資料包括多個參考語句,該方法包含一步驟(A)及一步驟(B)。
在該步驟(A)中,對於每一待解析語句,該電腦系統將該待解析語句與該等參考契約書資料的該等參考語句進行相似度比對,以從該等參考契約書資料的該等參考語句中獲得一與該待解析語句最相似的目標參考語句。
在該步驟(B)中,對於每一待解析語句,該電腦系統根據該待解析語句與對應該待解析語句的目標參考語句,利用一用於解析二語句之關聯性的解析模型產生一包括該待解析語句與該目標參考語句之關聯性的解析結果。
本發明的功效在於:對於每一待解析語句,藉由該電腦系統將該待解析語句與該等參考契約書資料的該等參考語句進行相似度比對,以獲得該目標參考語句,並根據該待解析語句與該目標參考語句利用該解析模型產生該解析結果,讓使用者能根據對應該待解析契約書資料的該等待解析語句的解析結果,了解該待解析契約書資料與該等參考契約書資料之間的關聯性。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
參閱圖1,說明用來實施本發明契約書的自動相似度比對與解析方法的一實施例之一電腦系統1,該電腦系統1包含一儲存單元11及一電連接該儲存單元11的處理單元12。在本實施例中,該電腦系統1之實施態樣例如為一個人電腦、一伺服器或一雲端主機,但不以此為限。
該儲存單元11儲存多筆訓練資料、一包括多種同義詞的同義詞資料、一待解析契約書資料,及多筆參考契約書資料,每一訓練資料包括一第一語句、一第二語句,及一相關於該第一語句與該第二語句關聯性的標註,該待解析契約書資料包括多個待解析語句,每一參考契約書資料包括多個參考語句。
值得注意的是,在本實施例中,每一訓練資料的標註例如有六類,分別為相同、第一語句涵蓋第二語句、第二語句涵蓋第一語句、相反、不相干,及其他,該等參考契約書資料是經過法律驗證的,且可分為13類,分別為關於用戶帳戶的準則、關於隱私和契約資訊的安全條款、有關契約成立的充分條件的條款、缺陷保修條款、危險負擔解除合同的權利以及雙方的索賠、免責條款、關於契約和第三方供應商的效力,服務提供商在退貨時的賠償或補償、退貨、業務的定義和說明、爭議解決與救濟渠道、採購代理、關於管轄權和適用法律,及知識產權,但不以此為限。
參閱圖2、3,本發明契約書的自動相似度比對與解析方法的該實施例包含一模型建立程序及一契約書解析程序。
參閱圖1、2,該模型建立程序包含步驟21~23,以下說明該模型建立程序的步驟。
在步驟21中,對於每一訓練資料,該處理單元12根據該訓練資料的該第一語句與該第二語句中的至少一目標單字,以及該同義詞資料,獲得至少一對應該至少一目標單字的同義詞組。
在步驟22中,對於每一訓練資料,該處理單元12根據該訓練資料及該至少一同義詞組,產生至少一擴增訓練資料。
在步驟23中,該處理單元12根據該等訓練資料及步驟22產生的擴增訓練資料,利用一機器學習演算法,建立一用於解析二語句之關聯性的解析模型。
舉例來說,該訓練資料的該第一語句為『如果您不同意某項「服務」之修訂條款________』,該第二語句『如_您不同意________本條款之全部或部分內容』,且該訓練資料的標註為第二語句涵蓋第一語句。在步驟21中,若目標單字為”同意”及”修訂”,則可獲得例如包括”允諾、許可、准許、批准”的”同意”同義詞組,以及例如僅包括”修改”的”修訂” 同義詞組,則在步驟22中,該處理單元12可將該第一語句及該第二語句的”同意”分別替換成”允諾、許可、准許、批准”,以獲得4筆擴增訓練資料,亦可將該第一語句的”修訂”替換成修改”修改”1筆擴增訓練資料,其中,擴增訓練資料的標註不變,皆為第二語句涵蓋第一語句,同理,若目標單字為”修訂”,則僅會產生1筆擴增訓練資料。
值得注意,在本實施中,該機器學習演算法為自然語言處理(Natural Language Processing, NLP)預訓練(Pre-training)的神經網路(Neural Network, NN)演算法,例如BERT(Bidirectional Encoder Representations from Transformers)模型,但不以此為限。
要再注意的是,本實施例由於六類標註中的其中幾類標註的樣本數過低,因此採用同義詞替換的資料擴增(data augmentation)方式(步驟21、22),以增加樣本數,若在其他實施方式,在資料充足的情況下,可不用執行資料擴增,即不執行步驟21、22,而直接執行步驟23,且在步驟23中,該處理單元12直接根據儲存單元11的根據該等訓練資料建立該解析模型。
參閱圖1、3,該模型建立程序包含步驟31、32,以下說明該契約書解析程序的步驟。
在步驟31中,對於每一待解析語句,該處理單元12將該待解析語句與該等參考契約書資料的該等參考語句進行相似度比對,以從該等參考契約書資料的該等參考語句中獲得一與該待解析語句最相似的目標參考語句。
搭配參閱圖4,在本實施例中,該處理單元12係利用一局部敏感雜湊演算法(local sensitivity hashing, LSH)從該等參考契約書資料的該等參考語句獲得一與該待解析語句最相似的目標參考語句,步驟31包括子步驟311及312,以下說明步驟31的子步驟。
在步驟311中,對於每一待解析語句,該處理單元12利用該局部敏感雜湊演算法計算出多個相關於該待解析語句分別與該等參考契約書資料的該等參考語句相似度的相似度值。
要特別注意的是,在本實施例中,該處理單元12可以通過將該待解析語句與要比對的參考語句隨機投影到各種歸一化的單位向量中,以提取其特徵來計算該待解析語句與該等參考語句的局部敏感雜湊函數值,由於隨機投影的隨機性以及大小的關係,兩個句子的相似度值為根據雜湊表查找的特徵之間的相似性,但不以此為限。
在步驟312中,對於每一待解析語句,該處理單元12根據該等相似度值,從該等參考契約書資料的該等參考語句中獲得所對應的相似度值相對最高的該目標參考語句。
在步驟32中,對於每一待解析語句,該處理單元12根據該待解析語句與對應該待解析語句的目標參考語句,利用該解析模型產生一包括該待解析語句與該目標參考語句之關聯性的解析結果。
搭配參閱圖5,步驟32包括子步驟321及322,以下說明步驟32的子步驟。
在步驟321中,對於每一待解析語句,該處理單元12利用一序列排列比對(sequence alignment comparison)演算法,將該待解析語句與該目標參考語句進行對齊,以獲得一相關於該待解析語句的對齊待解析語句及一相關於該目標參考語句的對齊參考語句。
在步驟322中,對於每一待解析語句,該處理單元12將該對齊待解析語句與該對齊參考語句輸入該解析模型,以產生該解析結果。
該處理單元12利用該序列排列比對演算法的詳細作動係利用下式的編輯(插入,刪除和替換)操作來將該待解析語句分別與該等候選參考語句進行對齊,以比對出該待解析語句及其比對的候選參考語句相同、缺失,或不同的部分。
d(
i,
j)=min
其中,
代表編輯距離函數(edit distance),
i與
j分別代表該待解析語句與該目標參考語句的對應位置,
S1與
S2分別代表該待解析語句與該目標參考語句的字串,
與
分別代表該待解析語句字串
S1在位置
i的字元,及該目標參考語句字串
S2在位置
j的字元。
S1 <
S2表示字串
S1較
S2長。
舉例來說,該待解析語句
S1例如為『在您完成線上訂購程序以後,本系統會自動經由電子郵件或其他方式寄給您一封通知,但是該項通知只是通知您本系統已經收到您的訂購訊息,不代表交易已經完成或契約已經成立,PChomeOnline保留是否接受您的訂單的權利。』,而與該待解析語句比對的候選參考語句S2例如為『使用者完成線上訂購程序以後,即表示提出要約,本公司會自動經由電子郵件或其他方式寄發通知,但是該項通知只是代表已經收到使用者訂購訊息。』,則該處理單元12利用該序列排列比對演算法的結果如下表1所示。
表1
| S1-p1: _在您完成線上訂購程序以後, |
| S2-p1: 使用者完成線上訂購程序以後, |
| S1-p2: ________ |
| S2-p2: 即表示提出要約, |
| S1-p3: 本系統會自動經由電子郵件或其他方式寄給您一封通知, |
| S2-p3: 本公司會自動經由電子郵件或其他方式寄___發通知, |
| S1-p4: 但是該項通知只是通知您本系統已經收到_您的訂購訊息, |
| S2-P4: 但是該項通知只是____代表已經收到使用者訂購訊息, |
| S1-p5: 不代表交易已經完成或契約已經成立,PChomeOnline保留是否接受您的訂單的權利。 |
| S2-p5: _____________________________________。 |
該對齊待解析語句即為『_在您完成線上訂購程序以後,_________本系統會自動經由電子郵件或其他方式寄給您一封通知,但是該項通知只是通知您本系統已經收到_您的訂購訊息,不代表交易已經完成或契約已經成立,PChomeOnline保留是否接受您的訂單的權利。』,該對齊參考語句為『使用者完成線上訂購程序以後,即表示提出要約,本公司會自動經由電子郵件或其他方式寄____發通知,但是該項通知只是____代表已經收到使用者訂購訊息,______________________________________________。』。
要特別注意的是,在本實施例中,每一訓練資料的第一語句及第二語句,也是經由該處理單元12利用該序列排列比對演算法對齊後的語句。
綜上所述,本發明契約書的自動相似度比對與解析方法,對於每一待解析語句,藉由該電腦系統1利用該局部敏感雜湊,從該等參考契約書資料的該等參考語句獲得該目標參考語句,大幅縮短比對時間,並將該待解析語句與該目標參考語句輸入至該解析模型,以產生該解析結果,讓使用者能根據對應該待解析契約書資料的該等待解析語句的解析結果,了解該待解析契約書資料與該等參考契約書資料之間的關聯性,故確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
1:電腦系統
11:儲存單元
12:處理單元
21~23:步驟
31、32:步驟
311、312:步驟
321、322:步驟
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:
圖1是一方塊圖,說明用來本發明契約書的自動相似度比對與解析方法的一實施例的一電腦系統;
圖2是一流程圖,說明本發明契約書的自動相似度比對與解析方法的該實施例之一模型建立程序;
圖3是一流程圖,說明本發明契約書的自動相似度比對與解析方法的該實施例之一契約書解析程序;
圖4是一流程圖,輔助說明圖3該契約書解析程序的步驟31之子步驟; 及
圖5是一流程圖,輔助說明圖3該契約書解析程序的步驟32之子步驟。
31、32:步驟
Claims (6)
- 一種契約書的自動相似度比對與解析方法,藉由一電腦系統來執行,該電腦系統儲存一待解析契約書資料,及多筆參考契約書資料,該待解析契約書資料包括多個待解析語句,每一參考契約書資料包括多個參考語句,該方法包含以下步驟: (A)對於每一待解析語句,將該待解析語句與該等參考契約書資料的該等參考語句進行相似度比對,以從該等參考契約書資料的該等參考語句中獲得一與該待解析語句最相似的目標參考語句;及 (B)對於每一待解析語句,根據該待解析語句與對應該待解析語句的目標參考語句,利用一用於解析二語句之關聯性的解析模型產生一包括該待解析語句與該目標參考語句之關聯性的解析結果。
- 如請求項1所述的契約書的自動相似度比對與解析方法,其中,在步驟(A)中,對於每一待解析語句,根據該待解析語句及該等參考契約書資料的該等參考語句,利用一局部敏感雜湊演算法,從該等參考契約書資料的該等參考語句獲得一與該待解析語句最相似的目標參考語句。
- 如請求項2所述的契約書的自動相似度比對與解析方法,其中,步驟(A)包括以下子步驟: (A-1)對於每一待解析語句,利用該局部敏感雜湊演算法計算出多個相關於該待解析語句分別與該等參考契約書資料的該等參考語句相似度的相似度值;及 (A-2)對於每一待解析語句,根據該等相似度值,從該等參考契約書資料的該等參考語句中獲得所對應的相似度值相對最高的該目標參考語句。
- 如請求項1所述的契約書的自動相似度比對與解析方法,其中,步驟(B)包括以下子步驟: (B-1) 對於每一待解析語句,利用一序列排列比對演算法,將該待解析語句與該目標參考語句進行對齊,以獲得一相關於該待解析語句的對齊待解析語句及一相關於該目標參考語句的對齊參考語句;及 (B-2) 對於每一待解析語句,將該對齊待解析語句與該對齊參考語句輸入該解析模型,以產生該解析結果。
- 如請求項1所述的契約書的自動相似度比對與解析方法,該電腦系統還儲存多筆訓練資料,每一訓練資料包括一由多個單字組成的第一語句、一由多個單字組成的且相異於該第一語句的第二語句,及一相關於該第一語句與該第二語句關聯性的標註,在步驟(B)之前還包含以下步驟: (C)根據該等訓練資料,利用一機器學習演算法,建立該解析模型。
- 如請求項5所述的契約書的自動相似度比對與解析方法,該電腦系統還儲存一包括多種同義詞的同義詞資料,其中,步驟(C)包括以下子步驟: (C-1)對於每一訓練資料,根據該訓練資料的該第一語句與該第二語句中的至少一目標單字,以及該同義詞資料,獲得至少一對應該至少一目標單字的同義詞組; (C-2)對於每一訓練資料,根據該訓練資料及該至少一同義詞組,產生至少一擴增訓練資料;及 (C-3)根據該等訓練資料及步驟(C-2)產生的擴增訓練資料,利用該機器學習演算法,建立該解析模型。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW109140785A TWI772975B (zh) | 2020-11-20 | 2020-11-20 | 契約書的自動相似度比對與解析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW109140785A TWI772975B (zh) | 2020-11-20 | 2020-11-20 | 契約書的自動相似度比對與解析方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202221556A TW202221556A (zh) | 2022-06-01 |
| TWI772975B true TWI772975B (zh) | 2022-08-01 |
Family
ID=83062454
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW109140785A TWI772975B (zh) | 2020-11-20 | 2020-11-20 | 契約書的自動相似度比對與解析方法 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI772975B (zh) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014169334A1 (en) * | 2013-04-15 | 2014-10-23 | Contextual Systems Pty Ltd | Methods and systems for improved document comparison |
-
2020
- 2020-11-20 TW TW109140785A patent/TWI772975B/zh active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014169334A1 (en) * | 2013-04-15 | 2014-10-23 | Contextual Systems Pty Ltd | Methods and systems for improved document comparison |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202221556A (zh) | 2022-06-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Läubli et al. | When Google Translate is better than some human colleagues, those people are no longer colleagues | |
| US11960849B2 (en) | Using machine learning models to analyze contractual terms and clauses in a legal contract, to recommend edits, and to make changes to a workflow | |
| US20150032645A1 (en) | Computer-implemented systems and methods of performing contract review | |
| US20150106378A1 (en) | Document Categorization By Rules and Clause Group Scores Associated with Type Profiles Apparatus and Method | |
| Edie et al. | Avoiding predatory journals: Quick peer review processes too good to be true | |
| US12154014B2 (en) | Computer-implemented method for training a plurality of computers | |
| Nkemelu et al. | Tackling hate speech in low-resource languages with context experts | |
| Moorkens et al. | Translation resources and translator disempowerment | |
| US20150106385A1 (en) | Transformation of Documents To Display Clauses In Variance From Best Practices and Custom Rules Score Apparatus and Method. | |
| Sharma et al. | Using Stack Overflow content to assist in code review | |
| Benmamoun | Generative AI in international business research: a guide to ethical and responsible application | |
| He et al. | A Study on Large Language Model-Based Approach for Construction Contract Risk Detection | |
| TWI772975B (zh) | 契約書的自動相似度比對與解析方法 | |
| Liu et al. | The Evaluation Framework and Benchmark for Large Language Models in the Government Affairs Domain | |
| Amariles et al. | Compliance generation for privacy documents under GDPR: A roadmap for implementing automation and machine learning | |
| CN120752662A (zh) | 信息处理方法 | |
| US20150106880A1 (en) | Authorized Document Distribution and Transmission Control By Groups of Categorized Clauses Apparatus and Method | |
| Fatikha et al. | Translation readability of the verb phrase with modality in the TikTok privacy policy | |
| Gorodishchev et al. | Web 3.0 Credibility: Principles for Ranking Media Sources | |
| Octora et al. | CI-PDP: A Framework for LLM-Based Privacy Policy Evaluation under Contextual Integrity and Indonesia’s PDP Law | |
| Schmitz | Responsible Use of AI in Civil Dispute Resolution | |
| JP7646931B1 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
| Chugh et al. | Demonstration of LegalHelper: A Low-cost tool for Smart Translation and Creation of Legal Contracts | |
| Macháliková | Utilizing ChatGPT for Sentiment Analysis | |
| Ahmed et al. | Lda Topic Modelling On Job Advertisements To Analyze Transformation Of Traditional Quality To Quality 4.0. |