TWI894564B - 匹配臨床試驗之方法、裝置及非暫態性電腦儲存媒體 - Google Patents
匹配臨床試驗之方法、裝置及非暫態性電腦儲存媒體Info
- Publication number
- TWI894564B TWI894564B TW112118923A TW112118923A TWI894564B TW I894564 B TWI894564 B TW I894564B TW 112118923 A TW112118923 A TW 112118923A TW 112118923 A TW112118923 A TW 112118923A TW I894564 B TWI894564 B TW I894564B
- Authority
- TW
- Taiwan
- Prior art keywords
- data set
- dataset
- clinical trial
- data
- value
- Prior art date
Links
Landscapes
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本發明揭示匹配臨床試驗之方法、裝置及非暫態性電腦儲存媒體。本公開提供一種匹配臨床試驗之方法。該方法包含:自一病理學報告獲得一第一資料集;獲得一臨床試驗之一第二資料集;判定該第一資料集與該第二資料集是否關於一第一組欄位匹配;在該第一資料集與該第二資料集關於該第一組欄位匹配時判定該第一資料集與該第二資料集之間關於一第二組欄位的一相關性值;及當該相關性值超過一臨限值時,判定該臨床試驗為推薦的。
Description
本公開係關於一種匹配臨床試驗之方法、一種匹配臨床試驗之裝置及一種相關的非暫態性電腦儲存媒體。特定而言,本公開係關於基於患者之病理學報告為患者匹配臨床試驗之方法,及其相關裝置及非暫態性電腦儲存媒體。
患者的病理學報告包括大量資訊,尤其是癌症患者的病理學報告,且此類病理學報告包括大量混雜及繁瑣資訊。外科醫生及主任醫師可能花費大量時間來理解患者的情形並找到可適用於患者的臨床試驗,而電腦可有助於減少所浪費的時間並因此可增加整體效率。
本公開可分析患者之病理學報告並為患者找到合適的臨床試驗。病理學報告可含有藉由在顯微鏡下檢查細胞及組織而判定的診斷。病理學報告可用於肺癌患者。重要訊息可根據混雜及繁瑣的病理學報告概述。此類訊息可包括特徵類別:病理學之基本描述、腫瘤特徵、組織學描述、免疫組織化學(IHC)資訊、基因測試結果及病理TNM(腫瘤、節點及轉移)分期。本公開可進一步概述一名患者的多個病理學報告。本公開可
進一步提供收集大量臨床試驗之資料的功能,且將自病理學報告獲得之特徵與臨床試驗進行比較以為患者判定合適的臨床試驗,該等臨床試驗可為外科醫生及醫師之參考。
本公開之實施例提供一種匹配臨床試驗之方法。該方法包含:自病理學報告獲得第一資料集;獲得臨床試驗之第二資料集;判定第一資料集與第二資料集是否關於第一組欄位匹配;當第一資料集與第二資料集關於第一組欄位匹配時,判定第一資料集與第二資料集之間關於第二組欄位的相關性值;以及當相關性值超過臨限值時,判定臨床試驗為推薦的。
本公開之另一實施例提供一種匹配臨床試驗之裝置。該裝置包含處理器及與處理器耦接之記憶體。處理器執行儲存於記憶體中以執行操作的電腦可讀指令,且操作包含:自病理學報告獲得第一資料集;獲得臨床試驗之第二資料集;判定第一資料集與第二資料集之間關於第一組欄位的相關性值;以及當相關性值超過臨限值時,判定臨床試驗為推薦的。
本公開之另一實施例提供一種非暫態性電腦儲存媒體。非暫態性電腦儲存媒體具有儲存於其上之程式指令。一旦由處理器執行程式指令,程式指令就引起操作之集合的執行。操作包含:自病理學報告獲得第一資料集;獲得臨床試驗之第二資料集;判定第一資料集與第二資料集是否關於第一組欄位匹配;當第一資料集與第二資料集關於第一組欄位匹配時,判定第一資料集與第二資料集之間關於第二組欄位的相關性值;以及當相關性值超過臨限值時,判定臨床試驗為推薦的。
11:病理學報告
12:經預先訓練模型
13:病理特徵
14:人口統計資料
15:臨床試驗匹配系統
30:方法
40:方法
41:方法
50:方法
151:操作
152:操作
153:操作
154:操作
301:操作
302:操作
303:操作
304:操作
305:操作
401:操作
402:操作
403:操作
404:操作
405:操作
406:操作
411:操作
412:操作
501:操作
502:操作
503:操作
504:操作
505:操作
601:資料
602:資料
700:電腦系統
710:計算裝置
711:處理器
712:輸入/輸出介面
713:通信介面
714:記憶體
720:資料庫
1521:步驟
1522:步驟
為了描述可獲得本公開之優點及特徵的方式,藉由參考本公開之特定實施例來呈現本公開之描述,該等實施例在隨附圖式中加以繪示。此等圖式僅描繪本公開之範例性實施例且因此不被視為對其範疇之限制。
圖1繪示根據本公開之一些實施例之匹配臨床試驗的系統之示意圖。
圖2繪示根據本公開之一些實施例的包括於圖1中之臨床試驗匹配系統中的次要條件匹配之流程圖。
圖3繪示根據本公開之一些實施例之匹配臨床試驗的方法之流程圖。
圖4A繪示根據本公開之一些實施例的預先訓練用於自病理學報告提取特徵之模型的方法之流程圖。
圖4B繪示根據本公開之一些實施例之自病理學報告提取特徵的方法之流程圖。
圖5繪示根據本公開之一些實施例之收集臨床試驗的方法之流程圖。
圖6繪示根據本公開之一些實施例之臨床試驗匹配系統的表示之示意圖。
圖7繪示展示根據本公開之一些實施例的電腦系統之示意圖。
以下揭示提供用以實施所提供主題之不同特徵的許多不同實施例或實例。下文描述操作、組件及配置之特定實例以簡化本公開。當
然,此等僅為實例且不意欲為限制性的。舉例而言,在描述中在第二操作之前或之後執行的第一操作可包括第一操作及第二操作一起執行的實施例,且亦可包括可在第一操作與第二操作之間執行額外操作的實施例。舉例而言,在以下描述中,第一特徵在第二特徵上方或上或中的形成可包括第一特徵及第二特徵直接接觸地形成的實施例,且亦可包括額外特徵可在第一特徵與第二特徵之間形成使得第一特徵與第二特徵可不直接接觸的實施例。此外,本公開可在各種實例中重複參考編號及/或字母。此重複係出於簡單及清晰的目的,且本身並不指示所論述的各種實施例及/或組態之間的關係。
出於易於描述之目的,本文中可使用時間相對術語,諸如「之前」、「在之前」、「之後」、「在之後」及其類似者,以描述如圖式中所繪示的一個操作或特徵與另一操作或特徵之關係。時間相對術語意欲涵蓋圖式中所描繪之操作的不同序列。另外,在本文中為了易於描述,可使用諸如「在...下方(beneath)」、「下方(below)」、「下部(lower)」、「在...上方(above)」、「上部(upper)」及其類似者之空間相對術語來描述如在圖式中所繪示之一個元件或特徵與另一元件或特徵的關係。除了圖式中所描繪的定向之外,空間相對術語亦意欲涵蓋裝置在使用或操作中的不同定向。設備可以其他方式定向(旋轉90度或處於其他定向),且本文中所使用的空間相對描述詞可同樣相應地進行解釋。為了便於描述,本文中可使用用於連接之相對術語,諸如「連接(connect)」、「連接(connected)」、「連接(connection)」、「耦接(couple)」、「耦接(coupled)」、「連通」及其類似者來描述操作連接、耦接或連結兩個元件或特徵之間的一個。用於連接之相對術語意欲涵蓋裝置或組件之不同
連接、耦接或連結。裝置或組件可直接地或經由例如另一組件集合間接地彼此連接、耦接或連結。裝置或組件可以有線及/或無線方式彼此連接、耦接或連結。
如本文中所使用,除非上下文另外清晰指示,否則單數術語「一(a/an)」及「該(the)」可包括複數個指示物。舉例而言,除非上下文另外清楚地指示,否則對裝置之提及可包括多個裝置。術語「包含」及「包括」可指示所描述特徵、整體、步驟、操作、元件及/或組件之存在,但可不排除特徵、整體、步驟、操作、元件及/或組件中之一或多者之組合的存在。術語「及/或」可包括一或多個所列項目之任何或所有組合。
另外,有時在本文中以範圍格式呈現量、比率及其他數值。應理解,此類範圍格式出於便利及簡潔起見而使用,且應靈活地理解為不僅包括明確地指定為範圍限制之數值,且亦包括涵蓋於彼範圍內之所有個別數值或子範圍,如同明確地指定各數值及子範圍一般。
實施例之性質及用途詳細地論述如下。然而,應瞭解,本公開提供許多適用的發明概念,其可體現在各種各樣的特定情境中。所論述之特定實施例僅繪示體現及使用本公開之特定方式,而不限制其範疇。
為將患者之病理學報告(例如,肺癌之病理學報告)與臨床試驗匹配,本公開提供一種自病理學報告提取病理特徵之方法。在本公開之一些實施例中,病理學報告可包括若干類別中之病理特徵。例示性病理特徵列於表1中。類別可包括:基本描述、(腫瘤之)探測、組織學(腫瘤之資訊)、IHC資訊、基因測試(結果)及TNM分期。在其他實施例中,患者之報告的資料表示可由表1中所示之病理特徵表示。
本公開提供臨床試驗匹配系統,其可分析包括病理特徵及人口統計資料(亦即患者之個人資訊)的病理學報告。臨床試驗匹配系統可判定該病理學報告與臨床試驗之間的類似性及相關性,且隨後為患者找出所推薦的臨床試驗。所推薦臨床試驗可為外科醫生及醫師之參考。因此,外科醫生及醫師可基於所推薦臨床試驗為患者提供更多治療選項。使用臨床試驗匹配系統,外科醫生及醫師可快速且準確地找到合適的臨床試驗,而得以節省手動地搜尋臨床試驗所耗費的大量時間。
圖1繪示根據本公開之一些實施例之匹配臨床試驗的系統之示意圖。
參看圖1,可提供患者的病理學報告11。可將病理學報告11輸入至經預先訓練模型12以提取一或多個病理特徵13。可將病理特徵13提供至臨床試驗匹配系統15。
經預先訓練模型12可執行分類任務及/或序列標記任務以提取或獲得病理特徵13。病理特徵13可包括與EGFR、ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53及Her2相關的資訊、以及與手術(例如,外科手術)、組織學、腫瘤大小、分期(例如,病理分期)及
PDL1相關的資訊。經由分類任務,可提取或獲得與EGFR、ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53、Her2等相關的資訊。關於序列標記任務,可提取或獲得與手術、組織學、腫瘤大小、分期、PDL1等相關的資訊。
在一些實施例中,可向臨床試驗匹配系統15提供患者的人口統計資料14。人口統計資料14可包括與以下各者相關的資料或資訊:年齡、性別、吸菸、淋巴結轉移、遠處轉移、CNS轉移、骨轉移、野生型、抗血管生成(anti-angiogenesis)、鉑(platinum)、EGFR TKI、ALK抑制劑、PD-1/PD-L1抑制劑、CTLA-4抑制劑、放射療法、順鉑(cisplatin)/卡鉑(carboplatin)、化學療法、全身性療法、疾病狀態、ECOG PS等。可經由經預先訓練模型12之分類任務或序列標記任務提取或獲得人口統計資料14。當人口統計資料14係以可由臨床試驗匹配系統15直接利用之格式(例如,電腦可處理資料)儲存時,人口統計資料14可經由存取相關資料庫而獲得。
臨床試驗匹配系統15可分析患者之病理特徵13及人口統計資料14,且為患者找出一或多個合適的臨床試驗。在一些實施例中,臨床試驗匹配系統15可耦接至臨床試驗資料庫(圖中未示),使得臨床試驗匹配系統15可將病理特徵13及人口統計資料14與臨床試驗進行比較。因此,可為患者找到所推薦的臨床試驗。
參看圖1,臨床試驗匹配系統15包括操作151、152、153及154。患者之病理特徵13及人口統計資料14可經輸入至臨床試驗匹配系統15中且與各臨床試驗進行比較。在操作151中,判定病理特徵13及人口統計資料14中之一或多個主要條件(或欄位)是否匹配臨床試驗之納入準則。
在一些實施例中,病理特徵13及人口統計資料14中之一或多個主要條件與臨床試驗之納入準則完全匹配。該等主要條件(或欄位)可包括以下各者中之至少一者:所估計腎小球濾過率(EFGR)、外科手術、組織學、病理分期、年齡、性別或吸菸。在一些實施例中,在操作151處,當患者之條件組的值或資訊與納入準則中所述之條件組的彼等值或資訊完全匹配時,程序將繼續進行至操作152。條件組可包括EGFR條件、外科手術條件、組織學條件、病理分期條件、年齡條件、性別條件及吸菸條件。
當一或多個主要條件完全匹配時,程序將繼續進行至操作152。另一方面,當一或多個主要條件並不完全匹配時,程序將繼續進行至操作154。
在操作152中,判定病理特徵13及人口統計資料14中之一或多個次要條件(或欄位)是否匹配臨床試驗。在一些實施例中,病理特徵13及人口統計資料14中之一或多個次要條件部分匹配。不同於主要條件,次要條件可能不需要與臨床試驗完全匹配。在一些實施例中,次要條件匹配係由病理學報告中之次要條件與臨床試驗中之次要條件之間的相關性判定。在一些實施例中,當相關性值大於臨限值時,可判定一或多個次要條件與臨床試驗是匹配的。相關性之判定的細節將在圖2中加以論述。
當一或多個次要條件匹配時,程序將繼續進行至操作153。另一方面,當一或多個次要條件並不匹配時,程序將繼續進行至操作154。
在操作153中,當患者之病理特徵13及人口統計資料14與臨床試驗匹配(亦即,通過操作151及152)時,將為患者推薦臨床試驗。接著,臨床試驗匹配系統15可執行另一程序以判定另一臨床試驗與同一患者
之病理特徵13及人口統計資料14是否匹配。
在操作154中,當患者之病理特徵13及人口統計資料14與臨床試驗不匹配(亦即,未通過操作151或152)時,將不為患者推薦臨床試驗。接著,臨床試驗匹配系統15可執行另一程序以判定另一臨床試驗與同一患者之病理特徵13及人口統計資料14是否匹配。
利用臨床試驗匹配系統15,醫生可容易地為患者找到相關的正在進行的臨床試驗。臨床試驗匹配系統15可對臨床試驗進行篩選且因此可幫助外科醫生及醫師為患者推薦合適的臨床試驗,使得患者可具有更多治療選項。
圖2繪示根據本公開之一些實施例的包括於圖1中之臨床試驗匹配系統15中的次要條件匹配之流程圖。參看圖2,次要條件匹配之操作152可包括兩個步驟1521及1522。
在一些實施例中,操作152中之次要條件匹配係由病理學報告與臨床試驗之間關於次要條件的相關性來判定。在步驟1521中,判定病理學報告及臨床試驗關於次要條件(欄位)的相關性值Sd。在一些實施例中,病理學報告可包括患者之病理特徵13及人口統計資料14。在一些實施例中,可基於BM25演算法而判定相關性值Sd,該演算法為用以估計文件與給定搜尋查詢之相關性的排序函數。
在一些實施例中,可藉由等式1計算病理學報告及臨床試驗d之相關性值Sd:
其中Q表示所有查詢(例如,若干次要條件);
q表示個別查詢(例如,次要條件);W q 表示經指派給個別查詢q之個別權重;表示各別關鍵字t之各別逆向文件頻率(IDF);df t 表示包括各別關鍵字t的臨床試驗之數目;N表示臨床試驗資料庫中臨床試驗之數目;tf td 表示臨床試驗d中關鍵字t之出現次數;L d 表示臨床試驗d之長度;L avg 表示臨床試驗資料庫中所有臨床試驗之平均長度;k 1 為用於正規化文件中之關鍵字之頻率範圍的常數(例如,k 1 可在1.2至2.0之範圍內,較佳為1.2或1.5)k 3 為用於校正查詢中之關鍵字之頻率範圍的常數(例如,k 3 可在1.2至2.0之範圍內,較佳為1.2或1.5);且b為常數(例如,b可為0.75或0.5)。
在一些實施例中,可自一個查詢(例如,第二組欄位中之一個欄位或次要條件中之一個條件)獲得個別相關性值,且相關性值Sd為個別相關性值之總和。等式1可包括個別權重W q 、各別逆向文件頻率(IDF)、各別關鍵字t與個別查詢q之間的相似性,以及各別關鍵字t的權
重。各別IDF可表達為。各別關鍵字t與個別查詢q之間的相似性可表
達為。在一些實施例中,由於拉普拉斯平滑之使用,
類似性等式包括(k1+1)。各別關鍵字t的權重可表達為。在一些實施例中,由於拉普拉斯平滑之使用,各別關鍵字t的權重包括(k3+1)。
在一些實施例中,個別相關性值可與個別權重W q 相關聯,該個別權重由臨床醫師指派給個別查詢。特定而言,個別相關性值可與個
別權重W q 成比例。臨床醫師可判定各查詢(或條件)之重要性或相關性,且接著將恰當權重指派給此查詢(或條件)。
在一些實施例中,IDF為數值統計,其意欲反映字詞/術語對集合或語料庫中之文件的重要程度。IDF為指示使用字詞/術語之常用程度的權重。字詞/術語在集合或語料庫中之文件中使用愈頻繁,其IDF評分愈低。IDF評分愈低,則字詞/術語變得愈不重要。舉例而言,術語「該(the)」出現於幾乎所有英文文字中且因此將具有極低IDF評分,此係因為該術語蘊含極少「主題」資訊。
在一些實施例中,個別相關性值可與各別關鍵字之各別IDF相關聯。舉例而言,個別相關性值可與各別IDF成比例。因此,各別關鍵字跨越臨床試驗資料庫中之臨床試驗出現愈少,其各別IDF將愈大,且因此個別相關性值將愈大。
利用等式1,可判定病理學報告及臨床試驗關於次要條件(欄位)的相關性值Sd。
在步驟1522中,當相關性值Sd超過臨限值K時,判定病理學報告(或相應病理特徵13及人口統計資料14)匹配臨床試驗。返回至圖1,當在操作152處病理特徵13及人口統計資料14匹配臨床試驗時,隨後在操作153處將該臨床試驗推薦給相應患者。相關性值Sd可與臨限值K進行比較,使得臨床試驗可經判定是否匹配病理學報告。當臨床試驗之相關性值Sd超過臨限值K時,為患者推薦臨床試驗(亦即,轉至圖1中之操作153)。另一方面,當病理學報告與臨床試驗之間的相關性值Sd小於臨限值K時,判定病理學報告(或相應病理特徵13及人口統計資料14)不匹配臨床試驗。返回至圖1,當在操作152處病理特徵13及人口統計資料14不匹配
臨床試驗時,則在操作154處臨床試驗不被推薦給相應患者。
圖3繪示根據本公開之一些實施例之匹配臨床試驗的方法30之流程圖。
在操作301中,可自病理學報告獲得第一資料集。在一些實施例中,第一資料集可包括如圖1中所論述之患者的病理特徵13及人口統計資料14。舉例而言,第一資料集(諸如,人口統計資料14)可自病理學報告獲得。在另一實施例中,第一資料集(諸如,病理特徵13)可經由經預先訓練模型12自病理學報告獲得。
在操作302中,可獲得臨床試驗之第二資料集。在一些實施例中,臨床試驗之第二資料集可自臨床資料庫獲得。
在操作303中,可判定第一資料集與第二資料集關於第一組欄位是否匹配。在一些實施例中,操作303可對應於圖1中之操作151。第一組欄位可包括以下各者中之一或多者:所估計腎小球濾過率(EFGR)、外科手術、組織學、病理分期、年齡、性別或吸菸。
在操作304中,當第一資料集與第二資料集關於第一組欄位匹配時,可判定第一資料集與第二資料集之間關於第二組欄位的相關性值。在一些實施例中,操作304可對應於圖1中之操作152。第二組欄位可包括以下各者中之一或多者:ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53、Her2、腫瘤大小、腫瘤最大直徑、程序性死亡配體1(PD-L1)、淋巴結轉移、遠處轉移、CNS轉移、骨轉移、野生型、抗血管生成、鉑、EGFR TKI、ALK抑制劑、PD-1/PD-L1抑制劑、CTLA-4抑制劑、放射療法、順鉑/卡鉑、化學療法、全身性療法、疾病狀態或美國東岸癌症臨床研究合作組織日常體能狀態(Eastern Cooperative Oncology
Group Performance Status;ECOG PS。
在操作305中,當相關性值超過臨限值時,可判定臨床試驗為推薦的。當臨床試驗之相關性值超過臨限值時,其指示臨床試驗與患者相關,且因此可為患者推薦臨床試驗。
圖4A繪示根據本公開之一些實施例的預先訓練用於自病理學報告提取特徵之模型的方法40之流程圖。在一些實施例中,可藉由輸入未標記之字詞內容,諸如若干患者之病理學報告來預先訓練模型。
在操作401中,可根據預定長度將病理學報告的內容劃分成複數個序列。在一些實施例中,序列中之各者可包括複數個句子。
在操作402中,可在複數個序列中之各者的開頭添加分類符記。在一些實施例中,病理學報告之序列可為可由臨床醫師識別的一或多個段落。分類符記可表示整個序列之向量。
在操作403中,可在兩個連續句子之間添加句子分隔符記。在一些實施例中,句子分隔符記可用以識別不同句子。在一些實施例中,兩個連續句子中之各者可包括由臨床醫師識別之一或多個句子。
在操作404中,可對病理學報告之內容執行預處理,以獲得符記嵌入、句子嵌入及位置嵌入。在一些實施例中,符記嵌入可為內容之值表示。句子嵌入可為句子之值表示。位置嵌入可為內容的位置表示。
在操作405中,可將符記嵌入、句子嵌入及位置嵌入彙總為經預處理內容(pre-processed content)。在一些實施例中,可對符記嵌入、句子嵌入及位置嵌入進行彙總,將所彙總之內容複製成三個複本且接著可對三個複本執行多頭部自關注演算法(multi-head self-attention algorithm),且可獲得含有各字詞之表示向量的經預處理內容。
在操作406中,可藉由對經預處理內容執行遮罩語言模型及/或下一句預測來訓練模型,以獲得經預先訓練模型。
在一些實施例中,遮罩語言模型可在多層情境中容易地預測目標術語。遮罩語言模型為輸入術語之一些部分(諸如,特定術語之一些措辭)可被簡單地隨機遮罩,且接著可預測彼等經遮罩術語。在一些實施例中,輸入術語可變換為符記以供分析。
在一些實施例中,為訓練理解句子關係之模型,下一句預測可用以訓練模型。在一些實施例中,下一句預測為可自語料庫/資料庫容易地產生的任務。具體而言,當針對各相關實例選擇句子A及B時,50%的時間B為A之後的實際下一句,且50%的時間其為來自語料庫之隨機句子。在用大量輸入資料訓練之後,經預先訓練模型之下一句預測的準確度可增加。
在一些實施例中,經預先訓練模型可以是一種來自變換器的雙向編碼器表示(Bidirectional Encoder Representations from Transformers;BERT)模型。經預先訓練模型可藉由輸入一或多個醫院的臨床病理學報告來預先訓練。
圖4B繪示根據本公開之一些實施例之自病理學報告提取特徵的方法41之流程圖。在一些實施例中,方法41可藉由根據圖4A中之方法40訓練的經預先訓練模型來執行。
在操作411中,可藉由經預先訓練模型對病理學報告執行分類任務,使得獲得至少一個狀態值。在一些實施例中,分類任務係判定病理學報告是否包括特定欄位。因此,分類任務之答案/結果將為是或否(1或0)。亦即,分類任務之結果為狀態值。
在一些實施例中,病理學報告中之至少一個狀態值可包括欄位(或條件)之狀態值,包括:EGFR、ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53或Her2。在一些實施例中,至少狀態值可包括於圖3中所論述之第一資料集中。
舉例而言,EGFR欄位之狀態值可包括24+1個可能值,例如,外顯子18、19、20及21之突變狀態及未知狀態。對於ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53及Her2之欄位,狀態值可為正、負或未知。
在操作412中,可藉由經預先訓練模型對病理學報告執行序列標記任務,使得獲得至少一個描述。在一些實施例中,序列標記任務可判定不同類別的特定術語。因此,序列標記任務之答案/結果將為一描述。
在一些實施例中,病理學報告中之至少一個描述包括針對欄位(或條件)之描述,包括:手術(或外科手術)、組織學、腫瘤大小、分期(或病理分期)或PDL1。在一些實施例中,至少描述可包括於圖3中所論述之第一資料集中。
舉例而言,操作欄位之描述可為「視頻輔助胸腔鏡手術(VATS)葉切除術」。組織學欄位之描述可為「低分化之非小細胞癌瘤」。腫瘤大小欄位之描述可為「0.6×0.4×0.3cm」,且最大腫瘤直徑之描述可為「0.6cm」。分期欄位之描述可為「pStageIVA」。
圖5繪示根據本公開之一些實施例之收集臨床試驗的方法50之流程圖。執行方法50之裝置可用於更新臨床試驗資料庫,其可與圖1中之臨床試驗匹配系統耦合。
在操作501中,可在一或多個臨床試驗線上資料庫上查詢一或多個關鍵字以獲得一或多個查詢結果。一或多個臨床試驗線上資料庫可為政府公共臨床試驗資料庫(諸如,clinicaltrials.gov及www1.cde.org.tw/ct_taiwan)。在一些實施例中,關鍵字可為疾病/診斷及/或分期。在一些實施例中,疾病/診斷可包括NSCLC(非小細胞肺癌)、非小細胞、肺腺癌瘤、非鱗狀、鱗狀細胞癌瘤、非鱗狀非小細胞肺癌、鱗狀細胞肺癌、大細胞肺癌...等。在一些實施例中,分期可包括發展、分期IIIB、分期IIIC、分期IV、轉移性...等。舉例而言,關鍵字可為NSCLC晚期、NSCLC分期IIIB...等。
在操作502中,可記錄查詢結果中之各者的一或多個參數。
在操作503中,可基於一或多個參數建構查詢結果中之各者的網站鏈接。
在操作504中,可收集查詢結果之一或多個欄位的資料。在一些實施例中,欄位可為查詢結果中之感興趣的欄。舉例而言,欄位可包括關鍵字、臨床試驗/程式ID、臨床試驗/項目標題、申請人、發起人、臨床試驗之預計開始日期、臨床試驗之實際開始日期、臨床試驗之預計結束日期、臨床試驗之實際結束日期、臨床試驗之納入準則及臨床試驗之排除準則、試驗醫院、試驗位置(諸如,州或國家)、臺灣之預計試驗數目、世界之預計試驗數目、臨床試驗之最後更新日期及臨床試驗之網站鏈接(亦即,URL)。
在操作505中,查詢結果之一或多個欄位的資料可儲存至臨床試驗資料庫中。在一些實施例中,臨床試驗資料庫可與臨床試驗匹配
系統耦合,使得該系統可將病理特徵及人口統計資料與臨床試驗進行比較。因此,可為患者找到所推薦的臨床試驗。
圖6繪示根據本公開之一些實施例之臨床試驗匹配系統的表示之示意圖。參看圖6,臨床試驗匹配系統可包括人口統計區塊、基因/轉移區塊、治療/藥物區塊及病理學資訊區塊。
人口統計區塊中之資料,諸如年齡、性別、吸菸及ECOG PS可自圖1中之人口統計資料14獲得。舉例而言,年齡可為50。性別可為男性。患者可具有吸菸習慣。ECOG PS之得分可為3,其可在0至5之範圍內。
在一些實施例中,基因/轉移區塊中之資料601可經由經預先訓練模型自病理學報告獲得。亦即,資料601可自圖1中之病理特徵13獲得。另一方面,在基因/轉移區塊中除資料601以外的資料可自圖1中之人口統計資料14而獲得。在一些實施例中,基因/轉移區塊中的資料之各者可為狀態值。對於EGFR欄位,其展示「未知」或具有突變(mutation)之外顯子(exon)的數目;狀態值「18、19」指示外顯子18及19具有突變。對於資料601中之其他欄位,狀態值可為P(陽性)、N(陰性)或U(未知)。舉例而言,淋巴結轉移可為是(亦即,已發生淋巴結轉移)。
在基因/轉移區塊中,狀態值「野生型」、「淋巴結轉移」、「遠處轉移」、「CNS轉移」及「骨轉移」可為是或否。
治療/藥物區塊中之資料可自圖1中之人口統計資料14獲得。在一些實施例中,治療/藥物區塊中的資料之各者可為狀態值,其可為是或否。舉例而言,放射療法可為是(亦即,已進行放射療法)。
在一些實施例中,病理學資訊區塊中之資料602可經由經
預先訓練模型自病理學報告獲得。亦即,資料602可自圖1中之病理特徵13獲得。另一方面,除病理學資訊區塊中之資料602以外的資料可自圖1中之人口統計資料14獲得。
圖7繪示展示根據本公開之一些實施例的電腦系統之示意圖。
參考圖7,其展示能夠執行本公開方法之一或多個操作的電腦系統700之實例。在本公開之至少一些實施例中,電腦系統700包括計算裝置710及資料庫720。計算裝置710可為伺服器電腦、客戶端電腦、個人電腦(PC)、平板PC、機頂盒(STB)、個人數位助理(PDA)、蜂巢式電話或智慧型手機。計算裝置710包含處理器711、輸入/輸出介面712、通信介面713及記憶體714。資料庫720可儲存病理學報告,病理特徵13及人口統計資料14將自該病理學報告中提取。資料庫720可儲存待分析或概述之病理學報告。輸入/輸出介面712與處理器711耦接。輸入/輸出介面712允許使用者操縱計算裝置710以便執行本公開之操作或方法(例如,圖3中所揭示之方法)。通信介面713與處理器711耦接。通信介面713允許計算裝置710與資料庫720通信。通信介面713可支援以下協定中之一或多者:通用串列匯流排(USB)、乙太網、藍芽、IEEE 802.11、3GPP長期演進(LTE)(4G)及3GPP新無線電(5G)。記憶體714可為非暫態性電腦可讀儲存媒體。記憶體714與處理器711耦接。記憶體714已儲存可由一或多個處理器(例如,處理器711)執行的程式指令。在執行儲存於記憶體714上之程式指令後,程式指令即引起執行本公開中所揭示之方法的一或多個操作。
舉例而言,程式指令可引起計算裝置710執行動作之集合,其至少包括:自病理學報告獲得第一資料集;獲得臨床試驗之第二資
料集;判定第一資料集與第二資料集是否關於第一組欄位匹配;當第一資料集與第二資料集關於第一組欄位匹配時,判定第一資料集與第二資料集之間關於第二組欄位的相關性值;以及當相關性值超過臨限值時,判定臨床試驗為推薦的。
本公開之範疇並不意欲限於說明書中描述的程序、機器、製品及物質組成、手段、方法、步驟及操作的特定實施例。如熟習此項技術者將易於自本公開之揭示內容而瞭解,可根據本公開利用執行與本文中所描述之對應實施例實質上相同的功能或實現與該等對應實施例實質上相同的結果的當前現有或稍後待開發的程序、機器、製品、物質組成、手段、方法、步驟或操作。因此,所附申請專利範圍意欲在其範疇內包括程序、機器、製品及物質組成、手段、方法、步驟或操作。此外,各申請專利範圍構成一單獨實施例,且各種申請專利範圍與實施例的組合在本公開之範疇內。
根據本公開之實施例的方法、程序或操作亦可實施於程式化處理器上。然而,控制器、流程圖及模組亦可實施於通用或專用電腦、程式化微處理器或微控制器及周邊積體電路元件、積體電路、諸如離散元件電路之硬體電子或邏輯電路、可程式化邏輯裝置或其類似者上。一般而言,上面駐留有能夠實施圖式中所展示之流程圖之有限狀態機的任何裝置可用於以實施本公開之處理器功能。
替代實施例較佳地以儲存電腦可程式化指令之非暫態性電腦可讀儲存媒體形式實施根據本公開之實施例的方法、程序或操作。該等指令較佳地由較佳地與網路安全系統整合之電腦可執行組件執行。非暫態性電腦可讀儲存媒體可儲存於任何合適的電腦可讀媒體上,諸如RAM、
ROM、快閃記憶體、EEPROM、光學儲存裝置(CD或DVD)、硬碟機、軟碟機或任何合適的裝置。電腦可執行組件較佳地為處理器,但指令可替代地或另外由任何合適的專用硬體裝置執行。舉例而言,本公開之一實施例提供其中儲存有電腦可程式化指令之非暫態性電腦可讀儲存媒體。
雖然已用本公開之特定實施例描述本公開,但顯而易見,許多替代、修改及變化對於熟習此項技術者可為顯而易見的。舉例而言,在其他實施例中,實施例之各種組件可互換、添加或取代。另外,各圖之所有元件對於所揭示之實施例的操作並非必需的。舉例而言,將使得所揭示實施例之一般熟習此項技術者能夠藉由僅採用獨立請求項之元件進行並使用本公開之教示。因此,如本文中所闡述之本公開之實施例意欲為說明性的,而非限制性的。可在不脫離本公開之精神及範疇的情況下進行各種變化。
即使已在前述描述中闡述本公開之眾多特性及優點,連同本公開之結構及功能的細節,但本公開僅係說明性的。可在由表示所附申請專利範圍之術語的廣泛一般含義指示的本發明之原理內充分地改變細節,尤其在零件之形狀、大小及配置方面。
11:病理學報告
12:經預先訓練模型
13:病理特徵
14:人口統計資料
15:臨床試驗匹配系統
151:操作
152:操作
153:操作
154:操作
Claims (17)
- 一種匹配臨床試驗之方法,其包含:自一病理學報告(pathology report)獲得包括病理特徵資料及人口統計資料之一第一資料集,其中該第一資料集中之至少一個描述係藉由一經預先訓練模型對該病理學報告執行一序列標記任務(sequence tagging task)而獲得,該第一資料集中之該至少一個描述包括以下至少一個欄位的描述:手術、組織學、腫瘤大小、分期或PDL1;獲得一臨床試驗(clinical trial)之包括病理特徵資料及人口統計資料之一第二資料集;判定該第一資料集與該第二資料集關於一第一條件組是否匹配;在該第一資料集與該第二資料集關於該第一條件組匹配時,判定該第一資料集與該第二資料集之間關於一第二條件組的一相關性值;及當該相關性值超過一臨限值時,判定該臨床試驗為推薦的。
- 如請求項1之方法,其中該相關性值為該第二條件組中之各者的一個別相關性值之一總和。
- 如請求項2之方法,其中該個別相關性值與一個別指派權重(Wq)相關聯。
- 如請求項2之方法,其中該個別相關性值與一各別關鍵字之一各別逆向文件頻率(inverse document frequency; IDF)相關聯。
- 如請求項1之方法,其中該第一條件組包括以下各者中之一或多者:所估計腎小球濾過率(EFGR)、外科手術、組織學、病理分期、年齡、性別或吸菸。
- 如請求項1之方法,其中該第二條件組包括以下各者中之一或多者:ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53、Her2、腫瘤大小、腫瘤最大直徑、程序性死亡配體1 (programmed death-ligand 1; PD-L1)、淋巴結轉移、遠處轉移、CNS轉移、骨轉移(bone metastases)、野生型(wild type)、抗血管生成(anti-angiogenesis)、鉑(platinum)、EGFR TKI、ALK抑制劑、PD-1/PD-L1抑制劑、CTLA-4抑制劑、放射療法、順鉑(cisplatin)/卡鉑(carboplatin)、化學療法、全身性療法、疾病狀態或美國東岸癌症臨床研究合作組織日常體能狀態(Eastern Cooperative Oncology Group Performance Status; ECOG PS)。
- 如請求項1之方法,其中獲得該第一資料集包含:藉由該經預先訓練模型對該病理學報告執行一分類任務,以獲得該第一資料集中之至少一個狀態值。
- 如請求項7之方法,其中執行該分類任務以獲得以下欄位之一狀態值:EGFR、ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53或Her2。
- 如請求項1之方法,其中該經預先訓練模型係藉由一遮罩語言模型及/或下一句預測來訓練。
- 一種匹配臨床試驗之裝置,其包含:一處理器;及一記憶體,其與該處理器耦接,其中該處理器執行儲存於該記憶體中之電腦可讀指令以執行操作,且該等操作包含:自一病理學報告獲得包括病理特徵資料及人口統計資料之一第一資料集,其中該第一資料集中之至少一個描述係藉由一經預先訓練模型對該病理學報告執行一序列標記任務而獲得,其中該第一資料集中之該至少一個描述包括以下至少一個欄位的描述:手術、組織學、腫瘤大小、分期或PDL1;獲得一臨床試驗之包括病理特徵資料及人口統計資料之一第二資料集;判定該第一資料集與該第二資料集之間關於一第三條件組的一相關性值;及當該相關性值超過一臨限值時,判定該臨床試驗為推薦的。
- 如請求項10之裝置,其進一步包含:判定該第一資料集與該第二資料集是否關於一第四條件組匹配,其中當該第一資料集與該第二資料集關於該第四條件組匹配時判定該相關性值。
- 如請求項10之裝置,其中該相關性值為該第三條件組中之各者的一個別相關性值之一總和。
- 如請求項12之裝置,其中該個別相關性值與一各別關鍵字之一各別逆向文件頻率(IDF)相關聯。
- 如請求項11之裝置,其中該第四條件組包括以下各者中之一或多者:所估計腎小球濾過率(EFGR)、外科手術、組織學、病理分期、年齡、性別或吸菸。
- 如請求項10之裝置,其中該第三條件組包括以下各者中之一或多者:ALK、ROS1、KRAS、BRAF、RET、NTRK、MET、P53、Her2、腫瘤大小、腫瘤最大直徑、程序性死亡配體1 (PD-L1)、淋巴結轉移、遠處轉移、CNS轉移、骨轉移、野生型、抗血管生成、鉑、EGFR TKI、ALK抑制劑、PD-1/PD-L1抑制劑、CTLA-4抑制劑、放射療法、順鉑/卡鉑、化學療法、全身性療法、疾病狀態或東部腫瘤合作小組表現狀態(ECOG PS)。
- 如請求項10之裝置,其中該獲得該第一資料集包含:藉由該經預先訓練模型對該病理學報告執行一分類任務,使得獲得該第一資料集中之至少一個狀態值。
- 一種非暫時性電腦儲存媒體,其具有儲存於其上之程式指令,該等程式指令在由一處理器執行時使得該處理器執行操作,該等操作包含:自一病理學報告獲得包括病理特徵資料及人口統計資料之一第一資料集,其中該第一資料集中之至少一個描述係藉由一經預先訓練模型對該病理學報告執行一序列標記任務而獲得,該第一資料集中之該至少一個描述包括以下至少一個欄位的描述:手術、組織學、腫瘤大小、分期或PDL1;獲得一臨床試驗之包括病理特徵資料及人口統計資料之一第二資料集;判定該第一資料集與該第二資料集是否關於一第五條件組匹配;在該第一資料集與該第二資料集關於該第五條件組匹配時,判定該第一資料集與該第二資料集之間關於一第六條件組的一相關性值;及當該相關性值超過一臨限值時,判定該臨床試驗為推薦的。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112118923A TWI894564B (zh) | 2023-05-22 | 2023-05-22 | 匹配臨床試驗之方法、裝置及非暫態性電腦儲存媒體 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112118923A TWI894564B (zh) | 2023-05-22 | 2023-05-22 | 匹配臨床試驗之方法、裝置及非暫態性電腦儲存媒體 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202447639A TW202447639A (zh) | 2024-12-01 |
| TWI894564B true TWI894564B (zh) | 2025-08-21 |
Family
ID=94735563
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW112118923A TWI894564B (zh) | 2023-05-22 | 2023-05-22 | 匹配臨床試驗之方法、裝置及非暫態性電腦儲存媒體 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI894564B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW201816645A (zh) * | 2016-09-23 | 2018-05-01 | 美商德萊福公司 | 用於生物樣本的自動化處理及分析、臨床資訊處理及臨床試驗配對之整合系統及方法 |
| CN114067996A (zh) * | 2020-08-07 | 2022-02-18 | 四川大学华西医院 | 鼻咽癌临床决策、教学、科研辅助支持系统及方法 |
-
2023
- 2023-05-22 TW TW112118923A patent/TWI894564B/zh active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW201816645A (zh) * | 2016-09-23 | 2018-05-01 | 美商德萊福公司 | 用於生物樣本的自動化處理及分析、臨床資訊處理及臨床試驗配對之整合系統及方法 |
| CN114067996A (zh) * | 2020-08-07 | 2022-02-18 | 四川大学华西医院 | 鼻咽癌临床决策、教学、科研辅助支持系统及方法 |
Non-Patent Citations (2)
| Title |
|---|
| 期刊 Dhayne, Houssein, et al. "EMR2vec: Bridging the gap between patient data and clinical trial." Computers & Industrial Engineering 156 (2021): 107236. Elsevier 2021 pages:1-16; * |
| 期刊 Zhou, Sicheng, et al. "Cancerbert: a cancer domain specific language model for extracting breast cancer phenotypes from electronic health records." Journal of the American Medical Informatics Association 29.7 (2022): 1208-1216. Oxford University Press 2022 pages:1208-1216 * |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202447639A (zh) | 2024-12-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12271832B2 (en) | Artificial intelligence engine for directed hypothesis generation and ranking | |
| US11875903B2 (en) | Method and process for predicting and analyzing patient cohort response, progression, and survival | |
| US20220270763A1 (en) | Method and process for predicting and analyzing patient cohort response, progression, and survival | |
| Ernst et al. | Knowlife: a knowledge graph for health and life sciences | |
| US10762168B2 (en) | Report viewer using radiological descriptors | |
| EP2613278A2 (en) | Retroactive extraction of clinically relevant information from patient sequencing data for clinical decision support | |
| CN117577350B (zh) | 医疗大语言模型的训练及推理的方法、装置、设备及介质 | |
| US20230051982A1 (en) | Methods and systems for longitudinal patient information presentation | |
| JP6581087B2 (ja) | 診療履歴セクションの反復的構成 | |
| WO2018060838A1 (en) | A method and system for matching subjects to clinical trials | |
| CN107408123A (zh) | 用于对临床发现的背景敏感性评价的方法和系统 | |
| Milian et al. | Enhancing reuse of structured eligibility criteria and supporting their relaxation | |
| CN108140044A (zh) | 用于确定与临床医生相关的信息的设备、系统和方法 | |
| Bannach et al. | Visual analytics for radiomics: Combining medical imaging with patient data for clinical research | |
| Seinen et al. | Using structured codes and free-text notes to measure information complementarity in electronic health records: feasibility and validation study | |
| TWI894564B (zh) | 匹配臨床試驗之方法、裝置及非暫態性電腦儲存媒體 | |
| CN111061835A (zh) | 查询方法及装置、电子设备和计算机可读存储介质 | |
| Kalankesh et al. | Taming EHR data: using semantic similarity to reduce dimensionality | |
| WO2020065361A1 (en) | Disease diagnosis using literature search | |
| US20240395368A1 (en) | Methods, devices, and non-transitory computer storage medium of matching clinical trials | |
| Baghal et al. | Agile natural language processing model for pathology knowledge extraction and integration with clinical enterprise data warehouse | |
| CN118629624A (zh) | 基于向量检索的疾病诊断智能提示方法和装置、设备 | |
| Zeng et al. | Adapting a natural language processing tool to facilitate clinical trial curation for personalized cancer therapy | |
| CN111126034A (zh) | 医学变量关系的处理方法及装置、计算机介质和电子设备 | |
| TWI815411B (zh) | 提取語意模式和總結病理報告的方法及非暫態電腦儲存媒體 |