TW201926094A

TW201926094A - 三陰性乳癌的次分類及方法

Info

Publication number: TW201926094A
Application number: TW107143525A
Authority: TW
Inventors: 克里斯多福塞托
Original assignee: 美商南托米克斯公司
Priority date: 2017-12-04
Filing date: 2018-12-04
Publication date: 2019-07-01
Also published as: US20200294622A1; DE112018006190T5; WO2019112966A3; TWI671653B; WO2019112966A2

Abstract

通過表現程度分析三陰性乳癌(Triple-Negative Breast cancer, TBNC)表現資料並將其次分類為四個不同之群組。遞歸特徵消除使得定義四個叢集的約80個基因可以被識別。如此獲得的叢集資訊可用於將叢集與特定的藥物敏感性、存活時間，以及其他相關參數相關聯。

Description

三陰性乳癌的次分類及方法

本發明之領域為使用組學分析來描述乳癌的特徵，特別是因為其涉及乳癌的次分類，特別是三陰性乳癌(Triple-Negative Breast cancer, TBNC)。

背景描述包括可用於理解本發明之資訊。這並非承認本文提供的任何資訊為現有技術或與當前請求保護之發明相關，或者承認具體或隱含地引用之任何出版物為現有技術。

本文中的所有出版物均以引用方式併入，其程度如同每個單獨的出版物或專利申請被具體且單獨地指出透過引用方式併入。如果併入的引用文獻中術語的定義或用法與本文提供的術語的定義不一致或相反，則適用本文提供之術語的定義，且不適用該術語在該引用文獻中的定義。

對三陰性乳癌(TNBC) (通常缺乏雌激素受體、黃體素受體以及HER2 (人類表皮生長因子受體2)表現的乳癌)患者的治療通常是很有挑戰性的，這是因為潛在的遺傳異質性以及缺乏明確的分子標的。三陰性乳癌(TNBC)佔所有乳癌的10%-20%，且較常影響年輕患者。三陰性乳癌(TNBC)腫瘤通常尺寸較大，傾向於具有較高的分級以及淋巴結牽連，且通常更具侵略性。儘管對術前(新輔助性)化療的臨床反應率較高，但三陰性乳癌(TNBC)患者遠端復發率較高，預後也比患有其他乳癌亞型的女性差。事實上，只有不到30%的患有轉移性三陰性乳癌(TNBC)的女性存活5年，且即使接受輔助性化療，幾乎所有患者仍死於乳癌。

最近，基於對所觀察對化療之治療反應的回顧性分析，已經努力進行將三陰性乳癌(TNBC)分解分子亞型為幾個分子不同的次族群(參見，例如，PLOS ONE | DOI:10.1371/journal.pone.0157368 June 16, 2016)。同樣地，三陰性乳癌(TNBC)的次分類基於五種潛在的臨床可行的三陰性乳癌(TNBC)分組定義：1) 具有DNA修復缺陷或生長因子途徑的類基底型三陰性乳癌(TNBC)；2) 具有上皮細胞間質轉化以及癌症幹細胞特徵的類間質三陰性乳癌(TNBC)；3) 免疫相關的三陰性乳癌(TNBC)；4) 具有雄激素受體過度表現的腔內/大汗腺三陰性乳癌(TNBC)；5) 富含HER2的三陰性乳癌(TNBC)(參見，例如，Oncotarget , Vol. 6, No. 15; pp 12890-12908)。在另一項研究中(參見，例如，J Breast Cancer 2016 September; 19(3): 223-230)，三陰性乳癌(TNBC)的次分類被鑑定為類基底型、間質型、腔內雄激素受體型，以及富含免疫型。在更進一步的已知研究中，進行表現次分類並在受測患者樣品之間鑑定出三個次叢集(參見，例如，Breast Cancer Research (2015) 17:43)。同樣地，一種線上分類工具被公開用以透過基因表現(URL: cbc.mc.vanderbilt.edu/tnbc;Cancer Informatics 2012:11 147–156)對三陰性乳癌(TNBC)進行分類，將三陰性乳癌(TNBC)資料分為六個不同的亞型。

儘管這些已知方法提供了對三陰性乳癌(TNBC)的不同次群組的至少一些了解，但是這些亞型中的一些與特定參數如特異性藥物反應、生物標記等結合，因而具有固有的偏頗。另一方面，其他方法需要分析基本上完整的組學資料集以識別一亞型。因此，分析通常是耗時且昂貴的。

儘管對三陰性乳癌(TNBC)的乳癌遺傳學的分子洞察取得了顯著進展，但對存活時間或治療成功的預測仍難以捉摸。因此，仍然需要改進的系統及方法來更好地描述三陰性乳癌(TNBC)亞型的特徵，其可以幫助鑑定適當的治療方法及/或預測患者的存活。理想地，這種改進的系統及方法不需要完整的組學資料集，但可以使用有限數量的組學資料來執行。

本發明之主題涉及組學分析的各種系統及方法，尤其是來自乳癌樣品的有限基因組的表現分析，其適於鑑定TBNC以及TBNC內的特定分子亞型。有利地，這種分析不依賴於特定結果(例如，治療敏感性或存活)，且對於所選基因的基因表現將需要少於100，更通常少於80的資料。

因此，於本發明主題之一方面，本案發明人設想了一種處理一癌症樣品的組學資料之方法，該方法包括獲得一癌症組織的轉錄組資料之步驟。最佳地，該轉錄組資料與該癌症組織中一複數種蛋白質的蛋白質表現程度相關，且該複數種蛋白質與該癌症組織的一表現型相關。然後，將該轉錄組資料分層為資料次群組，並將該資料次群組叢集。在又一步驟中，對該叢集的資料次群組進行遞歸特徵消除，從而獲得一減少的轉錄組資料。

例如，預期的癌症樣品包括一乳癌樣品，其中該複數種蛋白質包括雌激素受體、黃體素受體，以及HER2。在這樣的實施例中，該癌症組織的衍生表現型將是三陰性乳癌(TNBC)。然而，其他預期的蛋白質包括DNA修復蛋白、細胞週期蛋白，及/或由一癌症驅動基因編碼的蛋白質。最典型地，該轉錄組資料為RNAseq資料，及/或該分層步驟使用針對真陽性及偽陰性之間的一比率優化的一截止值。

雖然不限制本發明之主題，但該叢集步驟可以使用3到10個叢集，且該遞歸特徵消除至少重複一次。因此，該減少的轉錄組資料小於一癌症組織的轉錄組資料的30%，或小於10%，或小於1%。

需要時，預期的方法可包括將該減少的轉錄組資料與一藥物反應、總體存活，無疾病存活，及/或無惡化存活進行相關聯之步驟。在此類具體實施例中，該方法可以進一步包括基於藥物反應、總體存活、無病存活，以及無惡化存活中的至少一種確定治療方案之步驟。另外，該方法還可進一步包括在治療方案中以足以治療該癌症組織的劑量及方案治療一具有該癌症組織的患者之步驟。此外，該減少的轉錄組資料也可作為途徑分析的輸入。

於本發明主題之另一方面，本案發明人考慮了一種用於處理一癌症組織的組學數據之系統，該系統包括一儲存該癌症組織的轉錄組資料之組學資料庫以及一資訊耦合到該組學資料庫的機器學習系統。該機器學習系統被程式化以獲得該癌症組織的該轉錄組資料，其中該轉錄組資料與該癌症組織中一複數種蛋白質的蛋白質表現程度相關，且其中該複數種蛋白質與該癌症組織的一表現型相關，將該轉錄組資料分層為一資料次群組，並叢集該資料次群組，並對該叢集的資料次群組進行遞歸特徵消除以獲得減少的轉錄組資料。

例如，預期的癌症樣品包括一乳癌樣品，其中該複數種蛋白質包括雌激素受體、黃體素受體，以及HER2。於這樣的實施例中，該癌症組織的衍生表現型將是三陰性乳癌(TNBC)。然而，其他預期的蛋白質包括DNA修復蛋白、細胞週期蛋白，及/或由一癌症驅動基因編碼的蛋白質。最典型地，該轉錄組資料為RNAseq資料，及/或該分層步驟使用針對真陽性及偽陰性之間的一比率優化的一截止值。

雖然不限制本發明之主題，但是使用3到10個叢集來對次群組進行叢集，並且至少重複一次遞歸特徵消除。因此，減少的轉錄組資料小於一癌症組織的轉錄組資料的30%，或小於10%，或小於1%。

在需要時，該機器學習系統可以進一步程式化為將該減少的轉錄組資料與一藥物反應、總體存活、無疾病存活，及/或無惡化存活相關聯。於這樣的具體實施例中，該機器學習系統可進一步程式化為基於該藥物反應、該總體存活、該無病存活，以及該無惡化存活中的至少一種確定治療方案。此外，該減少的轉錄組資料也可以作為途徑分析的輸入。

於本發明主題之又一方面，本案發明人考慮了一種非暫時性電腦可讀取媒體，其係資訊耦合到一儲存一癌症組織的轉錄組資料的組學資料庫。該非暫時性電腦可讀取媒體包含用於使包括一機器學習系統的電腦系統執行一獲得該癌症組織的該轉錄組資料之方法的程式指令，其中該轉錄組資料與該癌症組織中一複數種蛋白質的蛋白質表現程度相關聯，且其中該複數種蛋白質與該癌症組織的一表現型相關聯，將該轉錄組資料分層為一資料次群組，並叢集該資料次群組，並對該叢集資料次群組進行遞歸特徵消除以獲得減少的轉錄組資料。

需要時，預期的方法可包括將該減少的轉錄組資料與一藥物反應、總體存活、無疾病存活，及/或無惡化存活相關聯之步驟。在此類具體實施例中，該方法可進一步包括基於該藥物反應、該總體存活、該無病存活，及該無惡化存活中的至少一種確定治療方案之步驟。此外，該減少的轉錄組資料也可作為途徑分析的輸入。

由以下較佳具體實施例之詳細描述及附圖，本發明主題的各種目的、特徵、方面，以及優點將變得更加明顯。

本案發明人現已發現在適當的閾值(即，截止值)下使用所選受體基因的表現資料乳癌可被準確地分類為三陰性乳癌(TNBC)，甚至使用相對少量的選定基因的表現資料可將其次分類為四個不同的類別。從不同的角度來看，本案發明人發現，當透過叢集資料並消除不太相關的資料來選擇減少的組學資料時 (例如，經由基於模型與屬性對資料進行排序等)，可使用這種大量減少的組學資料的類型與大小來進行準確診斷及/或描述乳癌的亞型之特徵，尤其是三陰性乳癌(TNBC)。因此，於本發明主題之一特別較佳之方面，本案發明人考慮了一種處理一癌症組織的組學資料以獲得用於對該癌症組織進行次分類的減少的組學資料集之方法。在該方法中，可以獲得癌症組織的轉錄組資料並將其分層為一資料次群組，然後將其叢集。然後，可以對這種叢集的資料次群組進行遞歸特徵消除，以獲得減少的轉錄組資料。

如本文所用，術語“腫瘤”或“癌症”係指並且可與一種或多種癌細胞、癌症組織、惡性腫瘤細胞，或惡性腫瘤組織互換使用，其可在一人體內一個或多個解剖結構位置中被放置或發現。應當注意的是，本文所用之術語“患者”包括被診斷患有病症(例如，癌症)的個體以及為了檢測或鑑定病症而進行檢查及/或測試的個體。因此，一患有腫瘤之患者係指被診斷患有一癌症之個體以及懷疑患有一癌症之個體。如本文所用，術語“提供(動詞)”或“提供(動名詞)”係指並包括製造、生成、放置，使能使用、轉移，或準備使用之任何行為。如本文所用，術語“結合”係指且可與術語“識別”及/或“檢測”互換使用，兩個分子之間的相互作用具有高親和力且K_D 等於或小於10^-6 M ，或等於或小於10^-7 M。如本文所用，術語“提供(動詞)”或“提供(動名詞)”係指並包括製造、生成、放置，使能使用，或準備使用之任何行為。

如本文所用，術語“基因座”(或複數，“基因座”)係指在一基因的一部分或一位置、一個基因的轉錄物，或衍生自一基因或一基因轉錄物的核酸分子。

應當注意的是，指向一電腦的任何語言，應該被理解為包括任何合適的電腦設備組合，包括伺服器、介面、系統、資料庫、代理、同級、引擎、模組、控制器，或單獨或共同操作的其他類型之電腦設備。應當理解的是，該電腦設備包括一處理器，該處理器被配置為執行儲存在一有形的、非暫時性電腦可讀取媒體上的軟體指令(例如，硬碟、固態硬碟、隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)等)。軟體指令較佳地配置該電腦設備以提供作用、職務或其他功能，如以下關於所公開的裝置所討論的。在特別較佳的實施例中，各種伺服器、系統、資料庫，或使用標準化通訊協定或演算法的資料交換介面，可能基於HTTP、HTTPS、AES、公開-私密金鑰交換、網路服務API、已知金融交易通訊協定，或其他電子資訊交換方法。較佳地，資料交換通過分封交換網絡、網際網路、LAN、WAN、VPN，或其他類型的分封交換網絡進行。

如本文所使用的，而且除非上下文另有指示，否則術語“耦合到”意圖在於包括直接耦合(其中二個彼此耦合的元件彼此接觸)與間接耦合(其中至少一個附加元件位於該二個元件之間)。因此，術語“耦合到”以及“耦合”同義使用。

獲取組學資料：考慮用於獲得組學資料的任何合適的方法及/或程序。例如，可以透過從一個體獲得組織並處理該組織以從該組織獲得DNA、RNA、蛋白質，或任何其他生物物質以進一步分析相關資訊以獲得該組學資料。於另一實施例中，可以直接從儲存一個體的組學資訊之資料庫中獲得該組學資料。

在從一個體的組織獲得該組學資料的情況下，考慮從該患者獲得一腫瘤樣品(腫瘤細胞或腫瘤組織)或健康組織的任何合適方法。最典型地，一腫瘤樣品或健康組織樣品可以透過活組織檢驗(包括液體活組織檢驗，或透過手術期間的組織切除或獨立的活組織檢驗程序等獲得)而自一患者獲得，其可為新鮮的或加工的(例如，冷凍等)直到從該組織獲得組學資料的進一步程序。例如，組織或細胞可為新鮮的或冷凍的。於其他具體實施例中，該組織或細胞可為細胞/組織萃取物之形式。於一些具體實施例中，該組織或細胞可從一單個或多個不同組織或解剖區域獲得。例如，一轉移性乳癌組織可以從患者的乳房以及轉移自乳癌組織的其他器官(例如，肝、腦、淋巴結、血液、肺等)獲得。於另一實施例中，該患者的一健康組織或配對的正常組織(例如，患者的非癌性乳房組織)可以從其身體或器官的任何部分獲得，較佳為從肝、血液，或該腫瘤附近的任何其他組織獲得(在一個接近的解剖距離等)。

於一些具體實施例中，可以在多個時間點從該患者獲得腫瘤樣品，以確定該腫瘤樣品在一段相關期間內的任何變化。例如，可以在確定或診斷為癌症之前及之後獲得腫瘤樣品(或疑似腫瘤樣品)。於另一實施例中，腫瘤樣品(或疑似腫瘤樣品)可以在一次或一系列抗腫瘤治療(例如，放射療法、化療、免疫療法等)之前、之中，及/或之後(例如，在完成時等)獲得。於又一實施例中，該腫瘤樣品(或疑似腫瘤樣品)可在該腫瘤惡化期間在鑑定新的轉移組織或細胞時獲得。

從獲得的腫瘤樣品(細胞或組織)或健康樣品(細胞或組織)，DNA (例如，基因組DNA、染色體外DNA等)、RNA (例如，mRNA、miRNA、siRNA、shRNA等)，及/或蛋白質(例如，膜蛋白、細胞溶質蛋白、核酸蛋白等)可以分離並進一步分析以獲得組學資料。替代地及/或另外地，獲得組學資料之步驟可包括從儲存一個或多個患者及/或健康個體的組學資訊之資料庫接收組學資料。例如，可以從患者的腫瘤組織分離的DNA、RNA，及/或蛋白質獲得該患者腫瘤的組學資料，並且可將該獲得的組學資料儲存在一資料庫(例如，雲端資料庫、伺服器等)中，該資料庫具有相同類型腫瘤或不同類型腫瘤的其他患者的其他組學資料集。從健康個體或患者的配對的正常組織(或健康組織)獲得的組學資料也可以儲存在該資料庫中，使得可以在分析時從該資料庫中檢索相關資料集。同樣地，在獲得蛋白質資料的情況下，這些資料還可包括蛋白質活性，尤其是該蛋白質具有酶活性 (例如，聚合酶、激酶、水解酶、裂解酶、連接酶、氧化還原酶等)。如本文所用，組學資料包括但不限於與基因組學、蛋白質組學，以及轉錄組學有關之資訊，以及特定基因表現或轉錄物分析，以及一細胞的其他特徵及生物學功能。

於一特別較佳的具體實施例中，在本發明之主題中用於描述腫瘤特徵，尤其是乳癌的組學資料為轉錄組資料。轉錄組資料包括自該患者、自該癌症組織(患病組織)，及/或配對的患者或一健康個體的健康組織獲得的RNA(較佳為細胞mRNA)的序列資訊以及表現程度(包括表現圖譜、複製數，或剪接變體分析)。本領域已知有許多轉錄組學分析方法，並認為所有已知方法都適用於本文(例如RNAseq、RNA雜交陣列、qPCR等)。合適的轉錄組資料通常可包括轉錄的絕對或相對強度，例如，相對於第一患者的正常組織中基因的轉錄程度之表現為第一位置中基因的轉錄程度。或者，或另外地，轉錄組資料也可表示為相對豐度(例如，每百萬轉錄物(transcripts per million, TPM))。因此，較佳的材料包括mRNA以及初級轉錄物(hnRNA)，且RNA序列資訊可以從逆反轉錄的polyA⁺ -RNA獲得，其係從一腫瘤樣品以及相同患者的配對的正常(健康)樣品獲得。同樣地，應當注意的是，雖然polyA⁺ -RNA通常較佳作為轉錄組的代表，但其他形式的RNA (hn-RNA、非多腺苷酸化RNA、siRNA、miRNA等)也被認為適用於本文。較佳的方法包括定量RNA (hnRNA或mRNA)分析及/或定量蛋白質組學分析，尤其包括RNAseq。於其他方面，使用基於RNA-seq、qPCR及/或rtPCR的方法進行RNA定量與定序，儘管各種替代方法(例如，基於固相雜交之方法)也被認為是合適的。從另一角度來看，轉錄組學分析可能是合適的(單獨或與基因組分析組合)以鑑定並量化具有癌症與患者特異性突變的基因。

較佳地，該轉錄組資料集包括等位基因特異性序列資訊與複製數資訊。在此類具體實施例中，該轉錄組資料集包括一基因的至少一部分的所有讀取資訊，較佳至少10x，至少20x或至少30x。等位基因特異性複製數，更具體地，多數與少數複製數，使用動態窗口法計算，該方法係根據種系資料中的覆蓋擴展及收縮窗口的基因組寬度，如美國專利US 9824181中詳細描述的，其係以在此引用而被併入。如本文所用，多數等位基因為具有多數複製數的等位基因(＞總複製數的50%(讀取支持)或大多數複製數)，少數等位基因是具有少數複製數的等位基因(＜總複製數的50%(讀取支持)或最少複製數)。

應當理解的是，可以針對特定疾病(例如，癌症等)、疾病階段、特定突變或甚至基於個體突變圖譜或表現的新表位的存在來選擇一種或多種期望的核酸或基因。或者，當需要發現或掃描新突變或特定基因表現的變化時，RNAseq較佳涵蓋至少部分患者的轉錄組。此外，應當理解的是，可以靜態地或在一段時間內進行分析，重複採樣以獲得動態圖像，而無需對腫瘤或轉移進行活組織檢驗。因此，於一些具體實施例中，所需的核酸或基因可包括編碼一DNA修復蛋白、一細胞週期蛋白、一新表位、一免疫反應相關基因、一癌症驅動基因編碼的蛋白質中的至少一種的基因，或任何已知特異性突變的基因或其表現在腫瘤細胞中或在腫瘤發生過程中上調或下調。此外，所需的核酸或基因可包括編碼與該癌症組織表現型相關的蛋白質之基因。因此，那些基因可包括在不同類型的腫瘤中突變或差異表現的任何基因或相關的或歸因於形狀或行為的任何基因(例如，易於轉移、固態腫瘤、細胞形狀、腫瘤組織形態等)。例如，在該腫瘤為一乳癌的情況下，期望的基因可為一雌激素受體、一黃體素受體，及/或HER2。

因此，該轉錄組資料可與該癌症組織中一種或複數種蛋白質的一種或複數種蛋白質表現程度相關聯。從不同的角度來看，該轉錄組資料可用於推斷該癌症組織中一種或複數種蛋白質的一種或複數種蛋白質表現程度。例如，相較於正常組織，該腫瘤組織中PD-L1上的RNAseq資料可顯示10倍增加的每百萬轉錄物(TPM)，而且此類資料可與腫該瘤組織中增加的PD-L1蛋白表現相關。或者，至少可以推斷，當該腫瘤組織中PD-L1上的RNAseq資料與正常組織相比可以顯示10倍增加的每百萬轉錄物(TPM)時，該腫瘤組織中的PD-L1蛋白表現增加。

本案發明人考慮可以分析以對該腫瘤或癌症進行分類的組學資料之類型及/或範圍可以根據目標癌症或腫瘤之類型而變化。例如，圖 1 所示為乳癌組織中最常見的突變基因。於此，根據COSMIC在乳癌中排名前20的最頻繁突變基因(由於零計數而有三個未被顯示)列在行中，且每列代表一個示例性(此處：GeparSepto)群組中的一個樣品。灰色框圍繞所有非野生型基因，上部矩形標記表示可能破壞全長轉錄物之突變(例如，無義突變、移碼突變、破壞剪接的突變)，且下部矩形標記表示框架替換突變及/或錯義突變。由於癌症樣品中存在各種類型之突變，因此用於描述癌症組織特徵以進行次分類的突變分析需要大量的定序工作與分析時間。

本案發明人發現一些基因的轉錄組資料及/或來自一些基因的轉錄組資料所推斷的蛋白質表現程度更可靠地推斷狀態或對特定類型的腫瘤進行分類。從不同的角度看，本案發明人發現一些基因的轉錄組資料及/或來自一些基因的轉錄組資料所推斷的蛋白質表現程度反映了狀態或以更一致及/或準確的方式分類特定類型的腫瘤。因此，於一特別較佳的具體實施例中，本案發明人進一步考慮可以對各種基因的轉錄組資料進行分層以鑑定可以更可靠地用於描述癌症組織特徵的基因類型及其表現程度。儘管考慮了對轉錄組資料進行分層的任何合適方法，但一種較佳的方法係使用針對真陽性與偽陰性值之間的比率優化之一截止值。通常，基於腫瘤組織樣品的已知受體狀態，基於癌症組織的免疫組織化學資料(IHC資料)確定真陽性與偽陰性值。於一些具體實施例中，該轉錄組資料在Youden圖中分層，其中真陽性與偽陽性的比率最大化。使用來自無關乳癌隊列的相同資料及RNAseq資料，在10倍交叉驗證研究中交叉驗證以此獲得的截止值(例如，TCGA、METABRIC、PRAEGNANT等)。

例如，可使用RNAseq資料(通常表示為每百萬轉錄物(TPM))確定雌激素受體、黃體素受體，以及HER2的三陰性乳癌(TNBC)狀態。更具體而言，圖 2 示例性地描繪了單一患者群組(TCGA BRCA)中指示的受體的RNAseq資料之比較。

圖 3 所示為使用真陽性(TPR，靈敏度，y軸)與偽陰性值(FPR，1-特異性，x-軸)繪製的受體基因(ER、HR，以及HER2)轉錄組資料的三個Youden圖。選擇閾值使得真陽性與偽陽性的比率最大化。當然，應當理解的是，截止值也可從與其他量化方式的相關性得出，尤其是與各種質譜方法(例如，選擇的反應監測類型MS)相關，這可達到甚至更為緊密的相關性。

使用來自無關乳癌群組(PRAEGNANT)的相同資料與RNAseq資料，在10倍交叉驗證研究中交叉驗證以此獲得的截止值。本案發明人進一步發現所有受體的10倍交叉驗證準確度(ER：93.96%+/- 1.28，PR：84.18%+/- 2.04，HER2：84.56%+/- 3.08)，以及PRAEGNANT的準確性( ER：83.33%，PR：72.92%，HER2：86.15%)在兩個隊列中都很高。圖 4 示例性地顯示IHC結果與ER及HER2受體的RNAseq結果之間的平行比較，使用獨立群組(PRAEGNANT)中以此獲得的截斷值，以驗證及/或確定基於RNAseq的分層之預後等同性或優越性。

圖 5 所示為基於RNAseq資料推斷激素受體的蛋白質表現程度並以免疫組織化學資料交叉驗證這些推斷資料以確定真陽性/偽陰性比率之另一實施例。使用所確定的各受體之截止值，分析來自兩個不同群組(GeparSepto以及TCGA BRCA)的相對大的患者群體。HER2、ER以及PR的代表性RNAseq資料顯示於圖 5 中。然後使用這個更大且定義明確的資料集以推斷每種受體的可能狀態，並於以下表 1 顯示使用GeparSepto群組的資料得到之截斷值確定受體狀態。提供GeparSepto樣品之數量，其被推斷為每種激素受體(ER、PR、HER2)的陽性/陰性以及推斷為三陰性乳癌(TNBC)之數量。本案發明人注意到三陰性乳癌(TNBC)樣品的比例(約41%)高於隨機化乳癌群體(10-20%)中的比例，這可能是由於預選HER2-患者的GeparSepto試驗設計所造成。

表 1

本案發明人進一步發現，圖5與表1中所示之資料與經驗資料以及從PAM50次分類獲得之資料相關性良好，其中三陰性乳癌(TNBC)通常與基礎型乳癌相關(至約80%)。於此，本案發明人在TCGA BRCA群組中使用PAM50調用訓練了一5路分類器，然後使用穩健平均以確保其適當地應用於所獲得的資料集。如表 2 所示，PAM50分析為Luminal A提供130次命中，為基礎提供88次命中，為Luminal B提供60次命中，為Her2富集提供1次命中。相較於隨機化乳癌群體(10-20%)，基礎亞型過多(約32%)。表 3 所示為三陰性乳癌(TNBC) (透過推斷的激素狀態)與基礎亞型(透過PAM50次分類器)之間的重疊。PAM50計算中預測的基礎類型與使用預期方法的三陰性乳癌(TNBC)之間的關聯分析具有＜1.05e^-43 的p值(使用Fisher精確檢驗)。應當理解的是，偶然達到這種強關聯的概率非常小，表示在該群組中已正確識別三陰性乳癌(TNBC)次群組。換言之，應當理解的是，RNAseq資料可以有效地用於鑑定來自一組乳癌樣品的三陰性乳癌(TNBC)樣品。

表 2
表 3

因此，本案發明人進一步考慮使用相對大量的癌症組織樣品以及轉錄組資料(較佳地以閾值透過真陽性及/或偽陰性值過濾)以構建並訓練用於次分類癌症的內在亞型預測因子。較佳地，可以使用任何機器學習系統及/或演算法來構建並訓練固有亞型預測器。例如，合適的機器學習過程可以跨越所有時間點與活組織檢驗位置讀取所有相關或選擇的組學資料，並執行訓練與驗證分裂、資料以及元資料變換，然後將這些資料寫入不同機器學習套裝軟體所需的各種格式。適合的機器學習程式包括glmnet lasso、glmnet嶺回歸、glmnet elastic nets、NMF預測器、WEKA SMO、WEKA j48 trees、WEKA hyperpipes、WEKA隨機森林、WEKA naive Bayes、WEKA JRip規則等。示例性機器學習程式在PCT專利申請WO2014/059036或WO2014/193982中公開，其透過引用方式併入本文。此外，可以採用突變資料來進一步改進基因組或將突變與一種或多種表現程度進行相關聯。

本案發明人進一步發現，當轉錄組資料叢集為多個叢集時，可以更有效率及/或有效地執行使用轉錄組資料對癌症組織進行分類及/或描述特徵的機器學習過程(例如，基於上調或下調的程度、基於絕對表現程度、基於與其他基因的相關變化、基於特定類型癌症組織的相關變化等)。因此，轉錄組學的叢集之數量可以變化，且每個叢集中的基因之數量也可以變化。例如，叢集的數量可為至少3個叢集、至少5個叢集、至少10個叢集、至少15個叢集、至少20個叢集，且每個叢集中的基因數可以在10-10,000個基因之間、 10-1000個基因之間、10-100個基因之間等。

因此，本案發明人考慮可以選擇最佳數量的叢集以提高用於描述特徵及/或分類癌症組織的機器學習的效率。較佳地，可使用曲線彎曲點分析來選擇最佳或適當數量的叢集，該曲線彎曲點分析識別具有最大加速度且具有減小的不一致性的點。例如，本案發明人進一步對所有鑑定的三陰性乳癌(TNBC)樣品進行分析以鑑定獨立於任何分類器的次分類。本案發明人首先定義了一組被認為是黃金標準的叢集，但包括太多適合診斷用途的基因。更具體而言，最初選擇的基因在三陰性乳癌(TNBC)組內具有高度差異表現(即，大多數可變基因)。這組基因包括大約10,000個基因。為了識別適當數量的叢集，對一組有限的資料進行了曲線彎曲點分析(此處使用10,000個最多變異基因的115個患者資料)。從圖 6A 可以看出，在K平均值叢集中，在k = 4 (叢集數為4)處觀察到最大加速度(不一致性降低)。

雖然可能有10,000個與乳癌分類相關的變異基因，但這些基因數量往往太多而無法進行進一步分析，尤其是將該叢集可視化。因此，在圖 6B 中，取代整個10,000個基因，可以為每個叢集繪製每個第50個基因以用於叢集的可視化，作為來自完整的10k基因列表的200個這樣的隨機選擇的基因的表現值的熱圖(最可變表現的基因))顯示為一行並分為4個叢集(如熱圖頂部的4個不連續欄所示)。熱圖中描繪的基因包括IL17B、SPEG、MAGED4、FBLN5、DMRT2、NCKAP5、PLCG1、DTNB、FTMT、CELF4、ANO7、AUTS2、STAC、LRP11、ACAT2、EPB41L4B、ATP5I、MAD2L1BP、PLEK2、FOXRED2、MIR182、PFN2、GPR161、TFCP2L1、ZNF300、TUFT1、PVR、DYRK1B、SRD5A1、GPR18、ALPK1、ZNF318、CASP8AP2、TAS2R14、NOL11、NUP155、HMMR、ATRX、TIGD1、GTF2F2、HIST1H4J、RASGEF1B、LRRC28、NVL、JADE3、PSPC1、NDC80、METAP2、YWHAQ、RPL7、PDSS1、PTMA、DHRS7、VIMP、GCOM1、GTF2H2C_2、PIGP、DPY30、DYNLT1、TRAM1、FEM1B、STT3B、USO1、MTIF3、ASCC3、SLC35A1、RND3、C11orf1、ERMP1、DBNDD1、CLMN、CDS1、SLC12A2、SULF2、TBC1D8B、CCDC146、ERGIC2、ATP13A3、ZNF773、SEC14L1、GPR15、KLRC3、JAML、CD84、CLEC17A、CD72、HLA-DPA1、PBX4、SMPD3、CD33、FTL、LPAR6、OR3A2、FHAD1、PARVB、HIST1H2BE、IL1RN、SLA2、SIGLEC12、CCL3、CXCR4、LRRN2、HK3、BBS12、NPPC、GPR63、C1orf198、KCNH8、NTRK3、SLC38A3、ABHD17C、TMOD1、MED14OS、RPP38、FAM64A、WDR62、THOC5、XPO5、GPSM2、EXOSC5、TRAPPC9、IL23A、AGAP1、GLB1L2、NOXO1、FURIN、MICAL1、CLPP、BRPF1、RAB13、POLR3C、DCST2、KCNE5、SLC6A9、ZNF707、FLAD1、PPAN、IDO1、DACT2、OR52E8、NAT1、PLXND1、CLIC3、IPW、NPC2、SMCO4、ECH1、CXCR5、RNF167、NEURL1、RNF208、ANO8、BTBD6、KCNK3、PIEZO1、CD276、DGKD、GPX3、MAP3K11、WDR86、SOX2、ALCAM、KLHDC7A、ABHD4、CLDN8、HBA1、RUNX1T1、PHLDB2、HOXB5、GRASP、PIK3C2G、TSPAN7、MAP7、C1orf229、GGT7、PCDHB5、GRM2、TRPM4、USP17L2、CNN3、PDGFC、LYPD6、IBSP、SUMF1、IVL、SLC9A3R2、NAALADL2、LPAR3、ZNF135、ITGB3、CDA、PDGFRB、CACNA1G、EPYC、FSTL1、SCT、AQP2、KCNB1、SLC16A5、DACT3。這樣的4個次群組建立了進一步分析的黃金標準。

圖 7 示出了作為資料集大小的函數的每個叢集中的資料一致性的示例性比較。測試50至19250 (x軸)範圍內的基因組大小以獲得3至10之間的最佳K (y軸)，並且使用不同基因組大小選擇每個K的計數次數。如表 4 所示，在任何大小的資料集中，最一致(或經常)選擇K = 4作為GeparSepto資料的三陰性乳癌(TNBC)子集的最佳擬合。

表 4

雖然在圖 6A-B 中描繪的實施例中如此確定叢集大小為4的最佳叢集，但轉錄組資料的基因數仍然大到不合需要。於一較佳具體實施例中，每個叢集的基因數量可以減少，直到數量達到每叢集的最佳基因數(例如，每叢集少於100個基因、每叢集少於50個基因、每叢集少於30個基因等)。雖然考慮了減少每叢集基因數量的任何合適方法，但較佳方法包括使用遞歸特徵消除過程來減少獲得幾乎相同叢集所必需的基因數量。更具體而言，在遞歸特徵消除的第一步驟中，可以訓練4個一對其餘的分類器(每個叢集一個，1對2-4，然後2對1及3-4等)。然後檢查每個分類器中的基因權重以獲得對於定義類最有用的各自基因列表。然後透過僅保留來自每個分類器的基因的分數(例如，20%、25%、30%、40%、50%)並透過將所有簡化列表合併為一個列表以進行基因集的減少(例如，具有原始資料集的大約一半的特徵)。在減少的集上使用相同的過程重複叢集與剔除，且如果同質性(即，樣本共叢集的一致性)夠高，則該減少的特徵集為新的資料集。應當理解的是，可以重複這種構建4路分類器，丟棄低係數基因與重新叢集的過程，直到均勻性下降至太低(例如，與原始“黃金標準”叢集的協議低於60%，或低於50%)。因此，使用遞歸特徵消除的叢集及剔除過程可以重複一次，較佳至少兩次，五次或甚至十次，直到減少的轉錄組資料小於60%，小於55%，小於50%，更少小於45%，小於40%，小於35%，小於30%，小於25%，小於20%，小於15%，小於10%，小於9%，小於8%，小於小於7%，小於6%，小於5%，小於4%，小於3%，小於2%，小於1%，小於0.9%，小於0.8%，小於0.7%，小於小於0.6%，小於0.5%，小於0.4%，小於0.3%，小於0.2%，小於0.1%，小於0.09%，小於0.08%，小於0.07%，小於0.06%，小於0.05%，小於0.04%，小於0.03%，小於0.02%，或小於0.01%的癌症組織的總體或原始轉錄組資料的數量或體積。值得注意的是，使用這種方法，本案發明人可以將原始的10,000個基因表現資料集合減少到僅基本上提供相同叢集的79個基因表現資料。

圖 8 示意性地顯示使用如上所述製備的還原基因組的具有4個叢集的熱圖。在本實施例中，對於三陰性乳癌(TNBC)，還原基因集包括以下基因：KRT81、COL22A1、CNTFR、TUBB4A、MLC1、CRHR1、ELAVL2、TMEM89、CAMKV、FUT5、STK33、HIST2H2BF、HIST3H2BB、CEP55、MKI67、FOXM1、PSIP1、CCDC77、FBL、RPS4X、HIST1H3B、HIST1H2AH、E2F2、VIL1、HMGB3、PLEKHG4、MT1G、LRP2、MEGF10、PLCB4、LMO3、UCHL1、PLEKHB1、COCH、NFASC、DCHS2、COL22A1、TMEM200C、DEFB124、PTH2R、CPNE8、NEFH、IL32、WNT10A、FCGBP、CD1A、PIK3C2G、CRISP3、SLC13A3、CLPSL2、LOC79999、TRIM73、AHRR、LAMA3、CYP4F12、JCHAIN、GBP3、ABO、CADPS2、C4A、NRG1、MLPH、MUCL1、SLC40A1、SCGB3A1、MEGF6、NKD2、SDC1、INHBB、DCN、F13A1、PCDH7、SFRP2、ITGA11、TAGLN、LIMS2、HBA2、SLPI，以及KRT6A。本案發明人進一步針對六個可用資料庫查詢基因列表(NCINature_2016、BioCarta_2016、GO_Biological_Process_2015、GO_Molecular_Function_2015、KEGG_2016，以及WikiPathways_2016)。表 5 所示為與4個叢集中減少的基因組顯著相關的資料庫以及基因組的子集(調整的p值＜0.1)。
表 5

預期叢集在最佳數目的叢集(例如，k = 4)中的還原基因組可以顯著提高轉錄組學分析的效率及速度，以將癌症組織分類及/或描述特徵，因為待處理的資料量可以是整個轉錄組學分析的至少10倍，至少50倍，至少100倍。此外，由於組織間轉錄組資料的高度變化，每個叢集中的這種減少的基因組可以減少偽陽性資料及/或偽陰性資料，從而可以顯著提高分析的準確性。較佳地，次分類是未被監督的且基於具有基因表現的最高可變性的大量基因的遞歸特徵消除。

另外，癌症組織的這種叢集之結果可以作為途徑分析演算法的輸入，以識別腫瘤組織或細胞的受影響及/或可作為目標的途徑及/或內在特性。於一些具體實施例中，所選基因(在每個叢集或叢集中的一個)中的轉錄組資料可以整合到途徑模型中(例如，作為途徑元件或調節參數以控制或影響途徑元件等)至產生癌症組織的修飾途徑以確定該癌症組織的任何差異途徑特徵。雖然考慮了分析細胞的途徑特徵的任何合適方法，但較佳的方法為使用PARADIGM (使用基因組模型上的資料整合的途徑識別演算法)，其為PCT專利申請WO2011/139345和WO/2013/062505中描述的基因組分析工具並且使用概率圖模型，將多種基因組資料類型整合到策劃途徑資料庫中。

此外，還預期癌症組織的分類及/或描述特徵可以有利地與期望的治療或預測參數進行相關聯(較佳地透過機器學習)，及/或通過使用監督學習來改善。例如，如本文所示的特定亞型可與對nab-紫杉醇，任選地隨後以表柔比星加上環磷醯胺的治療反應相關。同樣地，如本文所示的特定亞型可以與總存活率或無疾病或無惡化存活時間進行相關聯。如將容易理解的，這種叢集的結果可用於對乳癌患者資料進行分層，及/或在使用各種分類器，尤其是藥物反應(例如，NAB紫杉醇，任選地加上表柔比星/環磷醯胺)、總生存預測，或無病生存或無惡化生存之預測的監督機器學習中使用。

於一些具體實施例中，這種與藥物敏感性、預測的治療反應、總體存活率或無疾病或無惡化存活時間的關聯可以進一步用於產生及/或確定治療方案。例如，使用nab-紫杉醇的預測治療反應為高度陽性的，對患者的治療方案可包括nab-紫杉醇。此外，可以在途徑分析中模擬nab-紫杉醇治療對腫瘤組織的作用，以確定叢集中一個或多個選定基因中的途徑活性的任何潛在變化。在這種情況下，可以進一步選擇目標透過nab-紫杉醇治療(可能)改變的一種或多種所選基因的治療作為治療方案，然後進行nab-紫杉醇治療。如本文所用，目標基因的治療係指由該基因編碼之蛋白質的目標(例如，結合、抑制活性、增強活性等)的治療，及/或在轉錄層級、轉譯層級，及/或轉譯後修飾層級(例如，磷酸化、糖基化、蛋白質-蛋白質結合等)抑制或增強一或多種基因的基因表現之治療。這種確定的或產生的治療(方案)可以進一步以有效或足以治療腫瘤的劑量及方案給予患有腫瘤的患者(例如，減小腫瘤大小、增加針對腫瘤的免疫反應，提高生存率等)。如本文所用，術語“施用”係指直接與間接施用本文考慮的治療方案、藥物、療法，其中直接施用通常由健康護理專業人員(例如，醫生、護士等)進行，而間接施用通常包括提供或製備可供醫療保健專業人員直接給藥的化合物及組合物之步驟。

如本文的描述及隨後的申請專利範圍中所使用的，“一”、“一個”以及“該”的含義包括複數指示物，除非上下文另有明確說明。此外，如在本文的描述中所使用的，除非上下文另有明確規定，否則“在...中”的含義包括“在…中”以及“在…上”。除非上下文指示相反，否則本文所述之所有範圍應解釋為包括其端點，且開放式範圍應解釋為包括商業實用數值。同樣地，除非上下文指出相反之情況，否則應將所有數值列表視為包含中間值。

此外，本文所述之所有方法可以以任何合適之順序進行，除非本文另有說明或者與上下文明顯矛盾。關於本文中某些具體實施例提供的任何及所有實施例，或示例性語言(如：“例如”)的使用僅意圖能更好地說明本發明，且不對請求保護之本發明的範圍構成限制。說明書中的任何語言不應被解釋為表示任何非請求保護的元素對本發明之實施是必須的。

本文公開之本發明的替代元件或具體實施例之群組不應解釋為限制。每個群組成員可以單獨地或與該群組中的其他成員或本文中找到的其他元件任意組合地被提及以及被要求保護。出於方便及/或可專利性之原因，可以將一群組的一或多個成員包括在一群組中或從一群組中刪除。當發生任何這樣的包含或刪除時，本說明書在此被認為包含經修改的群組，從而實現所附申請專利範圍中使用的所有馬庫西群組之書面描述。

對於本領域技術人員應當為顯而易見的是，除了已經描述的那些之外，在不悖離本文之發明構思下，還可進行更多的修改。因此，除了所附之申請專利範圍的範圍之外，本發明的主題不受限制。此外，在解釋說明書及申請專利範圍時，所有術語應以符合上下文之最廣泛的方式進行解釋。特別是，術語“包括(comprises)”以及“包括(comprising)”應被解釋為以非排他性的方式指元素、組件或步驟，指示所引用之元件、組件或步驟可以與未明確引用的其他元素、組件或步驟一起存在、或使用，或組合。凡說明書聲明涉及選自由A、B、C ... 以及N所組成之群組中的至少一種某物，該內文應該被解釋為僅需該群組中的一個元素，而非A加N，或B加N等。

圖 1 為乳癌患者中最常見的突變基因之示例性突變圖譜。

圖 2 為描繪乳癌細胞上各種受體相對於受體表現的免疫組織化學狀態的表現程度之示例性圖示。

圖 3 提供了繪製真陽性率(true positive rate, TPR)與偽陽性率(false positive rate, FPR)的示例性曲線圖，其作為截止值(以每百萬轉錄物(TPM)計)的函數以及在所選截止值處的相關準確度。

圖 4 描述二種選擇的受體之免疫組織化學資料(immunohistochemical, IHC)以及RNAseq資料之間的比較結果。

圖 5 描述來自二個不同研究群組之表現的原始資料。

圖 6A 為繪製不一致性與次群組數量之圖示。

圖 6B 所示為預測為三陰性乳癌(TNBC)的115個樣品以及大多數變體基因的前10K之示例性熱圖。

圖 7 為描繪作為次群組數及基因集大小的函數之最佳準確度的示例性圖示。

圖 8 為四種三陰性乳癌(TNBC)亞型的最小基因集之示例性熱圖。

Claims

一種處理一癌症組織的組學資料的電腦實施之方法，包括：獲得該癌症組織的轉錄組資料，其中該轉錄組資料與該癌症組織中一複數種蛋白質的蛋白質表現程度相關，且其中該複數種蛋白質與該癌症組織的一表現型相關；將該轉錄組資料分層為一資料次群組，並叢集該資料次群組；以及使該叢集的資料次群組經歷遞歸特徵消除以獲得減少的轉錄組資料。
如申請專利範圍第1項之方法，其中該癌症樣品為一乳癌樣品，且其中該複數種蛋白質包括一雌激素受體、一黃體素受體，以及HER2中的至少一種。
如申請專利範圍第1項之方法，其中該複數種蛋白質包括一DNA修復蛋白、一細胞週期蛋白，以及一由一癌症驅動基因編碼之蛋白中的至少一種。
如申請專利範圍第1項之方法，其中該轉錄組資料為RNAseq資料。
如申請專利範圍第1項之方法，其中該分層步驟使用針對真陽性及偽陰性之間的一比率優化的一截止值。
如申請專利範圍第1項之方法，其中該癌症組織的衍生表現型為三陰性乳癌(Triple-Negative Breast cancer, TNBC)。
如申請專利範圍第1項之方法，其中該叢集步驟使用3至10個叢集。
如申請專利範圍第1項之方法，其中該遞歸特徵消除重複至少一次。
如申請專利範圍第1項之方法，其中該減少的轉錄組資料小於該癌症組織之轉錄組資料的10%。
如申請專利範圍第1項之方法，進一步包括將該減少的轉錄組資料與一藥物反應、總體存活、無病存活，以及無惡化存活中的至少一種進行相關聯之步驟。
如申請專利範圍第1項之方法，進一步包括使用該減少的轉錄組資料作為一途徑分析的輸入之步驟。
如申請專利範圍第10項之方法，進一步包括：基於該藥物反應、該總體存活、該無病存活，以及該無惡化存活中的至少一種確定一治療方案。
一種用於處理一癌症組織的組學資料之系統，包括：一組學資料庫，係儲存該癌症組織的轉錄組資料；以及一機器學習系統，係資訊耦合到該組學資料庫並程式化為：獲得該癌症組織的該轉錄組資料，其中該轉錄組資料與該癌症組織中一複數種蛋白質的蛋白質表現程度相關，且其中該複數種蛋白質與該癌症組織的一表現型相關；將該轉錄組資料分層為一資料次群組，並叢集該資料次群組；以及對該叢集的資料次群組進行遞歸特徵消除以獲得減少的轉錄組資料。
如申請專利範圍第13項之系統，其中該轉錄組資料係使用針對真陽性及偽陰性之間的一比率優化的一截止值進行分層。
如申請專利範圍第13項之系統，其中該癌症組織的衍生表現型為三陰性乳癌(TNBC)。
如申請專利範圍第13項之系統，其中該減少的轉錄組資料小於該癌症組織的轉錄組資料的10%。
如申請專利範圍第14項之系統，其中該機器學習系統進一步被程式化為將該減少的轉錄組資料與一藥物反應、總體存活、無病存活，以及無惡化存活中的至少一個進行相關聯。
一種非暫時性電腦可讀取媒體，包含用於使包括一機器學習系統的電腦系統執行一方法的程式指令，其中該機器學習系統係資訊耦合到一儲存一癌症組織的轉錄組資料的組學資料庫，其中該方法包括下列步驟：獲得該癌症組織的該轉錄組資料，其中該轉錄組資料與該癌症組織中一複數種蛋白質的蛋白質表現程度相關，且其中該複數種蛋白質與該癌症組織的一表現型相關；將該轉錄組資料分層為一資料次群組，並叢集該資料次群組；以及對該叢集的資料次群組進行遞歸特徵消除以獲得減少的轉錄組資料。
如申請專利範圍第18項之非暫時性電腦可讀取媒體，其中該遞歸特徵消除被重複至少一次。
如申請專利範圍第18項之非暫時性電腦可讀取媒體，其中該減少的轉錄組資料小於該癌症組織的轉錄組資料的10%。