CN116926190A

CN116926190A - 测量乳腺癌远端转移风险的预后标志物及其应用

Info

Publication number: CN116926190A
Application number: CN202210342312.5A
Authority: CN
Inventors: 施冠卉; 陈定壕
Original assignee: On Chi Biomedical Pte Ltd
Current assignee: On Chi Biomedical Pte Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-10-24

Abstract

本发明提供一种测量乳腺癌远端转移风险的预后标志物及其应用，其中该预后标志物为一基因群组中的至少七个基因，该基因群组包含有：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。本发明有助于医疗人员在临床上协助乳腺癌患者决定所需的治疗类型，减少医疗费用、健保给付或保险资源的负担与浪费。

Description

测量乳腺癌远端转移风险的预后标志物及其应用

技术领域

本发明关于一种乳腺癌远端转移的检测工具及组合应用，尤其是一种利用特定基因表达值而建构基因模型以预测乳腺癌远端转移的检测工具及组合。

背景技术

乳腺癌为全球最常见的女性癌症，占女性癌症比例的1/3，占所有癌症比例的1/10，其同时也是45～55岁女性最常见死因之一，每年每38名女性中，就有1例乳腺癌死亡案例(6.8％)。乳腺癌是一种多基因疾病，遗传因素的复杂相互作用决定乳腺癌成因。这导致乳腺癌成为高度异质性的疾病，有多变的特征、型态、病程、治疗反应和预后。许多研究指称，乳腺癌并非单一种癌细胞组成，在同一个人身上也可能会由多种亚型肿瘤组成，导致治疗难以完全根治。

虽然早期发现乳腺癌可有效提高存活率达90％，然而，仍有约略五成的病患在手术之后的5～10年内产生乳腺癌复发。乳腺癌复发可分为局部复发和远端转移两类，区域淋巴结复发(locoreginal)是癌细胞进入乳房淋巴；远端转移则是癌细胞由血管扩散至内脏，如肺脏、肝脏或脑部。降低乳腺癌局部区域复发的对策是为患者进行术后放射性治疗，而减少远端转移的对策则是为患者进行全身性的辅助性化学治疗(systemic adjuvantchemotherapy)以及荷尔蒙治疗(hormonal therapy)。

大约60％的早期乳腺癌患者选择接受辅助化疗，其中只有很小的一部分(2-15％)的患者确实受到化疗的助益，但所有患者都处于化疗中毒风险的副作用下。

现阶段中，仅能依据定期追踪来评估远端转移的可能性，而经常发生过度治疗(overtreatment)或不足治疗(undertreatment)。给予每个患者相同强度的治疗，导致有些患者承受了不必要的治疗副作用，或未得到应有的治疗效果。造成社会、家庭负担及医疗资源浪费。对术后患者来说，复发的不确定性更是一种折磨与煎熬。

就目前而言，大多的乳腺癌复发、生存率、肿瘤亚型的研究对象为高加索人(Caucasians)。近年来，利用基因体分析，已在不同地区人群中观察到乳腺癌的肿瘤型态、癌症亚型具有明显差异。例如，高加索人地区重视的高通透性乳腺癌易感基因(如BRCA1和BRCA2)，在亚洲族群的基因突变率却较低。因此，BRCA1和BRCA2突变仅是小部分亚洲族群中乳腺癌罹患或复发成因。大多数已被识别的乳腺癌相关遗传基因，也被认为影响亚洲族群罹癌程度有限。考虑族群之间的基本流行病学和遗传风险因数，种族基因差异可能是导致族群乳腺癌风险不同的潜在原因。藉由建构出种族差异的影响，可以更深入了解患者预后，从而制定更适当的治疗决策。因此，针对亚洲女性进行乳腺癌研究及建立评估复发机率极具有意义。

发明内容

本发明提供一种测量乳腺癌远端转移风险预测基因模型的预后标志物的特异性蛋白结合分子、核酸探针或核酸引子，其中该预后标志物为一基因群组中的至少七个基因，该基因群组包含有：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。

特异性蛋白结合分子、核酸探针或核酸引子进一步系用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB-(0.1～0.2)*ESR1-(0.05～0.10)*OBSL1-(0.003～0.010)*DTX2-(0.0001～0.0005)*SF3B5，括号代表可选的范围，范围内的任一实数皆可做为加权分数的参数。

本发明还提供一种用于测量乳腺癌远端转移风险的预后标志物的基因表达值的试剂盒，其中该预后标志物为一基因群组中的至少七个基因，该基因群组包含有：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。

试剂盒进一步包含有复数个特异性蛋白结合分子、核酸探针或核酸引子，用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB–(0.1～0.2)*ESR1–(0.05～0.10)*OBSL1–(0.003～0.010)*DTX2–(0.0001～0.0005)*SF3B5，括号代表可选的范围，范围内的任一实数皆可做为加权分数的参数。

本发明还提供一种乳腺癌远端转移风险评估套组，用于测量测量乳腺癌远端转移风险的预后标志物的基因表达值，其中该预后标志物为一基因群组中的至少七个基因，该基因群组包含有：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。

其中，此套组进一步包含有：复数个特异性蛋白结合分子、核酸探针或核酸引子，用于测量一检体样本中该至少七个基因的表达值；以及一乳腺癌远端转移风险预测基因模型，进一步包含有一计算公式，该计算公式用于代入标准化后的该至少七个基因的表达值，演算获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

本发明还提供一种用于测量乳腺癌远端转移风险的预后标志物的基因表达值的特异性蛋白结合分子、核酸探针或核酸引子在制备试剂盒的应用，其中该预后标志物为一基因群组中的至少七个基因，该基因群组包含有：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。

其中该特异性蛋白结合分子、核酸探针或核酸引子用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

本发明还提供一种用于评估乳腺癌远端转移风险的分子分型基因群，由以下基因所组成：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。

其中该基因群的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

和现有的技术相比，本发明提供的检测工具及组合应用，有助于亚洲女性族群进行乳腺癌远端转移的风险评估。本发明的预测模型、基因和计算公式并未被报导过，有效的实现了供乳腺癌远端转移的风险预测并且有优异的准确度。本发明有助于医疗人员在临床上协助乳腺癌患者决定所需的治疗类型，减少医疗费用、健保给付或保险资源的负担与浪费。

附图说明

图1绘示本发明乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。

图2绘示本发明另一实施例的乳腺癌远端转移风险预测基因模型建构方法的步骤流程图。

图3绘示图2实施例中乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。

图4绘示本发明另一实施例中乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。

图5绘示本发明另一实施例中乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。

图6绘示本发明一实施例中乳腺癌远端转移的风险预测方法的步骤流程图。

图7显示从发病日期起至10年为止，高风险患者与低风险患者的生存曲线。

图8是基于有无复发的患者的每个基因的基因表达值谱箱型图。

图9绘示本发明乳腺癌远端转移风险预测基因模型。

具体实施方式

为了让本发明的优点，精神与特征可以更容易且明确地了解，后续将以具体实施例并参照所附图式进行详述与讨论。需注意的是，这些具体实施例仅为本发明代表性的具体实施例，其中所举例的特定方法、装置、条件、材质等并非用以限定本发明或对应的具体实施例。又，本发明的步骤编号仅为区隔不同步骤，并非代表其步骤顺序，合先叙明。

除非另行定义，否则此处所用的技术与科学用语，意义与本技术领域的一般技艺人士普遍所理解的相同。此外，除非另行定义，否则单数用语也包含复数意义。大致而言，在此说明书中使用的学术用语，和分子生物学、蛋白质、寡核苷酸或多核苷酸化学与杂交技术相关等学术用语，皆为本领域习知与普遍应用的术语。此处所使用的科学术语仅用来做具体描述，而不是要限制本发明的范围或领域。

本发明的训练样本或检体样本，是指乳腺癌患者的一肿瘤组织样本，采集的方式并无限制。本发明的样本取得如下：手术切除后乳腺癌肿瘤福马林固定石蜡包埋组织块(FFPE tissue)。厚度4～10um的空白连续切片9～15片。使用FFPE RNA萃取试剂(RneasyFFPE Kit)对空白切片萃取RNA。萃取的RNA进行反转录反应(Reverse transcription)合成cDNA，并于ABI 7500Fast PCR system进行聚合酶连锁反应并即时侦测SYBR Green I荧光亮度。

本说明书使用的「远端转移」一词，系指称在乳房切除手术以及/或乳房保留手术后，已经从原发性肿瘤扩散到身体的一或多个部位、器官、或远端淋巴结的乳腺癌，或经由切片检查证实或临床诊断为复发的侵袭性乳腺癌。「侵袭性乳腺癌」一词，系指称一种从乳小叶膜或乳腺管膜(membrane of the lobule or duct)扩散到乳房组织中的癌症，之后癌细胞可能继续扩散进入到腋下或其他部位的淋巴结。当身体其他部位发现乳腺癌细胞时，称为「转移性乳腺癌」。

本说明书使用的「比例风险模型」一词，系指称统计学中的一种存活模型，其中当存活资料进一步包括共变数(covariates)与风险因数时，这些资料可用来推估这些共变数对存活时间的影响，也可用来预测在一段特定时间内的存活机会。Cox比例风险模型由考克斯(David Cox)爵士于1972年提出，是存活分析中最常用的一种回归分析模型。此方法常被称为Cox模型或是比例风险模型。

本说明书中提到的亚洲女性，意指亚洲区域中原生的亚裔女性，或具有亚洲血统的女性，但不限于其居住地。亚洲女性尤其包括了东北亚、东亚、东南亚等区域。

本说明书中测量样本中基因的表达值，是指测量样本中基因转录的一讯息核糖核酸(mRNA)的表达值，或测量将讯息核糖核酸反转录所得的一互补去氧核醣核酸(cDNA)的表达值，或测量基因对应的mRNA转译后的蛋白的表达值。尤其，利用即时聚合酶链锁反应(qPCR)或称逆转录聚合酶连锁反应(RT-PCR)测量互补去氧核醣核酸的表达值。

请参阅图1。图1绘示根据本发明的一具体实施例的乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。如图1所示，本具体实施例的乳腺癌远端转移风险预测基因模型的建构方法包含有以下步骤：步骤A1、提供复数个训练样本，并根据训练样本的临床预后结果，将训练样本选择性设定一远端转移标记；步骤A2、测定每一训练样本中至少七个基因的表达值，至少七个基因系选自于一基因群组中的任意七者，基因群组系由BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB所组成，基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；步骤A3、透过回归分析设定复数个基因的加权分数，并根据复数个基因及加权分数，分别产出每一该训练样本的一预测值；以及步骤A4、根据远端转移标记将训练样本分群，以产生分别对应各训练样本的预测值的一第一阈值，其中第一阈值系用于乳腺癌远端转移风险预测基因模型中以与一检体样本的一检体样本预测值比对而判断检体样本是否为一乳腺癌远端转移低风险样本。换言之，本具体实施例的建构方法所建构出的乳腺癌远端转移风险预测基因模型，系以第一阈值作为判断检体样本的乳腺癌远端转移率的标准。

训练样本是属于亚洲女性乳腺癌患者进行乳房切除手术或乳房保留手术后的组织样本。训练样本的临床预后结果，则是指亚洲女性乳腺癌患者在手术后，经过5至10年的追踪，所观察到的乳腺癌复发情况。当亚洲女性乳腺癌患者在5至10年后发生了远端转移，则将训练样本设定一远端转移标记；若未发生远端转移，则不将训练样本设定标记，或是将训练样本设定未转移标记。训练样本集当中，有远端转移标记的比例，可视为亚洲女性乳腺癌患者在手术后5至10年，实际的远端转移率。

在数千个候选基因中，透过统计学和机器学习中的Lasso算法(least absoluteshrinkage and selection operator)同时进行特征选择和正则化(feature selectionand regularization)的回归分析，经过多次更迭验证，挑选出预测乳腺癌复发准确性最佳的11个基因。此11个基因在此发明中被定义为乳腺癌相关分子分型基因群，视为重要的预后标志物，各自对乳腺癌远端转移风险的预测具有贡献，且与远端转移率达到显著相关。任一基因的表达值可用于单独地计算出对应数值，进而判断检体样本是否为一乳腺癌远端转移低风险样本。11个基因的通用辨识码请见表1。

表1，11个基因的通用辨识码

Gene	HGNC	Ensembl
			BLM	1058	ENSG00000197299
BUB1B	1149	ENSG00000156970
			CLCA2	2016	ENSG00000137975
ERBB2	3430	ENSG00000141736
			TPX2	1249	ENSG00000088325
PIM1	8986	ENSG00000137193
			YWHAB	12849	ENSG00000166913
ESR1	3467	ENSG00000091831
			OBSL1	29092	ENSG00000124006
DTX2	15973	ENSG00000091073
			SF3B5	21083	ENSG00000169976

于实际应用中，此11个基因任选7个基因，共有330种排列组合。从验证结果来说，330种排列组合中准确度最低的组合，其阴性预测值NPV准确度仍超过80％。若11个基因中选择8个以上的基因，阴性预测值NPV准确度会再提高。选择复数个基因时，每一基因在标准化后乘上对应的加权分数，可将每个基因的贡献模型化。

当一检体样本的预测值小于步骤A4所得出的第一阈值，则判断检体样本为一乳腺癌远端转移低风险样本，代表检体样本的来源患者，未来发生乳腺癌远端转移的机会较低。在另一具体实施例中，透过远端转移标记将训练样本分群，可再设定一第二阈值。当一检体样本的预测值大于第二阈值，则判断检体样本为一乳腺癌远端转移高风险样本，代表检体样本的来源患者，未来发生乳腺癌远端转移的机会较高。第二阈值大于或等于第一阈值。需要说明的是，当判断检体样本为一乳腺癌远端转移高风险样本时，检体样本的来源患者会开始进行较为积极的治疗行为。故在5年或10年后的追踪，检体样本的来源患者发生乳腺癌远端转移的机会，并不会呈现理想中的准确性。因此，实务上阳性预测值PPV通常仅用于辅助参考。

因此，本方法适用于在乳腺癌患者进行乳房切除手术或乳房保留手术后，为乳腺癌患者预估5年期内和10年期内远端转移的可能性。

为了将基因表达值规格化，可以再额外选用一到数个管家基因(housekeepinggene)作为内源的参照基因，例如ACTB、RPLP0和TFRC。藉由管家基因，可以将原始基因表达值计算成标准化基因表达值。

于一具体实施例中，设定该至少七个基因的加权分数的步骤A3可进一步包含以下步骤：设定基因群组中每一基因的加权分数；计算基因群组中每一基因的表达值在标准化后乘上加权分数后的总合，以获得预测值。基因表达值的标准化，是使用ACTB,RPLP0及TFRC作为管家基因(Housekeeping genes)标准化目标基因，标准化方法为：

平均管家基因表达值＝(ACTB+RPLP0+TFRC)/3

标准化表达值＝25-各目标基因表达值+平均管家基因表达值。

除了基因群组和管家基因，测量其余的基因表达值并用于后续演算，大多对准确度没有贡献。例如额外测定C16ORF7、CCNB1、ENSA、MMP15、NFATC2IP、TCF3、TRPV6基因的表达值进行演算，并不会增加亚裔女性乳腺癌复发风险的准确度。

将标准化表达值代入演算得到预测值，将预测值转换(rescale)为0至100的分数尺度，以便结果解读与后续风险估算。

请参阅图2。图2绘示根据本发明的另一具体实施例的乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。如图2所示，设定至少七个基因的加权分数的步骤A3进一步包含以下步骤：步骤A31、透过回归分析设定基因群组中每一基因的加权分数以产生一计算公式；以及步骤A32、将基因群组中每一基因在标准化后的表达值代入计算公式，以获得一基因表达值，基因表达值用于计算每一训练样本的预测值。步骤A31所得到的计算公式为：基因表达值＝0.445623356*BUB1B+0.224466639*BLM+0.002146431*CLCA2+0.00044734*ERBB2+0.000307024*TPX2+0.000290927*PIM1+0.0000278046*YWHAB-0.167402736*ESR1-0.080103018*OBSL1-0.006563526*DTX2-0.000295266*SF3B5。此为现有训练样本、验证样本反复验证后所得到的加权分数及计算公式。若未测量某些基因的表达值，则将其基因表达值视为0来计算。本具体实施例的建构方法的其他步骤，系与前述具体实施例的对应步骤大致相同，故于此不再赘述。

在一实施例中，计算公式也可为：基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB-(0.1～0.2)*ESR1-(0.05～0.10)*OBSL1-(0.003～0.010)*DTX2-(0.0001～0.0005)*SF3B5。

随着训练样本、验证样本的数量越多，加权分数会有一定程度的调整。就目前的验证结果来看，加权分数应不超出括号的范围。也就是说，实际上使用的加权分数，可以是括号的范围内的任一实数。

利用上述计算公式获得的预测值越高，远端转移风险越高。基于选择不同的模型(例如远端转移预测模型、综合复发预测模型、五年期预测模型、或10年期预测模型)，可选择不同的得分算式进行运算。

请参阅图3。图3绘示图2的乳腺癌远端转移风险预测基因模型的建构方法进一步的步骤流程图。如图3所示，将每一训练样本分群的步骤A4进一步包含以下步骤：步骤A41、导入Cox比例风险模式并根据远端转移标记将每一训练样本分群，建构预测值与五年内远端转移风险百分比的关联，以产生对应复数个预测值的一第一阈值；以及步骤A42、比对检体样本的预测值和第一阈值，当检体样本的预测值小于第一阈值，而判断检体样本为一乳腺癌远端转移低风险样本时，检体样本的复发率小于4％。例如当检体样本的预测值小于29.0，则判断检体样本为乳腺癌远端转移低风险样本，完成乳腺癌远端转移风险预测基因模型的建构。

利用ROC曲线(receiver operating characteristic curve)分析比较预测值与远端转移标记，以实际远端转移率优化阴性预测率(NPV)的表现，可以准确地找出复发率小于4％的第一阈值。

请参阅图4。图4绘示根据本发明的另一实施例的乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。如图4所示，本具体实施例与前述具体实施例不同处在于设定至少七个基因的加权分数的步骤A3进一步包含以下步骤：步骤A33、透过回归分析设定至少七个基因的加权分数；步骤A34、根据训练样本的来源的一临床因子，计算一临床观测值；以及步骤A35、根据至少七个基因的加权分数和临床观测值，分别产出每一训练样本的预测值。其中，临床因子包含有初次确诊时年龄、原发性肿瘤大小、淋巴结转移数量、淋巴血管侵犯状态、肿瘤分级、和雌激素受体状态。

请参阅图5。图5绘示根据本发明另一实施例的乳腺癌远端转移风险预测基因模型的建构方法的步骤流程图。如图5所示，本具体实施例的乳腺癌远端转移风险预测基因模型的建构方法包含有以下步骤：步骤B1、提供复数个训练样本，并根据训练样本的临床预后结果，将训练样本选择性设定一远端转移标记；步骤B2、测定每一训练样本中复数个基因的表达值，复数个基因包含有BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB，上述任一基因可被其同源基因、其变异基因或其衍生基因取代；步骤B3、透过回归分析设定复数个基因的加权分数，并根据复数个基因及加权分数，分别产出每一训练样本的一预测值；以及步骤B4、根据远端转移标记将训练样本分群，以产生分别对应每一预测值的一第一阈值，其中第一阈值系用于乳腺癌远端转移风险预测基因模型中以与一检体样本的一检体样本预测值比对而判断检体样本是否为一乳腺癌远端转移低风险样本。当一检体样本的预测值小于第一阈值，则判断检体样本为一乳腺癌远端转移低风险样本，完成乳腺癌远端转移风险预测基因模型的建构。

此实施例的步骤B3中，可进一步包含以下步骤：设定复数个基因中每一基因的加权分数；计算复数个基因中每一基因的表达值在标准化后乘上加权分数后的总合；根据训练样本的来源的一临床因子，计算一临床观测值；根据基因的加权分数和临床观测值，计算出预测值。其中，临床因子包含有初次确诊时年龄、原发性肿瘤大小、淋巴结转移数量、淋巴血管侵犯状态、肿瘤分级、和雌激素受体状态。

本具体实施例与前述具体实施例不同处在于本具体实施例的建构方法选择了全部的11个基因来建构乳腺癌远端转移风险预测基因模型，其综合临床观测值进行运算时，阴性预测值NPV准确度达到94％。

此实施例的步骤B3可进一步包含以下步骤：设定基因群组中每一基因的加权分数以产生一计算公式；根据训练样本的来源的一临床因子，计算一临床观测值；将基因群组中每一基因在标准化后的表达值代入计算公式，以获得一基因表达值；加总临床观测值和基因表达值，计算获得预测值。临床因子包含有初次确诊时年龄、原发性肿瘤大小、淋巴结转移数量、淋巴血管侵犯状态、肿瘤分级、和雌激素受体状态。该计算公式为：基因表达值＝0.445623356*BUB1B+0.224466639*BLM+0.002146431*CLCA2+0.00044734*ERBB2+0.000307024*TPX2+0.000290927*PIM1+0.0000278046*YWHAB-0.167402736*ESR1-0.080103018*OBSL1-0.006563526*DTX2-0.000295266*SF3B5。

此实施例中，预测值的计算方式是：预测值＝2.969*基因表达值+1.617*临床观测值。此时获得的预测值会落在0-100的分数量表之中。经过评估后，可将第一阈值设定在29.0。预测值低于29.0时，检体样本为乳腺癌远端转移低风险样本，检体样本来源(亚洲女性乳腺癌患者)被判断为乳腺癌远端转移低风险组。预测值高于29.0时，检体样本为乳腺癌远端转移高风险样本，检体样本来源(亚洲女性乳腺癌患者)被判断为乳腺癌远端转移高风险组。

请参阅图6。图6绘示根据本发明的一具体实施例的乳腺癌远端转移的风险预测方法的步骤流程图。如图6所示，本具体实施例的乳腺癌远端转移的风险预测方法包含有以下步骤：步骤C1、提供一检体样本；步骤C2、测定检体样本中至少七个基因的表达值，至少七个基因系选自于一基因群组的任意组合，基因群组系由BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB所组成，基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；以及步骤C3、比较检体样本中至少七个基因的表达值和一非乳腺癌远端转移样本中至少七个基因的表达值，当检体样本中至少七个基因的表达值高于该非乳腺癌远端转移样本中至少七个基因的表达值，则判断检体样本为该乳腺癌远端转移低风险样本。

根据另一具体实施例，基于乳腺癌远端转移风险预测基因模型的风险预测方法可包含有以下步骤：提供一检体样本；测定检体样本中至少七个基因的表达值，至少七个基因系选自于一基因群组的任意组合，基因群组系由BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB所组成，基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；将至少七个基因在标准化后的表达值代入一计算公式而获得一预测值，预测值呈现检体样本为乳腺癌远端转移的风险。

根据另一具体实施例，基于乳腺癌远端转移风险预测基因模型的风险预测方法可包含有以下步骤：提供一检体样本；测定检体样本中复数个基因的表达值，复数个基因包含有BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB，上述任一基因可被其同源基因、其变异基因或其衍生基因取代；以及将每一基因在标准化后的表达值代入一计算公式而获得一预测值，预测值呈现检体样本为乳腺癌远端转移的风险。

以上的风险预估方法中，于将每一基因代入计算公式的步骤中，进一步包含以下步骤：将每一基因在标准化后的表达值代入计算公式，计算公式为：基因表达值＝0.445623356*BUB1B+0.224466639*BLM+0.002146431*CLCA2+0.00044734*ERBB2+0.000307024*TPX2+0.000290927*PIM1+0.0000278046*YWHAB-0.167402736*ESR1-0.080103018*OBSL1-0.006563526*DTX2-0.000295266*SF3B5；根据检体样本的来源的一临床因子，计算一临床观测值，临床因子包含有初次确诊时年龄、原发性肿瘤大小、淋巴结转移数量、淋巴血管侵犯状态、肿瘤分级、和雌激素受体状态；加总临床观测值和基因表达值，计算获得预测值；若预测值小于一第一阈值，则判断检体样本为乳腺癌远端转移低风险样本，设定该第一阈值，使该检体样本的该预测值小于该第一阈值时，判断该检体样本为一乳腺癌远端转移低风险样本，该检体样本的复发率小于4％。

本发明的乳腺癌远端转移风险预估方法的优点是，在乳房切除手术以及/或乳房保留手术后，可应用任何数量的上述所提的11个基因，来为乳腺癌患者评估远端转移可能性。即便单一基因亦有预测能力。若为11个基因中任何组合方式的复数个基因，都有更佳的预测能力。更佳实施例中，则是选用全数11个基因，来进行运算及预测，有更高的预测准确度。还有另一个优点则是，可在乳房切除手术或乳房保留手术后，基于运算所得的评估远端转移可能性，让医疗人员及乳腺癌患者决定辅助性治疗的类型。

于实施例中，本发明还提供一种测量乳腺癌远端转移风险预测基因模型的预后标志物的特异性蛋白结合分子、核酸探针或核酸引子，其中该预后标志物为一基因群组中的至少七个基因，该基因群组包含有：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。

基因群组中的基因序列皆为公开讯息，且此些基因对应的特异性蛋白结合分子、核酸探针或核酸引子的制作方法可利用已知的生物学方法进行合成，于此不再详述。

特异性蛋白结合分子、核酸探针或核酸引子进一步系用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB-(0.1～0.2)*ESR1-(0.05～0.10)*OBSL1-(0.003～0.010)*DTX2-(0.0001～0.0005)*SF3B5，括号代表可选的范围，范围内的任一实数皆可做为加权分数的参数。

试剂盒进一步包含有复数个特异性蛋白结合分子、核酸探针或核酸引子，用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB-(0.1～0.2)*ESR1-(0.05～0.10)*OBSL1-(0.003～0.010)*DTX2-(0.0001～0.0005)*SF3B5，括号代表可选的范围，范围内的任一实数皆可做为加权分数的参数。

本领域技术人员可轻易了解对特定基因表达值进行测定的试剂盒所应包含有的元件，于此不再赘述。

其中，此套组进一步包含有：复数个特异性蛋白结合分子、核酸探针或核酸引子，用于测量一检体样本中该至少七个基因的表达值；以及一乳腺癌远端转移风险预测基因模型，进一步包含有一计算公式，该计算公式用于代入标准化后的该至少七个基因的表达值，演算获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB-(0.1～0.2)*ESR1-(0.05～0.10)*OBSL1-(0.003～0.010)*DTX2-(0.0001～0.0005)*SF3B5，括号代表可选的范围，范围内的任一实数皆可做为加权分数的参数。

其中该特异性蛋白结合分子、核酸探针或核酸引子用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB-(0.1～0.2)*ESR1-(0.05～0.10)*OBSL1-(0.003～0.010)*DTX2-(0.0001～0.0005)*SF3B5，括号代表可选的范围，范围内的任一实数皆可做为加权分数的参数。

其中该基因群的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB-(0.1～0.2)*ESR1-(0.05～0.10)*OBSL1-(0.003～0.010)*DTX2-(0.0001～0.0005)*SF3B5，括号代表可选的范围，范围内的任一实数皆可做为加权分数的参数。

以下透过具体实施例说明本发明的实质技术手段、过程与实质效果。下述实施例中测量基因表达值的方法，是利用与11个基因相对应的套组、试剂盒、特异性蛋白结合分子、核酸探针或核酸引子对样本中的基因进行定量。

下述实施例都是基于11个基因表达值作为预测因数，再利用逻辑回归来预测乳腺癌的复发。最佳拟合逻辑回归模型的选择是通过模型训练来完成的，并导致获得控制模型的预测参数的最佳值。本研究使用基器学习中的监督学习方法(supervised learningmethod)对模型进行训练。例如使用总样本的50％作为训练样本运行模型的预测y(复发或无复发)，然后将预测(y)值(预测高风险或预测低风险)与各自观察到的状态(高风险或低风险)进行比较使用x的输入向量(11个基因的基因表达值)作为预测变数，从而确定每个患者的高或低风险。根据比较结果和使用的特定学习演算法，调整模型的参数。

具体实施例1

于本具体实施例中，总共有422名患者的资料来自基因表达值综合(GEO)资料集。第一个资料集GSE2068519包含从1991年至2004年在和信医院癌症中心(KFSYSCC)进行治疗的亚裔患者中随机抽选312位被诊断患有乳腺癌的患者的基因表达值谱，以及另外15份小叶乳腺癌样本资料。第二个资料集GSE4525520由1,954个乳腺肿瘤资料组成，并具有相应的临床病理资料，从中随机选取95个亚裔样本。(1)乳腺浸润性癌，(2)临床阶段T1-T4，(3)淋巴结状态L0–L3，(4)首次乳房切除术/乳房保留术治疗。

后续追踪数据：在总共422位患者中，有197位进入了后续追踪。检查了197例患者的资料，以确定在5年和10年追踪期内的复发和生存分析模式。

训练完模型后，将对模型进行测试，以确定预测模型在实务上的执行精度。总样本中剩余的50％(另外211例)样本用作测试资料集，以对适合于训练资料集的最终模型进行无偏评估(unbiased evaluation)。

临床表现会透过敏感性(sensitivity)、特异性(specificity)、阳性预测值(positive predictive value,PPV)和阴性预测值(negative Predictive value,NPV)等指标来判断此模型的临床准确度。敏感性是指复发或转移患者被正确预测为高风险的比例：真阳性/(真阳性+假阴性)。特异性是指没有复发或转移的患者被正确预测为低风险的比例：真阴性/(真阴性+假阳性)。阳性预测值是具有预测的高风险受试者确实复发或转移的比例；阴性预测值是具有低风险的预测受试者确实无复发或转移的比例。

模型验证和测试：一旦在上一步中评估了模型参数，便将最佳拟合模型用于研究中的所有样本，并进行交叉验证(LOOCV)程式以检查准确性。LOOCV提供了对泛化性能几乎无偏差的估计，包括对n-1个子样本进行模型训练，并对其余1个样本进行模型选择标准评估。然后对n-1个子样本的所有n个组合重复此过程，然后计算准确性以判断模型性能。

存活率分析：使用Cox比例风险回归模型评估年龄、T阶段、N阶级在诊断时的预后意义。估计总生存期，并使用对数等级确定指示组之间生存期的任何统计学显著差异。使用卡方核对总和T检验在各组之间进行比较分析。统计显著性为p<0.05。对5年追踪和10年追踪资料，单变数和多变数Cox比例风险分析包含诊断年龄、T阶段、N阶段和基因表达值，获得有95％信赖区间和P值的HRs风险比(hazard ratios)。

最后，分别使用Cox比例风险测试对T1-T2期和N期N0-N1期肿瘤进行了亚组分析，以评估模型在预测患者从手术或诊断后10年内的存活率方面是否具有显著效果。

本实施例中乳腺癌治疗手术后的患者依据生物特征分群，例如诊断年龄、T阶段(肿瘤本身阶段)、N阶段(肿瘤转移到淋巴结的阶段)、复发情形，汇整于下表2。

表2，被诊断患有乳腺癌的总体样本的统计资料

为了进一步确定患者的复发率和存活率，对422例中的197例患者进行了进一步的5年和10年追踪研究。表3显示了追踪患者样本的人口统计学细节，包括诊断，肿瘤分期，N期和复发状态的年龄。

表3，5年和10年追踪资料的预测模型分类的人口统计表

本实施例中，19例被预测为高复发风险，平均年龄为49岁，其中5例(29.4％)在5年内复发，7例(36.8％)在10年内复发；178例被预测为低复发风险，平均年龄约50岁，其中24例(14％)在5年内复发，31例(17.4％)在10年内复发。以淋巴结状态(N stage：N0–N3)和肿瘤阶段(T stage：T1–T4)分类的患者风险预测性能p值分别为0.979和0.567。

请参阅图7。图7显示从发病日期起至10年为止，高复发风险患者与低复发风险患者的生存曲线。生存分析预测高风险患者的生存率为52％。低风险患者的生存率80％。两组存活时间的差异p值为0.019，有显著的差异。这表明高风险评分患者之后的实际生存率比低风险评分患者低，并且高风险组和低风险组之间的实际生存率存在显著差异。

具体实施例2

请参阅图8。图8是基于有无复发的患者的每个基因的基因表达值谱箱型图。基因表达值谱显示了有无复发患者的所有基因均具有高值或中值基因表达值(log2expression>7)。纵轴是每个基因的表达值，横轴列出了23个基因，包含了本发明11个基因。尤其ACTB、PTI1和RPLPO在所有患者身上都有高表达值。另一方面，ERBB2和ESR1基因的表达值则是均匀分布。横轴上每个基因又分两个族群，左为无复发的样本群，右为有复发的样本群。图中每个日字方格的中线为均标线，上线为上四分位数，下线为下四分位数，单点为离群值或极端值。

下表4说明每一个基因的胜算比。胜算比代表某基因每增加一单位基因表现，该基因增加对应的复发风险。例如BLM在单基因模型中每增加一单位基因表现，则复发的风险就成长为原本的133％。多基因模型中控制其他基因影响下每增加一单位BLM基因表现，则复发风险增加31％，以此类推至11个基因上的解释。是以，每一基因各自可以推算乳腺癌复发的风险。

表4，各基因的单基因预测和多基因预测的胜算比

使用11基因表达值加上临床因数，包括诊断年龄、手术年龄、T阶段(肿瘤本身阶段)、N阶段(肿瘤转移到淋巴结的阶段)、术后(预后)状态…等，有最高的预测准确度。

具体实施例3

针对384位T1-2、N0-1早期乳腺癌患者族群，代入乳腺癌远端转移风险预测基因模型计算预测值，并导入Cox比例风险模式(Cox proportional hazard regression model)，建构预测值与五年内远端转移风险百分比的关联。以29.0为预测值第一阈值时，远端转移高风险组(预测值≥29.0)，平均复发率为14.3％，远端转移低风险组(预测值<29.0)平均复发率为5.8％，高低风险组之间的生存表现具有统计上的显著差异(p-value＝0.009)。

具体实施例4

针对420位T1-3、N0-2中期乳腺癌患者族群代入乳腺癌远端转移风险预测基因模型计算预测值，以29.0为第一阈值，分类出远端转移高风险或低风险组。10年期追踪后根据是否确实发生远端转移，制作如下表5。性能特征结果中，敏感度为72.5％，特异性为59.9％，阳性预测值为20.0％，阴性预测值为94.0％。

表5，420位T1-3、N0-2乳腺癌患者中的11基因组的基因表现

具体实施例5

于本具体实施例中，委托医院进行评估实验，其患者皆为亚裔女性。经本发明方法预测后，再和实际复发情形作比较。比较后其远端复发的性能特征为如表6。

表6，按预测模型分类的统计表

其阴性预测值都达到95％以上，也就是将没有复发的人判断为低风险族群的准确度，如此可以较准确的避免低复发风险的乳腺癌患者进行过度治疗。

具体实施例6

请参阅图9。图9绘示本发明中乳腺癌远端转移风险预测基因模型。使用本发明方法可制作一预测性分类模型，横轴为演算所得分数、纵轴为5年复发风险。实线为预测值，短虚线为95％信赖区间下界，长虚线为95％信赖区间上界。当亚洲女性病患样本进行测量而获得基因表达值后，可套用计算公式运算得分，再比对图9的预测性分类模型来预估远端转移风险。

在图9的远端转移预测性分类模型中，设定第一阈值和第二阈值皆为0.29，当运算得分小于0.29时，将该病患评估为低远端转移风险族群。在五年期间内，低风险病患发生远端转移的机率小于8％，低风险病患发生远端转移的机率达到40％。得分越高，远端转移机率越高。

综上所述，在使用本发明乳腺癌远端转移风险预测基因模型的建构方法、风险预估方法、试剂盒、套组、特异性蛋白结合分子、核酸探针或核酸引子，不需要临床资料即可达到高精准度的预测。本发明可于乳房切除手术以及/或乳房保留手术后，精准评估复发的风险指数给相关医疗人员，帮助医疗人员决定乳腺癌患者所需的治疗类型，减少医疗费用、健保给付或保险资源的负担与浪费。由于本发明是利用大量亚洲乳腺癌患者的样本进行建构与证实，本发明尤其适合正在考虑进行术后辅助化学治疗或放射治疗的亚洲女性，避免过度的治疗。相较习知技术，本发明公开了先前未被确认或揭露的数个基因，达到更高的精准度。

藉由以上较佳具体实施例的详述，系希望能更加清楚描述本发明的特征与精神，而并非以上述所揭露的较佳具体实施例来对本发明的范畴加以限制。相反地，其目的是希望能涵盖各种改变及具相等性的安排于本发明所欲申请的专利范围的范畴内。因此，本发明所申请的专利范围的范畴应该根据上述的说明作最宽广的解释，以致使其涵盖所有可能的改变以及具相等性的安排。

Claims

1.一种特异性蛋白结合分子、核酸探针或核酸引子，用于测量乳腺癌远端转移风险预测基因模型的预后标志物的基因表达值，其特征在于，该预后标志物为一基因群组中的至少七个基因，该基因群组是由BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB所组成。

2.如权利要求1所述的特异性蛋白结合分子、核酸探针或核酸引子，其特征在于，进一步系用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

基因表达值＝(0.4～0.5)*BUB1B+(0.20～0.24)*BLM+(0.001～0.003)*CLCA2+(0.0001～0.0010)*ERBB2+(0.0002～0.0004)*TPX2+(0.0001～0.0005)*PIM1+(0.00001～0.00005)*YWHAB–(0.1～0.2)*ESR1–(0.05～0.10)*OBSL1–(0.003～0.010)*DTX2–(0.0001～0.0005)*SF3B5。

3.一种用于测量乳腺癌远端转移风险的预后标志物的基因表达值的试剂盒，其特征在于，该预后标志物为一基因群组中的至少七个基因，该基因群组是由BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB所组成。

4.如权利要求3所述的试剂盒，其特征在于，进一步包含有复数个特异性蛋白结合分子、核酸探针或核酸引子，用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

5.一种乳腺癌远端转移风险评估套组，用于测量测量乳腺癌远端转移风险的预后标志物的基因表达值，其特征在于，该预后标志物为一基因群组中的至少七个基因，该基因群组是由BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB所组成。

6.如权利要求5所述的乳腺癌远端转移风险评估套组，其特征在于，进一步包含有：

复数个特异性蛋白结合分子、核酸探针或核酸引子，用于测量一检体样本中该至少七个基因的表达值；以及

一乳腺癌远端转移风险预测基因模型，进一步包含有一计算公式，该计算公式用于代入标准化后的该至少七个基因的表达值，演算获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

7.一种用于测量乳腺癌远端转移风险的预后标志物的基因表达值的特异性蛋白结合分子、核酸探针或核酸引子在制备试剂盒的应用，其特征在于，该预后标志物为一基因群组中的至少七个基因，该基因群组是由BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB所组成。

8.如权利要求7所述的应用，其特征在于，该特异性蛋白结合分子、核酸探针或核酸引子用于测量一检体样本中该至少七个基因的表达值，且该至少七个基因的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：

9.一种用于评估乳腺癌远端转移风险的分子分型基因群，其特征在于，由以下基因所组成：BLM、BUB1B、CLCA2、DTX2、ERBB2、ESR1、OBSL1、PIM1、SF3B5、TPX2和YWHAB。

10.如权利要求9所述的分子分型基因群，其特征在于，该基因群的表达值在标准化后代入一计算公式以获得一基因表达值，该基因表达值用于判断该检体样本是否为一乳腺癌远端转移低风险样本，该计算公式为：