TWI819049B

TWI819049B - 對正在運行中的臨床試驗進行動態數據監測和實時優化的系統，方法及實施過程

Info

Publication number: TWI819049B
Application number: TW108127545A
Authority: TW
Inventors: 泰亮謝; 平高
Original assignee: 香港商布萊特臨床研究有限公司
Priority date: 2018-08-02
Filing date: 2019-08-02
Publication date: 2023-10-21
Also published as: CN112840314A; US20250087316A1; JP2021533518A; US20210158906A1; EP3830685A4; WO2020026208A4; TW202032390A; WO2020026208A1; EP3830685A1

Abstract

本發明涉及一動態監測正在進行中的、與藥物、器械或治療相關的隨機臨床試驗數據的方法和過程。在一實施例中，本發明在沒有人為參與的情況下，自動且連續地對研究數據進行解盲。在一實施例中，沿著信息時間的所有時間點，本發明完整、連續地紀錄且計算統計參數，包括治療效果、趨勢比、最大趨勢比、平均趨勢比、最小樣本量比、信賴區間和條件檢定力。在一實施例中，本發明提供了對進行中的臨床試驗儘早做出判斷的方法，判斷包括試驗無效（不具效益）、有前景、需要重新估計樣本數。在一實施例中，本發明可以連續、精確地計算I型錯誤率控制、治療效果的中位數無偏差估計、以及雙邊信賴區間。

Description

對正在運行中的臨床試驗進行動態數據監測和實時優化的系統，方法及實施過程

相關申請 [0001]本申請之要求已於2018年8月2日提交美國臨時申請號No.62 / 713,565和2019年2月19日提交美國臨時申請號No.62 / 807,584的優先權。此些先前申請之全部內容以引用之方式併入本申請。 [0002]本申請亦引用多個公開出版物，該等公開出版物的全部內容以引用之方式併入本申請案中以更充分地描述本發明所涉及的工藝狀況。發明領域 [0003] 本研究發明針對進行中的臨床試驗研究之動態數據監測和數據優化系統，及其方法和過程之說明。 [0004] 通過使用電子患者數據管理系統（如EDC系統）、治療分配系統 (如IWRS系統)和客製化統計軟體包，本發明是用於動態地監測並實時地優化正在進行中的臨床研究試驗的一個“封閉系統”。本發明的系統、方法和工序將一個或多個子系統集成為一個封閉系統，從而允許在臨床研究試驗中計算藥物、醫療設備或其他治療方法的治療功效評分，而不會向任何一受試者的或參與之研究人員解盲（透露）個體治療分配。在臨床研究的各個階段或之後的任何時間，隨著新數據的累積，本發明將實施自動估計治療效果、信賴區間（CI）、條件檢定力、更新的停止界線，且根據所需的統計檢定力重新估計樣本數（量），並進行模擬，預測臨床試驗之趨勢。本發明系統還可用於選擇治療方案、選擇人群、識別病情預判因素、檢測藥物安全性信號，和在一個藥物、醫療器械或治療方案獲批後，在患者治療和醫療保健中與真實世界證據（RWE）和真實世界數據（RWD）的連接。

[0005] 美國食品和藥物管理局（FDA）負責監督並保護消費者一切接觸之健康相關產品（包括食品、化妝品、藥物、基因療法和醫療器械）。在FDA的指導下，臨床試驗用於測試新的藥物、醫療設備或其他治療方法的安全性和有效性，以最終確定新的治療方法是否適合目標患者群。本文所用術語“藥物”和“藥劑”可互換使用，並且包括但不限於任何藥物、藥劑（化學、小分子、複合物、生物製劑等）、治療方法、醫療器械或其他需要使用臨床研究、試驗以獲得FDA批准的產品。本文所用術語“研究”和“試驗”可互換使用，並且意指如本文所述的針對新藥的安全性和有效性的隨機臨床研究。本文所用術語“研究”和“試驗”包括其任何階段或部分。 [0006] 定義和縮寫

#	縮寫	全名和計算式
1.	CI	信賴區間（Confidence Interval， CI）
2.	DAD	動態自適應設計 (Dynamic Adaptive Design, DAD)
3.	DDM	動態數據監測(Dynamic Data Monitoring, DDM)
4.	IRT	交互響應技術(Interactive Responding Technology, IRT)
5.	IWRS	網絡交互響應系統(Interactive Web-Responding System, IWRS)
6.	RWE	真實世界證據(Real-World Evidence, RWE)
7.	PV	藥品安全監測 (Pharmacovigilance, PV)
8.	TLFs	表格、列表和圖示(Tables, listing and figures, TLFs)
9.	RWD	真實世界數據 (Real World Data, RWD)
10.	RCT	隨機臨床試驗 (Randomized Clinical Trial, RCT)
11.	GS	群組序列 (Group Sequential, GS)
12.	GSD	群組序列設計 (Group Sequential Design, GSD)
13.	AGSD	自適應群組序列設計 (Adaptive GSD, AGSD)
14.	DMC	數據監測委員會(Data Monitoring Committee, DMC)
15.	ISG	獨立統計小組 (Independent statistical group, ISG)
16.	t _n	期中點 (Interim points,t _n )
17.	AGS	自適應群組序列 (Adaptive Group Sequential, AGS)
18.	S, F	成功停止界限（Success， S）失敗停止界限 (Failure, F)
19.	SS	樣本數（大小）（Sample size, SS）
20.	SSR	樣本數（大小）重新估計 (Sample size re-estimation, SSR)
21.	z-score(s)	標準分數 (High efficacy score(s), z-score(s))
22.	EDC	電子數據收集 (Electronic Data Capture, EDC)
23.	DDM	動態數據監測引擎 (Dynamic Data Monitoring Engine, DDM)
24.	EMR	電子病歷 (Electronic Medical Records, EMR)
25.		治療效應值(treatment effect size,
26.		每個受試組計劃/初始樣本數（大小）(或信息（資訊）)
27.		第一型錯誤 (Type-I error rate)
28.		虛無假設 (Null hypothesis)
29.	和	實驗組受試者人數 ()和對照組受試者人數()
30.		實驗組樣本均值, 其計算公式：
31.		對照組樣本均值, 其計算公式：
32.	,	華德統計量 (Wald statistics, 其計算公式: )
33.	()	的方差估計量
34.		估計的費雪信息（Estimated Fisher's information, 其計算公式：）
35.		計分函數（Score function, 其計算公式： = =. ）
36.	CP (,N ,	條件檢定力（Conditional Power），其計算公式：CP (,N , =,
37.		點估計（The point estimate, 其計算公式： or）
38.		臨界/邊界值（The critical/boundary value）
39.		重新估計樣本大小後的調整後臨界/邊界值, 其計算公式:, 或.
40.		O'Brien-Fleming邊界的最終邊界值 (Final boundary value with O’Brien-Fleming boundary)
41.		資訊（信息）比率（Information ratio，
42.	t	在任意的基於原始計劃時間（）的資訊時間（比）即,/
43.		在資訊時間（t）的計分函數, 其中 ~是標準的連續布朗運動過程, 其計算公式：
44.		檢查的線段總數（Total of the number of line segments examined ）
45.	TR ()	預期的長度為l 的“趨勢比率”, 其計算公式
46.	Mean TR	平均趨勢比率，其計算公式： , 其中為第個待監測病人區域,A 為監測的第一個區域.
47.	mTR	最大趨勢比率 (Maximum trend ratio (), 其中，t =/ 為在任意的基於原始計劃時間（）的資訊時間（比）,
48.	τ	進行SSR的時間分值τ, τ = (/ SSR時的病人數/計劃的病人總數）.
49.		重新估計樣本數（大小）後的調整後臨界/邊界值, 其計算公式:, 或.
50.		O'Brien-Fleming邊界的最終邊界值（Final boundary value with O’Brien-Fleming boundary）
51.		alpha連續花費函數（continuous alpha-spending function）, 其計算公式:用於控制第一型錯誤
52.		在資訊比時間 (的療效無益邊界值（Futility boundary value, 因此，如果，該方法將在時間停止研究，並得出測試治療無效的結論。
53.		期望總資訊（Expected total information）, 其計算公式:+ +
54.		條件檢定力趨勢比（Trend ratio based conditional power）, 其計算公式: , 其中用於計算.
55.	FR(t)	時間t的療效無益率, 其計算公式： (滿足 S(t)=>0)的點數/(計算 S(t) 的點數)
56.		用於推斷（點估計和置信區間），是θ的遞增函數, 且為-value. 其定義為：.
57.		後向圖像（“Backward image”）, 其計算公式：
58.		表現績效計分（得分）（Performance Score），其計算公式：

[0007] 平均而言，一種新藥從最初的發現到批准上市至少要花十年時間，僅臨床試驗平均就需要6至7年，每個成功藥物的研發平均費用估計為26億美元。如下所述，大多數臨床試驗皆須經過三個批准前階段：第一階段、第二階段和第三階段。大多數臨床試驗都在第二階段失敗，因而不能進入第三階段。發生此失敗的原因很多，但主要為安全性、功效和商業可行性相關的問題。如在2014年的報導中，完成第二階段並進入第三階段的試驗藥物，成功率僅為30.7％。請見圖 1。任何試驗藥物完成第三階段並在FDA進行新藥申請（NDA）成功率僅為58.1％。在初期（第一階段）人類受試者測試的候選藥物中，約只有9.6％被FDA最終批准在人群中使用。因此，在尋找候選藥物並最終能獲得FDA批准時，藥廠需花費大量資金與物力，更有可能造成的人力浪費。 [0008] 若在動物試驗中新藥物測試結果看起來令人滿意，即可進行該藥物的人類試驗和研究。在進行人體測試之前，必須先將動物研究結果報告報與FDA，以獲得測試批准。提交給FDA的報告被稱為新藥研究申請（“IND”申請，即“INDA”或“IND申請”）。 [0009] 候選藥物在人體上的實驗過程稱為臨床試驗，其通常包括四個階段（三個批准前階段和一個批准後階段）。在第一階段，研究人類參與者（稱為受試者）（大約20至50人）用以確定新藥之毒性。在第二階段，更多的人類受試者參與研究（通常為50-100人），此階段用來確定藥物的療效並進一步確定治療的安全性。第二階段試驗的樣本量因治療區域和人群而有異，有一些試驗規模較大，可能包含數百名受試者。該藥物的劑量將進行分層，以取得最佳治療方案。一般將治療與安慰劑或與另一種現有治療方法進行比較。第三階段臨床試驗旨在確認第二階段臨床試驗結果之療效。對於此階段，需要更多的受試者（通常是數百到數千個）來執行更具結論性的統計結果分析。此階段之試驗設計亦是將治療與安慰劑或與另一種現有治療方法進行比較。在第四階段（批准後研究），該治療已獲FDA批准，但仍需進行更多測試以評估長期效果與其他可能的適應症。亦如是說，即使在FDA批准之後，該藥物仍會因嚴重不良事件而被持續監督。監督（亦稱為上市後監督試驗）是通過系統的報告以及樣本調查和觀察研究來收集不良事件。 [0010] 樣本量傾向於隨著試驗階段而增加。第一階段和第二階段的試驗樣本量很可能在十幾到一百多，而第三和第四階段試驗的樣本量為一百多到一千多之間。 [0011] 每個階段的研究重點在整個過程中變化，初期測試的主要目的是確定該藥物是否足夠安全，是否可進行進一步的人體測試。此初期研究的重點在於確定藥物的毒性特徵，並尋找適當的治療有效劑量以用於後續測試。通常，初期的試驗是不設對照組的（即研究不涉及同時觀察的、隨機的對照組），且試驗時間較短（即治療和隨訪時間相對較短），並尋找合適的劑量以用於後續測試階段。測試後期階段的試驗通常涉及傳統的平行治療設計（即，設對照組，通常涉及試驗組和對照組），患者隨機分組並針對所治療疾病的典型治療期與治療後的追蹤進行紀錄觀察和研究。 [0012] 大多數藥物試驗都是在藥物“發起人”持有的IND下進行的。發起人通常是藥品公司，但也可以是個人或是代理。 [0013] 試驗計劃一般由研究發起人制定。試驗計劃書是為描述實驗原因、所需受試者數量的依據、研究受試者的方法以及如何進行研究的相關指南或規則的文檔。在臨床試驗期間，會在醫療診所或其他調查地點進行，並且通常由醫生或其他醫療專業人員（也稱為研究的“調查員”）對受試者進行評估。當參與者簽署知情同意書並滿足某些納入和排除條件標準後，將成為研究對象。 [0014] 參與臨床研究的受試者將以隨機方式分配給研究組與對照組，此是為了避免在選擇試驗受試者時可能出現的偏差。例如，如果病情較輕或基線風險特徵較低的受試者被分配給新藥組的比例高於對照組（安慰劑），那麼新藥組可能會出現更有利但有偏差的結果。即使是無意的，這種偏差也會使臨床試驗的數據和結果偏向於研究的試驗藥物。然而，當在只有一個研究組的情況下，將不進行隨機分組。 [0015] 隨機臨床試驗（RCT）設計通常用於第二階段和第三階段的試驗，在試驗中，患者會被隨機分配實驗藥物或對照藥物（或安慰劑）。通常以雙盲方式隨機分配，即醫生和患者皆不知各是接受了何種治療。此隨機化和雙盲化其目的是為減少功效評估中的偏差。而計劃（或預估）的研究患者數量和試驗時間，是根據研發初期對試驗藥物的有限瞭解推估而出。 [0016] 通過“盲性"過程，受試者（單盲）或受試者和研究者（雙盲）不知曉臨床試驗中受試者的研究組別分配。此盲性設計，尤其是雙盲，最大程度地降低了數據的偏差風險。而在只有一個研究組的情況下，一般不進行盲性測試。 [0017] 通常，在標準臨床研究試驗結束時（或在指定的過渡時間段，下文將進一步討論），會將包含完整試驗數據的數據庫資料傳輸給統計學家進行分析。若看到某一特定事件，無論是不良事件還是試驗藥物的功效，其發生率在一組中都高於另一組，從而超過了單純的純隨機，那麼可以說已經達到統計學意義。使用眾所周知的統計計算並用於此目的，組之間任何給定事件的比較發生率都可以通過被稱為“p值”的數值來描述。p值>0.05表示發生事件的可能性的95％不是由於偶然的結果。在統計情況下，“p值”也稱為誤報率或誤報概率。通常，FDA接受總體假陽性率>0.05。因此，如總體p >0.05，則認為該臨床試驗具有“統計學意義”。 [0018] 在一些臨床試驗中，可能不使用分組研究，甚至不使用對照組。在這種情況下，僅存在一個研究組別，則所有受試者均接受相同的治療。此種單一組別通常同先前已有已知之臨床試驗數據或有相關藥物治療之歷史數據進行比較，或因其他倫理原因而使用。 [0019] 研究組別的設計、隨機化、盲性是業內共識和FDA批准的成熟技術，使得在試驗過程中可以確定新藥的安全性和有效性。由於這些方法需要維持盲性以保護臨床試驗的完整性，因此在研究進行期間，臨床試驗發起人無法隨時取得或跟蹤試驗的安全性和有效性之相關關鍵信息。 [0020] 任何臨床試驗的目的之一即是確定新藥的安全性。然而，在兩個或多個研究組別之間進行隨機化的臨床試驗中，只有將一個研究組別與另一個研究組別的安全性參數進行分析比較後，才可確定其安全性，如果研究組別在盲性的情況下進行試驗，則無法將受試者及其數據分為相應之組別進行比較。此外，如下文更詳細的討論，研究數據僅能在試驗結束時或在預定的分析時點進行解盲破譯和分析，使得研究對象將承受潛在的安全風險。 [0021] 對於有效性，將遵循試驗過程中的關鍵變量以得出結論。此外，研究計劃中會定義某些結果或終點，以此來認定研究對像是否已完成試驗計劃。研究數據會隨著研究的信息時間線累積，直到受試者到達各自的終點（即受試者完成研究），然而這些參數（包括關鍵變量和研究終點）無法隨時在受試者試驗進行中進行比較或分析，從而造成了在統計分析和倫理方面的不便與潛在風險。 [0022] 另一個相關問題是統計檢定力。定義為，當對立假設（H1）為真時，正確地拒絕虛無假設（H0）的概率，換言之，也可以是當對立假設為真時將其接受的概率。在臨床研究統計設計上，旨在證明有關藥物安全性和功效的對立假設，並拒絕虛無假設。為此，統計檢定力是必須的，故而需要有足夠大的受試者樣本量和各個研究組別間的分組來獲得數據。如果沒有足夠的受試者進入試驗，則存在未達到統計學顯著性水平以支持拒絕虛無假設的風險。由於隨機臨床試驗通常是盲性的，因此直到項目結束，才可知道每個研究組別的確切受試者人數，儘管這可以保持數據收集的完整性，但是此中存在固有的低效率和對於試驗的浪費。 [0023] 在統計學意義的情況下，研究數據達到功效證明或無效標準界線時，應為結束臨床研究的最佳時間。這一時刻可能發生在臨床試驗計劃結論之前，但通常無法確定其發生的時間。因此，若試驗已達臨床統計意義而還繼續進行，則是浪費許多不必要的時間、金錢、人力、物力。 [0024] 而發生研究數據接近但仍未達到統計顯著性的情況下，一般是由於參加研究的受試者人數不足。此這種情況下，為了獲得更多支持性數據，則將需要延長臨床試驗的試驗期，但若是僅能在試驗完全結束之後方能進行統計分析，則無法及時知曉並延長試驗的時間。 [0025] 若是在試驗藥物無顯著功效趨勢的情況下，即使招募了更多的受試者，也幾乎沒有機會獲得期望的結論。在這種情況下，一旦得出結論，即所研究的藥物無效，並在連續的研究數據中幾乎沒有達到統計學意義的機會（即繼續對藥物進行研究），則希望可儘早結束研究。此種趨勢只有在進行最終數據分析（通常在試驗結束時或在預定的分析點），才能得出這樣的結論。同樣，由於無法及早發現，不僅浪費時間和金錢，亦使過多的受試者參與試驗而浪費人力和物力。 [0026] 為了克服這些問題，臨床試驗計劃已經採取了期中分析的方法，以幫助確認研究是否具有成本效益與合乎人體試驗道德，但是，即使採取了此方法也可能無法達到最佳測試的效果，因為期中分析必需要先預設時間點，而期中分析與最後的分析，兩次分析之間的實驗時間可能會很長，數據分析前亦須要先解盲，故需要大量時間來進行，而造成缺乏效率。 [0027] 圖2描繪了傳統的“研究結束”隨機臨床試驗設計，通常用於第二期和第三期試驗，其中將受試者隨機分配到藥物（實驗）組或對照（安慰劑）組。在圖2中，描繪了兩種不同藥物的兩種假設臨床試驗（第一種藥物的名稱為“試驗 I”，第二種藥物的名稱為“試驗 II”）。橫軸為試驗時間長度（也稱為“信息時間”），兩個試驗中的每一個點都記錄了試驗訊息（以p值表示的功效結果）。縱軸表示兩次試驗的標準分數（通常稱為“Z -分數”，例如標準化的均值差異）。繪製研究數據的時間T起始點為0。隨著兩項研究的進行，時間沿時間軸T繼續，並且兩項試驗的研究數據（統計分析後）均隨時間而累積。兩項研究均在C線完成（結論線—最終分析時間）。上方的S線（“成功” 線），為p >0.05的統計學顯著水平的邊界。當（如果有）試驗結果數據超過S時，則達到統計學上的顯著水平p >0.05，並且該藥物被認為在研究中定義的功效為有效。下方的F線（“失敗” 線）是無效的邊界，表明測試藥物不太可能具有任何功效。 S和F線均已根據試驗計劃書進行了預先計算和確定。圖3至圖7為類似的有效性/信息時間圖。 [0028] 圖2中試驗I和試驗II的假設治療以雙盲方式隨機分配，其中研究者和受試者均不知道受試者是使用了藥物或安慰劑。在兩個試驗計劃書中以有限的知識估算了參與每個試驗的受試者數量和試驗時間。在完成各個試驗後，將根據主要終點的結果，對每個試驗之數據進行分析，確認是否具有統計學顯著性，即p >0.05，以確定是否達到研究目標。在C線（試驗結束），許多試驗低於“成功”的閾值p >0.05，被認為是無效的。理想情況下，此類的無效結果試驗應盡早終止，以避免對患者進行的試驗測試並避免大量財務資源的支出。 [0029] 圖2中描述的兩個試驗僅有一次數據分析，即在C線處得出的試驗結論。試驗I在顯示可能成功趨向的候選藥物的同時，仍未達到（低於）S，即試驗I的功效尚未達到統計學上顯著的p ＜0.05。對於試驗I，若能有更多受試者或不同劑量的研究組別，可能可使試驗結束前得到p >0.05；然而試驗發起者必須等到試驗結束並分析結果後才能知道這一事實。另一方面，為了避免經濟浪費和減少受試者進行試驗，應該早些終止試驗II。圖中試驗II候選藥物的功效評分向下的趨勢證明試驗II候選藥物不具有效性。 [0030] 圖3為兩個假想的第二期或第三期試驗的隨機臨床試驗設計，其中將受試者隨機分配到測試藥物（實驗）組或對照（安慰劑）組中，並且利用一個或多個期中分析。圖3採用了常用的群組序列（Group Sequential，“GS”）設計，即試驗進行中對累積的試驗數據進行一個或多個期中分析。圖3與圖2的試驗設計不同，圖2 為盲性測試，需在研究完成後方可進行統計分析和檢查。 [0031]圖3中 S線和F線不是C線上的單個預定數據點，而是在試驗計劃書中預先建立的預定邊界，反映了計劃中的期中分析設計，上邊界S表示藥物的功效已達到統計學顯著水平p >0.05（因此，該候選藥物被認為在試驗計劃書中定義的功效評分為有效），下邊界F表示該藥物的功效對試驗計劃書中定義的功效評分為失敗、無效。根據總假陽性率（α）必須小於5％的規則，圖3中的GS設計的停止邊界（上邊界S和下邊界F），由預先計算的預定點t1和t2得出（t3為完成試驗終點C）。 [0032] 有其他不同類型的機動型停止界線，參見Flexible Stopping Boundaries When Changing Primary Endpoints after Unblinded Interim Analyses , Chen, Liddy M., et al, J Biopharm Stat. 2014; 24(4): 817–833;Early Stopping of Clinical Trials , at www.stat.ncsu.edu/people/tsiatis/courses/ st520/notes/520chapter_9.pdf。O'Brien-Fleming為最常使用的機動型停止界線。不似圖2所示，機動型停止界線具有靈活機動性的邊界，上邊界S確定了藥物的功效有效性（p >0.05），下邊界F確定了藥物的失敗（無效）。 [0033]使用一個或多個期中分析的臨床研究存在某些障礙。具體而言，使用一個或多個期中分析的臨床研究必須是在解盲的狀態，以便將關鍵數據提交並進行統計分析。而沒有期中分析的藥物試驗同樣會解盲研究數據，但僅當研究結束時，且須消除研究結束時才發現的偏差或侵擾的可能性。因此，使用期中分析是必要的，但同時必須保護研究的完整性 (盲性和隨機)。 [0034] 其中一種執行期中分析研究的必要統計分析的方法，是通過獨立的數據監測委員會（“DMC”或“IDMC”）。該委員會通常與獨立的第三方獨立統計組（ISG）合作。在預定的期中分析，累積的研究數據會通過DMC解盲並提供給ISG，而後，ISG會對實驗組和對照組進行必要的統計分析比較。在對研究數據進行統計分析後，結果將返回給DMC。DMC會對結果進行審查，並根據審查結果向藥物研究發起人提出建議。根據期中分析（和研究的階段），DMC將建議是否繼續進行試驗；可能因為結果顯示無效而建議中止試驗，或者相反，研究藥物已經建立了必要的統計學證據，證明該藥物具有功效而建議繼續試驗。 [0035] DMC通常由研究發起人組織的一組臨床醫生和生物統計學家組成。根據FDA的《臨床試驗發起人指南—建立和運行臨床試驗數據監測委員會（DMC）》，「臨床試驗DMC是一組具有相關專業知識的人員，他們將對一個或多個進行中的臨床試驗定期審查」FDA更進一步解釋說：「DMC就試驗受試者和尚待招募的受試者的安全性向發起人提供建議，以及評估該試驗的持續有效性和科學價值。」 [0036] 在極幸運的情況下，實驗組無疑顯示出優於控制組的結果，DMC可能建議終止試驗。這將使發起人可以提早得到FDA的批准，並更早的對患者群體進行治療。然而，這種情況下，統計證據必須非常強大，但是，也可能還有其他原因需繼續進行研究，例如需收集更多的長期安全性數據。 DMC在向發起人提供建議時會考慮所有的相關因素。 [0037] 若不幸的，研究數據顯示該試驗藥物無效，DMC可能建議終止試驗。舉例來說，如果項目試驗僅完成了一半，而實驗組和對照組的結果幾乎相同，則DMC可能建議停止研究。在此種統計證據下，如果試驗繼續按計劃完成，極可能無法獲得FDA對該藥的批准。發起人可以放棄該試驗為其他項目節省資金，並且可以為當前和潛在的試驗對象提供其他治療方法，且將來的受試者將不用進行不必要的試驗。 [0038] 儘管利用期中數據的藥物研究具有其優點，但也有缺點。首先，存在固有的風險，即研究數據可能被洩漏或流出。儘管無法得知是否由DMC成員洩露或利用這種機密信息，但有人懷疑ISG的組成人員或為ISG工作的人不當使用此類信息。其次，期中分析需要暫時停止研究並使用寶貴的時間進行後續的分析。通常，ISG可能需要3到6個月的時間來執行其數據分析並準備DMC的期中結果。此外，期中數據分析只是個臨時的“快照”視圖，在各個相應的過渡點（tn）進行的統計分析，是無法對正在進行中的數據進行趨勢分析的。 [0039] 參照圖3，鑑於試驗I的期中信息時間點t1和t2的數據結果，DMC可能會建議試驗I的藥物繼續研究。該結論由藥物有效性評分的持續增加所支持，因此繼續進行研究可增加有效性的評分並達到統計學意義p >0.05。對於試驗II，DMC可能也可能不會建議繼續進行，儘管藥物的有效性持續下降，但還沒有越過失敗的界限，但由此可推測出試驗II最終（並且很可能）是無效的；除非試驗II的藥物安全性極差，DMC可能會建議繼續藥物研究。 [0040] 總而言之，儘管GS設計利用預定的數據分析時間點來分析和審查，但是它仍然存在各種缺點。其中包括1）研究數據流向第三方（即ISG），2）GS設計僅能在過渡時間點提供數據的“快照”，3）GS設計無法確定試驗的具體趨勢， 4）GS設計無法從研究數據中“學習”以調整研究參數和優化試驗， 5）每個期中分析時間點需要3到6個月來進行數據分析和準備結果。 [0041] 自適應群組序列（“ AGS”）是GS設計的改良版，通過這種方法設計試驗，其分析了臨時數據，並將其用於優化（調整）某些試驗參數，例如重新估計樣本量，且該設計試驗可以屬於任一階段，從任意數量開始。換句話說，AGS設計可以從期中數據中“學習”，從而調整（適應）原始試驗設計並優化研究目標。參見例如2018年9月FDA指南（草案指南），《藥物和生物製劑臨床試驗的適應性設計》，www.fda.gov / downloads / Drugs / Guidances / UCM201790.pdf。與GS設計一樣，AGS設計的臨時數據分析點，亦需要DMC的審查和監測，因此同樣需要3到6個月的時間進行統計分析和結果的彙編。 [0042] 圖4描繪了AGS試驗設計，再次使用假設的藥物研究試驗I和試驗II。在預定的期中時間點t1，與圖3的GS試驗設計相同的方式來編譯和分析每個試驗數據，然而，在統計分析和審查後，可以調整研究的各種研究參數，即，使其適應優化，從而重新計算了上邊界S和下邊界F。 [0043] 參照圖4，數據進行了編譯和分析並用於調整此研究的適應性，即“學習與適應”，例如，重新計算樣本數（大小），並因此調整終止界線。作為這樣優化的結果，研究樣本大小將被修改，界線將被重新計算。在圖4的期中分析時間點t1進行數據分析，並基於此分析來調整（增加）研究樣本的大小，從而重新計算了停止界線、S線（成功）和F線（失敗），S1和F1的初始邊界不再使用，而是使用由期中分析時間點t1得出並調整之停止界線S2和F2。圖4在預定的期中分析時間點t2，再次編輯和分析研究數據，並再次調整各種研究參數（即，使其適於研究優化），作為這種修改的結果，重新計算了停止界線S（成功）和F（失敗）。重新計算的上邊界S現標為S3，重新計算的下邊界F現標為F3。 [0044] 雖然圖4的AGS設計對圖3的GS設計進行改良，但仍然存在某些不足。首先，AGS的設計仍然需要DMC審查，故而需要在預定的時間點停止研究（儘管是暫時的），並且需要解盲後提交給第三方進行統計分析，從而存對數據完整性的風險。另外，AGS設計不執行數據模擬來驗證期中結果的有效性和可信度。與GS設計一樣，AGS設計期中數據分析、查看結果並提出適當的建議仍需要3到6個月才能完成。與圖3的GS設計一樣，在兩次期中分析時間點之分析，DMC可能會建議繼續進行試驗I和試驗II，因為兩者都在（可能經過調整的）停止範圍之內；或者，DMC由數據分析中發現了試驗II可能缺乏功效而建議暫停。如果試驗II研究的藥物也顯示出不良安全性，那麼試驗II將被建議停止。 [0045] 綜上所述，儘管AGS設計在GS設計的基礎上進行了改進，但它仍具有各種缺點。其中包括1）中斷研究並解盲數據以提供給第三方，即ISG； 2）AGS設計仍僅在期中分析點提供數據“快照”； 3）AGS設計無法識別試驗數據累積的具體趨勢； 4）每一期中分析點需要3到6個月的時間進行數據分析和準備數據結果。 [0046] 如上，圖3和圖4（GS和AGS）僅能在一個或多個預定的期中分析時間點呈現數據的“快照”給DMC。即使經過統計分析，此類快照視圖也可能誤導DMC並干擾有關當前研究的最佳建議。然而，可期望的是，在本發明的實施例中，提供的是對試驗進行的連續數據監測方法，由此對研究數據（功效和/或安全性）進行實時分析並實時記錄以供後續審查。如此，在經過適當的統計分析後，將為DMC提供實時的結果和研究趨勢（如所積累的數據），從而能夠提出更好的建議，這對試驗更有益。 [0047] 圖5描繪了一連續監測的設計，隨著受試者數據而累積，沿著T信息時間軸記錄或繪製試驗I和試驗II的研究數據。每個研究數據圖都針對當時累積的所有數據進行全面的統計分析。因此，統計分析並不會像在圖3和4的GS和AGS設計中那樣等待中間的期中分析時間點tn，或如圖2中須試驗完成方可進行數據分析；相反，隨著研究數據的累積，統計分析是實時進行的，並且沿信息時間軸T實時記錄了功效和/或安全性的數據結果。在預定的期中分析時間點，給DMC顯示整體的數據記錄，如圖 5-7。 [0048] 如圖5所示，試驗I和試驗II的研究數據實時匯總並進行統計分析，然後沿信息時間軸T記錄受試者試驗數據至試驗終點。在期中分析時間點t1，此二試驗記錄研究數據將顯示給DMC並進行審查。基於研究數據的當前狀態，包括累積研究數據的趨勢，或對於邊界和/或其他研究參數的自適應重新計算，DMC能夠針對此二試驗研究提出更準確且最佳的建議。如圖5中的試驗I，DMC可能會建議繼續研究該藥物。至於試驗II，DMC可能會發現功效低下或缺乏功效趨勢，但可能會等到下一個期中分析時間點再作進一步考慮。此外，DMC還可以基於審查的研究數據建議例如增加了樣本量，並且根據樣新本量重新修改計算終止界線。 [0049] 圖6中試驗I和試驗II都持續到期中分析時間點t2。在封閉的環境中實時地統計所累積的研究數據，並且以與圖5相同方式的對其進行記錄。在期中分析時間點t2，試驗I和試驗II 所累積的研究數據進行統計分析並呈交DMC審查。在圖6中，DMC可能會建議繼續試驗I，可能會或不會調整樣本大小（因此可能會也可能不會重新計算界線S）；而試驗II，在圖6中的期中分析時間點t2，DMC可能會發現它有令人信服的證據，包括累積數據確定的趨勢，並建議終止試驗；若藥物安全性較差，則尤其如此；然而，DMC仍可能會建議繼續進行試驗II，因其圖中顯示，所累積的數據分析結果仍在停止界線內。 [0050] 如圖7，若不對試驗I和試驗 II進行連續監測，則DMC可能會建議繼續進行這兩試驗，因為它們都在兩個終止界線（S和F）之內，雖然，DMC可能會建議終止試驗II；故而，任何這樣的建議都取決於DMC審查時的特定的數據統計分析方法，而本方法，在過程中，系統在閉環環境中使用，並對其所累積的數據進行實時統計分析，能夠更加準確。 [0051] 出於倫理、科學或經濟方面的原因，大多數長期臨床試驗，尤其是那些病情嚴重的研究終點的慢性疾病，都應定期進行監測，以便在有令人信服的證據支持或反對無效試驗時終止或修改試驗假設。傳統的群組序列設計（GSD）在固定的時間點並按預定的測試次數進行測試（Pocock，1997; O'Brien和Fleming，1979; Tsiatis，1982），通過alpha花費函數方法得到了極大的增強（Lan和DeMets，1983； Lan和Wittes，1988； Lan和DeMets，1989），且具有靈活的測試時間表和試驗監測期間進行的期中分析次數。 Lan，Rosenberger和Lachin（1993）進一步提出“在臨床試驗中臨時的或連續的監測數據”，基於連續的布朗運動過程提高GSD的靈活性。但是，由於現實原因，過去在實踐中僅能執行臨時的監測。進行數據收集、檢索、管理，最終呈現給數據監視委員會（DMC）都是阻礙實踐連續型的數據監測的因素。 [0052] 當虛無假設為真時，上述GSD或連續監測方法對於通過適當控制的I型錯誤率來做出研究早期的決策非常有用。其最大量的信息在試驗計劃書中已預先固定。 [0053] 臨床試驗設計中的另一個主要考慮因素是當虛無假設不成立時，需預估提供統計檢定力所需的足夠信息量。對於此任務，GSD和固定樣本的設計均依靠較早的試驗數據估計所需的（最大）信息量。挑戰在於，由於患者人群、醫療程序或其他試驗條件可能不同，這種來自外部的估計可能並不可靠。因此，一般而言，先期預估的信息或特定的樣本大小可能無法提供所需的統計檢定力。相比之下，在90年代初期通過利用當前試驗本身的期中數據開發的樣本量重新估算（SSR）程序，通過增加方案中最初指定的最大信息量來確保統計檢定力（Wittes和Britan，1990； Shih，1992； Gould and Shih，1992； Herson and Wittes，1993）；參見Shih（2001）對GSD和SSR的評論。 [0054] 此二種GSD和SSR後來結合在一起，形成了過去二十年來許多人所謂的自適應GSD（AGSD），包括Bauer和Kohne（1994），Proschan和Hunsberger（1995），Cui ，Hung和Wang（1999），Li等（2002），Chen，DeMets和Lan（2004），Posch等（2005），Gao，Ware和Mehta（2008），Mehta等（2009），Mehta和Gao（2011），Gao，Liu和Mehta（2013），Gao，Liu和Mehta（2014）等。有關最新評論，詳見Shih，Li和Wang（2016）。AGSD對GSD進行了改進，使其具有使用SSR擴展最大信息的能力，並可能提早終止試驗。

[0055] 對於SSR，仍然存在一個關鍵問題，即當前的試驗數據何時足夠可靠，來執行有意義的重新估計。過去，由於沒有有效的連續的數據監測工具可用於分析數據的趨勢，因此一般建議將期中分析時間點作為準則，但是，期中分析時間點只是數據快照，並不能真正保證SSR的數據是足夠的，可以通過連續監測數據來克服此點。 [0056] 隨著當今的計算技術和硬體的計算能力極大提高，對於實時的快速數據傳輸運算已不再是問題。利用SSR對累積的數據進行連續監測並根據數據進行計算，將充分發揮AGSD的潛力。在本發明中，該新過程被稱為動態自適應設計（DAD）。 [0057] 在本發明中，基於連續布朗運動過程，將Lan，Rosenberger和Lachin（1993）中開發的連續數據監測程序擴展到DAD，並使用數據指導的分析來對SSR進行計時。在試驗計劃書中 DAD可以作為一種靈活的設計方法，當DAD在正在進行的試驗中實施時，它可以用作有用的監測和導航工具，此稱為動態數據監測系統（DDM）。在本發明中，DAD和DDM的術語可以一起或互換使用。在一個實施例中，I型錯誤率總是受到保護，因為連續監測和AGS都保護I型錯誤率。通過模擬，DAD/DDM可以就無效性或早期效力終止做出正確的決定，或認為試驗有望隨著樣本量的增加而到達有效性，從而大大提高了試驗的效率。在一個實施例中，本發明提供了用於治療效果的中位數不偏的點估計和精確的雙向置信區間。 [0058] 關於統計問題，本發明提供了一種解決方案，該解決方案涉及以下方面：如何檢查數據趨勢並確定是否該進行正式的臨時分析、如何保護I型錯誤率並得到效率，以及如何在試驗結束後建立治療效果的置信區間。 [0059] 本發明公開了對進行中的新藥隨機臨床試驗的動態數據監測的封閉系統、方法和過程，使得在不使用人為解盲的情況下來研究數據、連續而完整地跟蹤統計參數，例如，自動計算出治療效果、安全性、置信區間和條件檢定力，並可以在信息時間軸上的所有點上進行查看，即隨著試驗人群累積所得到的所有數據進行查看。

[0083] 藥品臨床試驗計劃書通常須包含藥物劑量、測量終點、統計檢定力、計劃期程、顯著水準、樣本數估計、實驗組及控制組所需之樣本數等，且彼此間具有關聯性。例如，以提供所需的統計顯著性水平，所需的受試者（測試組，因此接受藥物）人數在很大程度上取決於藥物治療的功效。如研究藥品本身具有高度功效，即認為該藥物將獲得較高的功效評分並預計達到統計學顯著水平，即在研究初期p >0.05，則相比於有益但是效果要低一些的治療，所需患者明顯要少。然而，在初期研究設計上，欲研究藥品之真實效果是未知的，因此，可藉由先驅計劃、文獻回顧、實驗室數據、動物實驗數據等進行參數估計並寫入試驗計劃書中。 [0084] 在研究的執行上，依照實驗設計將受試者隨機分派至實驗組及對照組，而隨機分派的過程可藉由IWRS (Interactive Web Response System, 網絡交互響應系統) 完成。IWRS是一提供隨機編號或是生成隨機序列列表之軟體，其所包含之變數有受試者身份標示、分派組別、隨機分派之日期、分層因子(如性別、年齡分組、疾病期程等)。這些資料將存放於資料庫中，並針對該資料庫進行加密或是設置防火牆等，使受試者及試驗執行人員無從得知受試者的分派組別，如受試者是否接受藥物治療或是被給予安慰劑、替代治療等，從而達到盲性之目的。(舉例來說，為確保盲性之落實，欲試驗藥品及安慰劑可能會採相同包裝，並以加密條碼做區別，只有IWRS能指派給予受試者該組藥物，如此臨床實驗人員與受試者皆無法得知受試者所屬組別為何。) [0085] 隨著研究的進行，將定期評估治療對於受試者所產生的影響，該評估可由臨床人員或是研究人員親自進行，也可透過合適的監測裝置進行 (如穿戴監測裝置或是居家監測裝置等)。然而，透過評估資料，臨床人員及研究人員可能無法得知受試者所屬組別，亦即評估資料不會呈現分組狀態。可以使用適當配置的硬體和軟體（例如Window或Linux操作系統的伺服器）收集此盲性評估數據，這些伺服器可以採用電子數據捕獲（“ EDC”）系統的形式並可以存儲在安全數據庫中。 EDC數據或數據庫同樣可以通過例如適當的密碼和/或防火牆來保護，以使數據對研究對象，包括受試者、研究者、臨床醫生和發起人保持盲性和不可用。 [0086] 在一個實施例中，用於隨機分派治療的IWRS、用於資料庫評估的EDC以及DDM（Dynamic Data Monitoring Engine，動態數據監測引擎，一統計分析引擎）可以安全地相互鏈接在一起。舉例來說，將資料庫及DDM放置於單一伺服器，該伺服器本身即受到保護並與外部存取隔離，進而形成一封閉迴路系統，或是透過具安全性且加密的數據網路，將安全的資料庫及安全的DDM鏈接在一起。在適當的編程配置下DDM 能從EDC獲取評估紀錄，並從IWRS獲得隨機分派結果，用以進行盲性下試驗藥物的成效評估，如計分檢定、Wald檢定、95%信賴區間、條件檢定力以及各項統計分析等。 [0087] 隨著臨床試驗進行，即隨著新增的受試者達到試驗終點和研究資料完成累積，由EDC、IWRS及DDM互相鏈接所構成的封閉系統可持續且動態地監測內部解盲資料 (詳細解說請參閱圖17) ，其監測的內容可能涵蓋藥物療效的點估計及其95%信賴區間、條件檢定力等。可透過DDM對於已收集的數據進行以下事項：重新估計所需之樣本數、預測未來趨勢、修改研究分析策略、確認最佳劑量，以利研究發起人評估是否繼續進行試驗，並估算試驗藥物的有效反應之子集合，以利後續招募受試者及模擬研究以估計成功概率等。 [0088] 理想情況下，由DDM所產出的分析結果及統計模擬即時地提供給DMC或研究發起人，並依照DMC所提出之建議，即早對於研究進行調整並執行。舉例來說，如該試驗主要目的是在評估三種不同劑量相較於安慰劑之療效，根據DDM的分析，在試驗初期如發現某一藥物劑量功效顯著優於其他劑量，達統計學上顯著意義，即可提供給DCM，並以最有效劑量進行後續研究，如此一來，後續更進一步的研究可能僅須納入一半人數的受試者，此將大幅減低研究成本。再者，就道德倫理層面來說，比起讓受試者接受合理但療效不佳之劑量，以更具療效之劑量繼續試驗治療，是更好的選擇。 [0089] 根據當前的規定，可在期中分析前將此類前導式評估結果提報給DMC；如前所述，當ISG取得完整且解盲的數據資料後將進行分析，再將結果呈報給DMC，DMC將依其分析結果，對於試驗是否繼續及如何繼續等問題給予研究發起人建議，而在某些情況下，DCM亦提供指導試驗相關參數的重新估計，如樣本數的重新計算、顯著界線的調整。 [0090] 當前執行上不足的地方包括但不限於， (1) 資料解盲必然有人為參與的情況 (如ISG)、(2) 數據資料的準備並送至ISG進行期中分析須耗時約3~6個月、(3)DMC須在審查會議前約2個月，對ISG所提交的期中分析進行審查 (因此，DMC審查會議上所呈現的研究資料已是5~8月前的舊資料)。 [0091] 而前述之不足之處可在本發明中得到解決，本發明的優勢如下：(1)本發明之封閉系統不須有人為介入(如ISG)來解盲；(2)預定義分析允許DMC或研究發起人能實時且持續地審閱分析結果；(3)有別於傳統的DMC執行方式，本發明允許DMC隨時進行追蹤並監測，使安全性及療效的監測更加完整；(4)本發明可自動執行樣本數的重新估算、更新試驗停止邊界、預測試驗的成敗。 [0092] 因此，本發明成功地達到期望中的效益及目的。 [0093] 在一個實施例中，對於動態監測下的盲性試驗，本發明提供了一封閉系統及方法，對於還在執行中的試驗無須由人為的介入（如DMC、ISG）解盲來進行資料分析。 [0094] 在一個實施例中，本發明則提供了計分檢定、Wald檢定、點估計及其95％信賴區間，和條件檢定力等功能（即從開始研究到獲得最新研究數據）。 [0095] 在一個實施例中，本發明亦允許DMC和研究發起人隨時審查正在執行中之試驗的關鍵資料(安全性及功效評分)，因此，無須透過ISG，可避免冗長的準備過程。 [0096] 在一個實施例中，本發明結合了機器學習及AI技術，可利用觀察到的累積數據做出抉擇，進而優化臨床研究，使試驗成功機率最大化。 [0097] 在一個實施例中，本發明能儘早評估試驗的無效性，以避免受試者承受不必要的痛苦以及減少研究成本的浪費。 [0098] 相較於GSD及AGSD，本發明中所描述、揭示的動態監測程序(如DAD/DDM)更具優勢。為求更清楚說明此情況，以下將以GPS系統作為譬喻進行解說。GPS導航裝置通常用於提供駕駛人員目的地的路徑引導，而GPS一般分為汽車導航及手機導航兩種。一般而言，汽車導航並未連接網際網路，故無法提供即時路況資料，駕駛可能因此遇到交通壅塞的困境，而手機導航因連接網際網路則可根據即時交通路況提供最快速的行車路線。簡而言之，汽車導航只能提供固定且不靈活的預定路線，而手機導航則能使用最新的訊息進行動態導航。 [0099] 對於期中分析資料擷取的時間點選擇上，如使用傳統的GSD或AGSD並無法確保分析結果的穩定性，如選擇的時間點過早，可能會導致不合適的試驗調整決策；如選擇時間點過晚，則將錯失及時調整試驗的機會。然而，本發明中的DAD/DDM在每一位受試者進入試驗後，即提供實時的連續監測功能，就如同手機導航功能，藉由即時資料的導入持續地導正試驗方向。 [0100] 本發明在統計問題上提供了解決方法，如對於如何檢查數據趨勢、是否該進行正式的期中分析、如何確保I型誤差的控制、潛在的功效評估，以及如何在試驗結束後建置功效的信賴區間。 [0101] 本發明的實施例將更詳盡的展現於附圖中，附圖中的說明將以相同的方式進行標示，這些實施例操作將用於本發明之闡釋，但並不限於此。相關技術人員在閱讀本說明書及附圖後，在不違悖本發明精神之情況下，可對其適當地進行各種修改與操作的變化。 [0102] 本發明的各項實施例操作之說明及圖示僅能代表本發明部分功能，並不涵蓋整體範圍。儘管如此，在不違悖本發明之精神及範疇之下，不論是單一或是組合形式的實施例說明或圖示，皆可進行細節上的修改及合併。舉例來說，對於建構所使用之材料、方法、特定方位、型狀、效用及應用上並無特定限制，在秉持本發明之精神及範疇下皆可進行替換，本發明對於實施例更加注重特定細節，並無意於任何形式的限制。 [0103] 然而，為求達到說明之目的，附圖中的圖像將以簡化的形式呈現，且不一定依照比例進行描繪。另外，在情況允許之下，除了在區分各項元素時給予適當的標示之外，對於圖示中相同元素儘量使用相同標示，以利圖示之理解。 [0104] 本發明所公開的實施例僅是針對本發明之原理與應用進行闡述(特定說明、範例示範以及方法學等)，在不違悖本發明之精神與範疇下，可對其進行修改及設計，甚至是將其步驟或是特色與其他實施例進行合併運用。 [0105] 圖17為本發明實施例主要架構之流程示意圖。 [0106] 步驟1701，“定義研究計劃書（研究發起人）”，發起人如製藥公司(不限於此)，欲了解新藥在某醫療情況下是否具有功效，將對此新藥設計進行臨床試驗研究，這類研究多半採取隨機分派臨床試驗 ( Random Clinical Trial, RCT)之設計，如前所述，此研究設計採取雙盲形式，在理想的狀況下，試驗之研究者、臨床醫師及照護人員對於藥物之分派結果皆處於未知的狀態。然而，有些時候基於安全進行慮，如外科手術的介入治療，使得研究本身的條件限制而無法達到理想的雙盲狀態。 [0107] 研究計劃書應詳盡說明研究內容，除定義研究目的、原理及重要性外，還可以包含受試者納入標準、基準資料、治療進行方式、資料收集方法、試驗終點及結果 (亦即已完成試驗之個案功效)等。而為求最小化研究成本及降低受試者暴露於試驗中，試驗欲求以最少的受試者人數進行研究，同時尋求試驗結果具統計學上的意義，因此，樣本數估計對於試驗是必要的一環，樣本數估計理應納入研究計劃書中。另外，由於同時尋求最少樣本數及統計上之顯著結果，試驗設計可能須重度仰賴複雜但已被證實效用的統計分析方法，因此，為求分析結果不受其他因子干擾，呈現其該有的臨床意義，在評估單一介入因子時通常會設置嚴謹的控制條件。 [0108] 然而，相對於安慰劑、標準治療及替代療法等對照組，欲於統計上求得顯著意義(如具有優勢、劣勢)，試驗所需樣本數大小取決於某些參數，而這類參數將定義於試驗計劃書中。舉例來說，試驗所需之樣本數通常與介入效果、藥物治療成效成反比，但是在研究初期其介入效果通常是未知的，可能只能根據實驗室資料、動物實驗等獲得近似值，而隨著試驗的進行，介入所造成的影響能獲得更適當的定義，並對試驗計劃書進行適當的修改。而計劃書中被定義之參數可能包含條件檢定力、顯著標準(通常設定為>0.05) 、統計檢定力、母體變異數、退出試驗比率、不良事件發生率等。 [0109] 步驟1702，“受試者之隨機分派(IWRS)”，符合納入試驗研究之受試者可藉由IWRS生成的隨機編號或隨機序列表進行隨機分派，在受試者完成隨機分派後， IWRS亦將分配與該組別相對應之藥物標籤序列，用以確保受試者接收到正確的分配藥物。隨機化的過程通常在特定的研究地點（如診所或醫院）進行，而IWRS能夠使受試者在診所、醫生辦公室或通過移動設備在家中進行註冊。 [0110] 步驟1703，“存儲分配”，IWRS可以儲存相關的資料包含(不僅限於)：受試者身分標示、治療組別(候選藥、安慰劑)、分層因子以及受試者之描述性資料等。這些資料將受到加密保護，受試者、調查人員、臨床護理人員以及研究發起人等皆無法取得與受試者身份有關的資料。 [0111] 步驟1704，“受試者之治療與評估” ，在受試者完成隨機分派後，根據受試者所屬組別給予試驗藥物、或安慰劑或替代治療等，受試者需依照訪視計劃定期回訪進行評估，訪視次數及頻率應明確定義於計劃書中，依據計劃書要求評估的內容可能包含生命徵象、實驗室檢驗、安全性及功效評估等。 [0112] 步驟1705， “數據管理收集系統（EDC）” ，研究人員或臨床醫護人員可根據計劃書中所規定之指南對受試者進行評估，並將評估資料輸入EDC系統中，而評估資料的收集亦可藉由行動裝置獲得(如穿戴監測裝置) 。 [0113] 步驟1706，“儲存裝置評估”，由EDC系統所收集之評估資料可存儲於評估資料庫，該EDC系統則必須符合聯邦法規，例如聯邦法規的21篇第11節關於臨床試驗受試者及其資料之規範。 [0114] 步驟1707，“解盲資料之分析（DDM）”，DDM可與EDC、IWRS相互鏈接構成一封閉系統。而DDM可檢視盲性資料庫及盲性下之評估資料庫，並在信息收集期間計算功效及其95％信賴區間、條件檢定力等，並將結果顯示於DDM 儀版上。另外，在研究執行期間，DDM還可以利用解盲資料進行趨勢分析與模擬。 [0115] 在DDM系統中擁有類似於R程式語言之統計模組編程，使DDM可執行類似自動更新資訊並進行實時運算，計算出試驗當前功效、其信賴區間、條件檢定力等參數，而這類參數在信息時間軸上任一時間點皆可獲得。DDM將保留連續且完整的參數估計過程。 [0116] 步驟1708，“機器學習與人工智能（DDM-AI）”，此步驟為DDM進一步利用機器學習和人工智能技術優化試驗，最大化試驗成功率，詳請參看[0088]。 [0117] 步驟1709，“DDM 介面儀版”，DDM 儀版是一EDC用戶介面，其可提供DMC、研究發起人或是具權限之相關人員查閱試驗動態監測結果。 [0118] 步驟1710，DMC可隨時查看動態監測結果，如存有任何安全疑慮或試驗趨近功效界線的情況下，DMC可要求召開正式的審查會議。DMC可提出關於試驗是否繼續進行的相關建議，而DMC做出的任何建議都將與研究發起人進行討論；在相關規定下，研究發起人亦有權審閱動態監測結果。 [0119] 圖18為本發明中DDM之實施例圖示。 [0120] 如圖所示，本發明將多個子系統整合為一封閉迴路系統，其分析過程無須有任何人為的介入，資料無需進行解盲，不論任何時候，新的試驗數據會不斷累積。同時，此系統將自動且連續地計算出試驗功效、信賴區間、條件檢定力、停止邊界值、再估算所需樣本量並預測試驗之趨勢。而對於病患治療與健康照護部分，此系統亦與真實世界數據（real-world data; RWD）及真實世界證據 (Real-world evidence; RWE) 連接，由此提供治療方案選擇、人群的選擇及病情預判因子的識別等。 [0121] 在一些實施例中，EDC系統、IWRS及DDM將整合成一單一封閉迴路系統。在一個實施例中，這種至關重要的整合確保使用治療分配計算治療功效(如實驗組與對照組間之平均數差異) 可保存於系統內。其對於不同類型之試驗終點的計分功能可構建於EDC系統或DDM引擎中。 [0122] 圖9為DDM系統之原理與工作流程之示意圖，第一部分：資料抓取；第二部分：DDM規劃和配置；第三部分：推導；第四部分：參數估計；第五部分：調整及修改；第六部分：數據監測；第七部分：DMC審查；第八部分：給予研究發起人建議。 [0123] 如圖9所示，DDM運行方式如下： § 在EDC系統或DDM中，在任何時間點t（指試驗期間的信息時間）皆可獲得功效估計值z(t)。 § 藉由時間點t之功效估計值z(t)進行條件檢定力的估算。 § DDM可利用觀察到的功效估計值z(t)進行N次 (如N>1000) 模擬，以預測後續試驗的趨勢走向。舉例來說，觀察試驗中初期之100位病患所得之功效估計值z(t)及趨勢，可利用其建立之統計模型推估1000多位病患之未來趨勢。 § 此過程可以在試驗進行中動態執行。 § 此方法可用於多種目的，如試驗人群的選擇、預後因子的判別等。 [0124] 圖10為圖9中第一部分之實施例圖示。 [0125] 圖10說明了如何將病患數據資料導入EDC系統。EDC的數據來源包括但不限於，如現場調查資料、醫院電子病歷紀錄(Electronic Medical Records ；EMR)、穿戴裝置等，可將數據資料直接傳輸至EDC系統。而真實世界數據資料，如政府數據資料、保險理賠資料、社交媒體或其他相關資料等，皆可由EDC系統相互連接來獲取。 [0126] 參與研究的受試者可以被隨機分配至治療組。基於雙盲及臨床隨機分派試驗設計，試驗執行過程中，不應向試驗相關的任何人員透露受試者所屬組別，IWRS將確保分派結果之獨立性及安全性。在DMC常規監測中，DMC僅能得到預定義之時間點資料，其後ISG通常需要大約3-6個月的時間來進行期中結果分析。這種需要大量人力參與之方法可能導致非本意的”解盲”等潛在風險產生，此為目前DMC監測的主要缺點。與目前DMC監測模式相比，如前述本發明對進行中的試驗提供了更好的資料分析模式。 [0127] 圖11為圖9中第二部分之實施例圖示。 [0128] 如圖11所示，使用者（如研究發起人）需規範其試驗終點，試驗終點通常是一可定義及可量測之結果。在實際應用上，可同時指定多個試驗終點，如一個或多個功效評估之主要試驗終點、一個或多個試驗安全終點或其任意組合等。 [0129] 在一個實施例中，在選擇欲監測之試驗終點時，可以指定端點的類型，即是否使用特定類型的統計數據，包括但不限於於正態分佈、二進制事件、事件發生時間、泊松分佈或它們的任意組合。 [0130] 在一個實施例中，亦可以指定試驗終點的來源，如試驗終點該如何量測、由何人進行、如何確認已達試驗終點等。 [0131] 在一個實施例中，透過參數的設定，亦可以定義DDM的統計目標，如統計顯著水準、統計檢定力、監測的模式(連續型監測、頻率型監測)等。 [0132] 在一個實施例中，在信息期間或是病患累積到一定百分比時，一次或多次的期中分析可能決定試驗是否被停止，而試驗被停止時資料可呈現解盲狀態並進行分析。用戶還可以指定要使用的停止界線的類型，例如基於Pocock類型分析的邊界、基於O'Brien-Fleming類型分析的邊界，或基於alpha花費函數或其他的某種組合。 [0133] 使用者也可指定動態監測之模式，所要採取的行動如執行模擬、調整樣本數、執行無縫設計第二/三期臨床試驗、選擇多重比較下的劑量、選擇及調整試驗終點、挑選受試族群、比較安全性、評估無效性等。 [0134] 圖12為圖9中第三、第四部份之實施例操作示意圖。 [0135] 在這些部分 (圖9第三第四部份) ，可以對於研究中之治療終點數據進行分析，如無法直接從資料庫中獲得監測終點，系統將要求使用者利用現有之數據資料 (如血壓、實驗室檢驗數值等) ，於封閉迴路系統中編寫程式建立一個或多個公式，以獲得終點數據相關資料。 [0136] 一旦得出終點數據資料，系統便可以利用此資料自動計算各項統計數值，如在信息時間點t的估計值及其95%信賴區間、取決於患者累積的條件檢定力，或其某種組合等。 [0137] 圖13為圖9中第六部分，其顯示預定之監測模式可於此部分執行。 [0138] 如圖13所示，DDM可以執行一種或多種預定的監測模式，且將其結果顯示在DDM監測顯示器上或是或視頻螢幕上。其任務包括執行模擬、調整樣本數、執行無縫設計第二/三期臨床試驗、選擇多重比較下之劑量、選擇及調整試驗終點、挑選受試族群、比較安全性、評估無效性等。 [0139] 在DDM中這些結果可能是以圖形或表格的形式輸出。 [0140] 圖14及圖15為具前景之試驗DDM分析結果輸出範例圖。 [0141] 在圖14及圖15中所顯示的項目包含功效評估、95%信賴區間、條件檢定力、基於O'Brien-Fleming分析所得之試驗停止邊界值等。由圖14及圖15可看出，在個案人數累積至總人數75%時，其良好的功效在統計上已獲得驗證，故試驗可提早結束。 [0142] 圖16呈現DDM試驗調整設計之統計分析結果。 [0143] 如圖16所示，自適應群組序列設計初始樣本量為每組100名受試者，並預計於在30％和75％的患者累積點上解盲並進行期中分析。如圖所示，在累積人數達到75%時(解盲)，樣本數進行重新估計至每組227人，另外兩次的期中分析則預計於累積人數達120及180人時進行。而當累積至180位受試者的終點數據資料時，該試驗已跨過了重新計算的停止邊界值，顯示其候選療法具有功效。若此試驗僅以未調整之最初設定的每組100人進行試驗，結果可能相去甚遠，且其最初設定之結果可能無法達到統計學上的顯著意義。因此，未經調整的試驗可能呈現失敗的結果，然而在系統連續監測並調整樣本數量後，使得試驗得到成功。 [0144] 在一個實施例中，本發明提供了個動態監測和評估進行中的與一種疾病相關的臨床試驗的方法，該方法包括： (1) 由數據收集系統實時收集臨床試驗的盲性數據， (2) 由與所述數據收集系統協同操作的一個解盲系統自動將所述盲性數據解盲， (3) 依據所述解盲數據，通過一個引擎連續計算統計量、臨界值以及成敗界線， (4) 輸出其一項評估估計結果，該結果表明如下情形之一： § 所述臨床試驗具有良好的前景，和 § 所述臨床試驗不具效益，應終止，所述統計量包括但不限於計分檢定、點估計值及其95%信賴區間、Wald檢定、條件檢定力(CP(θ,N,Cµ)、最大趨勢比(maximum trend ratio; mTR)、樣本數比(sample size ratio; SSR)及平均趨勢比中的一項或多項。 [0145] 在一個實施例中，當滿足以下一項或是多項條件時，該臨床試驗前景將被看好： (1) 最大趨勢比率落於0.2~0.4之間， (2) 平均趨勢比率不低於0.2， (3) 計分統計數值呈現不斷上升之趨勢，又或者於信息時間的期間保持正數， (4) 計分統計對於信息時間作圖的斜率為正，和 (5) 新樣本數不超過原計劃樣本數的3倍， [0146] 在一個實施例中，當符合以下一項或是多項條件時，該臨床試驗不具效益： (1) 最大趨勢比小於-0.3，且點估計值為負值， (2) 觀察到的點估計值呈現負值的數量超過90， (3) 計分統計數值呈現不斷下降之趨勢，又或者於信息時間的期間保持負數， (4) 計分統計對於信息時間作圖的斜率為0或是趨近於0，且只有極小的機會跨越成功之邊界，和 (5) 新樣本數超過原計劃樣本數的3倍。 [0147] 在一個實施例中，當該臨床試驗前景被看好的時候，該方法進而評估所述臨床試驗，並輸出一項額外結果，該額外結果表明是否需要樣本數調整。樣本數比值如穩定地落於0.6-1.2區間，則樣本數不需進行調整；反之落於此區間外則需樣本數調整，且新的樣本數通過滿足以下條件來計算，其中為期望的條件檢定力：, 或 [0148] 在一個實施例中，所述方法中的數據收集系統是一個電子數據收集（EDC）系統。在另一實例中，所述方法中的數據收集系統則是一個網絡交互響應系統（IWRS）。又另一實例中，所述方法中的引擎為一個動態數據監測（DDM）。一實例中，所述方法中的期望的條件檢定力至少為90％。 [0149] 在一實際應用中，本發明提供了一種動態監測和評估進行中的與一種疾病相關的臨床試驗的系統，該系統包括： (1) 一個由數據收集系統，所述系統實時的從所述該臨床試驗中收集盲性數據， (2) 一個解盲系統，所述解盲系統與所述數據收集系統協作，自動將所述盲性數據解盲， (3) 一個引擎，所述引擎依據所述解盲資料，連續計算統計量、閾值以及成敗界線 (4) 一個輸出模組或介面，所述輸出模塊或介面輸出一項評估結果，該結果表明如下情形之一 § 此臨床試驗具有良好的前景，和 § 此臨床試驗不具效益，應終止，其統計量包括但不限於計分檢定、點估計值及其95%信賴區間、Wald檢定、條件檢定力(CP(θ,N,Cµ)、最大趨勢比(maximum trend ratio; mTR)、樣本數值比(sample size ratio; SSR)及平均趨勢比中的一項或多項。 [0150] 在一個實施例中，當滿足以下一項或是多項條件時，該臨床試驗前景將被看好： (1) 最大趨勢比率落於0.2~0.4之間， (2) 平均趨勢比率不低於0.2， (3) 計分統計數值呈現不斷上升之趨勢，又或者於信息時間的期間保持正數， (4) 計分統計對於信息時間作圖的斜率為正，和 (5) 新樣本數不超過原計劃樣本數的3倍。 [0151] 在一個實施例中，當符合以下一項或是多項條件時，該臨床試驗不具效益： (1) 最大趨勢比小於-0.3且點估計值為負值， (2) 觀察到的點估計值呈現負值的數量超過90， (3) 計分統計數值呈現不斷下降之趨勢，又或者於信息時間的期間保持負數， (4) 計分統計對於信息時間作圖的斜率為0或是趨近於0，且只有極小的機會跨越成功之邊界， (5) 新樣本數超過原計劃樣本數的3倍。 [0152] 在一個實施例中，當該臨床試驗前景被看好的時候，所述系統由其中引擎進一步評估所述臨床試驗，並輸出一項額外結果，該額外結果表明是否需要樣本數調整。樣本數比值如穩定地落於0.6-1.2區間，則不需樣本數調整；反之，落於此區間外則需樣本數調整，且新的樣本數通過滿足以下條件來計算，其中為期望的條件檢定力：, 或是 [0153] 在一個實施例中，所述系統中的數據收集系統是一個電子數據收集(EDC)系統。在另一實例中，所述系統中的數據收集系統則是一個交互式網絡響應系統（IWRS）。又另一實例中，所述系統中的引擎為一個動態數據監測(DDM)。一實例中，所述系統中期望的條件檢定力至少為90％。 [0154] 儘管對於本發明的特殊性已有一定程度的描述，但本發明的公開是藉由示範案例的模式進行，在不違悖本發明精神之情況下，可對其細節進行各種修改與操作變化。 [0155] 透過提供後續的實驗性細節，將能更清楚理解本發明，其實驗性細節僅為說明所用，本發明並非侷限於此。 [0156] 在整個申請過程中，引用了各式各樣的文獻資料或出版物，為了更全面地敘述本發明的相關技術，這些公開的文獻資料或出版物資訊將結合到本發明中。而引用術語中的包括、包含等，其意思具有開放性，並不排除其他未引用的部分或是方法。具體實施例實施例一 初始設計 [0157] 假定值為試驗治療效果，依照研究資料類型，其值可能為平均數之差異、勝算比、危險對比值等。在試驗最初始設計為每組樣本數為、顯著水準為以及其所期望的統計檢定力下，進行假說檢定，其虛無假說為治療無效，對立假說為治療有效(versus)。考慮試驗經隨機分派，其主要指標服從常態分布之假設，令實驗組之功效服從平均值為、變異數為之常態分布，以表示，則控制組之功效為，其試驗功效則為兩平均數之差異。對於其他指標的估計，可以使用趨近常態之假設獲得。間歇監測與連續監測 [0158] 此處將說明統計上的關鍵訊息部分。一般來說，目前的AGSD僅能提供間歇的監測數據，而DAD/DDM在每位受試者進入研究後，則可動態地監測試驗及檢驗數據。數據監測的可能行為包括：試驗數據的積累、發出進行正式的期中分析（可能無效或有早期效力）的信號、或調整樣本量。兩者(AGSD與DAD/DDM)的基本設定大致相似，而本發明將展示如何透過DAD/DDM找到適當的時間點並進行即時且正式的期中分析，在此時間點之前，試驗將持續進行且無需任何調整。而Lan, Rosenberger (1993)等人提出的alpha花費函數方法對於兩者在信息時間中任何時間點之檢定提供了高度的靈活性。然而，要找出調整樣本數的時機點(尤其是增加樣本數)並非易事，在增加樣本數前需對功效有穩健的評估，整個試驗期間可能只有一次機會調整樣本數。表1顯示了樣本數再估計（SSR）時機點對於試驗之影響，如表1中的第一種情況，該試驗預期效益為0.4 (，基於假定初始設定樣本數為133人，但其真實效益為0.2 (，所需樣本數應為526人，若在累積人數達預計總人數之50%(67人)進行樣本數再估計(SSR)，其調整的時間點尚且過早。反之，如表1中的第二種情況，於累積人數達預計總人數之50%（263人）進行樣本再估計，則為時已晚。表1. 進行樣本數再估計之時機 (令統計檢定力為0.9，標準差為1)

實際效益	實際所需樣本數	預期效益	預期樣本數	累積人數達50%	樣本數再估計
0.2	526	0.4	133	67	過早進行
0.4	133	0.2	526	263	過晚進行

[0159] 在任意時間點下，令實驗組之樣本數為，其樣本平均為，而控制組樣本數以表示，其樣本平均則為，則點估計值(功效)為。其Wald統計檢定量則為，而費雪資訊估計為，則令Score檢驗為 ==.。 [0160] 依上述定義，在試驗最後，每組的費雪資訊估計為，( 當樣本數沒有做調整時則=，如有進行調整則，詳情請見公式 (2) ) ，其Score檢驗之統計檢定量為，在虛無假說設定下(治療無效益)，其Score檢驗的統計檢定量則為，Wald檢驗之檢定量為，在給定顯著水準下選定閾值，當時拒絕虛無假說，代表功效於兩組間具差異性。 [0161] 在期間分析Score檢驗統計量下，假設後續試驗功效比目前觀測到的功效好，其條件檢定力以CP(,N, 表示，其公式為 CP(,N, =, (1) [0162] (1)中的條件檢定力預期的個案數N與閾值C，可藉由預期治療效果及目前所觀測到的統計檢定量獲得，此推算過程將由DAD/DDM完成。而預期治療效果值之設定有多種選擇，其取決於研究者的考量。舉例來說，其先驗資訊較為樂觀或明確時，對於其估計結果，基於原本樣本數大小或統計檢定力，則在對立假說 ()下給予特定值進行檢定，而如先驗資訊較為悲觀或是不明確時，則在虛無假說 () 下給予無差別假設。在AGSD中，一般是假設當前觀察到的趨勢會持續進行下去，因此，重新估算樣本數時所採用的會是點估計值( ，其新樣本數在條件檢定力()下滿足：，或是. (2) [0163] 令，若r > 1則建議增加其試驗樣本數，反之，則須減少其樣本數。 [0164] 再者，雖然使用條件檢定力進行樣本再估計十分合理，但其並非是在調整樣本大小時的唯一考量，在實際執行上，可能會因預算限制的問題導致樣本無法進行調整，或者為求準確的點估計值對新樣本進行全體管控，以避免重複計算的問題等，這些限制都會影響到條件檢定力。對於“純”SSR，通常不減小計劃的樣本量（即，不允許r >1），以避免同（無效益或有功效時）提早停止程序相混淆。而後，如果考慮到SSR的無效性，將允許減少樣本量。有關計算的更多討論，請參見Shih，Li和Wang（2016）。為了控制I型錯誤率，臨界/邊界值C被認為如下。 [0165] 當計劃的信息時間沒有任何的變動，則無須對於功效進行期間分析，若檢定統計量大於其臨界值，落入拒絕域中，則拒絕虛無假說。若信息時間變動為，為保護I型錯誤率，利用score函數具有獨立增量之特性(其為布朗運動)，在滿足條件下將臨界值調整為，表示如下(Gao, Ware and Mehta (2008)：. (3) [0166] 也就是說，在沒有做任何期中分析，當在樣本再估計後，在信息時間滿足公式(3)將臨界值調整至，且時，其虛無假說將被拒絕。即，等式（1）中的。注意，若，則。 [0167] 如果於樣本再估計前監測GS邊界於早期功效，假使最終臨界值為，則須將公式（3）中的替換為。關於在DAD/DDM的連續監測中的，允許因有其功效而提早停止試驗的部分，將於實施例3中進一步討論。例如，進行一顯著水準α=0.025、臨界值=1.96 之單尾檢定(無期間分析)，藉由O’Brien-Fleming方法得到最終臨界值。 [0168] 請注意，Chen，DeMets和Lan（2004）表明，如果在信息時間期間進行了至少50%時使用當前的點估計值得到條件檢定力CP(,, ，則增加樣本量不會增加I型錯誤率，因此對於最終測試，無需更改最終邊界(或。DAD/DDM 的數據連續累積 [0169] 圖18所示為治療功效真值為0.25、共同變異數為1時的臨床試驗DAD/DMM的模擬特徵。此處，在顯著水準為0.025(單尾)、統計檢定力為90%下，每組所需樣本數336人，然而預期治療功效為，其預期樣本數為每組133人(總樣本數為266人)，在每一位受試者進入後即開始連續監測，隨著受試者(實驗組及對照組) 的進入，在臨界值為1.96設定下，得到其點估計值及其95%信賴區間、Wald檢定量 (z-score,、計分函數、條件檢定力CP(,, 及資訊對比值等。以下為觀察到的結果部分： (1) 所有的曲線波動皆出現在納入總受試者的50%(n=133)及75%(n=200)的時候，這是進行中期分析的常用時間點。 (2) 點估計值呈現穩定正向成長的趨勢，這表示其具正向效益。 (3) 在每組133人的樣本時，雖然Wald檢定量不太可能越過臨界值1.96 ，但其呈現向上且接近之趨勢，也就是說，該試驗具有希望，如增加樣本數可能使試驗獲得最終的成功。 (4) 資訊對比值大於2，表明此試驗樣本數至少需要加倍。 (5) 由於Wald檢定量趨近臨界值1.96，因此設定條件檢定力曲線趨近於零。（詳細討論請參見實施例2）。 [0170] 在這個模擬的實施例中，隨著試驗的進行，系統對於數據行為的連續監測能提供更好的解讀。而透過累積資料的分析，能檢測出試驗是否有繼續進行的價值，如判斷其不適合繼續進行下去，研究發起人可決定提早終止試驗，以減少成本損失及避免受試者承受不必要的痛苦。在一個實施例中，本發明關於樣本數的再估計判斷適合繼續進行試驗，最終獲得了成功。此外，即使一開始使用了錯誤的預期功效進行試驗，經由不斷更新的數據分析引導設計，可將試驗引導到正確的方向（如校正樣本數等）。下面的實施例2將以趨勢比率方法，通過使用DAD/DDM評估試驗是否具有前景。本文所展示的趨勢比率方法及無效停止規則，可進一步協助訂立決策。實施例 2 考慮 SSR 之 DAD/DDM ：樣本數重新估算之時機 [0171] 條件檢定力在計算時很有用，但在期中分析時決定SSR的時機點卻無多大用處。當趨近於時,等式 (1)中的以帶入，亦即，當累積人數如預計之樣本數，條件檢定力有兩種機率，一為趨近為0 (當趨近C，但小於C) ，或是趨近於1(當趨近C，但大於C))。在決定SSR時，的穩定性也需要被考慮。因，當增加時會更加穩定。當所觀測的數值等於時，可提供試驗檢定力為的額外訊息，且當增加時也會更加的穩定。但是，若需要進行調整，則執行SSR的時間越晚，調整樣本大小的意願和可行性就越小。因“操作意願和可行性”難以成為可量化的目標函數，因此本研究選擇如下趨勢穩定化方法。趨勢比率和最大趨勢比率 [0172] 在此章節中，本研究公開使用DAD/DDM的工具進行趨勢分析，以評估試驗是否趨向成功（即，試驗是否有希望成功）。該工具使用布朗運動方法來反映軌跡的走向。為此目的，基於原先計劃的訊息量，為所計算出的訊息時間函數為/。則此計分函數在訊息時間為T時，近似於，其中~是標準的布朗運動過程。 (文獻參考 Jennison and Turnbull (1997)) [0173] 當對立假設為，S（t）函數的平均軌跡將會向上，且此曲線應會接近。若檢查了離散信息時間,, …上的曲線，則更多的線段應該向上（即，），而非向下（即，）。設為所計算的線段總數，則長度為的預期“趨勢比”TR()則為。該趨勢比率類似於時間序列分析中的“移動平均值”。本研究平均分隔時間信息時間為,,, …，根據原始隨機化所使用的區塊大小（例如本文所示的每4個患者），當≥10（即，至少有40名患者）時開始計算趨勢比。在這裡，起始時間點和區塊大小是DAD/MDD決定的受試者人數的選項。圖19顯示本研究的一個實施例的趨勢比計算。 [0174] 在圖19中，針對每4位患者（在和之間）計算的趨勢，並當時開始計算TR(。當在處有60位患者時，計算出的TR(。圖19中6個TR的最大值等於0.5（當=時）。可以預期在獲取60位患者的數據趨勢時，最大TR值（mTR）比平均趨勢比率更為敏感。當mTR為0.5時，表示在檢查的各區段中呈現正向趨勢。 [0175] 為了研究mTR的特性和可能的用途，針對3種情況，，分別運行了100,000次的模擬研究。在每種情況下，計劃的總樣本數為266，並針對在和之間的每4位患者，計算之趨勢，並且當時開始計算TR(。由於通常在不超過信息分數¾的情況下執行SSR（即，此處總共有200名患者），因此當，即從開始到，根據TR(計算出mTR。 [0176] 圖20A顯示了mTR在41個片段之間的經驗分佈。如圖所示，隨著θ的增加，mTR向右移動。圖20B顯示在不同的臨界點之下使用mTR來拒絕的模擬結果。特別是在mTRb下每個不同的的模擬，最後測試結果為。圖20B顯示的經驗估計值。為區別等式(1)所呈現的條件檢定力，基於條件檢定力的趨勢比率以表示。結果顯示，臨界值越大，最終試驗拒絕虛無假設的機會越大。例如，當θ=0.2（與θ=0.4相比，治療效果相對較小），0.2≤mTR>0.4時，在試驗結束時正確拒絕虛無假設的機會大於80％（即，條件檢定力為 0.80），同時將條件I型錯誤率控制在合理的水平。實際上，條件I型錯誤率沒有相關的解釋。相對於條件I型錯誤率，反而要控制的是無條件的I型錯誤率。 [0177] 為了使用mTR來及時監測可能進行SSR的信號，圖20B建議將mTR在0.2時設置為臨界點。這意味著連續監測時，SSR的時機點安排很靈活；也就是說，在任何上，當首次mTR大於0.2時，可計算出新的樣本數。否則，臨床試驗應繼續進行且不進行SSR。在一個實施例中，可以否決該信號，或者甚至否決所計算的新樣本大小，繼續進行而不修改試驗，而不會影響I型錯誤率。 [0178] 有了，在時的所有訊息量，在利用等式(2) 計算出新的樣本數時，不使用點估計量, 而是在與mTR相關的區間使用、、的平均數、的平均數及的平均數計算。的平均數及的平均數也可以用來計算等式(3)中的臨界值。樣本數比率及最小樣本數比率 [0179] 在此部分中，本研究公開了另一種使用DAD/DDM進行趨勢分析的工具，以評估試驗是否趨向成功（亦即，試驗是否有希望）。使用趨勢的 SSR 與使用單個時間點的 SSR 之比較 [0180] 傳統上，通常在t趨近於1/2但不遲於3/4的某個時間點進行SSR。如上所述，本研究中所公開的DAD/DDM使用了數個時間點上的趨勢分析。兩者皆使用條件檢定力之方法，但是在評估治療效果時利用了不同的數據量。這兩種方法通過模擬比較如下。假設一臨床試驗，其θ為 0.25並且共同方差為 1（參數與實施例1的第二部分相同），在單邊I型錯誤率為0.025且檢定力為90％的設定之下，每個治療組所需的樣本數為N = 336。(兩組共需672)。但是，假設在進行研究計劃時使用且設定隨機區塊大小為4，則所需樣本量為每組N = 133（共266個樣本）。比較兩種情況：每次患者入院後使用DAD/DDM程序連續監測試驗，與常規SSR程序。具體而言，傳統的SSR程序分別使用t趨近於1/2時間點（每組人數為 66或總數為132）或t趨於3/ 4的時間點（每組人數為 100或總數為200）計算出的的瞬態估計量。 [0181] 對於DAD/DDM，並無預先指定執行SSR的時間點，但監測著計算mTR的時機。從開始，每4名患者進入之後開始計算（在共有40位患者）。依,, …進行mTR之計算，並分別在1，2，…L-9區段上找到的最大值，直到第一次mTR≥0.2或直到t≈1/ 2 （總共132名患者），其中。與上述傳統的t≈1/ 2方法比較，最大值將超過33-9 = 24個區段；若與傳統的t≈3/ 4方法進行比較，當（總共200例患者）最大值將超過50-9 = 41個區段。只有在第一個mTR≥0.2時，才會使用等式(2) 中的的平均，以及的平均值和的平均值，計算新的樣本量。 [0182] 當進行SSR時，以τ表示時間分數。傳統的SSR方法，是按照設計的τ=½或¾進行 (因此，無條件機率與條件機率在表2中是相同的)。對於DAD/DDM，τ為（與第一個mTR≥0.2相關的患者數量）/ 266。如果τ超過½（第一次比較）或¾（第二次比較），則τ= 1表示未進行SSR。（因此，表2中的無條件機率和條件機率不同。）當每一組人數為133時，樣本數變化的起點為n> = 45，而每組的增加的數量為4。 [0183] 在表1中，基於“我們是否有連續6個大於1.02或小於0.8的樣本大小比率”重新估計樣本大小。在每組45位患者進入後將會做出決定，但每個比率將會在每個區塊中計算（即n = 4、8、12、16、20、24、28、32等）。如果所有樣本大小比率，在24、32、36、40、44、48處均大於1.02或全部小於0.8，則樣本數將會在n=48時重新估算。然而，本研究在每個模擬試驗結束後計算最大趨勢比。它不會影響動態適應設計的決策。 [0184] 對於這兩種方法，均不允許減小樣本大小（單純SSR）。如果小於最初計劃的樣本數，或者治療效果為負，則試驗應繼續使用計劃的樣本量（共266）。但是，即使在這些情況下樣本量保持不變，也要進行SSR。令AS =（平均新樣本量）/ 672為對立假設之下理想樣本數之百分比，亦或在虛無假設之下，AS =（平均新樣本量）/ 266。兩者差別如表2和表3，總結如下： (1) 當虛無假設為真時，兩種方法皆將I型錯誤率控制在0.025。在這種情況下，樣本量不應被增加。若不考慮功效無效的情況，作為保護措施，此設計之新樣本總數為800（近似於266的3倍）。可以看出，對比於原本總樣本為266的情況之下，以mTR方法所進行的連續監測方法（AS≈183-189％）比傳統的單點分析（AS≈143-145％）可節省更多。如果考慮功效無效之情況（新樣本量超過800，則停止），將可看到更明顯的優勢。無效監測的描述如下述範例。 (2) 當對立假設為真時，基於高估治療效果的情況之下，兩種方法都要求增加樣本量。然而，若理想樣本量為672的情況下，基於mTR方法所使用的連續監測方法所求得之樣本量（≈58-59％）比傳統的單點分析（≈71-72％）要少，每種方法所預設的條件機率為0.8。因受試者上限為800故只能達到0.8的條件機率。 (3) 相比於傳統的固定時間表（t = 1/2或3/4）沒有執行SSR限制的條件，以mTR≥0.2為條件的連續監測方法，在何時以及決定是否進行SSR上將有條件限制。在虛無假設之下，在試驗期間有50％的機會未達mTR≥0.2，因此不進行SSR。（如果不進行SSR，則τ為 1）。表2呈現，在mTR≥0.2的條件限制之下的連續監測方法時τ為0.59，與之相對，不具限制條件的固定時間表t = ½時τ為0.5。然而，在對立假設之下，在試驗進行及管理中若可更早地執行可靠的SSR期中分析，將可確定是否需要增加樣本量以及增加多少樣本量，是更有益處的。與τ= 0.5或0.75的常規單次分析相比，基於mTR方法的連續監測在τ= 0.34（相對於0.5）或0.32（相對於0.75）時進行SSR的時間要早得多。DAD/DDM在固定時間表上執行SSR的時間有非常明顯之優勢。實施例 3 考量早期功效及 I 型錯誤率控制的 DAD/DDM [0185] DAD/DDM 是一種基於Lan, Rosenberger and Lachin (1993)所提出的開創性理論的方法，針對在試驗初期利用連續監測，進而看到顯著功效。DAD/DDM 使用alpha連續花費函數控制I型錯誤率。註: 此處顯著水準為單尾 (一般為0.025)。相對應在Wald 檢定之Z值邊界是O’Brien-Fleming型邊界，通常用於GSD及AGSD。舉例來說，在顯著水準為0.025時，當時將會拒絕虛無假設。 [0186] 在設計中採用群組序列邊界進行早期功效監測後執行SSR且最終邊界值為時，實施例1的第二部分討論了調整最終測試臨界值之公式。對於具有連續監測的DAD/DDM，為 2.24。 [0187] 另一方面，如果在執行SSR後（無論是或是）進行功效的連續監測，則上述alpha花費函數的分位數應會被調整為公式(3)的。因此，Z值之邊界將調整為。信息分數t將基於新的最大信息。 [0188] 在一個實施例中，當使用DAD/DDM的連續監測系統時，即使越過功效邊界，仍可否決提前終止的建議。可基於Lan，Lachine和Bautisa（2003）的觀點推翻系統推薦的SSR信號。在這種情況下，可以收回先前花費的alpha概率，並將之重新花費或重新分配給未來的檢定。 Lan等人（2003年）表示，使用類似O'Brien-Fleming的花費函數，對最終的I型錯誤率和研究的最終功效影響可忽略不計。其亦表示可以通過使用固定樣本大小的Z臨界值來收回先前花費的alpha。這種簡化的過程保留了I型錯誤率，同時將檢定力之損耗降至最低。表二：進行100000次模擬的平均結果如下。拒絕H0的總比率和條件比率（第一和第二列）^# ，對於目標條件概率為0.8，AS =（平均樣本大小）/ 672（第三列），SSR的拒絕時間（τ是進行SSR的信息分數）（第四和第五列）

	SSR 計時方法	拒絕 H0 的總概率	mTR>= 0.2 比例	拒絕 H0 的條件概率	AS (%)	τ*	τ**
0	t=1/2處的單個時間點⁺	0.025	NA	NA	486/266 =183%	0.50	0.50
mTR0.2⁺⁺	0.025	0.50	0.044	380/266 =143%	0.59	0.18
t=3/4處的單個時間點⁺	0.025	NA	NA	504/266 =189%	0.75	0.75
mTR0.2⁺⁺⁺	0.025	0.51	0.045	386/266 =145%	0.59	0.19
0.25	t=1/2處的單個時間點⁺	0.775	NA	NA	478/672 =71.1%	0.5	0.5
mTR0.2⁺⁺	0.651	0.81	0.741	390/672 =58.0%	0.34	0.18
t=3/4處的單個時間點⁺	0.791	NA	NA	482/672 =71.7%	0.75	0.75
mTR0.2⁺⁺⁺	0.660	0.85	0.744	398/672 =59.2%	0.32	0.20

(1) 拒絕H0之機率: 所有拒絕次數/模擬次數 (100000) (2) 條件比率: 觀察到mTR0.2的次數/模擬次數 (100000) (3) 拒絕H0之條件機率: 觀察到mTR0.2之拒絕的比率 (4) 平均樣本數(AS) /672：模擬結果之平均樣本數/672 (5) τ *: 若沒觀察到 mTR0.2, 則視為1，平均訊息比例來自所有模擬結果 (6) τ **: 只來自mTR0.2的平均訊息比例＃：當時拒絕H0，其中是新的最終樣本總數，上限為800 +：根據公式(1)，其中根據公式 (3)，；t =/; 在t時使用的瞬態點估計 ++： TR上的最大值，，…直到，使用區間中與mTR相關的平均值、的平均值和的平均值。 τ=與mTR相關的受試者人數/ 266或mTR / 672 +++：TR(上的最大值，其中，…直到，使用區間中與mTR相關的平均值、的平均值和的平均值。 τ=與mTR相關的受試者人數/ 266或mTR / 672 表三：拒絕虛無假設的機率: 所有拒絕的次數/ 模擬次數(100000)

	SSR 計時方法	拒絕 H0 的總概率	minSR>= 1.02 比例	拒絕 H0 的條件概率	AS (%)	τ*	τ**
0	t=1/2處的單個時間點⁺	0.025	NA	NA	486/266 =183%	0.50	0.50
minSR1.02⁺⁺⁺	0.025	0.57	0.028	526/266 =197%	0.59	0.28
t=3/4處的單個時間點⁺	0.025	NA	NA	504/266 =189%	0.75	0.75
minSR1.02⁺⁺⁺	0.025	0.67	0.029	572/266 =215%	0.55	0.33
0.25	t=1/2處的單個時間點⁺	0.775	NA	NA	478/672 =71.1%	0.5	0.5
minSR1.02⁺⁺⁺	0.801	0.66	0.864	534/672 =79.5%	0.53	0.28
t=3/4處的單個時間點⁺	0.791	NA	NA	482/672 =71.7%	0.75	0.75
minSR1.02⁺⁺⁺	0.847	0.77	0.852	572/672 =85.1%	0.48	0.33

(1) 條件機率: 觀察到minSR1.02的次數 / sim (100,000) (2) 拒絕虛無假設的條件機率: 觀察到minSR（最小樣本數比）1.02且拒絕虛無假設的機率 (3) 平均樣本數/672: 模擬結果之平均樣本數/(266 or 672) (4) τ *: 若沒觀察到 minSR1.02, 則視為1。平均訊息比例來自所有100,000次模擬結果 (5) τ **: 只來自minSR1.02的平均訊息比例實施例四 考量無效性的 DAD/DDM [0189] 一些關於藥物無效的重要因素值得一提。首先，先前所討論的SSR程序也可能和藥物無效相關。若重新估算的新樣本量超出了原先計劃的樣本量的數倍，這將會超出試驗進行之可能性，那麼發起人可能會認為該試驗是無效的；其次，無效性分析有時會被嵌入期中功效分析，但是，由於決定試驗是否無效（據此停止試驗）沒有約束力，因此無效性分析計劃不會影響I型錯誤率。相反，無效性之期中分析會增加II型錯誤率，進而影響試驗之檢定力；第三，當無效性之期中分析和SSR以及功效分析分開進行時，應該考慮無效性分析的最佳策略，包括執行的時間和無效的條件，以最大程度地降低成本和檢定力之損失。可以想像，通過在每次患者進入後利用DAD/DDM連續分析當下所累積數據，可比單次的期中分析更加的可靠的、且更快速地監測試驗的無效性。本節首先回顧了用於間歇數據監測之無效性分析的最佳時間，進而說明使用DAD/DDM連續監測之過程，亦藉由模擬比較間歇監測和連續監測這兩種方法。間歇數據監測的無效期中分析的最佳時機 [0190] 在進行SSR時，本研究藉由適當地增加樣本數以確保試驗之檢定力，同時在虛無假設為真的情況下，也會防止不必要的增加樣本數。傳統的SSR通常在某個時間點進行，例如t = 1/2，但不晚於t = 3/4。在無效性分析中，本研究的程序可以儘早發現無效的情況，以節省成本以及因無效治療而遭受痛苦的病患。另一方面，無效性分析會影響試驗的檢定力。頻繁的無效分析會導致過多的檢定力損失。因此，本研究可以通過在檢定力損耗時找尋樣本數（成本）的最小化為目標，來優化進行無效性分析的時機。這種方法已被Xi，Gallo和Ohlssen（2017）採用。群組序列試驗中伴隨可被接受邊界之無效性分析 [0191] 假設申辦方在群組序列試驗中，預計要執行K-1 次的無效期中分析，其中樣本數為，在每次執行的訊息時間為，而所累積的訊息量標示為,。假設訊息時間 (，在每個訊息時間所對應的無效邊界定義為。當時，試驗會在停止並宣稱治療無效，反之，試驗將會繼續進行至下一次分析。在終期分析時，若則拒絕虛無假設，反之接受虛無假設。註: 如此章節一開始所述，終期分析之邊界仍為。 [0192] 給定之條件下，期望之總訊息量為++ [0193] 期望之總訊息量可視為最大訊息量之百分率。 [0194] 群組序列試驗檢定力為。 [0195]不進行無效性分析之固定樣本試驗設計檢定力為，與之相比，檢定力會因為無效停止而降低為 [0196] 可看出當越大，越容易達到無效邊界並且提早停止試驗，所損失的檢定力也越大。因，在給定邊界為之下，值越小，也會越早達到無效邊界並且停止試驗，所損失的檢定力也隨之越大。然而，當虛無假設為真時，越早進行期中分析，則越小，所能節省之成本也越多。 [0197] 當時，可找尋()，，以最小化。這裡的可用來防止由於無效性分析而導致的檢定力降低，近而可能會錯誤地終止試驗。Xi, Gallo and Ohlssen (2017) 以Gamma函數為邊界值，研究在各種可接受的檢定力損失之下的最佳分析時間點。 [0198] 針對一次無效性分析，執行時無須局限於無效性邊界。也就是說，可以找到()滿足之最小化，並滿足。對於給定的λ和，在檢測時，可以在10 .80（可每次增加0.05或0.10）之間進行搜索，藉以獲取對應的邊界值 [0199] 舉例來說，當檢測且時，如果允許檢定力的減少在λ= 5％，則當處的無效邊界為最佳執行之時間點（每次以0.10遞增）。在虛無假設下，以預期總信息量衡量的成本節省（表示為固定樣本量設計的比率）為=54.5%。若僅允許檢定力的減少為λ= 1％，則通過相同的方式，則當處且無效邊界為最佳執行之時間點，可節省=67.0%。 [0200] 針對上述無效性分析的時機點及邊界，接下來所需考慮的是其穩健性。假設最佳分析時機與相關的邊界值是一起設計的，但實際上在監測時，無效性分析的時機可能不在原設計的時程上。本發明想做甚麼呢? 通常希望保持原本的邊界值（因為該邊界值已記錄在統計分析計劃書中），因此應研究檢定力耗損和的變化。 Xi，Gallo和Ohlssen（2017）報告了以下內容：在試驗設計中，當檢定力耗損為λ= 1％時，在且為最佳分析時機，可節省成本=67.0% (如上所述) 。假設在進行無效性分析期間進行監測的實際時點t在 [0.45, 0.55] 之間，邊界亦如計劃書所定義的為0.41，當實際時間t 從0.5偏離到0.45時，檢定力的耗損會從1%增加到1.6%，且會從67%些微降低至64%。當實際時間t 從0.5變更成0.55時，檢定力的耗損會從1%降低至0.6%，且會從67%增加至70%。因此，是最佳的無效性分析條件。 [0201] 此外，在考慮最佳無效性分析條件的穩健度，還需考量試驗的治療效果。假設當為0.25時，Xi, Gallo and Ohlssen (2017) 所使用的最佳無效性規則產生的檢定力耗損介於0.1%到5%。分別比較當θ= 0.2、0.225、0.275和0.25所計算出的檢定力耗損，結果表明，檢定力耗損的幅度非常接近。例如，對於假設最大檢定力耗損為5%的情況下（假設=0.25），如果實際θ= 0.2，則實際檢定力耗損為5.03％，如果實際θ= 0.275，則實際檢定力耗損為5.02。考慮條件檢定力之無效性分析 [0202] 另一個在群組序列試驗的無效性分析研究是使用公式(1)中的條件檢定力，其中。在之下，條件檢定力低於臨界值(γ)，試驗會被視為無效且提早停止。固定γ，則會是的無效邊界。若原本的檢定力是，根據Lan, Simon 和Halperin (1982) 的理論，檢定力損失最多為。舉例來說，對於原本檢定力為90％的試驗，使用臨界值γ為 0.40設計中期無用分析，功率損耗最多為0.14。 [0203]類似地，若根據SSR中，所得之，且依原定目標之檢定力，所給出的新樣本大小若超過原始樣本大小的數倍，那麼試驗也被認為是無效的,須提早停止。在連續監測過程中最佳執行無效期中分析之時機 [0204] 在公式(1)中，當時，條件檢定力所得之趨勢比率為。像之前一樣，不是使用的單點估計, 而是在與mTR相關的區間中，使用的平均值、的平均值和的平均值。若低於臨界值，試驗會因為無效而停止。為達到目標檢定力，若所提供之樣本數是原本的數倍，則試驗也會視為無效且提早停止。這個無效的SSR與第四章節中所討論的SSR是相反的。因此，第4節中討論的SSR的時間也是執行無效性分析的時間。即，在進行SSR的同時進行無效性分析。由於無效性分析和SSR不具有約束力，因此本研究可以在試驗進行時監測試驗而不會影響I型錯誤率，但是，進行無效性分析會降低試驗檢定力，而且試驗過程中樣本數最多應增加一次；這些都須謹慎考慮。使用群組序列和使用趨勢的無效性分析之比較 [0205] 根據實施例2相同的設定，通常會在t ≈1/2 進行SSR。如前所述，DAD/DDM是在多個時間點上使用趨勢分析。兩者都使用條件檢定力方法，只是在估計治療效果時選用的訊息量不同。比較兩方法的模擬結果如下：假設試驗之且共同變異數為1 (此假設與第3.2節及第4節相同)，在檢定力為90%，單尾I型錯誤率為0.025之下，每組所需要的樣本為336人 (兩組共672人)。然而，試驗計劃假設，每組計劃納入133人 (兩組共266人)，隨機區組大小為4。兩種情形相比較：在每個受試者進入試驗後使用DAD/DDM程序進行連續監測，與考慮無效性的常規SSR。對於常規SSR，SSR與無效性分析可在t ≈1/2時進行，所需每組樣本為66人，兩組共132人。若在假設之下的條件檢定力低於40%或是所需要的新樣本數會超過800，則最後因無效性停止試驗。此外，若為負值，試驗亦視為無效。在一個實施例中，本發明使用Xi, Gallo 和Ohlssen (2017)所提出的標准結果，在使用50%的訊息量，在無效邊界z為0.41時，可得平均最小樣本量(總樣本量266之67%) 且檢定力耗損為1%。 [0206] 使用DAD/DDM時，沒有預先設定進行SSR的時間點，但需要監測mTR的時間，當開始，計算每四位受試者所對應的。隨著mTR，依據,, …，在不同的區段1, 2, …L-9，分別計算並找到最大的，直到第一次出現mTR0.2的時間點或是t ≈1/2 (共132位受試者)，其中且最大區段為33-9=24。只有在第一個mTR≥0.2時，才會使用公式(2)在與mTR相關的區間中使用的平均值、平均值和的平均值計算新的樣本量。如果低於40％，或在80％檢定力之下所需樣本數總計超過800，將會因為無效而停止試驗。如果直到t = .90仍然mTR >0.2，也會因為無效而停止試驗。另外，如果平均為負，則該試驗也會認為是無效的。 [0207] 在虛無假設下，計分函數，這代表S(t) 會呈水平趨勢，並在經過一半的時間之後小於0。當每一段間隔在,且S(t)>0時，可表示為,, …，則。因此當接近0.5時，則試驗很有可能是無效的。此外，Wald統計量也具有相同的特性。因此，來自Wald統計量的相同比率可用於無效性分析。同樣地，利用S（t）或Z（t）函數所求得數值低於零的人數，可用來做無效性分析之決策。 [0208] 表四中觀察到的負值的次數具有區分θ= 0與θ> 0 之高度特異性。例如，進行S(t) 或Z(t) 小於零之無效性評估，當時，正確決策的機率是77.7％，而錯誤決策的機率是8％。通過更多的模擬顯示，DAD/DDM的評估結果優於間歇監測的無效性評估。表四：當S(t) 小於零時進行無效性分析之模擬結果 (100,000次模擬)

根據S(t) 小於零的次數的無效性終止	0 (%)	0.2 (%)	0.3 (%)	0.4 (%)	0.5 (%)	0.6 (%)
10	91.7	43.6	27.51	17.13	9.32	5.4
20	87.0	30.6	10.6	5.7	3.6	1.5
30	82.7	24.4	7.5	4.1	1.0	0.5
40	82.0	19.2	5.6	1.2	0.9	0.0
50	80.2	15.0	3.5	0.5	0.0	0.0
60	79.0	11.9	3.0	0.3	0.0	0.0
70	76.9	10.1	1.4	0.2	0.0	0.0
80	77.7	8.0	1.5	0.3	0.0	0.0

[0209] 由於每當抽取新的隨機樣本時會計算分數，因此可以按如下公式在時間t計算無效率FR(t)：FR(t)= (S(t) 小於零的次數)/( 計算的S(t) 總數)。實施例五 使用帶 SSR 的 DAD/DDM 進行推斷 [0210] DAD/DDM假設初始樣本數為並且具有相應的Fisher信息，並且計分函數隨著納入的數據不斷地進行計算。假設沒有任何期中分析，如果試驗在計劃的信息時間結束，且，則當，將會拒絕虛無假設。對於推論的估計量(點估計及信賴區間)，，隨著的增加，為一遞增函數，且為p值。當，，則最大概似估計量是的中位數無偏估計量，信賴區間為時，其邊界為和。 [0211] 適應設計可允許在任何時間修改樣本數，當時間為時，觀測到的計分。假設新的訊息量為, 其對應的樣本數為。在所觀測到的計分為，為確保I型錯誤率，最後的臨界值從調整至，且滿足。使用布朗運動的獨立增量屬性可得。（2） [0212] Chen，DeMets和Lan（2004）證明，如果在處的點估計值的條件檢定力至少為50％，則增加樣本量不會增加I型錯誤率，在最後檢定時無需將更改為。 [0213] 最後觀測到的計分為，當時，則拒絕虛無假設。對任何θ值，其後向圖像定義為（參見Gao, Liu, Mehta, 2013），滿足，解之可得表五：點估計及信賴區間估計 (最多修改兩次樣本數)

θ真值	中位數()	信賴區間估計	θ > 左邊界	θ > 右邊界
0.0	0.0007	0.9494	0.0250	0.0256
0.2	0.1998	0.9471	0.0273	0.0256
0.3	0.2984	0.9484	0.0253	0.0264
0.4	0.3981	0.9464	0.0278	0.0259
0.5	0.5007	0.9420	0.0300	0.0279
0.6	0.5984	0.9390	0.0307	0.0303

[0214] 令，隨著的增加，為一遞增函數，且為p值。當，是的中位數無偏估計量，(,) 是100% × (1- 2α)的雙尾信賴區間。 [0215] 表5顯示，從常態分佈中抽取隨機樣本，重複100,000次模擬結果，在不同之下，其點估計量及雙尾信賴區間。實施例六 比較 AGSD 及 DAD/DDM [0216] 本發明首先描述進行有意義比較AGSD和DAD/DDM的性能度量，其後描述仿真研究及其結果。設計的性能度量 [0217] 理想的設計將能夠提供足夠的檢定力（P），而無需在有功效（θ）之情況下使用過多的樣本量（N）。此概念在圖3中說明得更具體： § 一般來說，設計一個試驗的檢定力為，其() 是可被接受的，但是不可被接受的。舉例來說，預設的檢定力為0.9，而0.8是可被接受的。 § 在一個固定樣本且檢定力的試驗中，是所需的樣本數。檢定力的設計不常見，因為會遠大於(即，需要增加的樣本數大於，但相對獲得的檢定力卻不大。這樣的樣本數在罕見疾病或試驗中是不可行的，因為每位患者的費用很高）。樣本數N大於() 時將視為樣本過大而無法接受，即便所對應之檢定力微大於0.9。舉例來說，為提供檢定力而要求樣本大小為之設計不是理想的設計。另一方面，若樣本數可以提供至少0.9的檢定力，是可以被接受的。 § 另一個不可接受的情況是，儘管在時，檢定力（雖非理想）是可以接受的，但樣本量並不“經濟”。例如，當時()。如圖所示，為不可接受的區域。 [0218] 可接受的功效大小範圍為，其中是臨床上最小的功效。 [0219] 臨界值取決很多因素，如成本、彈性度、未滿足的醫療需求等等。以上討論建議試驗設計（固定樣本設計或非固定樣本設計）之性能由三個參數度量，即），其中，為檢定力，是對應所需樣本大小。因此，評估一個試驗設計是需要考慮三個維度的。試驗的設計評估分數如下 [0220] 先前，Liu等人（2008）和Fang等人（2018）都使用一個維度來評估不同的設計。兩種評估表都難以解釋，因為它們都將三維評估簡化為一維指標。本發明的評估分數保留了設計性能的三維特質，並且易於解釋。 [0221] AGSD與DAD/DDM 的模擬結果如下。如果假設，檢定力為90% (單尾I型錯誤率為0.025)，則計劃的樣本數為每組133。從中隨機抽取樣本，其中真值分別為，則每組的樣本數上限為 600。在100,000次模擬之下計算每個方案的評估分數，I型錯誤率不會因無效分析而減少，因為無效停止是被認為是無約束性的。 AGSD 之模擬規則 [0222] 模擬需要自動化的規則，通常是簡化的和機械化的。在AGSD的模擬中，使用實踐中常用的規則。這些規則是：（i）兩次檢視，在0.75的信息分數時進行期中分析。（ii）在期中分析中進行SSR（Cui, Hung, Wang, 1999; Gao, Ware, Mehta, 2008）。（iii）無效停止的標準：。 DAD/DDM 之模擬規則 [0223] 在DAD/DDM 的模擬中，可利用一些簡化的規則自動做出決定。這些條件(與AGSD平行並與之相反)：（i）在信息時間t內連續監測，0>t≤1。（ii）使用r的值對SSR計時。執行SSR時，可達到90％檢定力之時機。（iii）無效停止標準：在任何信息時間t，在時間間隔(0, t)內的次數超過80次。模擬結果表六：比較ASD 及 DDM之結果

固定樣本	ASD	DDM
θ真值	SS	AS-SS	SP	FS	PS	AS-SS	SP	FS	PS
0.00	NA	325	0.0257	49.8	NA	280	0.0248	74.8	NA
0.20	526	363	0.7246	8.20	-1	399	0.8181	7.10	0
0.30	234	264	0.9547	1.76	0	256	0.9300	1.80	0
0.40	133	171	0.9922	0.25	0	157	0.9230	0.40	0
0.50	86	119	0.9987	0.03	0	106	0.9140	0.00	0
0.60	60	105	0.9999	0.00	-1	79	0.9130	0.00	0

註: AS-SS為平均模擬之樣本大小；SP 為模擬之檢定力; FS為無效停止 (%). [0224] 表六之100,000次模擬結果比較了ASD 及 DDM在H0下的無效性停止率、平均樣本數及檢定力。可清楚地顯示，DDM具有更高的無效停止率（74.8％），用較少的樣本數可獲得所需要且可被接收的檢定力。 § 對於虛無假設，I型錯誤率在AGSD 及DAD/DDM皆可被控制。相比AGSD所使用的單點分析，DAD/DDM根據趨勢傾向做出的無效停止規則更加具體和可靠。因此，DAD/DDM的無效停止率高於AGSD，且樣本數小於AGSD。 § 對於θ=0.2，AGSD無法提供可接受的檢定力。當θ=0.6，AGSD會導致樣本量過大。在這兩種極端情況下，AGSD的計分皆為PS = -1，而DAD/DDM的計分是可以接受的（PS=0）。對於其他的情況，θ=0.3、0.4和0.5，AGSD和DAD/DDM可通過合理的樣本量達到預期的條件檢定力。 [0225] 總之，模擬結果顯示，如果功效的假設錯誤，則: i）DAD/DDM可以將試驗引導至適當的樣本量，在各種可能的情況下提供足夠的檢定力。 ii）如果真實功效遠小於或大於預設值，則AGSD將調整不良。在前一種情況下，AGSD所提供的檢定力會小於可接受的檢定力，而在後一種情況下，會需要更多樣本數。使用後向圖像進行概率計算的證明 中位數無偏點估計 [0226] 假設在W( ⋅ ) 中調整樣本數，其中給定觀察值，則當樣本數改變為，則，將可得到後向圖像。其中，且 [0227] 對於給定，為的遞增函數，但為遞減函數。當0> γ >1，，。and.. 當，則. [0228] 因此，,,. 當為的中位數無偏估計量時，為雙尾100% × (1- α)之信賴區間。後向圖像計算 單次樣本數調整之估計 [0229]令且兩次樣本數調整之估計 [0230] 在最後推斷時，， [0231] 因此， 實施例七 [0232] 進行期中分析是試驗中的一個重要的成本，需要時間、人力、物力來準備數據以供數據監測委員會（DMC）審議。這亦是只能偶爾進行監測的主要原因。由前面的說明可知，此種偶然進行期中分析的數據監測，僅能得到數據的“快照”，因此仍具有極大的不確定性。相反，本發明的連續數據監測系統，利用每個患者進入時的最新數據，得到的不僅僅是單點時間的“快照”，更可以揭示試驗的趨勢。同時，DMC通過使用DAD/DDM工具，可以大大減少成本。DDM 的可行性 [0233] DDM過程需要通過連續監測正在進行的數據，這涉及連續的解盲並計算監測統計信息。如此，由獨立統計小組（ISG）處理是不可行的。如今隨著技術的發展，幾乎所有的試驗都可由電子數據收集（EDC）系統管理，並且使用交互式響應技術（IRT）或網絡交互響應系統（IWRS）處理治療的任務。許多現成的系統都包含了EDC和IWRS，而解盲和計算任務可以在此集成的系統中執行。這將避免由人去解盲並保護了數據的完整性，儘管機器輔助DDM的技術細節不是本文的重點，但值得注意的是通過利用現有技術，進行連續數據監測的DDM是可行的。數據指導性分析 [0234] 使用DDM，在實際情況下應儘早開始數據指導性的分析，可以將其內置到DDM中，自動執行分析。自動化機制實際上是利用“機器學習（M.L）”的想法。數據指導性的適應方案，例如樣本量重新估計、劑量選擇、人群富集等，可以被視為將人工智能（A.I）技術應用於正在進行的臨床試驗。顯然，具有M.L和A.I的DDM可以應用於更廣泛的領域，例如用於真實世界證據（RWE）和藥物警戒（PV）信號監測。實施動態自適應設計 [0235] DAD程序增加了靈活性，提高了臨床試驗的效率。如果使用得當，它可以幫助推進臨床研究，特別是在罕見疾病和試驗中，畢竟每位患者的治療費用相當昂貴。但是，該程序的執行需要仔細討論。控制和減少潛在的操作偏差的措施是至關重要的。這樣的措施可以更加有效，並確保是否可以識別和確定潛在偏差的具體內容。而在過程中置入自適應群組序列設計的程序，是可行且極具實用性的。在計劃的期中分析中，數據監測委員會（DMC）將收到由獨立的統計學家們所得出的匯總結果，並舉行會議進行討論。儘管在理論上可以多次修改樣本大小（例如，參見Cui，Hung，Wang，1999; Gao，Ware，Mehta，2008），但通常僅進行一次。通常會因應DMC的建議對試驗計劃書進行修訂，但是，DMC可以舉行不定期的安全評估會議（在某些疾病中，試驗功效終點也是安全終點）。 DMC的當前設置（稍作修改）可用於實現動態自適應設計。主要區別在於，採用動態自適應設計時，DMC可能不會定期舉行審查會議。獨立的統計人員可以在數據積累時隨時進行趨勢分析（可以通過可不斷下載數據的電子數據捕獲（EDC）系統來簡化此過程），但結果不必經常與DMC成員共享（但是，如果必要且監管機構允許，可以通過一些安全的網站將趨勢分析結果傳給DMC，但無需正式的DMC會議）；可以在正式DMC審查前，並認為趨勢分析結果有決定性時告知DMC。因為大多數試驗確實會對試驗計劃書進行多次修改，其中可能對樣本量進行不止一次的修改，考慮到試驗效率的提高，這不算是額外增加負擔。當然，此類決定應由發起人做出。DAD 和 DMC [0236] 本發明引入了動態數據監測概念，並展示了其在提高試驗效率方面的優點，其先進的技術使其能在未來的臨床試驗中實施。 [0237] DDM可直接服務於數據監測委員會（DMC），而大多數DMC 監測試驗為II-III期。 DMC通常每3或6個月開會一次，具體時間取決於試驗。例如，與沒有生命威脅性的疾病試驗相比，對於採用新方案的腫瘤學試驗，DMC可能希望更頻繁地舉行會議，在試驗的早期階段更快地了解安全情況。當前的 DMC做法涉及三個方面：發起人、獨立統計小組（ISG）和DMC。發起人的責任是執行和管理正在進行的研究。ISG根據計劃時間點（通常在DMC會議召開前一個月）準備盲性和解盲數據包，包括：表格、清單和圖形（TLF），準備工作通常需要3到6個月的時間。DMC成員在DMC會議前一周收到數據包，並將在會議上進行審查。 [0238] 當前的DMC在實踐中存有一些問題。首先，顯示的數據分析結果只是對於數據的一個快照，DMC看不到治療效果（有效性或安全性）的趨勢。基於數據快照的建議和能看到連續的數據追蹤的建議可能會不同。如下圖所示，在a部分中，DMC會建議兩個試驗I和II都繼續，而在b部分中，DMC可能建議終止試驗II，因其有負向的趨勢。 [0239] 當前的DMC進程也存在後勤問題。ISG大約需要3到6個月來準備DMC的數據包。而解盲通常由ISG處理。儘管假定ISG將保留數據完整性，但是人工的操作過程並不能100％的保證。借助DDM的EDC/IWRS系統具有安全性和有效性數據的優點，這些數據將由DMC直接進行實時監測。減少樣本量以提高效率 [0240] 理論上，減小樣本對於動態自適應設計和自適應群組序列設計都是有效的（例如，Cui，Hung，wang，1999，Gao，Ware，Mehta，2008）。我們在ASD和DAD的模擬上發現，減少樣本數量可以提高效率，但由於擔心“操作偏差”，在目前試驗中，修改樣本大小通常意味著增加樣本。非固定樣本設計的比較 [0241] 除了ASD，還有其他非固定樣本的設計。Lan et al（1993）提出了一種對數據進行連續監測的程序。如果實際效果大於假定效果，則可以儘早停止該試驗，但是該過程不包括SSR。 Fisher“自我設計臨床試驗”（Fisher（1998），Shen，Fisher（1999））是一種靈活的設計，它不會在初始設計中固定樣本量，而是讓“期中觀察”的結果來確定最終的樣本量，亦允許通過“方差支出”進行多個樣本大小的校正。群組序列設計、ASD、Lan等人（1993年）的設計均為多重測試程序，其中，在每個期中分析都要進行假設檢驗，因此每次都必須花費一些alpha來控制I型錯誤率（例如Lan， DeMets，1983，Proschan et al（1993））。另一方面，Fisher的自我設計試驗並非多重測試程序，因為無需在“期中觀察”上進行假設檢驗，因此不必花費任何Alpha來控制I型錯誤率。正如Shen，Fisher（ 1999年）所闡釋的：「我們的方法與經典的群組序列方法之間的顯著區別是，我們不會在期中觀察中測試其治療效果。」I型錯誤率控制是通過加權實現的。因此，自行設計的試驗確實具有上述“增加靈活性”的大部分，但是，它不是基於多點時間點分析的，也不提供無偏差點估計或信賴區間。下表總結了這些方法之間的異同。實施例八 [0242] 一項隨機、雙盲、安慰劑對照之IIa期研究被用於評估口服候選藥物的安全性和有效性。該研究未能證明功效。將DDM應用於研究數據，顯示了整個研究的趨勢。 [0243] 圖22包括具有95％信賴區間的主要試驗終點估計、Wald統計、計分統計、條件功效和樣本量比率（新樣本量/計劃的樣本量）。計分統計量、條件功效和樣本數量是穩定的，並且接近零（圖中未顯示）。由於圖中顯示不同劑量（所有劑量、低劑量和高劑量）與安慰劑的關係有相似的趨勢和規律，因此圖22中僅顯示所有劑量與安慰劑的關係。因標準差估計的原因，每組至少從兩名患者開始繪製。X軸為患者完成研究的時間。示意圖在每個患者完成研究後更新。 1）：所有劑量對比安慰劑 2）：低劑量（1000 毫克）對比安慰劑 3）：高劑量（2000毫克）對比安慰劑實施例九 [0244] 一項多中心、雙盲、安慰劑對照、4個組別的II期試驗被用於證明治療夜尿症的候選藥物的安全性和其有效性。將DDM應用於研究數據，顯示了整個研究的趨勢。 [0245] 相關圖中包括具有95％信賴區間的主要試驗終點估計、Wald統計（圖23A）、分數統計、條件功效（圖23B）和樣本量比率（新樣本量/計劃的樣本量）（圖 23C）。由於圖顯示不同劑量（所有劑量、低劑量、中劑量和高劑量）與安慰劑的關係有相似的趨勢和規律，圖中僅顯示所有劑量與安慰劑的關係。 [0246] 由於標準差估計的原因，每圖從組中的至少兩個患者開始。X軸為患者完成研究的時間。示意圖在每個患者完成研究後更新。 1：所有劑量vs安慰劑 2：低劑量vs安慰劑 3：中劑量vs安慰劑 4：高劑量vs安慰劑參考 1. Chandler, R. E., Scott, E.M., (2011). Statistical Methods for Trend Detection and Analysis in the Environmental Sciences. John Wiley & Sons, 2011 2. Chen YH, DeMets DL, Lan KK. Increasing the sample size when the unblinded interim result is promising. Statistics in Medicine 2004; 23:1023-1038. 3. Cui, L., Hung, H. M., Wang, S. J. (1999). Modification of sample size in group sequential clinical trials. Biometrics 55:853–857. 4. Fisher, L. D. (1998). Self-designing clinical trials. Stat. Med. 17:1551–1562. 5. Gao P, Ware JH, Mehta C. (2008), Sample size re-estimation for adaptive sequential designs. Journal of Biopharmaceutical Statistics, 18: 1184–1196, 2008 6. Gao P, Liu L.Y, and Mehta C. (2013). Exact inference for adaptive group sequential designs. Statistics in Medicine. 32, 3991-4005 7. Gao P, Liu L.Y., and Mehta C. (2014) Adaptive Sequential Testing for Multiple Comparisons,Journal of Biopharmaceutical Statistics , 24:5, 1035-1058 8. Herson, J. and Wittes, J. The use of interim analysis for sample size adjustment, Drug Information Journal, 27, 753Ð760 (1993). 9. Jennison C, and Turnbull BW. (1997). Group sequential analysis incorporating covariance information. J. Amer. Statist. Assoc., 92, 1330-1441. 10.Lai, T. L., Xing, H. (2008). Statistical models and methods for financial markets. Springer. 11.Lan, K. K. G., DeMets, D. L. (1983). Discrete sequential boundaries for clinical trials. Biometrika 70:659–663. 12.Lan, K. K. G. and Wittes, J. (1988). The B-value: A tool for monitoring data. Biometrics 44, 579-585. 13.Lan, K. K. G. and Wittes, J. ‘The B-value: a tool for monitoring data’,Biometrics, 44, 579-585 (1988). 14.Lan, K. K. G. and DeMets, D. L. ‘Changing frequency of interim analysis in sequential monitoring’,Biometrics, 45, 1017-1020 (1989). 15.Lan, K. K. G. and Zucker, D. M. ‘Sequential monitoring of clinical trials: the role of information and Brownian motion’,Statistics in Medicine, 12, 753-765 (1993). 16.Lan, K. K. G., Rosenberger, W. F. and Lachin, J. M. Use of spending functions for occasional or continuous monitoring of data in clinical trials, Statistics in Medicine, 12, 2219-2231 (1993). 17.Tsiatis, A. ‘Repeated significance testing for a general class of statistics used in censored survival analysis’,Journal of the American Statistical Association, 77, 855-861 (1982). 18.Lan, K. K. G. and DeMets, D. L. ‘Group sequential procedures: calendar time versus information time’,Statistics in Medicine, 8, 1191-1198 (1989). 19.Lan, K. K. G. and Demets, D. L. Changing frequency of interim analysis in sequential monitoring, Biometrics, 45, 1017-1020 (1989). 20.Lan, K. K. G. and Lachin, J. M. ‘Implementation of group sequential logrank tests in a maximum duration trial’,Biometrics. 46, 657-671 (1990). 21.Mehta, C., Gao, P., Bhatt, D.L., Harrington, R.A., Skerjanec, S., and Ware J.H., (2009) Optimizing Trial Design: Sequential, Adaptive, and Enrichment Strategies, Circulation,Journal of the American Heart Association , 119; 597-605 (including online supplement made apart thereof). 22.Mehta, C.R., and Ping Gao, P. (2011) Population Enrichment Designs: Case Study of a Large Multinational Trial,Journal of Biopharmaceutical Statistics , 21:4 831-845. 23.Müller, H.H. and Schäfer, H. (2001). Adaptive group sequential designs for clinical trials: combining the advantages of adaptive and of classical group sequential approaches. Biometrics 57, 886-891. 24.NASA standard trend analysis techniques (1988). https://elibrary.gsfc.nasa.gov/_assets/doclibBidder/tech_docs/29.%20NASA_STD_8070.5%20-%20Copy.pdf 25.O’Brien, P.C. and Fleming, T.R. (1979). A multiple testing procedure for clinical trials. Biometrics 35, 549-556. 26.Pocock, S.J., (1977), Group sequential methods in the design and analysis of clinical trials. Biometrika, 64, 191-199. 27.Pocock, S. J. (1982). Interim analyses for randomized clinical trials: The group sequential approach. Biometrics 38, (1):153-62. 28.Proschan, M. A. and Hunsberger, S. A. (1995). Designed extension of studies based on conditional power. Biometrics, 51(4):1315-24. 29.Shih, W. J. (1992). Sample size reestimation in clinical trials. In Biopharmaceutical Sequential Statistical Applications, K. Peace (ed), 285-301. New York: Marcel Dekker. 30.Shih, W.J. Commentary: Sample size re-estimation – Journey for a decade. Statistics in Medicine 2001; 20:515-518. 31.Shih, W.J. Commentary: Group sequential, sample size re-estimation and two-stage adaptive designs in clinical trials: a comparison. Statistics in Medicine 2006; 25:933-941. 32.Shih WJ. Plan to be flexible: a commentary on adaptive designs. Biom J; 2006;48(4):656-9; discussion 660-2. 33.Shih, W.J. "Sample Size Reestimation in Clinical Trials" in Biopharmaceutical Sequential Statistical Analysis. Editor: K. Peace. Marcel-Dekker Inc., New York, 1992, pp. 285-301. 34.K. K. Gordon Lan John M. Lachin Oliver Bautista Over‐ruling a group sequential boundary—a stopping rule versus a guideline. Statistics in Medicine, Volume 22, Issue 21 35.Wittes, J. and Brittain, E. (1990). The role of internal pilot studies in increasing the efficiency of clinical trials. Statistics in Medicine 9, 65-72. 36.Xi D, Gallo P and Ohlssen D. (2017). On the optimal timing of futility interim analyses. Statistics in Biopharmaceutical Research, 9:3, 293-301.

[0247] 1701~1710:步驟

[0060] 圖1是柱狀圖，根據歷史數據描繪了FDA在各個階段中批准候選藥物的近似成功概率。 [0061] 圖2描繪了隨著時間，兩種候選藥物的兩個假設臨床研究的功效評分。 [0062] 圖3描繪了實施群組序列（GS）設計的兩個候選藥物的假設臨床研究的功效和期中分析。 [0063] 圖4描繪了實施自適應群組序列（AGS）設計的兩個候選藥物的假設臨床研究的功效和期中分析。 [0064] 圖5描繪了實施連續監測設計，在期中分析時間點t1的兩個候選藥物的假設臨床研究的功效。 [0065] 圖6描繪了實施連續監測設計，在期中分析時間點t2的兩個候選藥物的假設臨床研究的功效。 [0066] 圖7描繪了實施連續監測設計，在期中分析時間點t3的兩個候選藥物的假設臨床研究的功效。 [0067] 圖8是本發明的實施例示意圖。 [0068] 圖9是本發明的實施例示意圖，描繪了其中的動態數據監測（DDM）部分/系統的工作流程。 [0069] 圖10是本發明的實施例示意圖，描繪了其中的網絡交互響應系統/部分（IWRS）和電子數據收集（EDC）系統/部分。 [0070] 圖11是本發明的實施例示意圖，描繪了其中的動態數據監測（DDM）部分/系統。 [0071] 圖12是本發明的實施例示意圖，進一步描繪了動態數據監測（DDM）部分/系統。 [0072] 圖13是本發明的實施例示意圖，進一步描繪了動態數據監測（DDM）部分/系統。 [0073] 圖14描繪了由本發明的實施例所輸出的假設臨床研究的統計結果。 [0074圖15描繪了通過本發明的實施例所輸出的候選藥物假設臨床研究的功效圖。 [0075] 圖16描繪了通過本發明的實施例所輸出的候選藥物假設臨床研究的功效圖，其中，重新估計了受試者的人數，並且重新計算了終止界線。 [0076] 圖17是本發明一實施例中的實施方式和步驟流程圖。 [0077] 圖18是本發明一實施例的臨床試驗模擬數據。 [0078] 圖19是本發明一實施例的趨勢比（TR）計算，由開始計算，每個時間間隔有4位患者) 。顯示在第一行。 [0079]圖20A和20B分別顯示了最大趨勢比的分佈，以及在試驗結束時使用最大趨勢比的Ho的（條件）拒絕率。 [0080]圖21顯示了不同表現分數區域的圖形（樣品大小為Np； Np0是具有固定樣品大小設計的臨床試驗所需的樣品大小，P0是所需的檢定力。表現分數（PS）= 1是最佳計分，PS = 0是可接受的分數，而PS = -1是最無希望的分數）。 [0081]圖22顯示了試驗最終失敗的Wald統計數據的全部紀錄。 [0082]圖23A至23C分別顯示了試驗最終成功的Wald統計數據、條件檢定力和樣本量比率的完整紀錄。

Claims

一種動態監測和評估進行中的與一種疾病相關的臨床試驗的方法，所述方法包括：(1)由數據收集系統實時從所述臨床試驗中收集盲性數據，(2)由與所述數據收集系統協同操作的一個解盲系統自動將所述盲性數據解盲，(3)依據所述解盲數據，通過一個引擎連續計算統計量、臨界值以及成敗界線，和(4)由一個輸出模組或介面輸出一項評估結果，該評估結果可為一第一結果或一第二結果，所述統計量選自計分檢定、點估計值(
)及其95%信賴區間、Wald檢定、條件檢定力(CP(θ,N,C|μ))、最大趨勢比(maximum trend ratio；mTR)、樣本數值比(sample size ratio；SSR)及平均趨勢比中的一項或多項。
如請求項1的方法，當滿足以下一項或是多項條件時，所述評估結果為第一結果：(1)最大趨勢(mTR)比率介於0.2~0.4之間，(2)平均趨勢比率不低於0.2，(3)計分統計數值呈現不斷上升之趨勢，又或者於信息時間的期間保持正數，(4)計分統計對於信息時間作圖的斜率為正，和(5)新樣本數不超過原計劃樣本數的3倍。
如請求項1的方法，當符合以下一項或是多項條件時，所述評估結果為第二結果： (1)所述最大趨勢比小於-0.3且所述點估計值(
)為負值，(2)觀察到的點估計值(
)呈現負值的數量超過90，(3)計分統計數值呈現不斷下降之趨勢，又或者於信息時間的期間保持負數，(4)計分統計對於信息時間作圖的斜率為0或是趨近於0，且只有極小的機會跨越成功邊界，和(5)新樣本數超過原計劃樣本數的3倍。
如請求項1的方法，其中，當所述評估結果為第一結果時，所述方法還包括由引擎評估所述臨床試驗和由輸出模組或介面輸出一項額外結果，該額外結果表明是否需要樣本數調整。
如請求項4的方法，當SSR穩定在[0.6-1.2]之內時，不需要樣本數調整。
如請求項4的方法，其中，當SSR穩定並且小於0.6或大於1.2時，需要所述樣本數調整，其中新的樣本數通過滿足以下條件來計算：
，或

，其中(1-β)為所需的條件檢定力。
如請求項1的方法，所述數據收集系統是一個電子數據收集(EDC)系統。
如請求項1的方法，所述數據收集系統是一個網絡交互響應系統(IWRS)。
如請求項1的方法，所述引擎是一個動態數據監測(DDM)引擎。
如請求項6的方法，所述條件檢定力為至少90%。
一種動態監測和評估進行中的與一種疾病相關的臨床試驗的系統，所述系統包括：(1)一個數據收集系統，所述系統實時從所述臨床試驗中收集盲性數據，(2)一個解盲系統，所述解盲系統與所述數據收集系統協作，自動將所述盲性數據解盲，(3)一個引擎，所述引擎依據所述解盲資料，系統連續計算統計量、閾值以及成敗界線，(4)一個輸出模組或介面，所述輸出模塊或介面輸出一項評估結果，該評估結果可為一第一結果或一第二結果，其所述統計量選自計分檢定、點估計值(
)及其95%信賴區間、Wald檢定、條件檢定力(CP(θ,N,C|μ))、最大趨勢比(maximum trend ratio；mTR)、樣本數值比(sample size ratio；SSR)及平均趨勢比中的一項或多項。
如請求項11的系統，當滿足以下一項或是多項條件時，所述評估結果為第一結果：(1)最大趨勢比率落於0.2~0.4之間，(2)平均趨勢比率不低於0.2，(3)計分統計數值呈現不斷上升趨勢，又或者於信息時間的期間保持正數，(4)計分統計與信息時間間斜率為正，和(5)新樣本數不超過原計劃樣本數的3倍。
如請求項11的系統，當符合以下一項或是多項條件時，所述評估結果為第二結果：(1)所述最大趨勢比小於-0.3且所述點估計值(
)為負值，(2)觀察到呈現負值的點估計值(
)數量超過90，(3)計分統計數值呈現不斷下降趨勢，又或者於信息時間的期間保持負數，(4)計分統計對於信息時間作圖的斜率為0或是趨近於0，且只有極小的機會可跨越成功邊界，和(5)新樣本數超過原計劃樣本數的3倍。
如請求項11的系統，所述評估結果為第一結果時，所述引擎評估所述臨床試驗，並輸出一項額外結果，該額外結果表明是否需要樣本數調整。
如請求項14的系統，當SSR穩定在[0.6-1.2]之內時，不需要樣本數調整。
如請求項14的系統，其中，當SSR穩定並且小於0.6或大於1.2時，需要所述樣本數調整，其中新的樣本數通過滿足以下條件來計算：
，或

，(1-β)為所需的條件檢定力。
如請求項11的系統，所述數據收集系統是一個電子數據收集(EDC)系統。
如請求項11的系統，所述數據收集系統是一個交互式網絡響應系統(IWRS)。
如請求項11的系統，所述引擎是一個動態數據監測(DDM)引擎。
如請求項16的系統，所述條件檢定力為至少90%。