分享|生物统计学之《肿瘤篇》(上期)

2022
05/19

+
分享
评论
法迈新媒体
A-
A+

肿瘤临床试验中一些涉及到统计学的问题。

如今,肿瘤临床试验已成为最常见的临床试验,但与别的治疗领域的临床试验相比,肿瘤临床试验在研究目的、终点的选择、数据的分析以及结果的解释等方面都有所不同,这里分享一下肿瘤临床试验中一些涉及到统计学的问题。


研究目的

开展一项临床试验,首先,我们必须要有一个研究目的,也就是我们想通过临床试验要解决什么问题,肿瘤临床试验也不例外。对于肿瘤临床试验来说,针对疗效常见的主要研究目的无非分为两种情况:一种情况是证实一种治疗优于另一种治疗,而另一种情况是证实一种治疗非劣于另一种治疗。这里重点讨论的是肿瘤临床试验中关于治疗方案的选择,这一点与很多别的治疗领域有一些不同。下边我们来看一下常见的几种情况:

(1)B  vs.  A:

对于某一种肿瘤疾病,现已存在一种比较公认的治疗(A),我们研发出一种新的治疗(B),这种新的治疗(B)能取得更好的疗效,或者说疗效相当,但在安全性或别的方面更有优势。 例1 :Gordon AN, et al. Long-term survival advantage for women treated with pegylated liposomal doxorubicin compared with topotecan in a phase 3 randomized study of recurrent and refractory epithelial ovarian cancer. Gynecol Oncol. 2004 Oct;95(1):1-8. 这个试验的目的是比较两种化疗药物pegylated liposomal doxorubicin和topotecan治疗复发性和难治性卵巢癌,研究设计为pegylated liposomal doxorubicin疗效优于topotecan。 主要基于这个试验,FDA和EMEA批准pegylated liposomal doxorubicin用于铂类基础化疗后进展或复发的卵巢癌患者的治疗。 例2:M. E. R. O’Brien1 et al. Reduced cardiotoxicity and comparable efficacy in a phase III trial of pegylated liposomal doxorubicin HCl (CAELY /Doxil) versus conventional doxorubicin for first-line treatment of metastatic breast cancer. Annals of Oncology. 2004; 15: 440–449. 这个试验的目的是比较两种化疗药物pegylated liposomal doxorubicin和conventional doxorubicin一线治疗转移性乳腺癌的疗效和安全性的研究,本研究设计为在疗效方面pegylated liposomal doxorubicin非劣效于conventional doxorubicin,但在心脏安全性方面pegylated liposomal doxorubicin优于conventional doxorubicin。 主要基于这个试验,EMEA批准pegylated liposomal doxorubicin用于高危心脏病的转移性乳腺癌患者的单药治疗。 

(2)A+B  vs.  A: 

某种肿瘤疾病已经存在一个比较成熟标准的治疗A了,我们研发出了一种新的药物B,这种新的药物B和A 联用疗效会比单纯只用A治疗更好。 例:Slamon DJ, et al. Use of chemotherapy plus a monoclonal antibody against HER2 for metastatic breast cancer that overexpresses HER2. N Engl J Med. 2001 Mar 15;344(11):783-92. 这个试验的主要目的是比较化疗+trastuzumab与单纯化疗治疗HER2过度表达的转移性乳腺癌。研究设计为化疗+trastuzumab优于单纯化疗。 主要基于上述这个试验,FDA批准trastuzumab与紫杉醇联合使用作为转移性乳腺癌HER2(+)患者的一线治疗方案。 

(3)Surgery+A  vs.  Surgery 

这种情况就是我们通常所说的手术后辅助治疗,即通过手术后使用辅助治疗药物对比单纯手术,来证实A用于术后辅助治疗的作用。这种开发出一种治疗用于术后辅助治疗在肿瘤领域中越来越多,肿瘤有相当大一部分是手术治疗,如果药物不仅能用于单纯化疗,而且还能用于术后辅助治疗,使得药物的使用人群大大扩展了。 例:Eggermont AM, et al. Adjuvant therapy with pegylated interferon alfa-2b versus observation alone in resected stage III melanoma: final results of EORTC 18991, a randomised phase III trial. Lancet. 2008 Jul 12;372(9633):117-26.  这个试验的主要目的是比较III期黑色素瘤手术后使用pegylated interferon alfa-2b与手术后观察。研究设计为手术后使用pegylated interferon alfa-2b优于手术后观察。 主要基于上述这个试验,FDA批准pegylated interferon alfa-2bIII期黑色素瘤的辅助治疗。  除了上边提及的手术后辅助治疗,还有手术前新辅助治疗,即在手术前使用化疗或其他治疗药物。 

(4)Radiotherapy + A  vs. Radiotherapy 

这种情况和第3种情况类似,在临床试验中,最常见的莫过于同步放化疗与单独放疗的比较。此外还有放疗后辅助化疗,以及放疗前化疗等。 Stupp R, et al.Radiotherapy plus concomitant and adjuvant temozolomide for glioblastoma. N Engl J Med. 2005 Mar 10;352(10):987-96. 在这个试验中,对替莫唑胺同步放化疗与单独放疗治疗胶质瘤进行了比较,结果替莫唑胺同步放化疗能取得更显著的生存收益。 基于此试验的结果,FDA批准替莫唑胺用于同步放化疗治疗胶质瘤。 以上提及了几种简单的肿瘤试验中治疗方案的设计,由于肿瘤治疗涉及到化疗、放疗和手术治疗,而化疗很多情况下都是不同的联合化疗方案,而化疗、放疗和手术治疗三者又可以相互结合,相互结合时三种不同治疗的先后顺序也有不同的组合,所有这一切都决定了肿瘤试验中的研究设计特别是治疗方案设计的多样性和复杂性,其实万变不离其宗,我们需要抓住的就是主要研究目的是什么,而对治疗方案的不同组合,作为一个统计师也必须有所了解,这一点对研究设计也大有裨益。 

Endpoints(终点)  

一项临床试验的研究目的确定后,下一步就要确定能提供与研究目的相关且可信的临床证据的终点。在FDA的指导原则中,把肿瘤试验的终点分为以下四类: (1)Overall survival 总生存期 (2)Endpoints Based on Tumor Assessments  基于肿瘤评估的终点 (3)Endpoints Involving Symptom Assessment 涉及症状评估的终点 (4)Biomarkers 生物标记物  


肿瘤试验终点一:Overall survival 

总生存期 

对于一种肿瘤药物,病人能从其中获得最大也是最直接的临床获益当然是生存时间的延长,这也是每个肿瘤病人所苦苦追求的终极目标。因此,对于肿瘤试验最硬性最直接,也可以说称之为gold standard(金标准)的终点就是overall survival(总体生存期)。 Overall survival定义为从随机化到病人因各种原因而死亡的的时间,而且是基于ITT人群的。下边我们来看一下overall survival 的主要优点和缺点: 

优点: (1)可靠:生存时间的延长本身就是最直接也是最不容置疑的临床收益 (2)易于测量:病人是生还是死,都是比较容易判断的 (3)精确没有偏倚:病人死亡时我们会记录病人死亡的日期,这一日期一般都是比较精确的,因此在终点测量时不会产生什么偏倚 (4)统计学意义可被视为临床意义:生存期的延长无论多大和多少,只要有统计学意义,都可以被视为有临床意义 

缺点: (1)试验时间比较长:我们需要观察到死亡,必然要求随访时间要很长 (2)样本量比较大:基于死亡事件的检验,死亡差异往往比其他的指标的差异要小,需要入组更多的病人,得到更多的死亡事件,才能检验出差异 (3)容易受其他非试验药物治疗的影响:病人在服用完药物后,在较长的生存随访期内如果疾病没有好转或恶化,就可能服用其他别的药物,特别是对于肿瘤病人来说,是最容易换药的,我们无法控制病人服用其他的药物,因此对于生存期这种长期随访的评价,很容易受到其他药物的影响。 (4)非肿瘤死亡:因为overall survival中的死亡包括各种原因的死亡,这就意味着一些不是由于肿瘤造成的死亡比如车祸等也被包括在内了,自然对最终的评价也会产生影响。 总之,overall survival是肿瘤试验的金标准终点,如果条件允许,它应该是我们首选的终点,但一旦选择了overall survival,就意味着样本量的增加和试验时间的延长,也就是试验规模的扩大,当然这一切都意味着成本的增加,这种成本不仅是物力成本,更多的是时间成本,这一切都最终意味着我们需要付出更多的预算。 


肿瘤试验终点二:Endpoints Based on Tumor Assessments 

基于肿瘤评估的终点 

1. PFS(Progression-Free-Survival,无进展生存期)和TTP(Time-to-Progression,至肿瘤进展时间)  

除了overall survival,PFS和TTP已成为肿瘤试验中最为常见的主要终点。PFS定义为从随机化到病人出现肿瘤进展或死亡的时间,而TTP则定义为从随机化到病人出现肿瘤进展的时间。从两者的定义可以看出,两者类似,唯一不同的在于PFS包括死亡,而TTP不包括死亡。从这个意义来说, PFS包括死亡,更能预测和反应临床收益,因此相比TTP,PFS是首选的终点。 PFS作为肿瘤试验的终点有什么主要优点和缺点呢? 

优点: (1)PFS反应了肿瘤的增长,而肿瘤的增长在很大程度上是造成肿瘤相关死亡的原因,因此具有一个作为替代终点很好的特性。 (2)PFS无需非要等到出现死亡事件,因此随访时间会大大缩短 (3)相比较overall survival,PFS的magnitude会更大。同样的两组治疗,两组间PFS的差异往往会比两组间overall survival的差异更大,也就是说我们需要更少的事件数来检验出差异,这也就意味着病例数的大大缩减。 (4)较少受非研究药物治疗的影响。因为病人往往是在药物治疗无效即疾病出现进展的情况后才开始考虑换药,因此对于PFS的测量往往是在病人换药之前,这就使得PFS不像overall survival那样容易受非研究药物治疗的影响。 

缺点: (1)PFS的确认对于许多种类的肿瘤比较困难 (2)PFS的测量不如OS精确,因为PFS的测量主要依赖于一些放射学检查,某个病人在某次放射学检查时出现进展,那么它的进展日期就记录为放射学检查的这一天,其实很可能病人在这次放射学检查前早就出现进展了,只是没有进行放射学检查确定而已,因此在时间精度方面肯定不如死亡时间那么精确,特别是当放射学检查时间隔的比较长时 (3)主观偏倚,因为进展与否最终还是由研究者根据放射学检查主观判定的 (4)频繁的放射学检查对病人身体有害 

2. DFS (Disease-Free Survival,无病生存期) DFS通常定义为从随机化到病人出现肿瘤复发或任何原因死亡的时间。DFS最常用于手术治疗或放疗后辅助治疗的终点。DFS的主要优点是与OS相比,其病例数和试验时间都会大大减少,主要缺点一是测量不精确,会产生偏倚;二是其定义在不同的情况下各异。

3. ORR (Objective Response Rate,客观缓解率) ORR是指肿瘤大小缩小到预先规定值并能维持最低时限的病人的比例。FDA通常把ORR定义为完全缓解(CR, complete response)和部分缓解(PR, partial response)的总和。ORR可以测量药物的抗肿瘤活性。当然对于其评价标准,要尽可能地标准化,现在比较通用的是RECIST。在使用ORR作为终点时,往往同时汇报缓解持续时间以及完全缓解率的结果。ORR最大的优点在于它可以在单组试验中作为终点。ORR不能直接反应临床收益,只能反应少数病人中的抗肿瘤活性。 

4. TTF (Time to Treatment Failure,治疗失败时间) TTF是一个复合终点,定义为从随机化到因任何原因而终止治疗的时间,其中的任何原因包括疾病进展、治疗毒性以及死亡。由于它把疗效和毒性结合在一起,分不清到底是疗效还是毒性的原因导致终止治疗,因此一般不推荐作为药物批准的终点。 


肿瘤试验终点三:Endpoints Involving Symptom Assessment 

涉及症状评估的终点 

症状的改善通常被认为是一种临床收益(clinical benefit),也确实有很多肿瘤药物的批准使用病人症状的评估来显示症状的改善,从而作为疗效的主要依据。涉及症状评估的终点分为特定症状终点(specific symptom endpoint)和复合症状终点(composite symptom endpoint)。特定症状终点如至肿瘤症状进展时间,就是一个直接测量临床收益的终点。而复合症状终点即不是一个症状,而是多个症状的综合,基于复合收益。 对于涉及症状评估的终点最大的优势当然是它是直接测量临床收益,缺点也不少,比如肿瘤试验中无法实行盲法,缺失数据较多,测量工具的validation问题等。 


肿瘤试验终点四:Biomarkers 

生物标记物 

A characteristic that is objectively measured and evaluated as an indicator of biologic processes, pathogenic processes, or pharmacologic responses to therapeutic intervention. 比如常见的前列腺癌中的PSA,卵巢癌中的CA125等。但生物标记物可以作为复合终点中的一个组成部分,很少单独作为药物批准依据的终点。 


肿瘤临床试验中终点的选择 

说起肿瘤药物审批依据的终点,首当其冲的便是Overall Survival,它被称为肿瘤试验的金标准终点,如果能显示出生存的情况,Overall Survival是药物审批的主要依据。如果条件允许,Overall Survival便是首选,Overall Survival对死亡事件可以100%地准确测定,对死亡时间也近乎100%准确测定。 尽管Overall Survival是如此的金标准,但这也并不意味着只有试验药显示出生存情况的改善才能批准。但据FDA从1990年1月到2002年12月的统计,在所有57个常规审批的药物中,有近70%的药物是通过其他终点而批准的。当然,这只是以前的统计数字,现在对药物的审批越来越严,FDA要求越来越多的试验都要把overall survival作为其主要获批终点,但这也不妨碍我们下边对一些非Overall Survival终点而最后获批的例子的讨论。 需要提醒大家的是,很多例子都是case by case的,并不一定代表普遍性,可能例子中获批的药物,同样的情况放在现在,由于各种政策环境的影响也不一定会获批,因此不能作为大家选择终点的依据,只能供大家参考,关于肿瘤试验终点的选择,涉及的东西比较多,特别是肿瘤分类,治疗情况等,因此最好的办法是和当地的药监部门进行咨询,并征求临床医生的意见,最终确定一个合理的可以接受的终点。 下边重点介绍一下根据非Overall Survival终点而最后获批的情况。 


例1: 2009年7月31日,FDA批准Avastin联合干扰素alpha治疗转移性肾癌。而此批准的主要依据为BO17705 研究的结果,在这项结果中,Avastin治疗的病人的中位PFS延长了5个月。 BO17705是一项随机、双盲、安慰剂对照治疗肾切除术的转移性肾癌。试验组和对照组分别为Avastin加干扰素alpha-2a,以及干扰素alpha-2a加placebo。本研究的主要终点是PFS,分别由研究者以及independent review committee做出评价。总共入组了649例病人(Avastin加干扰素alpha-2a组327例,干扰素alpha-2a加placebo组322例)。

结果发现,Avastin加干扰素alpha-2a组和干扰素alpha-2a加placebo组的中位PFS分别为10.2个月和5.4个月,HR=0.60 (95%CI: 0.49,0.72),p<0.0001。而independent review committee的分析结果也类似,分别为10.4个月和5.5个月,HR= 0.57 (95%CI: 0.45, 0.72)。研究结果并未显示出Avastin加干扰素alpha-2a组对比干扰素alpha-2a加placebo组在overall survival上的显著差异,HR= 0.86 (95%CI: 0.72, 1.04), p= 0.13. 以上就是一个典型的通过PFS作为主要终点而最后获批的例子。其实在一些肿瘤的二线治疗中,由于这时疾病已经比较严重了,往往会阻止检验出治疗对OS的显著影响,此时PFS可以是一个可以接受的终点。事实上大家会发现,PFS作为主要终点很多的情况是用于一些肿瘤的二线甚至三线治疗的试验中。而一旦PFS选作主要终点,那么OS应该作为次要终点,对其结果进行汇报。从上边这个试验,大家还可以看出一点,就是一旦PFS作为主要终点,我们必须考虑到PFS的偏倚,因此试验中加入了一个independent review committee对PFS的评估进行确认,而其他如盲态试验或者盲态核查也是最好推荐使用的。 


例2: 2004年8月18日,FDA批准docetaxel (Taxotere)联合doxorubicin 和cyclophosphamide用于可手术的淋巴结阳性的乳腺癌的辅助治疗。在其pivotal试验中,主要终点为DFS,包括局部或远处复发,对侧乳腺癌及任何原因的死亡。其批准的主要依据在于,包含docetaxel的TAC方案在DFS方面显著优于FAS方案,HR= 0.74 (95% CI: 0.60,0.92),P=0.0047。 


例3 2004年12月5日,FDA批准ELOXATIN联合5-FU/LV用于完全切除术后的III期结肠癌的术后辅助治疗。FDA批准的依据为MOSAIC研究,这项146个中心2246例病人参加的随机III期研究的主要终点为DFS。研究结果发现,与5-FU/LV相比,ELOXATIN联合5-FU/LV能显著改善PFS,4年DFS分别为61%和70%,p=0.002。 以上这两个例子,就是典型的基于DFS来批准药物的例子。DFS的应用最常见于手术或放疗后的辅助治疗,特别是在乳腺癌辅助治疗以及结肠癌辅助治疗中,DFS已经成为药物审批的主要依据和基础。例如在乳腺癌的辅助治疗中,我们耳熟能详的一些肿瘤药物如paclitaxel、Trastuzumab、Doxorubicin 、Epirubicin、Tamoxifen、Anastrozole、Letrozole、Exemestane等都是主要依据DFS而获批的。 


例4:2000年9月26日,Cell Therapeutics公司宣布其新药Trisenox(arsenic trioxide)被FDA批准用于复发或标准治疗无效的急性早幼粒细胞白血病。而此审批的pivotal试验为一项在9个中心进行的Trisenox治疗40例复发/难治的急性早幼粒细胞白血病的研究。试验结果发现,70%的病人达到了完全缓解,而且平均在开始服用Trisenox两个月内便达到完全缓解,并且大多数达到完全缓解的病人在中位期为16个月的随访时间内仍无进展。 上边这个例子便是根据肿瘤应答情况(objective response)即完全缓解来批准药物的一个例子,分析起来,有以下几个原因:

 (1)研究疾病是非常严重的疾病,目前缺乏有效的治疗,比如复发或其他标准治疗无效的疾病。在这个例子中,研究的疾病就是复发或标准治疗无效的急性早幼粒细胞白血病,其目前的治疗一般是毒性较高和很少有效的。

 (2)对于白血病来说,完全缓解与减少感染、出血和血制品的支持疗法有关,所以完全缓解被认为是一种可以接受的临床获益终点。 而从上例中,大家也会发现其pivotal试验只是一个single arm试验,这便是用Objective response rate作为终点的一大优点,便是可接受单组试验中的缓解率作为审批的依据。 其实上边这个例子比较具有代表性,即有时在一些难治或复发的恶性血液肿瘤中,完全缓解可以作为药物审批的依据。 关于肿瘤试验终点的选择,始终是肿瘤试验研究设计中一项颇具挑战和争议的问题,为此FDA开展一系列项目来评估肿瘤试验的终点,这些项目包括了最为常见的一些肿瘤,如卵巢癌、肺癌、前列腺癌、脑肿瘤、结肠癌、多发性骨髓瘤、急性白血病等。对于每种肿瘤,FDA都将召开一个公开的workshop,提出一些相关的问题,并在ODAC会议上进行讨论,然后形成比较统一的意见或指导。会议参加者包括肿瘤专家、放射学家、统计师、制药公司代表以及病人代表等。关于这些workshop和会议的相关资料,大家可参加下边这个链接: “The selection of an end point should attempt to minimize subjectivity and bias and preserve clinical benefit observed in earlier drug approvals for the indication.” 


生存分析 

肿瘤试验的endpoints,如overall survival,PFS,DFS等,从这些endpoints的定义,我们可以发现它们都有一个特性,就是它们都是研究一种事件(死亡、疾病进展、复发等)所经历的时间,也就是我们常说的time until an event occurs,这种数据或变量,我们有一个称呼叫time-to-event,或直接称呼生存数据。怎么对这种数据进行分析呢?我们以前提到的那些常规的统计方法能不能解决呢? 我们通过下边这个简单的例子来看一下:

 对分别接受A和B治疗的1000例肾癌病人进行5年的随访,研究一下不同的治疗以及一些预后因素(如年龄、性别、病情等)对其存活状况的影响。 对于这个数据分析,有人可能会想到以下的常规的统计方法:

(1)Logistic回归,应变量为两分类变量:生或死 

(2)线性回归:把病人从治疗到死亡的时间作为应变量 如果采取(1)的方法,那么我们就忽略了病人死亡时间这个重要的信息,如果A组和B组到5年随访结束时差不多都有80%的病人死亡,但A组病人大多数都是在1-2年时死亡,而B组大多数是在4-5年时死亡,显然B治疗优于A治疗,但采取logistic回归却忽略了这些信息,无法做出精确的估计。 

如果采取(2)的方法,那怎么来处理那些5年随访后还存活的病人呢?如果把这些病人都排除掉,那么就有可能会丢弃大量数据,导致结果的偏倚,如果给这些病人赋予一个替代值,比如说都算5年,但毕竟不是真实的数据,那么也会产生偏倚。 因此,对于生存数据的分析,常规的统计方法都无法解决,而我们必须引进一种新的统计方法,即专门来对这种occurrence and timing of events进行分析的方法,这就是生存分析(survival analysis)。 生存数据的本质是time until an event occurs. 那么对于生存数据来说,主要由两个要素构成,即event和time。 什么是event呢?对于生存分析来说,我们第一想到的便是死亡,这是一个最常见也是最标准的event。其实event有很多,比如疾病进展、复发、疾病缓解等等。如果真要给event一个定义的话,我想我们可以定义为在某个时间能发生的质的改变,也就是所谓的qualitative change,即从一个离散状态转变为另一个离散状态。比如死亡,是从生的状态转变为死的状态,疾病进展是从未进展到进展的转变。 所谓time,是指从病人随访开始直到发生event的时间(年、月、周、天等)。

在这里有两个时间点:the origin of time 即随访开始时间,the time of event occurrence即event发生的时间,而time则是这两个时间点的差值。 对于the origin of time,即我们常说的随访开始的时间,在肿瘤临床试验中,这个时间往往是指随机治疗的时间。 而对于the time of event occurrence,当然最理想的情况是,event一发生就得知其确切时间,比如死亡,一般都能得知其准确时间,但有时其event确切时间可能是未知或模糊的,比如在PFS中,对于疾病进展的判断往往需要一些放射学检查,而放射学检查不是随时随地的,因此实际的疾病进展确切时间和临床判断的疾病进展时间往往是不同的。 在一个肿瘤试验中,每个病人的生存时间可能不尽一致,有的可能一年就死亡了,有的两年死亡,有的五年、十年甚至更长,作为一个临床试验,我们不可能在等待所有病人都死亡后再进行分析,这时就势必会出现一些病人在试验结束时还没有死亡,这样我们在分析时就无法得知这个病人确切的生存时间,这时就会出现我们生存分析中的Censoring。 Censoring,国内一般翻译为删失,通常发生在对于生存时间数据不完全的情况下,即我们无法得知确切的生存时间。通常来说,censoring一般会发生在以下几种情况下: (1)病人在试验结束时还没有发生event (2)病人在试验期间失访 (3)病人在试验期间由于别的原因诸如不良反应等退出试验  下边通过一个简单的例子,给大家简单介绍一下几种常见的生存情况:

89181652959152318 72661652959152388 32071652959152438 

注:X代表死亡

(1)A病人从研究开始时入组,在3年时死亡,因此A病人生存时间为3年 

(2)B病人从研究开始时入组,到6年研究结束时仍存活,因此B病人censoring,censoring时间为6年 

(3)C病人1年时入组,在3年时由于不良反应退出,因此C病人censoring,censoring时间为2年 

(4)D病人3年时入组,到6年研究结束时仍存活,因此D病人censoring,censoring时间为3年 

(5)E病人2年时入组,在3年时失访,因此E病人censoring,censoring时间为1年

(6)F病人3年时入组,5年时死亡,因此F病人的生存时间为2年 例子中,所有4个censoring病人都是在随访期开始后由于失访、退出或试验结束导致没有观察到死亡事件,即所有病人的生存时间数据都是在随访开始时间的右侧开始变得不完整的。我们通常把这种类型的censoring叫做right censoring。大多数生存数据的censoring都属于right censoring。 与right censoring相对应的便是left censoring了,那什么是left censoring呢?一句话就是当开始观察某个对象时,他已经发生event了。比如,想研究女孩的月经发生时间,我们从女孩12岁时开始随访,可能会发现有些女孩在开始随访时,就已经有月经了,那么这就是left censoring。 生存分析censoring通常都属于right censoring,我们对censoring的介绍也主要基于right censoring。  生存分析中的censoring又可以分为Type I censoring和Type II censoring。 

(1)Type I censoring:有人称其为fixed time censoring,指在临床试验中预先指定一个时间点终止试验,此时产生的censoring即为Type I censoring。例如一项随访5年的肺癌临床试验,即到5年时试验结束,由此产生的censoring就是Type I censoring。 

(2)Type II censoring:有人称其为fixed event censoring,指在临床试验中预先指定一个event数量,如果临床试验中观察到的event达到这个数量即终止试验,此时产生的censoring即为Type II censoring。例如一项1000人参加的肺癌临床试验,我们规定只要观察到600例病人死亡即终止试验,由此产生的censoring就是Type II censoring。 下面介绍一下生存分析中的几个基本概念和术语: 

1. 生存函数 

T:病人生存时间 t:某个规定的时间 那么我们可以得出生存函数S(t) S(t)=P(T>t) 生存函数S(t)给出了病人存活长于某个规定时间t的概率:即S(t)给出了随机变量T大于规定时间t的概率。

t (年)S(t) = P(T>t)
1S(1)= P(T>1)
2S(2)= P(T>2)
3S(3)= P(T>3)

上表中S(1)= P(T>1)就表示病人存活长于1年的概率,而S(2)= P(T>2)就表示病人存活长于2年的概率。 90471652959152498 

生存函数S(t)=P(T>t),当t=0时,S(0) = P(T>0)=1,因为试验刚开始时病人都活着,因此生存的概率为1;当t=∞时,S(∞) = P(T>∞)=0,因为如果时间无限拉长,病人终究会死亡的,因此最后生存的概率为0。而且随着t从0到∞,S(t)会越来越小,上图就是一个理论的生存函数S(t)。  33341652959152542 

但在我们实际的临床试验中,实际的曲线不会那么平滑,可能会像上图中的那样呈step状,而且我们的临床试验也不是无限期进行下去的,因此不是每个研究病人都能观察到死亡的,因此在试验结束时,曲线不会一直下降到0。 风险函数(hazard function) 风险函数(hazard function,h(t))的目的是确定在t时间发生event的瞬间风险。这里介绍一下这个公式的基本思路: 6491652959152585 

第一步: 由于时间是连续性数据,那么在精确的时间点t发生事件的概率几乎为0。但是我们可以讨论在一个小的时间间隔t到t+Δt之间发生event的概率,即P(t<=T<t+Δt)。 

第二步: 把这个概率建立在已经存活到t时间的基础上,即所谓的条件概率,这是因为如果病人在t时间时已经发生event了,那么他就不会在t到t+Δt之间发生event了 ,因此我们采用了条件概率,即P(t<=T<t+Δt|T>=t)。 

第三步: 对于P(t<=T<t+Δt|T>=t),Δt越长,那么在这个间隔内发生event的可能性越大,因此我们需要调整一下,即把它除以Δt,这时出现的一个重大变化是这时的P(t<=T<t+Δt|T>=t)/Δt就不再是一个probability,变化前的取值为0-1,而变化后取值可以根据时间刻度的不同为0到无穷。 

第四步: 由于我们确定的是在t时间发生event的瞬间风险,而不是在t到t+Δt间隔时间,因此我们让Δt越来越小,直到极限,这就是公式中的lim  Δt   0,因此最后形成了上边这个h(t)函数公式.  和上边例子中的速度类似,hazard function h(t)告诉的是在t这个时间点发生event的瞬间风险。因此,从这个意义上来说,hazard有时会被称作rate。在解释hazard值时,应该知道它测量的时间单位。例如,假设在某个时间点患感冒的hazard是0.2,测量单位是月,那么就意味着如果风险在下一个月保持在这个值的话,预期会患感冒0.2次;而如果风险是2.0,测量单位是年,那么假设hazard保持不变,则在下一年预期感冒2次。 从上边的解释,我们可以看出可以把hazard解释为每单位时间event的数量。我们把h(t)取一下倒数,即1/h(t),即告诉我们在h(t)不变的情况下,到出现event需要的时间。例如这一刻死亡的hazard是0.016/年,那么预期将还能存活1/0.016=60年,当然这个估计是基于所有的情况都完全保持一致的情况。实际上随着年龄的增加,这个hazard肯定会增加。同样的,上边那个例子,患感冒的hazard是0.2/月,那么估计下次患感冒会是1/0.2=5个月后。 与survival function从1开始向0不断下降的图示不同,hazard function可以从任何地方开始,并向上向下向任何方向发展,如下图。不难看出hazard 有以下两个特点: 

(1)它总是大于等于0的 

(2)它没有上限 而具体到hazard function,如上图,我们一般有以下几种情况:

(1)hazard 保持不变(constant hazard)  当hazard保持不变时,我们称这时的生存分布为指数分布(exponential),指数分布是生存分布中最简单、最重要的分布,其重要性类似于正态分布在其他统计领域中的应用。 

(2)hazard随着时间而上升  当hazard随着时间而上升,我们称这时的生存分布为Increasing Weibull分布。举个例子,一些治疗无效的肿瘤病人可能随着时间的增加,其疾病会逐渐恶化,因此死亡的可能越来越大。 

(3)hazard随着时间而下降  当hazard随着时间而下降,我们称这时的生存分布为Descreasing Weibull分布。举个例子, 某生命危重的病人经过手术后慢慢恢复,手术后随着时间延长,其死亡的风险可能会降低 

(4)hazard随着时间先增加后下降 当hazard随着时间先增加而后下降,我们称这时的生存分布为lognormal分布,比如结核病人死亡风险早期先增加,而后便下降。 对于生存分析中的两个function,即survival function S(t)和hazard function h(t)。S(t)比较简单,能直接描述受试者的生存状况,应用比较广泛,而h(t)本身也有很多优势,它可以用来确定某些特定的模型比如前边提及的指数分布、Weibull分布、lognormal分布等,另外生存分析的模型一般也是hazard function为基础的。当然h(t)和S(t)两者之间也是可以转化的,在实际的分析过程中,电脑程序会进行转换,我们这里需要记住的一点就是,h(t)和S(t)两者中,只要知道一者,就可以直接得出另一者。   


Kaplan-Meier检验 

一提到肿瘤试验的统计分析方法或者说一提到生存分析的方法,很多人的第一反应会出现两个名词,Kaplan-Meier和log-rank检验。确实这两个词是在肿瘤试验结果报告中出现频率最高的两个词。那到底什么是Kaplan-Meier和log-rank呢?

首先我们开始从Kaplan-Meier讲起。 Kaplan-Meier是临床试验中应用最为广泛的用来估计survival function的方法,其实质叫product-limit法(PL法),由于是Kaplan和Meier这两个人提出的,因此后人一般都叫它Kaplan-Meier法。 这里简单介绍一下Kaplan-Meier法。 例:A和B两种药物治疗白血病,生存状况如下(月)结果如下: A组:10, 2,12+,13,18,6+,19,24+,9+,8 B组:2+,13,7,11+,6,1,11,2,4+,6 +代表censored 首先我们把上边这个数据,整理成生存分析的基本数据结构,这个基本数据结构也是SAS数据库中的生存分析的基本数据库。 

PATINETMONTHSTATUSTREAT
001101A
00220B
00321A
004131B
00571B
006120A
007110B
008131A
009181A
01061B
01160A
012191A
01311B
014111B
015240A
01621B
01740B
01890A
01961B
02081A

在上边这个数据结构中,MONTH表示从随机化到死亡或censored的时间;STATUS中1代表死亡,0代表censored;TREAT代表治疗分组A组和B组。 下边我们来看一下Kaplan-Meier法的具体思路: 我们先以A组为例,  10, 2,12+,13,18,6+,19,24+,9+ 首先按大小排序: 2,6+,8,9+,10,12+,13,18,19,24+ 形成下边这个表格: 

23031652959152665

说明: (1)第一列t(j),是根据进行排序后的所有时间点 (2)第二列nj在t(j)前至少还剩下的病人数量,比如刚开始2个月前都在试验中,那么剩余10人;比如到8个月开始时,由于前边1个人在2个月时死了,1个人在6个月时censored,那么在8个月前还剩下8个人 (3)第三列mj为这个时间死亡的病例数 (4)第四列qj为这个时间censoring的病例数 上边这个表格就是Kaplan-Meier法计算survival function的基本要素。  下边我们开始计算S(t) :

64211652959152715

第5列即为S(t(j))的计算,分为两部分,结果为两个部分的乘积: 

第一部分:上一个时间点的S(t)   

第二部分:(nj-mj)/ nj     如时间点为  第一部分:上一个时间点的S(t),由于2个月都没死人,因此这个值为1 第二部分:(nj-mj)/ nj     即(10-1)/10=9/10 最后结果为1×9/10=0.9 

当时间点为6时: 

第一部分:上一个时间点的S(t),即2个月时的S(t),为0.9 第二部分:(nj-mj)/ nj     即(9-0)/9=9/9 当时间点为8时, 第一部分为上一个时间点的S(t),即6个月时的S(t),为0.9 第二部分为(nj-mj)/ nj     即(8-1)/8=7/8 两部分相乘结果为0.9×7/8=0.7875 依此类推。

最终得出每个时间点的S(t)。 我们计算出了各个死亡时间点的S(t),这时我们就可以时间点为横坐标,以S(t)为纵坐标绘制K-M 生存曲线了。 在常见的生存曲线图中,我们可以看出中位生存期,以及诸如12个月生存率,24个月生存率等数据,只要根据横纵坐标的对应关系就可以得出,比如上例中,中位生存期为13个月,12个月生存率为0.6563,24个月生存率为0.1641,当然这些数据的值都可以直接通过SAS程序从SAS output中可以得出。而这些变量或指标也是我们常见的在肿瘤临床试验结果报告中对生存情况的常见描述 同样的方法,我们可以得出本例中B组的K-M曲线以及一些参数值。 Kaplan–Meier则是肿瘤临床试验中对生存时间描述性统计方法,那有了对生存时间的描述,那怎么来比较治疗组间生存时间是否有差异呢,这就要涉及到另一个我们耳熟能详的方法Log-rank检验。 


Log-rank检验 

上边介绍了Kaplan–Meier法,下图是上边实例最后形成的两组A和B组病人的K-M曲线如下: 那么A组和B组生存时间到底有没有差别呢?这时我们最常用的统计方法便是Log-rank检验。 我们首先来看一下Log-rank检验的检验假设:

 H0:SA(t)=SB(t) H1:  SA(t)≠SB(t) 即检验A组和B组的生存分布是否相同,即检验上边图中的两个生存曲线的分布是否相同。 Log-rank检验通常也被人称为Mantel-Haenszel 检验,其实Log-rank检验就是Mantel-Haenszel 的应用,下边我们结合上边这个例子,来对Log-rank检验的具体方法作一简单介绍。 原始数据: A组:10, 2,12+,13,18,6+,19,24+,9+,8 B组:2+,13,7,11+,6,1,11,2,4+,6 

(1)两组合并进按时间进行排序,得出时间点: 1,2, 4 ,6, 7,8,9,10,11,12,13,18,19,24 

(2)根据时间点形成下列表格

9871652959152765

(3)列出每个时间的2X2四格表

79981652959152817

47881652959152861

64771652959152911

其實,log-rank检验本质就是Mantel-Haenszel检验。  上篇对于log-rank检验方法的介绍中,我们已经根据时间点把生存数据转换成了多个2x2表了,下一步就开始按照Mantel-Haenszel方法继续了。 

(4)对每个2X2表中的(1,1)格子计算其总观察数(O),即把每个2X2表中的(1,1)格子中的数值相加得总观察数(O):  O=0+1+0+0+0+1+0+1++0+0+1+1+1+0=6 

(5)对每个2X2表中的(1,1)格子计算其期望数 第一个表格:E1=(10×1)/20=0.5 第二个表格:E2=(10×2)/9=2.22 依次类推。。。 得到剩下的表格的(1,1)格子期望数分别为 0,1.2, 0.67,0.73, 0,0, 0.63,0,1.6, 1,1,0 

(6)求以上期望数的总和E E=9.55 

(7)计算每个表中的(1,1)格子观察数的方差,然后把所有方差相加得到总观察数O的方差 每个表中的方差计算方法是: (a+b)*(c+d)*(a+c)*(b+d)/[n*n*(n-1)] 例如第一个表格为 10×10×1×19/[20×20×(20-1)]=0.25 依次类推得出每个表格的方差,然后加起来得出总的方差记作V 

(8)形成检验统计量 卡方值=(O-E)的平方除以V 即×2=(0-E)2/V 这里需要说明的一点是,在一般的Mantel-Haenszel检验中,对卡方进行了较正,即分子为(O-E)的绝对值再减去个0.5后的平方值,而在Log-rank及SAS程序PROC LIFETEST中未进行校正,及没有减0.5。 

(9)最后根据卡方值来确定p值 log-rank其实就是采用了Mantel-Haenszel的方法,从这个意义上来说log-rank也可以被叫做Mantel-Haenszel法。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
hazard,生物统计学,肿瘤篇,PFS,肿瘤,统计学

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交