统计视角下OS数据的那点事 - 感觉性周围神经病

TUhjnbcbe - 2022/6/1 11:47:00

声明：版权归讲者及主办方所有，个人整理，仅供参考

在一项人参与的调研中发现，80%的被调查者认为死亡时间非常重要，但是不能强求，如果出现了误差或者失访的情况，我们可以通过统计学的方法来处理。

那么，统计学真的如我们所期待的那样，无所不能嘛？

灵*拷问1

如果死亡时间只能追溯到某年某月，或者我们知道是在两次随访之间发生（比如三个月），而无法收集到准确的日期。统计上是不是可以有估算的方法来降低对结果的影响？

嘉宾观点：

总体来说，对于没有准确死亡日期年月日的情况下，我们在统计上其实都会做删失处理。对于以OS作为终点事件的注册临床研究而言，不推荐记录为每个月的第一天或最后一天的假设。这部分“预估”的数据，可以做敏感性分析。这一点上，和医生自己写文章是有差异的，注册临床试验对误差率的要求相对会更高一点。

此外，对于不同的适应症来说，误差率的影响是不同的，那么与之相匹配的要求也是不同的。比如对于胰腺癌来说，它是预期生存在6个月，我们就不可能容忍3个月死亡日期的误差，但如果一个淋巴瘤，预期生存18年，试验设计是3个月或6个月去随访一次，也就是说误差精度是跟你的总预期的误差精度相关的。

另一方面其实不排除我们在统计上可以有一种叫区间删失的方式供大家选择，这种方式的话可以去弥补一些，比如说我的治疗组相对标准治疗的话，可以提高的生存期还是跨度蛮长的，远远大于三个月，那么这个时候也许我们会采取一些这类区间删失的方式。但是总体来说，大部分研究还是以标准的这种简单的删失方式作为我们的OS的一个主要分析方法。

整体来说，脱落率和删失在统计角度，主要影响结果的把握度的，影响我们对准确的数据的一个估计。具体来说，如果os作为事件数的一个主要指标，那么OS事件数如果删失的多，就说明你没有达到这个目标实现数，那么实际上就需要增加病人数或者是延长每个人的随访时间，所以在这一点上来说，如果有太多的未预期的os的数值没有随访到的话，其实对于试验本身也是非常致命的一件事情。当然，这个前提是我们在算样本量的时候是以OS为主的，比如说OS本身它是一个主要的终点。

灵*拷问2

大于多少比例的脱落是不可接受的？或者我们可以直接认为该试验是失败的？

嘉宾观点：

这个问题其实没有统一的标准。目前大部分的肿瘤研究，都把OS作为主要终点，由OS事件数来决定样本量的话，那么这个时候你的删失/脱落的比率实际上是每个实验都是不一样的。需要studybystudy，请统计师算一下把握度，如果你的脱落率达到一个什么阶段，那么可能它的把握度就已经在80%以下了。对于注册临床试验来说，把握度如果低于80%的话，就不建议继续递交了。

简单来说，如果作为申办方，研究设计一开始就给了很高的power，比如入组人数很大，或者和我研究药物的疗效相对于标准治疗要好很多很多，那么也许在试验执行的过程中，我就能容忍更大的删失率。相反，如果一开始的计算样本量就没有给于给于跟大的power，或者预期疗效不如开始的假设时，我们对于每一个病人的每一个数据都非常看重。

对于不同适应症的研究，我们一开始预期的脱落率就是不一样的。比如，一些预防性用药的试验，因为患者依从性的原因，他的失访率是很高的。另外一种虽是肿瘤药物，但是它可能是一种惰性发展肿瘤，比如说我们现在很多做血液方面的，有一大部分是惰性的，那么这种由于疾病本身的生存期可能也比较长，所以其实病人也有可能在试验过程中有所脱落，那么相对于其他快速进展的肿瘤适应症来说，这种试验的脱落率就是会比较高的。

所以，我们不能一味的追求低于X%的脱落率，而是要看我们收到的数据，他有多接近真实的情况，我们有多少把握度把试验结果外推到我们想要申请适应症的人群中。

一般来说我们其实尽量会用试验设计的一些细节去弥补，以期减少病人自然的脱落率。比如说随访的时候增加一些细节的问题，那么这样子，如果说每年10%或者是甚至更少的话，可能对于多数的试验来说其实还是可以接受的，或者我们可以理解为，这样的结果是比较接近它真实的数据的样子，但是如果每年脱落到30%甚至更多的时候，其实这个数据看起来已经是完全不是它本来应该有的样子了。

另外，需要澄清的是，脱落率是按随访年数整体来看的。比如一个做了五年的研究，我们要看这五年内总共脱落的人数除以总人数。而不能简单理解，五年可以脱落50%。

这也就回到前一个问题说的，如果一个原计划随访一年就cut-off项目，如果因为脱落率高于预期，客观上又无法增加病人数的情况下，我们可以通过延长随访时间，来增加把握度。

那么进一步的话，其实具体的10%还是说5%或者是更多更少，其实取决于一个我们对于os是不是有一个严格的样本量的计算，因为其实如果os作为一个次要终点，它不是衡量治疗的主要终点的话，那么其实我们对它的容忍度会大很多，因为那个时候我们不需要去证明它是统计学上的显著，有的时候可能看到它在数值上显著就ok。

~~~未完待续，点击