申明:僅代表個人觀點,不代表任何組織與單位
這幾天有報道說阿茲夫定的三期臨床試驗公布,顯著縮短核酸轉陰時間。這個藥之前寫過很多,有效性極為可疑,安全性上的遺傳、生殖毒性問題更無法解決(詳見二條)。
但很多人還在問,所以就去看了所謂顯示有效性的巴西三期臨床試驗,其實根本談不上顯示有效性,部分內容也與之前相關藥企IPO文件里提到的其它臨床試驗結果沖突。此藥能上架就已荒唐,如果你有(不)幸拿到阿茲夫定,扔了算了。
(資料圖片)
1. 沒有達到主要終點的“成功”
阿茲夫定巴西的三期臨床試驗公布,國內媒體大言不慚地說安全有效:
好像試驗非常成功,而且有意思的是說成了巴西的一項三期臨床試驗,同時涉及輕癥與中癥感染者。實際上這明明就是兩項研究,預印版論文也是兩篇。
輕癥的[1]:
中癥的[2]:
別看兩個標題就Mild(輕癥)和Moderate(中癥)這一字之差,差點也讓我看花了眼,但兩個試驗在Clinicaltrial.gov上分別編號,是不同的試驗。連通稿買的都不嚴謹,不得不佩服,當然去看了這兩篇論文,按其中的學術嚴謹程度以及寫作水平,通稿發(fā)不對也不讓人意外。
媒體報道更讓人震撼的是,報道內容里直接顯示了試驗主要終點未達到,居然還能說是證明有效。例如輕癥的試驗,媒體報道里的主要重點都寫明了:
是出院時病情量表各級比例,這個有區(qū)別嗎?報道里直接一張圖都顯示沒有區(qū)別:
主要終點都沒達到,也能說是成功?
中癥那個也一樣。媒體報道里也說明了主要重點是什么:
WHO病情改善一個級別的患者比例,這個終點達到了嗎?這里阿茲夫定耍了個心機,預印版論文里承認了出院時除了1位退出和7位惡化,其他人都是WHO評分里最低的0或1分。也就是說都改善了,主要重點同樣沒有區(qū)別??蔀槭裁凑f阿茲夫定耍了個心機呢?因為它說阿茲夫定組出院時最終評分是0.02 ± 0.15(對,最低評分是0,但它能做出0.02方差0.15),比安慰劑組的0.11 ± 0.31低。
這個最終評分差異到底在哪里?看了下原論文:
安慰劑組1分的比阿茲夫定多。那1分和0分是什么區(qū)別?兩個都是無癥狀,只是1分的核酸還沒轉陰。就這么點區(qū)別。可我們知道康復者很長時間可能因病毒尸體檢測出核酸陽性。這種差異根本就沒有意義。后面也會重點說阿茲夫定強調的核酸轉陰差距為什么不靠譜。
此外,這個試驗只招募了180人,最后完成試驗的是172人,7個惡化進入ICU(6個死亡),1位退出,這8人都沒放入上述分析,其中除了退出的和一位心臟驟停死亡的都完成了治療。把這些人放入分析,還能有區(qū)別嗎?要知道WHO評分里死亡可是10分。
難不成現(xiàn)在我們判斷阿茲夫定的有效性標準是,吃了后好了的都好了,所以就有效,沒好的直接忽略?要是用這標準,要找出個沒用的藥也不容易啊。
兩個試驗主要終點都沒達到,居然能說顯示有效,只能讓人覺得要去查查字典,看看“有效”二字的定義是不是改過了。
2. 核酸轉陰靠譜嗎?
主要終點都錯過,但不妨礙阿茲夫定愛好者們拉出“加速核酸轉陰”的賣點來宣傳。其實這從兩篇預印版論文的標題都能看出來,都是通過載毒量來評估有效性。
兩篇論文都宣稱阿茲夫定顯著縮短了感染患者核酸轉陰時間,在輕癥的試驗里,阿茲夫定組第一次轉陰是5.55天,安慰劑組是8.27天;中癥的試驗,阿茲夫定組第一次轉陰6.24天,安慰劑組是7.94天。但這些天數(shù)是平均值還是中位值?新聞稿里沒說,也正常,因為只有輕癥的論文里說了是平均,而中癥雖是獨立的文章,卻一字不提。所以我說兩篇論文的嚴謹程度令人震撼。不過別急,還有更震撼的,現(xiàn)在繼續(xù)說核酸轉陰。
核酸轉陰是用RT-PCR來判斷,就是劃一個CT值的標準,CT值越高,載毒量越低。核酸陰性即RT-PCR的CT值低于設定的陰性標準了。然后看中癥試驗論文里的CT值比較:
兩個組有區(qū)別嗎?方差范圍互相重合,居然能說阿茲夫定轉陰時間更快?論文說阿茲夫定是6.24天轉陰,安慰劑組7.94天,去看5、7、9這三個采樣點,兩組CT值有區(qū)別嗎?還能一個轉陰一個沒轉陰?
另外這里核酸轉陰的標準是什么?從文章的方法來看,CT值大于30.5是陽性。第7天的時候,阿茲夫定組方差范圍的上限連CT值30的毛都沒碰到,能算出來核酸轉陰時間是6.24天?就算最快轉陰時間都不符合這張圖啊。
輕癥試驗用的核酸檢測試劑盒與中癥的文章一模一樣,但核酸陰性的標準成了CT大于37。不要問我為什么,因為我也不知道,只能說是量子核酸。這是輕癥的CT值變化圖:
雖然說紅色的阿茲夫定組和藍色的安慰劑組在CT值上有區(qū)分,阿茲夫定在3、5、7三個采樣點都是CT值更高,可是連30都沒超過,離37的轉陰標準更是十萬八千里,怎么就得出阿茲夫定輕癥組5.55天轉陰呢?
對了,輕癥這幅圖的圖標是Ciral load,都不是病毒載量,是Ciral載量,不過這仍不是我說的令人震撼的地方,繼續(xù)往下看,最后再揭曉。
這些核酸轉陰或載毒量比較,還有一個不靠譜的地方在于不同的采樣時間點,收集的樣本數(shù)不一樣。比如輕癥試驗里:
紅框里的是每個采樣時間點的采樣人數(shù),這個輕癥試驗招募了312人,但31人在完成治療前退出了(同樣,我們不知道為什么這31人退出了,另外阿茲夫定的治療是不超過14天,未完成治療是什么概念?是不是也吃了一段時間,有沒有采樣?這些還是不知道)。完成治療的281人采樣,可隨著時間進行,采樣的受試者越來越少。這種情況下,比較出來的載毒量差異是否還有意義?
為什么有的人沒采到樣?兩組里分布是否平均?兩個試驗還專門用ddPCR來檢測載毒量,可一樣受到采樣人數(shù)變化的影響。
反正,阿茲夫定愛好者們眼里的證明阿茲夫定有效安全的巴西三期臨床試驗,主要終點沒有達到。所謂的核酸轉陰顯著縮短,按兩篇論文里給出的具體數(shù)據(jù),連這轉陰時間都不靠譜。
3. 與過往試驗矛盾
這也不是阿茲夫定第一次炒作。說這次試驗證明有效的人,為何不去看看阿茲夫定過往試驗的結果,比較一下?比如阿茲夫定還有在中國的臨床試驗,曾在藥企IPO文書中提到過[3]。
為什么要再看一下這個中國的試驗?因為這個從2020年6月做到了2022年3月的輕癥與普通型新冠試驗,主要終點恰好是受試者服藥后第7與14天時的載毒量。巴西的試驗不是說顯著降低載毒量嗎?那我們就看看這種說法在以載毒量為主要標準的試驗,是什么結果。
中國實際招募348人。完整數(shù)據(jù)沒有公布過,IPO文件描述有效性時,加了一個前提——基線載毒量高于3^10,在這些高載毒量受試者中,第3、5、7天用藥組載毒量下降比安慰劑組更多:
那么問題來了,這載毒量高的受試者是多少人呢?這一標準是事先確定的,還是事后加入?如果是事后加入,是否存在偏倚(bias)呢?而且即使是在這不知道多少人的高載毒量組里,載毒量變化達到顯著差異的只有第5天。
根據(jù)這些描述可以推斷試驗的主要終點——受試者第7與14天的載毒量,用藥組與安慰劑組沒有顯著差異,也就是說該試驗還是沒有達到主要終點。
另外,IPO文件里也說了所有次級終點均未顯示顯著差異。那么次級終點里有什么呢?除了吸氧比例、肺炎變化等癥狀,還有核酸檢測轉陰時間與速率。
也就是說,巴西兩個試驗里觀察到的核酸轉陰更快,在中國的試驗里沒有觀察到。而且在以載毒量為主要終點的中國試驗里,這個主要終點沒有達到。
以癥狀相關指標為主要終點的兩個巴西臨床試驗,沒達到主要終點,拿出不知怎么計算出來的核酸轉陰時間以及不知采樣人數(shù)為何不斷變動的載毒量數(shù)據(jù)說有差異??烧娴囊暂d毒量為主要終點的中國臨床試驗里,載毒量沒有達到終點,核酸轉陰也沒有差異。
這種情況下,你覺得阿茲夫定值得相信嗎?如果還是相信,那只能說是真愛,韭菜愛鐮刀那種真愛。
4. 試驗人數(shù)問題
巴西的兩個試驗,輕癥的是招募312人,中癥原計劃招募342人,后來改成180人。阿茲夫定藥企IPO文件里還提到中國和俄羅斯兩個試驗。中國計劃招募342人,俄羅斯計劃招募314人。
這些試驗的主要終點不一,中國的是載毒量下降,俄羅斯與巴西是癥狀緩解??墒菬o論什么終點,如此少的計劃招募人數(shù)非常詭異。
有人可能會說,管它招募多少人,最后有效性指標——臨床試驗終點能做出統(tǒng)計意義上的區(qū)別不就行了?可在非常少的招募人數(shù)下做出顯著差異,意味著藥效要非常好,這樣用藥組與安慰劑組才能拉開足夠的差距。但前瞻性的三期臨床試驗,試驗完成前——包括設計試驗的時候,沒人知道藥效有多高。試驗人數(shù)的確定,一般是在希望能有多大概率(統(tǒng)計檢驗功效)確認至少多高的有效性,這一基礎上去推算。
比如新冠疫苗的試驗,假設希望試驗能有90%的把握確認一個50%有效性的疫苗,可以回推需要多少病例,再根據(jù)一些感染率假設,推算應招募多少人以及試驗需要做多久。
新冠藥物在試驗設計階段,覺得只要招募三百多人就能確定有效性幾乎是匪夷所思。參考輝瑞與默克口服藥。在輕到中癥的高危人群三期臨床,輝瑞計劃招募約3000人,希望有1700人有數(shù)據(jù)做主要分析,默克計劃招募1550人[3-4]。這些都是基于希望有足夠的統(tǒng)計檢驗功效去檢測50%降低重癥風險,演算出來的需要的樣本量大小。最后兩家實際分析的數(shù)據(jù)量分別有2200多人與1400多人。
即使說這兩個藥檢測的降低重癥風險與阿茲夫定的臨床試驗終點不同,那參考輝瑞口服藥在低危人群的EPIC-SR試驗,這里主要重點是癥狀持續(xù)改善,也招募了1440人[5]。國內新冠單抗藥Brii-196/198,參與NIH的ACTIV-2試驗,確認有效性是用藥組418人,安慰劑組419人[6]。
為什么阿茲夫定的研發(fā)方認為300多人的試驗就能驗證藥物有效性?同行都是計劃招募一兩千人明確有效性時,有人卻不斷設計300多人的臨床試驗,甚至改到180人后能繼續(xù)做出所謂的有效性,這值得警惕。
5. 遠離渣藥
前文屢次提到阿茲夫定巴西臨床試驗的兩篇論文不嚴謹程度令我震撼,現(xiàn)在就揭曉最讓我震撼的一點——是的,就算有怎么都讓我想不明白的轉陰時間,還有更震撼的:
這張截圖是巴西中癥那個臨床試驗里的補充材料里截出來的。為什么讓我震撼,看一下圖里上半部分那個表,里面的人數(shù),阿茲夫定組143人,安慰劑組138人。我們說了中癥這個試驗總共才180人入組,怎么會有這么多人?這個人數(shù)其實是輕癥那個試驗里的分組人數(shù),第二個表格里阿茲夫定91人,安慰劑88人才是中癥的分組人數(shù)。
牛吧,兩篇論文居然數(shù)據(jù)能混到一起去。搞得我讀著讀著總覺得自己眼睛是不是花了。這到底是簡單筆誤,還是整個數(shù)據(jù)都弄錯了呢?咱也不好說,反正第一張表里顯示的阿茲夫定組平均發(fā)燒天數(shù)更短也是作為有效性之一在論文里提出來的。但都是這樣的嚴謹程度,還值得相信嗎?
不過阿茲夫定牛就牛在,別人都要幾千人才能做出有效性,它堅持幾百人解決問題;別人試驗受試者招不滿,一般都是失敗告終,它能減員做出“有效性”;別人錯過了主要終點,都是灰頭土臉,它能理直氣壯說安全有效。難怪引得國內多位權威專家競折腰,不信看新聞稿:
就好像有人明確地非常渣,卻偏偏有很多人還要圍著他轉。這里面可能有各種原因,比如人家有錢,有權,有特長??蓡栴}是,不論別人為何折腰,你有必要也去被人家渣嗎,也去做韭菜被人割嗎?
新冠是一個自限性疾病,絕大多數(shù)人不需要任何藥物就能自愈。即便是高危人群,能起幫助的也是真實有效的藥物,而不是沒藥非硬拉一個出來吃。
記?。哼h離渣藥保平安。
參考資料:
https://www.researchsquare.com/article/rs-2273694/v1
https://www.researchsquare.com/article/rs-2273657/v1
https://www1.hkexnews.hk/app/sehk/2022/104646/documents/sehk22080402059.pdf
https://www.nejm.org/doi/full/10.1056/NEJMoa2118542
https://www.nejm.org/doi/full/10.1056/NEJMoa2116044
https://clinicaltrials.gov/ct2/show/record/NCT05011513
https://www.briibio.com/news-detail.php?id=354
推薦閱讀