自閉癥譜系障礙(ASD,Autism spectrum disorder )是一種神經(jīng)發(fā)育障礙,患病率為1-2%。特別是在低資源環(huán)境中,對(duì)ASD的早期識(shí)別和診斷是一個(gè)重大挑戰(zhàn)。因此,ASD迫切需要一種“語(yǔ)言自由、文化公平”,并且不需要專業(yè)人員參與的低成本篩選工具。在ASD和神經(jīng)發(fā)育障礙中,EEG可用來(lái)尋找生物標(biāo)記物。其中,關(guān)鍵挑戰(zhàn)之一是確定適當(dāng)?shù)亩嘣乱淮治龇椒ǎ?/span>multivariate, next-generation analytical methodologies),這些方法可以描述大腦中復(fù)雜的非線性神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)性,同時(shí)也考慮到可能影響生物標(biāo)記物發(fā)現(xiàn)的技術(shù)和人口學(xué)混淆因素。開普敦大學(xué)兒童和青少年精神病科T. Heunis和P. J. de Vries等人在BMC Medicine雜志發(fā)文,評(píng)估定量遞歸分析(RQA,recurrence quantification analysis )作為ASD潛在生物標(biāo)記物的穩(wěn)健性,并對(duì)一系列潛在的技術(shù)和人口混雜因素進(jìn)行系統(tǒng)的方法學(xué)探索。
研究方法:對(duì)連續(xù)5s/時(shí)間段的靜息態(tài)EEG(rsEEG,resting state EEG)數(shù)據(jù)進(jìn)行RQA特征提取,并測(cè)試線性和非線性分類器。為防止樣本偏差、技術(shù)和人口統(tǒng)計(jì)學(xué)混淆因素的影響,數(shù)據(jù)分析的樣本分為:16個(gè)ASD和46個(gè)正常發(fā)育(TD)個(gè)體的完整樣本、16個(gè)ASD和19個(gè)TD兒童的子樣本、以及7個(gè)ASD和7個(gè)TD兒童的年齡匹配樣本。使用留一交叉驗(yàn)證分類法(leave-one-subject-out method)模擬診斷一個(gè)未知被試的臨床場(chǎng)景。
研究結(jié)果:在年齡匹配樣本中,從TD中區(qū)分出ASD,使用非線性支持向量機(jī)(SVM)分類器的留一分類法結(jié)果顯示92.9%準(zhǔn)確率,100%敏感性和85.7%特異性。將年齡、性別、智力水平以及每組訓(xùn)練和測(cè)試部分的數(shù)據(jù)數(shù)量定義為可能的人口和技術(shù)混淆因素。一致的重復(fù)性(正確識(shí)別每個(gè)被試的所有時(shí)間段)仍是個(gè)挑戰(zhàn)。
研究結(jié)論:在年齡匹配樣本中,rsEEG的RQA(評(píng)估定量遞歸分析)是一種精確的ASD分類器,這反映出了該方法在ASD篩選中的潛在作用。然而,這項(xiàng)研究還在實(shí)驗(yàn)方面揭示了一系列技術(shù)挑戰(zhàn),以及人口學(xué)混雜因素如何扭曲結(jié)果,并強(qiáng)調(diào)在未來(lái)研究中探索這些因素的重要性。研究者建議在因素匹配的嬰兒和兒童大樣本中驗(yàn)證此方法,尤其是在低收入和中等收入環(huán)境中進(jìn)行驗(yàn)證。
研究背景
理想的生物標(biāo)記物應(yīng)是容易獲得的、準(zhǔn)確的、大眾可以承擔(dān)得起的,并且對(duì)區(qū)分不同群組具有高度的敏感性和特異性。該研究對(duì)EEG作為ASD和相關(guān)神經(jīng)發(fā)育障礙的潛在生物標(biāo)記物提出了挑戰(zhàn):
1)描述一系列潛在的人口學(xué)、臨床和技術(shù)混淆因素,包括年齡、性別、智力、社會(huì)經(jīng)濟(jì)地位、共發(fā)病、藥物的使用、睜眼與閉眼的情況、電極的數(shù)量和位置以及測(cè)試-重測(cè)的可靠性。這些因素均需要評(píng)估,EEG生物標(biāo)記物才是足夠可靠的,才能應(yīng)用于臨床環(huán)境。
2)描述在確定適當(dāng)?shù)摹⒍嘣?、下一代分析方法方面的關(guān)鍵技術(shù)挑戰(zhàn),這些方法可以描述大腦中復(fù)雜的非線性神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)性。
識(shí)別ASD風(fēng)險(xiǎn)的三種新的潛在rsEEG生物標(biāo)記物包括:
1)采用修正的(modified)多尺度熵方法(multiscale entropy; MME)對(duì)rsEEG進(jìn)行分析,比較ASD高風(fēng)險(xiǎn)嬰兒(HRA,high risk for ASD, 有一個(gè)患ASD的兄弟姐妹)和TD嬰兒。準(zhǔn)確率為80-100%,但嬰兒從12個(gè)月到24個(gè)月,準(zhǔn)確率下降。有研究者反對(duì)該發(fā)現(xiàn),因?yàn)橹挥行〔糠?/span>HRA嬰兒會(huì)發(fā)展成為ASD。
2)頻譜相干分析(spectral coherence analysis; CA)作為ASD的生物標(biāo)記物。在430名ASD患者和554名TD兒童的二分類中,準(zhǔn)確率為86%和88.5%。在限制年齡的子樣本中,準(zhǔn)確率提高。在ASD與TD的二元分類中,CA生物標(biāo)記物方法有用,但關(guān)于生物標(biāo)記物發(fā)展的臨床和分析問(wèn)題仍未得到解答。
3)RQA(評(píng)估定量遞歸分析)作為ASD分類的新的生物標(biāo)記物。RQA是EEG應(yīng)用領(lǐng)域一種新興的非線性數(shù)據(jù)分析技術(shù)。這項(xiàng)技術(shù)是基于大腦等復(fù)雜系統(tǒng)固有的遞歸的基本特性。在之前的原理論證分析中,對(duì)7名ASD和5名TD被試的RQA進(jìn)行研究,并對(duì)12個(gè)好的分段進(jìn)行分析。結(jié)果表明,線性判別分析(LDA)分類器的準(zhǔn)確率為83.3%,敏感性為85.7%,特異性為80%。
該研究的目的是在大樣本中重復(fù)和延伸先前研究結(jié)果,并在系統(tǒng)的方法學(xué)探索中,將一些變量作為協(xié)變量或混雜因素,研究潛在的RQA生物標(biāo)記物的穩(wěn)健性。研究者細(xì)化生物標(biāo)記物參數(shù),評(píng)估生物標(biāo)記物的潛在混雜因素,如年齡,性別和智力水平,以識(shí)別分類的準(zhǔn)確率,敏感性和特異性;并探索RQA生物標(biāo)記物的測(cè)試-重測(cè)可靠性。使用留一分類法模擬一個(gè)未知被試的臨床場(chǎng)景。因此,這項(xiàng)工作的新穎性在于RQA在rsEEG的多元應(yīng)用,以發(fā)現(xiàn)早期ASD的風(fēng)險(xiǎn)性,并在準(zhǔn)確率、敏感性和特異性方面對(duì)潛在的技術(shù)和人口混雜因素進(jìn)行系統(tǒng)評(píng)估。
方法
遞歸分析:
遞歸圖(RP)可以在二維圖中使高維相位空間可視化,可用來(lái)描述系統(tǒng)的基本動(dòng)力學(xué)特征。根據(jù)公式(1),使用每個(gè)樣本對(duì)i和j的時(shí)間序列x以及具體的閾值距離ε(鄰域大?。?,計(jì)算遞歸事件,并儲(chǔ)存在N×N矩陣中(用于構(gòu)建RP)。在坐標(biāo)(i, j)處的RP,當(dāng)遞歸事件(Ri,j = 1)出現(xiàn)時(shí),畫黑點(diǎn);無(wú)事件時(shí)(Ri,j=0)畫白點(diǎn)。
將RQA應(yīng)用于RPs提供了一個(gè)定量系統(tǒng)動(dòng)力學(xué)的客觀測(cè)量。從RPs可以提取幾個(gè)特征,例如:遞歸率(RR;任何狀態(tài)再次出現(xiàn)的概率)、決定論(DET;表明系統(tǒng)的可預(yù)測(cè)性)、熵(ENTR;提供遞歸結(jié)構(gòu)的復(fù)雜性度量)和分層性(LAM;下一步,狀態(tài)不會(huì)改變的概率)。Marwan et al.和Schinkel et al.為RPs和RQA特征提供了進(jìn)一步的數(shù)學(xué)細(xì)節(jié)。
編者注:RQA的具體數(shù)學(xué)細(xì)節(jié)也可參考更早的一篇文章(如需原文可添加微信siyingyxf或19962074063獲?。?/span>
被試:
從美國(guó)波士頓兒童醫(yī)院和洛杉磯加州大學(xué)塞梅爾研究所獲得rsEEG數(shù)據(jù)。16名非綜合征ASD患者(2-6歲)和46名TD(正常發(fā)育)被試(0-18歲)。收集每個(gè)被試的年齡、性別并測(cè)試智力水平。
Table 1 人口學(xué)特征和樣本組成
EEG信號(hào)處理方法:
EEG信號(hào)處理流程主要包括:數(shù)據(jù)采集、預(yù)處理、特征提取和分類,參見(jiàn)Fig.1。流程細(xì)節(jié)在后續(xù)詳述。
Fig. 1 EEG信號(hào)處理方法
數(shù)據(jù)獲取:
從常規(guī)臨床EEG記錄或長(zhǎng)期EEG監(jiān)測(cè)中收集EEG數(shù)據(jù),數(shù)據(jù)來(lái)源于兩個(gè)研究機(jī)構(gòu)。波士頓兒童醫(yī)院的數(shù)據(jù):使用Biologic記錄系統(tǒng)(采樣率為256-512Hz,帶通濾波為0.1-100Hz)或Natus Neuroworks系統(tǒng)(采樣率為200Hz,帶通濾波為0.1-100Hz),19個(gè)標(biāo)準(zhǔn)電極((Fp2, Fp1, F4, F3, Fz, C4, C3, Cz, P4, P3, Pz, F8, F7, T8, T7, P8, P7, O2, O1)。加州大學(xué)洛杉磯分校的數(shù)據(jù):使用EGI 128導(dǎo)聯(lián)系統(tǒng)、NetAmps Amplifiers和NetStation軟件(采樣率為250Hz)采集數(shù)據(jù),并且采用National Instruments Board進(jìn)行數(shù)字化。所有EEG系統(tǒng)均采用標(biāo)準(zhǔn)10-20電極定位。
數(shù)據(jù)預(yù)處理:
1. 原始數(shù)據(jù)進(jìn)行分段,刪除包含偽跡的時(shí)間段;
2. 進(jìn)行60Hz的陷波濾波,重采樣為200Hz,空間降采樣為標(biāo)準(zhǔn)的臨床19個(gè)電極點(diǎn)。由于Fp1和Fp2主要包含眼部偽跡信息,因此在進(jìn)一步分析中刪除這兩個(gè)電極。17個(gè)電極用于后續(xù)的多元分析。
3. 使用BESA Rsearch 3.5軟件對(duì)數(shù)據(jù)進(jìn)行平均參考。
4. 使用EEGLAB工具包中的FIR濾波器(1-70Hz)對(duì)數(shù)據(jù)進(jìn)行濾波。兒科神經(jīng)科醫(yī)生和臨床神經(jīng)生理學(xué)家檢查數(shù)據(jù),手動(dòng)刪除偽跡段(長(zhǎng)度至少2min),并且挑選清醒的無(wú)任務(wù)數(shù)據(jù)。有可能的話,也刪除肌電偽跡。采用EEGLAB中的ICA方法進(jìn)行眼電偽跡矯正。
5. 提取每個(gè)被試所有連續(xù)5s的可用數(shù)據(jù)。
特征提取:
1. 采用多元嵌入方法,利用17個(gè)電極點(diǎn)和時(shí)間滯后嵌入方法構(gòu)建EEG動(dòng)態(tài)的相位空間表征。對(duì)每個(gè)被試每個(gè)時(shí)間段創(chuàng)建多通道滯后軌跡矩陣,每列嵌入相同的滯后和維度,然后水平拼接形成多通道滯后軌跡矩陣。使用每個(gè)被試所有可用的連續(xù)5s時(shí)間段。
2.使用PCA方法對(duì)每個(gè)多通道滯后軌跡矩陣進(jìn)行降維。使用每個(gè)主成分(PC)向量重建多維相位空間中的吸引子。
3. 使用The Cross Recurrence Plot MATLAB工具包畫RPs(遞歸圖),并且從每個(gè)被試的多維約簡(jiǎn)嵌入段矩陣中提取10個(gè)RQA特征。提取的10個(gè)RQA(Table S1)分別是:RR, DET, 平均對(duì)角線長(zhǎng)度, 最長(zhǎng)對(duì)角線, ENTR, LAM, 捕獲時(shí)間, 最長(zhǎng)垂直線, 第一次Poincaré遞歸的遞歸時(shí)間(T1),第二次Poincaré遞歸的遞歸時(shí)間(T2)。用Kolmogorov–Smirnoff和Wilcoxon秩和檢驗(yàn)(分布和形狀)分析訓(xùn)練數(shù)據(jù)特征的特征統(tǒng)計(jì)顯著性。
Table S1 10個(gè)RQA特征的具體描述。
采用迭代方法確定最優(yōu)參數(shù)和特征集組合。產(chǎn)生最好分類結(jié)果的組合即為最優(yōu)。對(duì)PCA降維后的嵌入滯后、嵌入維數(shù)、保留百分比變異(PVR)和RQA鄰域大小進(jìn)行了評(píng)價(jià)。使用交叉驗(yàn)證run1和“顯著RQA特征集”的數(shù)據(jù)確定最優(yōu)參數(shù);這些參數(shù)值用于所有交叉驗(yàn)證runs。
1. 嵌入滯后:使用每個(gè)電極平均互信息指數(shù)的第一個(gè)最小值評(píng)估15-25的嵌入滯后估計(jì)。
2. 嵌入維數(shù):使用Quick-Ident MATLAB工具包的假最近鄰法計(jì)算每個(gè)通道的相應(yīng)最優(yōu)嵌入維數(shù),并且產(chǎn)生的數(shù)值為10。
3. PVR:在測(cè)試PVR參數(shù)的敏感性時(shí),評(píng)估10-100個(gè)不同增量的PVR范圍。
4. 鄰域大?。?/span>用最大范數(shù)鄰域形狀定義檢測(cè)遞歸事件的鄰域,采用“最大相位空間直徑的幾個(gè)百分點(diǎn)”的啟發(fā)式方法確定鄰域大小。以0.1的間隔評(píng)估2.0-4.0的鄰域大小??紤]到上述啟發(fā)式的方法以及遞歸圖的視覺(jué)檢查,初步估計(jì)鄰域大小為3.0。
在確定最優(yōu)參數(shù)值后,通過(guò)特征打亂分析確定最優(yōu)特征集,以確認(rèn)所有特征都為分類器提供了用于類成員預(yù)測(cè)的有用區(qū)分信息。
1. 逐一對(duì)每個(gè)特征的測(cè)試標(biāo)簽進(jìn)行打亂,同時(shí)對(duì)所有特征進(jìn)行分類,使用打亂標(biāo)簽對(duì)包括相關(guān)特征的所有特征集進(jìn)行分類;
2. 將打亂特征集的分類性能與未打亂特征集的分類性能進(jìn)行比較。此外,特征被逐個(gè)分類,并按特征重要性進(jìn)行排序;
3. 通過(guò)在集合中每次添加一個(gè)特征(根據(jù)重要性遞減的順序添加)來(lái)確定最優(yōu)特征集。實(shí)現(xiàn)最佳分類性能所需的特征被確定為最優(yōu)集。為了本研究的目的,僅選擇顯著的RQA特征。然而,這一決定值得懷疑,因?yàn)橐粋€(gè)特征在組間可能沒(méi)有統(tǒng)計(jì)學(xué)意義,但結(jié)合其他特征,它可以使分類后的群體區(qū)分更加明確。為解決Heunis等人確定的一些臨床挑戰(zhàn),將年齡和性別作為協(xié)變量進(jìn)行研究。測(cè)試的特征集是所有顯著的RQA特征(‘RQA’)、包含顯著RQA特征和人口學(xué)特征的組合特征集(‘RQA + age’, ‘RQA + sex’, ‘RQA + age + sex’)以及沒(méi)有RQA特征的人口學(xué)特征。使用10折交叉驗(yàn)證分析,研究?jī)蓚€(gè)特征集選擇:特征集1包括所有顯著的RQA特征,特征集2包括所有顯著的RQA和人口學(xué)特征(包括年齡和性別)。
分類:
采用10折交叉驗(yàn)證(10-fold cross-validation;將“k折交叉驗(yàn)證”中的k=10,即將數(shù)據(jù)集分成十份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),進(jìn)行試驗(yàn)。)和留一法(leave-one-subject-out;指將“k折交叉驗(yàn)證”中的k等于數(shù)據(jù)集中數(shù)據(jù)的個(gè)數(shù),每次只使用一個(gè)作為測(cè)試集,剩下的全部作為訓(xùn)練集)。使用10折交叉驗(yàn)證方法優(yōu)化參數(shù)值,然后使用留一法驗(yàn)證交叉驗(yàn)證分類的結(jié)果,并模擬臨床場(chǎng)景,評(píng)估“診斷”一個(gè)未知被試的結(jié)果。10折交叉驗(yàn)證法創(chuàng)建10個(gè)訓(xùn)練集和10個(gè)測(cè)試集。每個(gè)訓(xùn)練集和測(cè)試集分別包括從每個(gè)被試隨機(jī)選取70%的訓(xùn)練數(shù)據(jù)和30%的測(cè)試數(shù)據(jù)。由于有14名被試的年齡匹配樣本(Table 1),因此,留一法創(chuàng)建14個(gè)訓(xùn)練集和14個(gè)測(cè)試集。每個(gè)訓(xùn)練集包括13個(gè)被試,測(cè)試集包括另外一個(gè)被試(14個(gè)leave-one-out runs)。按要求對(duì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化(平均值為零,標(biāo)準(zhǔn)差為1)。利用MATLAB實(shí)施3種分類算法:
(1)LDA,線性判別分析;
(2)MLP,多層感知機(jī)神經(jīng)網(wǎng)絡(luò)(multilayer perceptron),一個(gè)隱藏層包含9個(gè)節(jié)點(diǎn),利用尺度化共軛梯度反向傳播訓(xùn)練算法;
(3)SVM,支持向量機(jī),使用非線性徑向基核函數(shù)。
報(bào)告訓(xùn)練和測(cè)試數(shù)據(jù)集中的準(zhǔn)確率、敏感性、特異性、樣本大小、時(shí)間段數(shù)量和樣本組成(每組中時(shí)間段的比例),以便對(duì)分類性能結(jié)果進(jìn)行有意義的解釋。
編者注:交叉驗(yàn)證是機(jī)器學(xué)習(xí)中的一種常用技術(shù),通常具有兩種應(yīng)用場(chǎng)景:
(1)優(yōu)化超參數(shù)。比如多項(xiàng)式模型,多項(xiàng)式的最高次數(shù)便是一個(gè)超參數(shù),可以用交叉驗(yàn)證的方式選擇使得預(yù)測(cè)性能最佳的最高次數(shù)作為超參數(shù)。
(2)評(píng)估模型預(yù)測(cè)精度。超參數(shù)確定后,為了量化模型的預(yù)測(cè)效果,也可以用交叉驗(yàn)證的方式計(jì)算一些常見(jiàn)的預(yù)測(cè)精度指標(biāo),比如總預(yù)測(cè)正確率、敏感性、特異性等。
抽樣人口分析:
評(píng)估完整樣本、子樣本以及年齡匹配樣本。完整樣本包含所有被試;子樣本包含年齡在6歲以下的被試;年齡匹配樣本要求年齡、性別、智力水平一致。細(xì)節(jié)參見(jiàn)Fig. 2。
Fig. 2 抽樣人口分析的處理
結(jié)果
完整樣本(交叉驗(yàn)證方法,Fig. 3):
確定的最優(yōu)參數(shù)集:嵌入滯后為25、嵌入維數(shù)為10、PVR為22.12(相當(dāng)于6個(gè)PCs)、鄰域大小為3.0。MLP分類器結(jié)果顯示RQA特征集的分類準(zhǔn)確率為96.18%,組合特征集的分類準(zhǔn)確率為99.08%。結(jié)合RQA特征集,年齡和性別似乎是有用的協(xié)變量,有助于提高分類準(zhǔn)確率。然而,‘年齡’的分類準(zhǔn)確率是98.3%,‘性別’的分類準(zhǔn)確率是93.92%,‘年齡+性別’的分類準(zhǔn)確率是98.66%。考慮到隨機(jī)樣本中的年齡和性別不能預(yù)測(cè)ASD或TD組成員,這些虛假結(jié)果可能是樣本偏差。為解決虛假結(jié)果問(wèn)題,選取所有年齡小于6歲的被試子樣本進(jìn)行進(jìn)一步分析。對(duì)完整樣本的進(jìn)一步觀察發(fā)現(xiàn)rsEEG測(cè)試數(shù)據(jù)時(shí)間段中93.9%是TD,6.1%是ASD。為避免對(duì)分類結(jié)果的誤解,在子樣本中,每組使用相同數(shù)量的測(cè)試時(shí)間段進(jìn)行分析,從而使分類器有50/50的機(jī)會(huì)正確地猜測(cè)每組成員。
Fig. 3 完整樣本交叉驗(yàn)證run1的不同特征集的分類準(zhǔn)確率。
子樣本(交叉驗(yàn)證法,Fig. 4):
確定的最優(yōu)參數(shù)集:嵌入滯后為25、嵌入維數(shù)為10、PVR為12.60(相當(dāng)于3個(gè)PCs)、鄰域大小為3.0。SVM分類結(jié)果顯示RQA特征集的分類準(zhǔn)確率為86.63%,組合特征集的分類準(zhǔn)確率為96.51%,‘年齡’的分類準(zhǔn)確率是83.72%,‘性別’的分類準(zhǔn)確率是66.28%,‘年齡+性別’的分類準(zhǔn)確率是88.37%。考慮到子樣本中年齡和性別的分布情況,人口學(xué)特征仍然足以對(duì)ASD和TD被試進(jìn)行分類,其準(zhǔn)確率高于“RQA”特征集。因此,樣本偏差仍是問(wèn)題。為解決這個(gè)問(wèn)題,下一步是分析匹配樣本。此外,將年齡四舍五入,以防止分類器根據(jù)訓(xùn)練數(shù)據(jù)中的確切年齡值預(yù)測(cè)組成員。
Fig. 4 子樣本交叉驗(yàn)證run1的不同特征集的分類結(jié)果
年齡匹配樣本:
確定的最優(yōu)參數(shù)集:嵌入滯后為25、嵌入維數(shù)為10、PVR為30.09(相當(dāng)于10個(gè)PCs)、鄰域大小為2.9。這一鄰域大小約占所有交叉驗(yàn)證runs的平均最大相位空間大?。?/span>43.13)的6.7%。每次交叉驗(yàn)證run時(shí),都會(huì)對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)進(jìn)行不同的隨機(jī)70/30%拆分,并可能識(shí)別出不同的具有統(tǒng)計(jì)意義的特征集。臨床意義是,一旦為ASD和TD樣本中確定了一個(gè)穩(wěn)健范圍,根據(jù)新提取的RQA特征下降的范圍,未知被試就可以被“診斷”為“有ASD的風(fēng)險(xiǎn)”或“TD”(Table 2)。
Table 2年齡匹配樣本的交叉驗(yàn)證run1的特征集1的總結(jié)
對(duì)交叉驗(yàn)證run1的SVM分類結(jié)果顯示‘RQA’特征集的分類準(zhǔn)確率為93.94%,組合特征集的分類準(zhǔn)確率為90.91%,‘年齡’的分類準(zhǔn)確率是53.03%,‘性別’的分類準(zhǔn)確率是63.64%,‘年齡+性別’的分類準(zhǔn)確率是63.64%(Fig. 5)。使用年齡匹配樣本以及四舍五入的年齡,顯著最小化了先前取得的虛假結(jié)果。
Fig. 5 年齡匹配樣本交叉驗(yàn)證run1的不同特征集的分類準(zhǔn)確率。
敏感性和特異性測(cè)量都很重要——理想的診斷測(cè)試是100%敏感性和100%特異性。SVM顯示了最好的泛化性能,即可接受的敏感性和特異性。特征集1包含6個(gè)RQA特征,特征集2包含6個(gè)RQA特征以及性別。加上性別,SVM準(zhǔn)確從93.94%增加到95.46%,敏感性從90.91%增加到93.94%,特異性仍為96.97%(Fig. 6)。
編者注:敏感性強(qiáng)可以保證病人一定能被檢測(cè)出來(lái),但也可能存在正常人被誤診為病人的情況;特異性強(qiáng)可以保證正常人一定不會(huì)被誤診,但也可能存在病人沒(méi)有被檢測(cè)出來(lái)的情況。(請(qǐng)仔細(xì)品品)
Fig. 6 年齡匹配樣本交叉驗(yàn)證run1的泛化性能。
10折的交叉驗(yàn)證結(jié)果(Fig. 7)顯示特征1(顯著的RQA特征)的分類優(yōu)于特征2(所有顯著的特征,RQA和人口學(xué))的分類。特征1的分類準(zhǔn)確率分別為:87.27%(LDA)、86.67%(MLP)、85%(SVM)。
Fig. 7 LDA、MLP以及SVM分類器的交叉驗(yàn)證性能。
特征打亂分析結(jié)果(Fig. 8)顯示對(duì)于3個(gè)分類器來(lái)說(shuō),LAM(Laminarity,層流性)是最重要的特征。當(dāng)對(duì)LAM的打亂標(biāo)簽的測(cè)試特征集進(jìn)行分類時(shí),分類準(zhǔn)確率的顯著下降說(shuō)明了這一點(diǎn)。這一特征表明層流狀態(tài)的發(fā)生,即狀態(tài)在下一步中不會(huì)改變的概率。從每種情況下的分類準(zhǔn)確率下降可以看出,6個(gè)顯著RQA特征對(duì)SVM分類器都很重要。同時(shí)對(duì)6個(gè)顯著RQA特征的測(cè)試標(biāo)簽進(jìn)行打亂后,準(zhǔn)確率大約為50%,證實(shí)所有特征都對(duì)分類器提供了重要的區(qū)分性信息。
Fig. 8 年齡匹配樣本交叉驗(yàn)證run1的特征集1的特征打亂分析。
用SVM對(duì)各個(gè)特征進(jìn)行分類顯示準(zhǔn)確率分別為:78.79%(LAM)、78.79%(DET)、69.70%(ENTR)、65.15%(T2)、62.12%(RR)、59.09%(T1)。最優(yōu)特征子集的識(shí)別表明當(dāng)包含6個(gè)顯著的RQA特征時(shí),分類準(zhǔn)確率達(dá)到最高水平(Fig. 9)。在該圖中,‘1 RQA’表示LAM特征,‘2 RQA’表示LAM+ DET,依次類推,‘6 RQA’表示LAM+ DET + ENTR + T2 + RR + T1。
Fig. 9 年齡匹配樣本交叉驗(yàn)證run1的最優(yōu)特征子集識(shí)別。
最優(yōu)RQA特征子集包括6個(gè)RQA特征,表示六維特征空間中的一個(gè)點(diǎn)(或狀態(tài))。通過(guò)將數(shù)據(jù)投射到2D和3D PC子空間,使用PCA實(shí)現(xiàn)多維特征空間的可視化。PCA不是在數(shù)據(jù)的低維表征中對(duì)分類進(jìn)行優(yōu)化,而是將數(shù)據(jù)線性轉(zhuǎn)換為一組新的正交軸,其中每個(gè)后續(xù)成分試圖解釋數(shù)據(jù)中的最大剩余方差。Fig. 10和11顯示PC子空間中交叉驗(yàn)證run1的數(shù)據(jù)2D和3D表征,分別約占數(shù)據(jù)方差的94%和99%。根據(jù)訓(xùn)練數(shù)據(jù)特征確定PC方向;然后將測(cè)試數(shù)據(jù)特征投射到該PC子空間。在特征空間的2D表征中,很難直觀地區(qū)分ASD和TD組,但在3D表征中,分類變得更加清晰。在兩組樣本中似乎存在一些重疊。
Fig. 10 年齡匹配樣本交叉驗(yàn)證run1在2D PC子空間中的特征空間可視化。
Fig. 11 年齡匹配樣本交叉驗(yàn)證run1在3D PC子空間中的特征空間可視化。
研究每個(gè)被試的測(cè)試-重測(cè)信度:
在分類分析中,通常使用“多數(shù)投票”識(shí)別測(cè)試示例的預(yù)測(cè)標(biāo)簽,并采用50%的閾值進(jìn)行量化。在每個(gè)被試正確分類所有時(shí)間段的重復(fù)準(zhǔn)確率達(dá)到50%或50%以上的情況下,該被試被正確識(shí)別。SVM分類器識(shí)別了4/7個(gè)ASD,6/7個(gè)TD被試,準(zhǔn)確率為100%。LDA和SVM分類器均產(chǎn)生了相似的整體重復(fù)性性能,10/14個(gè)被試被正確識(shí)別(Fig. 12)。
Fig. 12 年齡匹配樣本交叉驗(yàn)證run1的LDA、MLP和SVM分類器的可重復(fù)性分析。
年齡匹配樣本(留一法):
最優(yōu)參數(shù)和特征集的定義與交叉驗(yàn)證run1的參數(shù)一致。所有14個(gè)leave-one-subject-out runs中,鄰域大小為2.9,相當(dāng)于平均最大相位空間大小的6.7%。對(duì)特征集1使用MLP和SVM分類器的分類準(zhǔn)確率為92.86%(13/14個(gè)被試被正確識(shí)別),SVM分類器更加敏感,而MLP分類器更加特異(Fig. 13)。SVM分類器的敏感性為100%(7/7個(gè)ASD被正確識(shí)別),特異性為85.71%(6/7個(gè)TD被正確識(shí)別);MLP分類器的敏感性為85.71%(7/7個(gè)ASD被正確識(shí)別),特異性為100%(7/7個(gè)TD被正確識(shí)別)。敏感性和特異性是同等重要的,但該研究選擇高敏感性的分類器(即SVM),這是由于讓“TD”接受第二步確認(rèn)診斷比排除掉“ASD”更為安全,因此SVM分類器更適合本研究。Fig. 14顯示測(cè)試-重測(cè)信度仍是一個(gè)挑戰(zhàn)。較大數(shù)量的TD時(shí)間段可能會(huì)使分類器偏向TD組,但結(jié)果表明,這種影響可以忽略不計(jì),因?yàn)?/span>ASD被試的錯(cuò)誤分類是很小的。
Fig. 13 年齡匹配樣本留一法分析的分類性能。
Fig. 14 年齡匹配樣本留一法的LDA、MLP、SVM分類器的可重復(fù)性分析。
總結(jié):
RQA可能是識(shí)別ASD風(fēng)險(xiǎn)兒童的一個(gè)準(zhǔn)確的、敏感的和特異性的生物標(biāo)記物。本研究將rsEEG的RQA作為ASD風(fēng)險(xiǎn)的潛在新生物標(biāo)記物進(jìn)行評(píng)估,因?yàn)樗軌驅(qū)?/span>rsEEG的短、非線性和非平穩(wěn)時(shí)間段進(jìn)行多元分析??紤]到潛在混雜因素對(duì)發(fā)現(xiàn)ASD和相關(guān)神經(jīng)發(fā)育障礙生物標(biāo)記物的影響,本研究控制年齡、性別和智力的三個(gè)關(guān)鍵潛在混雜因素。為檢驗(yàn)和排除潛在的混淆因素(樣本偏差、測(cè)試時(shí)間段數(shù)量不匹配與四舍五入年齡),該分析逐步從完整樣本(62個(gè)被試;4802個(gè)5-s rsEEG時(shí)間段)過(guò)渡到年齡匹配樣本(14個(gè)被試;666個(gè)5-s rsEEG時(shí)間段)。
結(jié)果發(fā)現(xiàn):在年齡匹配樣本中,RQA在區(qū)分ASD和TD方面表現(xiàn)出很好的準(zhǔn)確率、敏感性和特異性。在顯著的RQA特征集上,SVM分類器使用留一法(模擬診斷一個(gè)未知被試的臨床場(chǎng)景)表現(xiàn)出穩(wěn)健的性能:92.86%準(zhǔn)確率, 100%敏感性和85.71%特異性。這項(xiàng)研究的結(jié)果證明RQA生物標(biāo)記物可能是用于ASD篩查的一種強(qiáng)有力、可靠的“語(yǔ)言自由、文化公平”技術(shù)解決方案;強(qiáng)調(diào)在生物標(biāo)記物研究中考慮年齡、性別和智力作為潛在混雜因素或協(xié)變量的重要性。但一致的重復(fù)性(即每個(gè)被試所有時(shí)間段的正確識(shí)別)仍是一個(gè)挑戰(zhàn)。
本研究的新穎之處:
1. 在更大的樣本中重復(fù)和擴(kuò)展了原理證明研究,并研究RQA生物標(biāo)記物在許多協(xié)變量或混雜因素中的穩(wěn)健性。
2. 采用留一法模擬診斷一個(gè)未知被試的臨床場(chǎng)景。3. 進(jìn)行測(cè)試-重測(cè)可靠性分析,確定正確分類每個(gè)被試數(shù)個(gè)時(shí)間段的準(zhǔn)確率。
微信掃碼或者長(zhǎng)按選擇識(shí)別關(guān)注思影
如對(duì)思影課程感興趣也可微信號(hào)siyingyxf或18983979082咨詢。覺(jué)得有幫助,給個(gè)轉(zhuǎn)發(fā),或許身邊的朋友正需要。請(qǐng)直接點(diǎn)擊下文文字即可瀏覽思影科技其他課程及數(shù)據(jù)處理服務(wù),歡迎報(bào)名與咨詢,目前全部課程均開放報(bào)名,報(bào)名后我們會(huì)第一時(shí)間聯(lián)系,并保留名額。
更新通知:第十屆腦影像機(jī)器學(xué)習(xí)班(已確定)
更新通知:第十二屆磁共振彌散張量成像數(shù)據(jù)處理班(已確定)
第六屆任務(wù)態(tài)fMRI專題班(預(yù)報(bào)名,南京)
更新通知:第二十八屆磁共振腦影像基礎(chǔ)班(重慶,已確定)