人基因組DNA甲基化長(zhǎng)讀長(zhǎng)測(cè)序檢測(cè)方法比較_abio生物試劑品牌網(wǎng)
標(biāo)題:A comparison of methods for detecting DNA methylation from long-read sequencing of human genomes(人基因組DNA甲基化長(zhǎng)讀長(zhǎng)測(cè)序檢測(cè)方法比較)
發(fā)表時(shí)間:2024-03-11
發(fā)表期刊:Genome Biology
影響因子:IF10.1/Q1
技術(shù)平臺(tái):ONT、oxBS、SMRT
DOI:10.1186/s13059-024-03207-9
本研究揭示了7,179個(gè)納米孔測(cè)序的DNA樣本中檢測(cè)到的CpG甲基化具有高度準(zhǔn)確性和一致性,與相同血液樣本中分離出來(lái)的132個(gè)精準(zhǔn)甲基化測(cè)序(oxBS)樣本的檢測(cè)結(jié)果相匹配。研究引入靶向CpG位點(diǎn)的質(zhì)量過(guò)濾器(過(guò)濾約30%的CpG)以進(jìn)一步提高納米孔測(cè)序CpG甲基化檢測(cè)的準(zhǔn)確性。研究評(píng)估了在不同基因組特征和CpG甲基化率下,每個(gè)位點(diǎn)的CpG甲基化檢測(cè)性能,并展示了最新的ONT R10.4芯片和堿基識(shí)別算法優(yōu)化ONT納米孔測(cè)序中的甲基化檢測(cè)的具體過(guò)程。此外,研究還納入了50個(gè)SMRT測(cè)序樣本基因組的甲基化檢測(cè)結(jié)果和oxBS測(cè)序的結(jié)果,與ONT測(cè)序進(jìn)行橫向比較研究闡明了每種測(cè)序方法的優(yōu)勢(shì)和局限性,并為使用長(zhǎng)讀長(zhǎng)測(cè)序進(jìn)行基因組規(guī)模的堿基修飾檢測(cè)工具的標(biāo)準(zhǔn)化和評(píng)估提出了建議。
研究方法
ONT測(cè)序:使用PromethION R9.4和R10.4芯片,通過(guò)檢測(cè)DNA分子通過(guò)納米孔時(shí)的電流變化來(lái)識(shí)別甲基化修飾。
SMRT測(cè)序:通過(guò)檢測(cè)DNA合成過(guò)程中堿基摻入的動(dòng)力學(xué)變化來(lái)識(shí)別甲基化修飾。
oxBS測(cè)序:通過(guò)化學(xué)氧化和亞硫酸鹽處理精準(zhǔn)區(qū)分5-甲基胞嘧啶(5-mC)和5-羥甲基胞嘧啶(5-hmC)。
數(shù)據(jù)分析工具:
- Nanopolish:使用隱馬爾可夫模型(HMM)為每個(gè)CpG位點(diǎn)分配甲基化狀態(tài)。
- Guppy:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)工具,可在堿基識(shí)別階段直接檢測(cè)CpG甲基化。
- Primrose:SMRT測(cè)序數(shù)據(jù)的甲基化檢測(cè),通過(guò)結(jié)合鄰近CpG位點(diǎn)的動(dòng)態(tài)信息來(lái)提高檢測(cè)準(zhǔn)確性。
結(jié)果圖形
(1)ONT納米孔測(cè)序檢測(cè)CpG甲基化
研究首先利用promethION平臺(tái)對(duì)7,179名個(gè)體全血樣本進(jìn)行Nanopore測(cè)序,平均測(cè)序度為20.6×(中位數(shù)為19.5×,范圍從10×到108×)。同一樣本還被用于研究CpG甲基化、基因表達(dá)和序列變異之間的相關(guān)性。研究通過(guò)Nanopolish工具進(jìn)行CpG甲基化檢測(cè),該工具將相距10bp以?xún)?nèi)的CpG位點(diǎn)歸為一個(gè)單元,稱(chēng)為CpG單元。Nanopolish以參考基因組比對(duì)的reads為input和每個(gè)read數(shù)據(jù)參考基因組的鏈信息,為每個(gè)CpG單元判斷其對(duì)數(shù)似然比(LLR)。LLR為二進(jìn)制值,表示測(cè)序CpG位點(diǎn)甲基化狀態(tài)。當(dāng)LLR未達(dá)到預(yù)測(cè)CpG單元為甲基化或未甲基化標(biāo)準(zhǔn)時(shí),將CpG單元分類(lèi)為“不可靠”。本研究分析范圍為隊(duì)列中Nanopolish檢測(cè)到的22,178,458個(gè)常染色體CpG單元,共27,651,488個(gè)CpG位點(diǎn)。
(2)ONT測(cè)序和oxBS的CpG甲基化檢測(cè)比較
研究對(duì)132個(gè)個(gè)體的DNA樣本進(jìn)行Nanopore測(cè)序和oxBS測(cè)序比較分析以評(píng)估Nanopore測(cè)序在CpG甲基化檢測(cè)中的準(zhǔn)確性。樣本平均測(cè)序深度為25×,每個(gè)CpG單元在兩個(gè)數(shù)據(jù)集中分別計(jì)算了所有個(gè)體的平均5-mCpG率,并通過(guò)皮爾遜相關(guān)系數(shù)(APC)來(lái)評(píng)估Nanopolish工具性能。結(jié)果顯示,兩個(gè)數(shù)據(jù)集之間的APC非常高(r=0.9594),表明Nanopore測(cè)序的甲基化檢測(cè)結(jié)果與oxBS測(cè)序結(jié)果高度一致。

圖1:ONT測(cè)序和oxBS在同一DNA樣本中5-甲基胞嘧啶(5-mCpG)率的一致性表現(xiàn)。
A. 132個(gè)DNA樣本中ONT(紅色)和oxBS(綠色)的5-mCpG率整體檢測(cè)值。
B-C. ONT測(cè)序中每個(gè)CpG位點(diǎn)的5-mCpG率的皮爾遜相關(guān)系數(shù)r(B)和平均絕對(duì)差異(MAD)(C)。
D. ONT測(cè)序樣本中用于分析特定CpG位點(diǎn)的5-mCpG率的序列數(shù)量(X軸),影響與oxBS高深度檢測(cè)5-mCpG率的一致性(皮爾遜相關(guān)系數(shù)r,Y軸)。
E. ONT測(cè)序(Y軸)和oxBS(X軸,分組)中的CpG率。平均值紅色(ONT)和綠色(oxBS)。
F. 樣本間比較通過(guò)ONT測(cè)序正確分類(lèi)的CpG位點(diǎn)數(shù)量(Y軸,單位=/M CpGs,藍(lán)色)。錯(cuò)誤分類(lèi)的CpG位點(diǎn)根據(jù)5-mCpG率的MAD著色(顏色圖例)。D/E/F中的oxBS位點(diǎn)測(cè)序深度>25×。
(3)測(cè)序深度影響ONT測(cè)序數(shù)據(jù)中CpG甲基化檢測(cè)的一致性
研究進(jìn)一步探討了測(cè)序深度對(duì)Nanopore測(cè)序CpG甲基化檢測(cè)一致性的影響。結(jié)果顯示,測(cè)序深度越高,CpG甲基化檢測(cè)一致性越好。當(dāng)測(cè)序深度在12×或更高時(shí),皮爾遜相關(guān)系數(shù)顯著提高,而20×或更高的測(cè)序深度時(shí),檢測(cè)結(jié)果一致性進(jìn)一步提高。當(dāng)測(cè)序深度低于10×?xí)r,甲基化檢測(cè)準(zhǔn)確性會(huì)顯著下降。這一結(jié)果表明,較高的測(cè)序深度能夠顯著提高CpG甲基化檢測(cè)的準(zhǔn)確性和一致性。為了獲得高準(zhǔn)確性的CpG甲基化檢測(cè)結(jié)果,建議每個(gè)樣本的測(cè)序深度至少為12×,20×或更高則更為理想。
(4)ONT測(cè)序數(shù)據(jù)在未甲基化和高甲基化CpG單元中的一致性更高
研究發(fā)現(xiàn),ONT測(cè)序在未甲基化和高甲基化CpG單元的檢測(cè)上表現(xiàn)更為一致。研究將CpG位點(diǎn)分為未甲基化(0–0.15)、低甲基化(0.15–0.5)、中等甲基化(0.5–0.85)和高甲基化(0.85–1)四個(gè)類(lèi)別,通過(guò)比較ONT測(cè)序和oxBS的結(jié)果顯示,Nanopore測(cè)序在未甲基化和高甲基化CpG單元上的預(yù)測(cè)準(zhǔn)確性最高,分別為86%和77%。這表明Nanopore測(cè)序在極端甲基化狀態(tài)下檢測(cè)更為可靠,而在低甲基化和中等甲基化狀態(tài)下的檢測(cè)準(zhǔn)確性相對(duì)較低,分別為52%和56%。這一結(jié)果為研究者在選擇測(cè)序技術(shù)和分析工具時(shí)提供重要的參考依據(jù)。
(5)Nanopolish甲基化檢測(cè)質(zhì)量受CpG單元序列背景影響
研究發(fā)現(xiàn),Nanopolish甲基化檢測(cè)質(zhì)量受CpG單元序列背景的影響。為了分析這種影響,研究者將CpG單元分為序列變異周?chē)?bp以?xún)?nèi))、“暗區(qū)”(即難以可靠比對(duì)的區(qū)域)、具有異常測(cè)序深度(高于平均深度1.5倍或低于平均深度0.5倍)以及存在鏈偏倚(大于0.2)的4個(gè)CpG單元。分析結(jié)果表明,序列變異周?chē)鶦pG位點(diǎn)(5bp以?xún)?nèi))的預(yù)測(cè)準(zhǔn)確性較低,其APC為0.9219,而其他CpG位點(diǎn)的APC為0.9656。此外,“暗區(qū)”CpG位點(diǎn)APC也較低,為0.698。這些結(jié)果表明,序列背景對(duì)Nanopore測(cè)序的甲基化檢測(cè)準(zhǔn)確性有顯著影響。因此,在進(jìn)行CpG甲基化檢測(cè)時(shí),需要特別關(guān)注這些區(qū)域的質(zhì)控,以提高檢測(cè)結(jié)果的可靠性。

圖2:根據(jù)DNA序列屬性評(píng)估5-mCpG率檢測(cè)質(zhì)量。
A. 比較位于特定序列屬性?xún)?nèi)部(灰色)和外部(粉色)的CpG位點(diǎn)的平均皮爾遜相關(guān)系數(shù)(APC)。
B. 每個(gè)屬性?xún)?nèi)部的CpG單元(紅色)和位點(diǎn)(綠色)數(shù)量。
C. 單個(gè)CpG單元(單例)和多CpG位點(diǎn)單元(非單例)中高質(zhì)量(深藍(lán)色)與非高質(zhì)量(淺藍(lán)色)CpG單元的比例。
D. 不同甲基化狀態(tài)類(lèi)別中高質(zhì)量和非高質(zhì)量CpG單元比例。
(6)與oxBS數(shù)據(jù)的對(duì)比分析中,Guppy在CpG位點(diǎn)甲基化檢測(cè)上表現(xiàn)優(yōu)于Nanopolish
研究比較了Guppy和Nanopolish在CpG位點(diǎn)的甲基化檢測(cè)。分析結(jié)果表明Guppy在與oxBS測(cè)序結(jié)果的對(duì)比分析中表現(xiàn)優(yōu)于Nanopolish。具體而言,Guppy與oxBS測(cè)序結(jié)果的APC為0.97256,高于Nanopolish的0.9594。且Guppy平均鏈偏倚更低,表明其甲基化檢測(cè)準(zhǔn)確性更高。通過(guò)應(yīng)用與Nanopolish相同的質(zhì)量過(guò)濾器,Guppy能夠鑒定出更多的高質(zhì)量CpG位點(diǎn)(hq-CpGs),其APC為0.98691。這一結(jié)果表明,Guppy在CpG甲基化檢測(cè)上具有更高的準(zhǔn)確性和可靠性,特別是在處理低甲基化和中等甲基化狀態(tài)下的CpG位點(diǎn)時(shí)表現(xiàn)更為出色。
(7)最新的Nanopore R10.4芯片技術(shù)在甲基化檢測(cè)上實(shí)現(xiàn)了更高準(zhǔn)確性和改進(jìn)的檢測(cè)結(jié)果
研究人員對(duì)ONT的最新R10.4芯片在CpG甲基化檢測(cè)方面的表現(xiàn)進(jìn)行了評(píng)估,并與早期的R9.4芯片進(jìn)行了比較。研究發(fā)現(xiàn),R10.4芯片在多個(gè)方面表現(xiàn)出顯著的優(yōu)勢(shì),特別是在提高甲基化檢測(cè)的準(zhǔn)確性和減少鏈偏倚方面。
- 更高的APC:在所有CpG位點(diǎn)中,R10.4芯片預(yù)測(cè)的5-mCpG率與oxBS數(shù)據(jù)的APC為0.97845,高于R9.4芯片的0.97256。表明R10.4芯片在甲基化檢測(cè)上的準(zhǔn)確性更高。
- 更低的MAD:Guppy R10.4在與oxBS的甲基化檢測(cè)比較中顯示出比Guppy R9.4更低的MAD,進(jìn)一步證明了其在甲基化檢測(cè)上的準(zhǔn)確性。
- 更低的鏈偏倚:R10.4芯片的平均鏈偏倚為0.047,顯著低于R9.4芯片的0.064。鏈偏倚是指正鏈和負(fù)鏈上預(yù)測(cè)的甲基化率差異,較低的鏈偏倚表明R10.4芯片在甲基化檢測(cè)上的可靠性更高。
- 更多的高質(zhì)量CpG位點(diǎn):應(yīng)用相同的質(zhì)量過(guò)濾器,R10.4芯片能夠鑒定出更多的高質(zhì)量CpG位點(diǎn)(hq-CpGs),數(shù)量達(dá)到22893522個(gè)(82.8%),與R9.4芯片相比增加了2.3%。表明R10.4芯片在提高甲基化檢測(cè)位點(diǎn)覆蓋率方面具有顯著優(yōu)勢(shì)。
- 高質(zhì)量CpG位點(diǎn)更高的APC:這些高質(zhì)量CpG位點(diǎn)的APC為0.99067,表明R10.4芯片在甲基化檢測(cè)上的準(zhǔn)確性非常高。
(8)ONT測(cè)序與SMRT測(cè)序的CpG甲基化檢測(cè)比較
研究以50個(gè)oxBS樣本作為參考標(biāo)準(zhǔn),對(duì)50個(gè)SMRT測(cè)序樣本、50個(gè)ONT測(cè)序樣本(分別使用R9.4和R10.4芯片)的CpG甲基化檢測(cè)數(shù)據(jù)進(jìn)行比較分析。研究對(duì)所有樣本的平均5-mCpG率進(jìn)行分析,并比較所有五種方法(SMRT、R9.4-Guppy、R10.4-Guppy、R9.4-Nanopolish和oxBS)之間的平均皮爾遜相關(guān)系數(shù)(APC)以及5-mCpG率與oxBS之間的平均絕對(duì)差異(MAD)(表1A)。
表1:不同測(cè)序技術(shù)在CpG甲基化檢測(cè)中的一致性和準(zhǔn)確性比較
(A) APC比較結(jié)果展示在主對(duì)角線以下,MMAD比較結(jié)果展示在主對(duì)角線以上。
(B) 基于所有CpG、序列變異周?chē)鶦pG或暗區(qū)CpG位點(diǎn)的APC比較分析。
結(jié)果顯示,Guppy R10.4和Guppy R9.4在與oxBS數(shù)據(jù)的比較中表現(xiàn)最佳,其平均皮爾遜相關(guān)系數(shù)(APC)最高,分別為0.97845和0.97256。表明Guppy在甲基化檢測(cè)上的準(zhǔn)確性最高,能夠最接近oxBS測(cè)序的參考標(biāo)準(zhǔn)。研究還分析了不同測(cè)序技術(shù)在CpG甲基化率分布上的表現(xiàn)。所有測(cè)序技術(shù)均能準(zhǔn)確復(fù)現(xiàn)oxBS測(cè)序觀察到的CpG甲基化率的雙峰分布,Guppy R10.4的分布與oxBS測(cè)序結(jié)果最為接近,表明其在極端甲基化狀態(tài)下的檢測(cè)更為準(zhǔn)確。
此外,CpG周?chē)男蛄凶儺悤?huì)在oxBS中引入比對(duì)偏倚,導(dǎo)致甲基化檢測(cè)不準(zhǔn)確和APC降低(表1B)。因此對(duì)于Guppy和PacBio而言,序列變異周?chē)鶦pG位點(diǎn)的重要性較低。所有長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)都使用特定序列背景和與參考基因組的比較來(lái)檢測(cè)CpG甲基化狀態(tài),因此可以過(guò)濾那些序列變異周?chē)腃pG位點(diǎn)。
(9)5-mCpG率的分布
研究分析了不同測(cè)序技術(shù)在CpG甲基化率分布上的表現(xiàn)。結(jié)果顯示,所有測(cè)序技術(shù)在CpG甲基化率的分布上表現(xiàn)出預(yù)期的雙峰分布,但在完全甲基化和完全未甲基化狀態(tài)下的分布略有差異。Guppy R10.4測(cè)序結(jié)果與oxBS測(cè)序結(jié)果最為接近,而SMRT測(cè)序和Guppy R9.4測(cè)序結(jié)果則在極端甲基化狀態(tài)下表現(xiàn)出一定的偏倚。這一結(jié)果表明,不同測(cè)序技術(shù)在處理低甲基化和中等甲基化狀態(tài)下的CpG位點(diǎn)時(shí)可能存在差異,研究者在選擇測(cè)序技術(shù)時(shí)需要考慮這些因素。
圖3:不同方法檢測(cè)CpG甲基化的比較。
A. 在oxBS、Guppy R9.4和R10.4中,CpG甲基化率(0-1)在個(gè)體中平均后呈現(xiàn)出oxBS數(shù)據(jù)中預(yù)期的雙峰分布。
B. 在oxBS、PacBio和Nanopore中,CpG甲基化率(0-1)在個(gè)體中平均后呈現(xiàn)出oxBS數(shù)據(jù)中預(yù)期的雙峰分布。
C. 全血中表達(dá)基因的轉(zhuǎn)錄起始位點(diǎn)(TSS)的CpG甲基化率在50bp范圍內(nèi)平均值。
D. 每種方法檢測(cè)到的CpG位點(diǎn)數(shù)量。Nanopolish統(tǒng)計(jì)每個(gè)CpG單元的所有CpG位點(diǎn)。
(10)功能區(qū)域的5-mCpG分布
為了研究生物學(xué)背景對(duì)甲基化檢測(cè)準(zhǔn)確性的作用,研究人員分析了全血中表達(dá)基因的TSS處50bp以?xún)?nèi)的平均5-mCpG率。所有甲基化檢測(cè)方法都高度匹配oxBS測(cè)序樣本中的甲基化模式,表明在TSS區(qū)域內(nèi)甲基化缺失(圖3C)。其中PacBio和Guppy R9.4在TSS處顯示出更高的CpG甲基化率,而在TSS之外則顯示出低甲基化率,這與這兩種方法的甲基化分布輕微偏移一致(圖3A、B)。而Guppy R10.4測(cè)序結(jié)果更接近于oxBS中的TSS甲基化水平(圖3C)。表明其在功能區(qū)域的甲基化檢測(cè)上具有高準(zhǔn)確性。這一結(jié)果進(jìn)一步證實(shí)了Guppy R10.4測(cè)序技術(shù)在表觀遺傳學(xué)研究中的應(yīng)用潛力,特別是在基因表達(dá)調(diào)控和細(xì)胞分化機(jī)制研究中。
(11)長(zhǎng)讀長(zhǎng)測(cè)序比oxBS測(cè)序檢測(cè)到更多的CpG位點(diǎn)數(shù)量
研究發(fā)現(xiàn),長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)在檢測(cè)CpG位點(diǎn)數(shù)量上優(yōu)于oxBS測(cè)序。Nanopore測(cè)序和SMRT測(cè)序平均每個(gè)樣本檢測(cè)到約27M CpG位點(diǎn)(Guppy R9.4=27,467,383個(gè)CpG位點(diǎn),Guppy R10.4=27369144個(gè)CpG位點(diǎn),PacBio=26,739,539個(gè)CpG位點(diǎn),Nanopolish=26,487,587個(gè)CpG位點(diǎn),分布在22,058,476個(gè)CpG單元中),而oxBS測(cè)序僅檢測(cè)到約26M CpG位點(diǎn)(圖3D)。這一結(jié)果表明,長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)在CpG甲基化檢測(cè)上具有更高的分辨率和更全面的覆蓋范圍,能夠?yàn)檠芯空咛峁└S富的表觀遺傳學(xué)信息。這一優(yōu)勢(shì)在研究復(fù)雜基因組區(qū)域和稀有甲基化中尤為顯著。
討論和啟示
本研究通過(guò)大規(guī)模樣本分析,揭示了長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)在CpG甲基化檢測(cè)中的優(yōu)勢(shì)和局限性。研究揭示了測(cè)序深度、鏈偏倚、序列背景等因素對(duì)甲基化檢測(cè)的準(zhǔn)確性有顯著影響。同時(shí),長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)在檢測(cè)CpG甲基化方面具有顯著優(yōu)勢(shì),尤其是在無(wú)需化學(xué)處理DNA的情況下直接檢測(cè)甲基化修飾的能力。最新的R10.4芯片技術(shù),通過(guò)降低鏈偏倚和提高檢測(cè)準(zhǔn)確性,進(jìn)一步提升了ONT測(cè)序在甲基化檢測(cè)中的性能。未來(lái)的研究可以利用這些技術(shù)優(yōu)勢(shì),深入探索基因表達(dá)調(diào)控、細(xì)胞分化以及疾病發(fā)生機(jī)制等領(lǐng)域的表觀遺傳學(xué)變化。
參考文獻(xiàn):
Sigurpalsdottir, B.D., Stefansson, O.A., Holley, G. et al. A comparison of methods for detecting DNA methylation from long-read sequencing of human genomes. Genome Biol 25, 69 (2024). Doi:10.1186/s13059-024-03207-9
本站“ABIO生物試劑品牌網(wǎng)”圖片文字來(lái)自互聯(lián)網(wǎng)
如果有侵權(quán)請(qǐng)聯(lián)系微信: nanhu9181 處理,感謝~


