數(shù)據(jù)處理是單細(xì)胞測序重要的環(huán)節(jié)之一 , 其中細(xì)胞類型注釋關(guān)乎后續(xù)研究的準(zhǔn)確性 。細(xì)胞類型注釋是將未知的細(xì)胞聚類結(jié)果與已知的細(xì)胞類型進(jìn)行相似程度的比對分析。伯豪生物根據(jù)多年的項(xiàng)目經(jīng)驗(yàn)發(fā)現(xiàn),細(xì)胞類型注釋的準(zhǔn)確性,取決于已知數(shù)據(jù)庫的準(zhǔn)確性以及注釋前聚類分析的算法閾值。本文將針對單細(xì)胞測序數(shù)據(jù)分析環(huán)節(jié)中細(xì)胞注釋部分,分享伯豪生物的一點(diǎn)心得。
細(xì)胞注釋常用方法
方法一:使用 Single R 進(jìn)行細(xì)胞類型注釋
操作教程:https://www.bioconductor.org/packages/release/bioc/vignettes/SingleR/inst/doc/SingleR.html
1、計(jì)算測試集(沒有注釋的轉(zhuǎn)錄組數(shù)據(jù))與參考集(已注釋的轉(zhuǎn)錄組數(shù)據(jù))的相似度(spearman correlation);
2、以參考集細(xì)胞類型為單位,計(jì)算 per-label score;
3、對所有的 label 重復(fù)這個過程,選取先進(jìn)的分?jǐn)?shù)的細(xì)胞類型標(biāo)簽作為測試集中某類細(xì)胞的身份。
方法二: 其它類型 R 語言腳本程序:Garnett
操作教程:https://cloud.tencent.com/developer/article/1606016
方法三:根據(jù)經(jīng)典 marker 基因進(jìn)行細(xì)胞類型注釋
如何提高細(xì)胞注釋的準(zhǔn)確性?
一、合適的數(shù)據(jù)庫可以提高細(xì)胞注釋的準(zhǔn)確性。
隨著單細(xì)胞測序技術(shù)的發(fā)展,科學(xué)家們公開分享的數(shù)據(jù)庫呈遞增趨勢,如何選擇合適的數(shù)據(jù)庫作為參考,關(guān)乎著后續(xù)研究的的準(zhǔn)確性。伯豪生物收錄統(tǒng)計(jì)了兩大類單細(xì)胞數(shù)據(jù)庫(按照物種區(qū)分:人,小鼠)可用作單細(xì)胞測序注釋的參考集,其中人相關(guān)的單細(xì)胞測序數(shù)據(jù)庫包含約 48 種組織,100 種細(xì)胞的數(shù)據(jù)信息;小鼠相關(guān)的單細(xì)胞測序數(shù)據(jù)庫包含約 43 種組織,90 種細(xì)胞的數(shù)據(jù)信息。針對種類繁多的數(shù)據(jù)庫類型,伯豪生物給出的建議:首先,根據(jù)樣本的組織部位來源選擇相同組織的單細(xì)胞測序數(shù)據(jù)庫,或相近部位樣本的單細(xì)胞測序數(shù)據(jù)庫作為參考數(shù)據(jù)庫;若沒有小范圍合適的參考數(shù)據(jù)庫,可以按照物種進(jìn)行劃分(值得注意的是隨著數(shù)據(jù)庫的逐漸豐富,樣本的地域性因素也將逐漸納入?yún)⒖紨?shù)據(jù)庫的選擇指標(biāo))。
表 1. 伯豪生物已收錄整理的數(shù)據(jù)庫(部分)
二、借鑒經(jīng)典 marker 基因可提高數(shù)據(jù)庫的注釋精度
盡管已有 R 包針對大部分?jǐn)?shù)據(jù)可以進(jìn)行兼容性注釋分析,然而在一些研究中,由于聚類閾值的設(shè)置導(dǎo)致細(xì)胞聚類準(zhǔn)確性出現(xiàn)偏差,或者根據(jù)現(xiàn)有算法無法與高分研究的細(xì)胞分型匹配,此時為保證研究的延續(xù)性及可溯源性,需要手動對無法精準(zhǔn)注釋的細(xì)胞類型進(jìn)行調(diào)整。在這一過程中,伯豪收集整理大量的經(jīng)典細(xì)的 marker 信息(來源于歷史項(xiàng)目經(jīng)驗(yàn)及高分文章發(fā)表數(shù)據(jù)),表 2 列出了,伯豪生物收集的部分?jǐn)?shù)據(jù)供大家參考。
表 2. 通用經(jīng)典的 marker 基因(部分展示)
更多伯豪生物人工服務(wù):