好不容易拿到了自己的空間轉(zhuǎn)錄組測序數(shù)據(jù),心情激動(dòng)、躍躍欲試,想趕快去實(shí)施一下自己的 idea,可是又不會(huì)寫代碼,只能干等著?當(dāng)然不是,其實(shí) 空間轉(zhuǎn)錄組測序數(shù)據(jù) 你完全可以實(shí)現(xiàn)不寫代碼完成自己大部分?jǐn)?shù)據(jù)挖掘的工作。
這里輪到有用的工具 10x genomic Loupe Browser 上場了!Loupe Browser 是 10x genomics 專門開發(fā)的用于 10x 相關(guān)產(chǎn)品可視化的工具,它其實(shí)可以完成很大部分的數(shù)據(jù)挖掘工作,而且操作簡單,自己有 空間轉(zhuǎn)錄組測序數(shù)據(jù) 或單細(xì)胞測序數(shù)據(jù)的確實(shí)可以好好利用一下這個(gè)軟件。
Loupe Browser 下載地址:
https://support.10xgenomics.com/spatial-gene-expression/software/downloads/latest?
下載后直接雙擊安裝就可。
數(shù)據(jù)準(zhǔn)備
Loupe Browser 導(dǎo)入的是 Space Ranger 軟件生成的 cloupe.cloupe 文件。10x genomic Space Ranger 軟件的使用教程可參考:
空間轉(zhuǎn)錄組第二講:Space Ranger 的使用
前面也介紹過,我們做空間轉(zhuǎn)錄組測序一般不太可能只做一個(gè)樣本,一般會(huì) 做空間轉(zhuǎn)錄組測序 多個(gè)樣本同時(shí)分析,因?yàn)樾枰M(jìn)行 空間轉(zhuǎn)錄組測序目標(biāo) 亞群數(shù)目和基因表達(dá)差異的比較,這時(shí)候就需要把 空間轉(zhuǎn)錄組測序數(shù)據(jù) 多個(gè)樣本整合起來一起分析。用 Loupe Browser 挖掘 數(shù)據(jù)也是一樣,盡量使用多樣本整合后的 cloupe.cloupe 文件。
10x genomic 的軟件 spacerangeraggr 來合并多個(gè)空間轉(zhuǎn)錄組測序的樣本使用教程可參考:
空間轉(zhuǎn)錄組第五講:10x spaceranger aggr 合并多個(gè)樣本
如果前面用 seurat 對數(shù)據(jù)進(jìn)行來了分析,我們也可以把 seurat 聚類的結(jié)果導(dǎo)入到 Loupe Browser 中進(jìn)行數(shù)據(jù)后續(xù)的挖掘(cloupe.cloupe 文件也是需要準(zhǔn)備的)。
軟件操作介紹
一、文件讀取和 Loupe Browser 整體界面介紹
文件讀取可以選擇簡單的方式,就是雙擊自己的 cloupe.cloupe 文件,當(dāng)然前提是你已經(jīng)安裝好 Loupe Browser 軟件。然后會(huì)進(jìn)入如下界面:
A 區(qū)為圖像展示和操作區(qū),可以對組織圖像進(jìn)行操作,也可以展示降維聚類后的 tsne 或 umap 分布圖。
B 區(qū)主要對亞群、基因、樣本選擇進(jìn)行操作。
C 區(qū)展示差異基因的結(jié)果。
二、查看亞群總體分布
這里可以查看 tsne(umap)圖亞群的分布,也可以查看每個(gè)樣本組織切片上亞群的分布。
三、對圖像區(qū)域進(jìn)行操作
主要包括 3 個(gè)工具,箭頭展示對應(yīng)點(diǎn)的亞群信息,套索可以選中某個(gè)區(qū)域進(jìn)行操作,可以進(jìn)行分類或?qū)С?,后一個(gè)畫筆可以對單個(gè)點(diǎn)進(jìn)行選擇,也可以進(jìn)行分類或?qū)С觥?/font>
在這里我們用套索工具挑選了兩群細(xì)胞,同時(shí)又用畫筆給第二群細(xì)胞增加了幾個(gè)細(xì)胞,因?yàn)橛袝r(shí)候我們想把個(gè)別分散的點(diǎn)加到亞群里去,這個(gè)用套索工具是沒辦法實(shí)現(xiàn)的。
根據(jù)組織切片染色來圈范圍。有時(shí)候我們只需要跟組織染色的結(jié)果來進(jìn)行分組劃分區(qū)域,這時(shí)候顯示 spot 點(diǎn)的信息反而會(huì)使組織圖像看不清楚,這里可以使用 spot opacity 工具來調(diào)整 spot 的透明度,甚至完全去掉亞群信息,然后再根據(jù)組織切片圖像進(jìn)行區(qū)域的選擇。
四、對亞群進(jìn)行選擇
在右邊區(qū)域?qū)喨哼M(jìn)行選擇,可以選中自己想要查看的亞群,然后展示該亞群在樣本組織圖和 tsne(或 umap)降維聚類圖中的分布。
五、對樣本進(jìn)行選擇
對于數(shù)據(jù) tsne 或 umap 的可視化結(jié)果同樣可以對樣本進(jìn)行選擇展示,查看每個(gè)樣本的位置分布。
六、查看基因表達(dá)
右邊上方選擇 Gene/Feature Eexression,然后下面空白框中輸入需要查看的基因,就可以查看這個(gè)基因在亞群以及樣本中的表達(dá)分布情況。
七、Marker 基因查看
在界面的下方,可以查看每個(gè)亞群對應(yīng)的 marker 基因信息包括 P 值、FC 等,也可以把 marker 基因差異結(jié)果表格導(dǎo)出來。
從上面的操作中可以看發(fā)現(xiàn),不但可以查看和導(dǎo)出亞群上調(diào)的基因,也可以導(dǎo)出下調(diào)的基因,基因數(shù)目則可以選擇 top20、50、100 或者所有基因。
導(dǎo)出的 marker 基因表格如下:
雖然我們只選擇某個(gè)亞群的 marker 基因,但是實(shí)際上軟件會(huì)把這些基因在所有亞群中的差異信息值都導(dǎo)出來。主要包括三列:亞群的平均表達(dá)值、log2 foldchage、pvalue。
八、導(dǎo)入自己的 tsne 降維和分類結(jié)果
前面我們看到的亞群分類和 tsne 降維結(jié)果都是 10x spaceranger 軟件自己計(jì)算出來的,有時(shí)候我們自己用其他軟件(比如 Seurat)分析后得到的結(jié)果也想用 Loupe Browser 軟件來進(jìn)行可視化和數(shù)據(jù)的挖掘,這時(shí)候可以選擇將自己的亞群分類結(jié)果和 tsne 降維坐標(biāo)信息導(dǎo)入軟件內(nèi),替代原有的亞群分類和 tsne 降維展示。
文件準(zhǔn)備
tsne 坐標(biāo)文件 data_tsne.csv:包括 3 列信息(barcode、tSNE_1、tSNE_2)
Cluster 分群文件 data_cluster.csv,除了分群信息我們也可以加入樣本分組信息。
注意文件必須是 csv 格式,且 barcode 的 id 要與 10x spaceranger 跑出的結(jié)果一致。
導(dǎo)入文件
開始數(shù)據(jù)挖掘
重點(diǎn)來咯,敲黑板啦!
前面介紹了 Loupe Browser 的基本操作,下面來介紹一下怎么利用該軟件進(jìn)行有效的空間轉(zhuǎn)錄組測序數(shù)據(jù)挖掘。
一、亞群聚類結(jié)果的選擇
從前面的介紹我們知道這里既可以使用 10xspaceranger 軟件聚類的結(jié)果,也可以導(dǎo)入 Seurat 聚類的結(jié)果。如果同時(shí)有著兩種結(jié)果可以選擇,那么我們可以挑選一個(gè)更優(yōu)的結(jié)果進(jìn)行后面的分析。理論上這兩種聚類的結(jié)果我們都可以選擇用來進(jìn)行后續(xù)的分析,那么哪個(gè)更好就需要自己來判斷一下那種結(jié)果更符合自己的預(yù)期了??梢詮膸讉€(gè)方面來判斷:
A、樣本的分布情況:一般來說如果聚類后如果樣本之間沒有交集互相獨(dú)立,這樣的結(jié)果不是很理想的,說明沒有有效的去除個(gè)體差異。但是因?yàn)榭辙D(zhuǎn)的數(shù)據(jù)比較特殊,本身不同切片不同區(qū)域很難做到 RNA 捕獲的均一性,有時(shí)候不同樣本的數(shù)據(jù)差異就是很大,強(qiáng)行通過歸一化或其他方法去除個(gè)體差異反而會(huì)使結(jié)果失真。
注:這個(gè)示例圖左邊是 spaceranger 的結(jié)果,右邊是 Seurat 聚類的結(jié)果,單從樣本分布來看 spaceranger 的結(jié)果是更佳的。
B、結(jié)合組織切片染色結(jié)果來判斷:組織切片區(qū)域的構(gòu)成、病理狀態(tài)的分布對于判斷亞群的分布是否符合預(yù)期可能更有用。比如說從組織切片上已經(jīng)知道某個(gè)區(qū)域就是屬于某一類細(xì)胞,那么這一區(qū)域的細(xì)胞聚成一類的結(jié)果肯定更合適的。
注:示例圖里 spaceranger 的結(jié)果(左邊)相對來說比 seurat 的聚類結(jié)果(中間)更符合組織切片上的紋路。
二、亞群分布比較
我們拿到數(shù)據(jù)的首步,一般會(huì)先看一下不同亞群在不同樣本里的分布情況,哪些亞群是共有的,哪些亞群是樣本特有的,哪些亞群數(shù)目變化比較大的。如果有做生物學(xué)重復(fù)還可以看一下重復(fù)性效果怎么樣。由于軟件只能一個(gè)樣本一個(gè)樣本的查看,這時(shí)候我們可以把圖片截圖下來放到一起來展示。對于亞群數(shù)目的比較,如果自己可以寫代碼用圖形化展示出來肯定是先進(jìn)的,如果不會(huì)寫代碼也可以把亞群對應(yīng)的數(shù)字輸入到 excle 表格里直接進(jìn)行統(tǒng)計(jì)。
從示例圖例我們可以發(fā)現(xiàn)兩種切片的生物學(xué)重復(fù)還是很好的。7、11 號(hào)群是 posterior 樣本特有的,6、8、9 號(hào)群是 anterior 樣本特有的。后面我們也可以重點(diǎn)關(guān)注這些群到底屬于什么細(xì)胞類型。
三、細(xì)胞類型注釋
空間轉(zhuǎn)錄組測序技術(shù)不是真正的單細(xì)胞水平,每個(gè) spot 會(huì)捕獲 5 -10 個(gè)細(xì)胞,這樣每個(gè) spot 里實(shí)際上可能存在幾種不同類型的細(xì)胞。但是對于大部分組織細(xì)胞來說同一區(qū)域周圍更可能分布著相同類型的細(xì)胞,這樣對應(yīng)的 spot 孔里面更容易捕獲到同一種細(xì)胞(或者 splot 里的大部分細(xì)胞屬于同一類型)。所以對空間轉(zhuǎn)錄組測序數(shù)據(jù)進(jìn)行細(xì)胞類型注釋有利判斷不同組織細(xì)胞類型的大致空間分布信息。對于免疫細(xì)胞要研究它的空間分布往往是比較困難的,它常常會(huì)散布整個(gè)組織上,而且聚類的時(shí)候也比較難得到集中的免疫細(xì)胞群。
做亞群細(xì)胞類型注釋的方法一般有兩種,一種是用專門的軟件去做注釋(如 singleR),還有一種就是根據(jù)已知 maker 基因的表達(dá)來對亞群進(jìn)行注釋判斷。這里我們采用第二種方法。
細(xì)胞類型 marker 基因來源
細(xì)胞類型 marker 基因的可以是自己從文獻(xiàn)中收集的,也可是從一些單細(xì)胞 marker 基因數(shù)據(jù)庫里找來的。這里我們主要來介紹怎么使用 CellMarker 數(shù)據(jù)庫里的細(xì)胞 marker 基因來做注釋。CellMarker 數(shù)據(jù)庫收錄了 158 種組織 / 亞組織的 467 種人細(xì)胞類型,81 種組織 / 亞組織的 389 種鼠細(xì)胞類型。數(shù)據(jù)主要來源于文獻(xiàn)和數(shù)據(jù)庫,包括單細(xì)胞測序數(shù)據(jù)和生物實(shí)驗(yàn)數(shù)據(jù)。
網(wǎng)址:http://biocc.hrbmu.edu.cn/CellMarker/
數(shù)據(jù)庫主界面:
我們的示例數(shù)據(jù)是小鼠的,這里我們點(diǎn)擊小鼠圖標(biāo),出現(xiàn)下面界面。
選擇組織類型:這里我們選小鼠腦,鼠標(biāo)點(diǎn)擊腦的圖標(biāo)會(huì)出來對應(yīng)的細(xì)胞類型,一共 22 種細(xì)胞。
然后點(diǎn)擊某個(gè)細(xì)胞類型會(huì)進(jìn)入該細(xì)胞類型 marker 基因的界面,例如點(diǎn)擊星形膠質(zhì)細(xì)胞,出現(xiàn) Astrocyte 細(xì)胞的 marker 基因詞云圖。
字體越大表示標(biāo)志物生物學(xué)證據(jù)越多,右邊有標(biāo)志物生物學(xué)證據(jù)數(shù)目的排序。一般我們選擇 3 - 5 個(gè)排名靠前的 marker 基因來注釋細(xì)胞就好了,太多反而容易造成干擾。這里我們選擇前 3 個(gè)基因 Gfap、Aldh1l1、Atp1b2 來進(jìn)行星形膠質(zhì)細(xì)胞的注釋。
Loupe Browser 展示 marker 基因
按照前面的操作說明,右邊上方選擇 Gene/Feature Eexression,然后下面空白框中輸入需要查看的基因。為了方便查看基因在每個(gè)亞群里的表達(dá)可以使用 Loupe Browser 的網(wǎng)格分割的展示方式。
我們可以把幾個(gè)基因的結(jié)果截圖下來合并到一起來分析。有時(shí)候藍(lán)色看起來表達(dá)差異不明顯,也可以點(diǎn)擊軟件右下角的顏色工具替換色系。
GFAP
Aldh1l1
Atp1b2
看到這 3 個(gè)基因的表達(dá)分布圖,基因之間的表達(dá)分布并不是那么一致,尤其是第 3 個(gè)基因都看不出哪個(gè)亞群高哪個(gè)亞群低。這種情況在空轉(zhuǎn)數(shù)據(jù)或單細(xì)胞數(shù)據(jù)中是經(jīng)常會(huì)出現(xiàn)的。這時(shí)候我們一般優(yōu)先參考排序靠前的也就是更經(jīng)典的 marker 基因的結(jié)果。GFAP 是星形膠質(zhì)細(xì)胞經(jīng)典的 marker,從它表達(dá)分布來看 2 號(hào)和 13 群的表達(dá)更高一點(diǎn),尤其是 13 號(hào)群。從第二個(gè) marker 基因 Aldh1l1 的表達(dá)來看 13 號(hào)群也相對更高一點(diǎn)。所以我們先暫定這 13 號(hào)群為 Astrocyte 細(xì)胞群。
細(xì)胞類型輔助判斷方法
有時(shí)候用上面的方法我們還不能完全確認(rèn)某個(gè)亞群的細(xì)胞類型,這時(shí)候我們可以借助第二種方法進(jìn)一步判斷,就是利用自己數(shù)據(jù)亞群的 marker 基因來分析。這里我們首先把 13 號(hào)群的 marker 基因表格導(dǎo)出來,前面已經(jīng)講述了導(dǎo)出亞群 marker 基因的方法。
步驟一:看亞群 marker 基因的交集
這里我們發(fā)現(xiàn) GFAP 確實(shí)是 13 號(hào)亞群的特異的 marker 基因,且平均表達(dá)值和 log2FC 還挺大的。
步驟二:看亞群 marker 基因富集到的功能
這里利用 KOBAS 3.0 進(jìn)行富集分析,這個(gè)軟件使用起來很簡單,幾乎看一眼就會(huì),而且它 3.0 版本 2019 年進(jìn)行了更新,里面收錄的數(shù)據(jù)庫也比較全比較新。
網(wǎng)站:http://kobas.cbi.pku.edu.cn/kobas3/genelist/
選擇物種(這里選擇小鼠),把 marker 基因 gene symbol 復(fù)制粘貼進(jìn)去。
選擇用來富集的庫,這里我們選擇 GO 功能可能更有利于細(xì)胞類型的判斷。
點(diǎn)擊 run 提交,等待幾分鐘出現(xiàn)下面界面:
點(diǎn)擊 download 下載結(jié)果文件,結(jié)果表格如下:
我們通過文獻(xiàn)或資料先找到 Astrocyte 細(xì)胞細(xì)胞的主要功能,然后再看富集結(jié)果中是否正好富集到這些功能,這樣可以幫助我們進(jìn)一步確認(rèn)亞群的注釋結(jié)果是否正確。
修改亞群名稱
確認(rèn)好亞群的細(xì)胞類型之后,我們就可以在 Loupe Browser 上直接修改 lable 了。
該類型的細(xì)胞分布展示
當(dāng)我們確定了亞群屬于什么細(xì)胞之后,接著可以來查看這一細(xì)胞類型在組織圖片上的分布了。從這上面也許我們也能找到一些有價(jià)值的信息。
這里我們發(fā)現(xiàn)星形膠質(zhì)細(xì)胞的分布其實(shí)還蠻有意思的。
四、細(xì)胞亞群在不同分組中的差異分析
當(dāng)我們找到自己關(guān)注的細(xì)胞類型或亞群之后,下一步就可以去分析這種細(xì)胞類型(或亞群)在不同組織處理或是不同病例狀態(tài)下的基因差異和功能差異??梢允菢颖局g比較,也可以是樣本分組之后的比較。比如說比較腫瘤原發(fā)灶和轉(zhuǎn)移灶上皮細(xì)胞基因表達(dá)的差異。這里我們就用分析前矢狀面(Sagittal-Anterior)和后矢狀面(Sagittal-Posterior)亞群的差異來展示一下方法。
進(jìn)行差異分析之前我們需要先手動(dòng)制作分類文件,因?yàn)?LoupeBrowser 需要根據(jù)選擇的分組來進(jìn)行差異分析。先導(dǎo)出亞群分類表格,接著導(dǎo)出細(xì)胞樣本對應(yīng)表格,再將兩個(gè)表格進(jìn)行合并來設(shè)置分類。后將做好的分類文件重新導(dǎo)入 Loupe Browser 中。
制作分組文件表格
這里我們比較 13 號(hào)亞群 Astrocyte 細(xì)胞作為示例來展示怎么分析差異。新做好的分組文件如下,把 13 號(hào)群的細(xì)胞分成了 Sagittal-Anterior_Astrocyte 和 Sagittal-Posterior_Astrocyte 兩組。注意文件存為 csv 格式。
分析差異
接著把分組文件導(dǎo)入到 Loupe Browser 中,利用 Loupe Browser 右下角的計(jì)算機(jī)工具計(jì)算兩組的差異,分析 Astrocyte 細(xì)胞在兩組之間的差異基因。
注意:因?yàn)槲覀冎皇窍敕治鲞@兩組之間的差異,所以右下角的 SignificantFeature Comparison 選擇 Locally Distinguishing,否則會(huì)計(jì)算出來這兩個(gè)分組相對于所有細(xì)胞之間的差異基因。
功能富集
后我們可以將前面得到的差異基因用 KOBAS 3.0 進(jìn)行富集分析,分析 Astrocyte 細(xì)胞在兩組之間的功能差異。
五、結(jié)合組織區(qū)域分布對數(shù)據(jù)進(jìn)行挖掘
大部分組織其實(shí)是有其特定的區(qū)域劃分的,比如說大腦里有皮層、丘腦、海馬、脈絡(luò)叢等多個(gè)區(qū)域。將組織的區(qū)域劃分和亞群(或細(xì)胞類型)的分布結(jié)合起來還是能發(fā)現(xiàn)很多有價(jià)值的信息的。
組織分區(qū)
可以根據(jù)這些區(qū)域特異表達(dá)的 maker 基因的分布來判斷每個(gè)區(qū)域在組織切片上的位置。
皮層 marker 基因 STX1A 的表達(dá)分布:
丘腦 marker 基因 PRKCD 的表達(dá)分布:
海馬 marker 基因 HPCA 的表達(dá)分布:
脈絡(luò)叢 marker 基因 TTR 的表達(dá)分布:
不同區(qū)域的亞群分布
找到了對應(yīng)的區(qū)域之后,下一步就可以研究每個(gè)區(qū)域主要有哪些亞群,包括哪些細(xì)胞類型,不同區(qū)域之間細(xì)胞類型之間的差異,不同區(qū)域之間功能的差異。
將這個(gè)數(shù)據(jù)的區(qū)域分布圖和亞群分布圖結(jié)合起來看的時(shí)候其實(shí)能發(fā)現(xiàn)一些挺有意思的現(xiàn)象。1、4、15 號(hào)群基本上都分布在皮層,17 號(hào)群對應(yīng)丘腦,脈絡(luò)叢對應(yīng) 20 號(hào)群。
選中 1、4、15 號(hào)群
選中 17 號(hào)群
選中 20 號(hào)群
這里如果有多個(gè)樣本分組的話(病理狀態(tài)、疾病分期等等),則可以統(tǒng)計(jì)在不同分組下每二個(gè)區(qū)域亞群的分布情況,比如說皮層區(qū)在正常狀態(tài)下 1 號(hào)亞群起主要作用,在疾病狀態(tài)下 4 號(hào)亞群起主要作用。
Marker 基因和功能研究
除了前面說的分析亞群的分布情況,我們還可以分析亞群或整個(gè)區(qū)域的功能變化。比如說分析脈絡(luò)叢對應(yīng)的 20 亞群在正常狀態(tài)和疾病狀態(tài)下特異表達(dá)的 maker 基因以及功能的變化。具體的操作方法跟前面分組差異分析相同,這里不再演示操作步驟。
六、結(jié)合病理學(xué)特征對數(shù)據(jù)進(jìn)行挖掘
空間轉(zhuǎn)錄組測序技術(shù)正真的精髓不是研究細(xì)胞亞群的分布,而在于將它在空間位置上體現(xiàn)的異質(zhì)性跟組織病理學(xué)特征的分布進(jìn)行結(jié)合,挖掘在不同病理學(xué)特征下轉(zhuǎn)錄組學(xué)的差異。這對于研究疾病病變的機(jī)制、幫助臨床實(shí)現(xiàn)更好的患者分子分型、以及空間位置 Biomarker 的挖掘方面都是非常有價(jià)值的。
比如說我們的組織切片上同時(shí)分布著不同嚴(yán)重程度(或不同類型)的病灶區(qū),我們可以手動(dòng)把這些區(qū)域圈出來進(jìn)行轉(zhuǎn)錄組層面的比較,找出不同病灶區(qū)的特異性 marker,分析疾病在一步步發(fā)展進(jìn)程中生物學(xué)功能的變化,甚至可以思考一下是否能找出一些關(guān)鍵性因子來阻斷疾病的進(jìn)展。
當(dāng)然也可以結(jié)合前面細(xì)胞類型注釋結(jié)果,分析組織切片不同病理學(xué)特征下某一類細(xì)胞的功能學(xué)的差異,前提條件是這類細(xì)胞在組織上的分布是比較集中的,可以清晰的從圖像上找出來的。
因?yàn)槲覀兊氖纠龜?shù)據(jù)沒有病例學(xué)信息,這里我們隨意選擇兩個(gè)區(qū)域進(jìn)行具體操作演示。首先利用上面中間的套索工具選擇不同病理學(xué)特征對應(yīng)的區(qū)域進(jìn)行命名分組,然后利用坐下角計(jì)算器工具計(jì)算每組特異性的 marker 基因。
導(dǎo)出差異基因接著用 KOBAS 3.0 進(jìn)行富集分析,分析這些基因主要富集到哪些功能上。
得到了差異基因和功能富集的表格,接下來就需要自己認(rèn)真的去里面挖掘有價(jià)值的信息了。
伯豪生物提供從樣本采集至生信全范圍覆蓋的空間轉(zhuǎn)錄組測序技術(shù)服務(wù),2020 年空間轉(zhuǎn)錄組測序技術(shù)剛剛興起之時(shí),空間轉(zhuǎn)錄組測序技術(shù)逐漸進(jìn)入科研工作者視野,特別是臨床腫瘤、細(xì)胞免疫等領(lǐng)域的應(yīng)用,未來伯豪生物將繼續(xù)為廣大科研概及臨床工作者提供高效優(yōu)質(zhì)的空間轉(zhuǎn)錄組測序技術(shù)服務(wù)。
更多伯豪生物人工服務(wù):