![]() | ![]() |
單細(xì)胞測(cè)序技術(shù)為基礎(chǔ)科研、臨床診斷、藥物研發(fā)等領(lǐng)域提供了諸多全新發(fā)現(xiàn)視角?,F(xiàn)階段主流的單細(xì)胞測(cè)序,大多是基于 10X?Genomics、BD Rhapsody 等單細(xì)胞捕獲設(shè)備獲得 cDNA 后進(jìn)行打斷、擴(kuò)增、建庫(kù),并用二代測(cè)序分析基因的整體定量。然而,基因在不同組織、不同細(xì)胞亞群中會(huì)使用 mRNA 的不同轉(zhuǎn)錄本,同時(shí)也包括 InCRNA;此外 SNV、融合基因等結(jié)構(gòu)變異也具有組織和細(xì)胞特異性,目前基于二代測(cè)序的單細(xì)胞數(shù)據(jù)局限于 3'或 5' 端的 100~150bp,因此較難滿足這類需求:而傳統(tǒng)的 Smart-seq 雖然可以實(shí)現(xiàn)全長(zhǎng)轉(zhuǎn)錄本覆蓋,但轉(zhuǎn)錄本結(jié)構(gòu)分析需要經(jīng)過(guò)組裝且細(xì)胞通量較低,成本較高,研究單細(xì)胞水平的可變剪切仍然較為困難。
三代測(cè)序如 Pacbio、Nanopore 等技術(shù)能夠以其長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì)解決這一痛點(diǎn)。因此,如果能將二代測(cè)序與三代測(cè)序相結(jié)合,既能獲得 mRNA 的全長(zhǎng)序列,并通過(guò) Cell?Barcode 信息定位到細(xì)胞亞群,即可解決這一單細(xì)胞研究領(lǐng)域的痛點(diǎn)。但是,我們?cè)谇捌跍y(cè)試中發(fā)現(xiàn),二代單細(xì)胞測(cè)序一般獲得約 3 萬(wàn)個(gè)基因的表達(dá)矩陣,三代全長(zhǎng)測(cè)序能獲得超過(guò) 10 萬(wàn)個(gè)轉(zhuǎn)錄本的表達(dá)矩陣,兩套數(shù)據(jù)的聚類圖譜差異巨大,現(xiàn)有的分析流程并未很好的解決兩套數(shù)據(jù)的整合問題。因此,如何從龐大的二代 + 三代,也即基因 + 轉(zhuǎn)錄本的單細(xì)胞數(shù)據(jù)中,挖掘到有價(jià)值的特異性轉(zhuǎn)錄本,能夠?yàn)閱渭?xì)胞臨床轉(zhuǎn)化、藥物靶點(diǎn)發(fā)現(xiàn)帶來(lái)更加精細(xì)的挖掘角度。
伯豪生物基于十多年的單細(xì)胞組學(xué)服務(wù)經(jīng)驗(yàn),可提供從樣品保存、運(yùn)輸、單細(xì)胞懸液制備,到單細(xì)胞分選、建庫(kù)和數(shù)據(jù)分析的解決方案。同時(shí),及智醫(yī)學(xué)團(tuán)隊(duì)出身單細(xì)胞科研服務(wù)行業(yè),重點(diǎn)圍繞單細(xì)胞富集與檢測(cè)平臺(tái)、單細(xì)胞測(cè)序技術(shù)平臺(tái)和基于 AI 算法的單細(xì)胞數(shù)據(jù)分析算法平臺(tái)。建立了單細(xì)胞轉(zhuǎn)錄組、空間轉(zhuǎn)錄組、單細(xì)胞聯(lián)合 Bulk 多組學(xué)等多種獨(dú)特的分析流程和方法,尤其擅長(zhǎng)各類免疫細(xì)胞與基質(zhì)細(xì)胞的分類、功能解析、細(xì)胞互作、藥物靶點(diǎn)篩選等分析項(xiàng)目。最終通過(guò)積累的上百種單細(xì)胞分析方法與百萬(wàn)級(jí)別單細(xì)胞數(shù)據(jù)庫(kù),為單細(xì)胞臨床轉(zhuǎn)化類項(xiàng)目提供專業(yè)研發(fā)服務(wù)。團(tuán)隊(duì)生信專家通過(guò)高效的自動(dòng)化分析腳本,并歷時(shí)數(shù)月的二代 + 三代單細(xì)胞算法測(cè)試,目前已經(jīng)解決了二代 + 三代單細(xì)胞聚類的諸多分析難點(diǎn)。
伯豪生物與及智醫(yī)學(xué)強(qiáng)強(qiáng)聯(lián)合,正式推出單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本測(cè)序服務(wù),即單細(xì)胞 cDNA 水平的轉(zhuǎn)錄、遺傳變異研究,通過(guò)一次捕獲,兩次建庫(kù),同時(shí)獲得單細(xì)胞聚類與轉(zhuǎn)錄本信息:
目前,該技術(shù)方向?yàn)槿缦驴蒲袉栴},提供了潛在的解決辦法:
1、發(fā)現(xiàn)不同細(xì)胞攜帶的突變,攜帶突變的細(xì)胞與非突變細(xì)胞相比、攜帶不同突變類型的細(xì)胞相比,挖掘基因表達(dá)規(guī)律;
2、挖掘功能基因,如膜蛋白、分泌蛋白、轉(zhuǎn)錄因子等編碼基因的轉(zhuǎn)錄本使用情況,并發(fā)現(xiàn)全新功能的轉(zhuǎn)錄本;
3、發(fā)現(xiàn)融合基因所在的細(xì)胞亞群,研究它們與其它腫瘤細(xì)胞的擬時(shí)序分化關(guān)系;
4、發(fā)現(xiàn)亞群特異性的全新 IncRNA;
5、獲得亞群特異性表達(dá)的轉(zhuǎn)錄本,能夠輔助小核酸類藥物開發(fā)企業(yè),針對(duì)該特異性轉(zhuǎn)錄本設(shè)計(jì) siRNA 干擾片段,提升小核酸干擾靶點(diǎn)的有效性。
案例解析
2021 年 11 月 11 日,來(lái)自澳大利亞 ? 沃爾特 - 伊麗莎霍爾醫(yī)學(xué)研究所的 Tian 等人開發(fā)了一種基于 Nanopore 測(cè)序和 10X?Genomics 的全長(zhǎng)轉(zhuǎn)錄組單細(xì)胞測(cè)序方法,分析單細(xì)胞中的全長(zhǎng)異構(gòu)體、可變剪接和突變檢測(cè)。研究成果發(fā)表在國(guó)際知名期刊 GenomeBiology (IF=13.6),論文題目為 "Comprehensive?characterization?ofsingle-cell?full-length?isoforms?in?human?and?mouse?with?long-read?sequencing"。
文章中,使用 10X Genomics 技術(shù)分選得到單細(xì)胞的全長(zhǎng) cDNA 后,將 cDNA 一分為二,一份進(jìn)行打斷建庫(kù)用于二代測(cè)序,另一份進(jìn)行全長(zhǎng)擴(kuò)增建庫(kù)用于 Nanopore 三代測(cè)序。此時(shí) Nanopore 的文庫(kù)上也包含了細(xì)胞 Barcode, 后續(xù)可以通過(guò)分析流程將三代測(cè)序和二代測(cè)序結(jié)果通過(guò)細(xì)胞 Barcode 一 一 對(duì) 應(yīng)。通過(guò)這樣的方式,即實(shí)現(xiàn)了獲得全長(zhǎng)轉(zhuǎn)錄本,分析亞群的特征性轉(zhuǎn)錄本使用,并同時(shí)拿到了突變所在細(xì)胞。
文章數(shù)據(jù)分析顯示其中 40%-60% 的 Nanoporereads 可以分配給預(yù)期的 Barcode, 并保留用于后續(xù)分析(圖 C)。在數(shù)據(jù)處理過(guò)程中,非全長(zhǎng)且不能唯一分配給轉(zhuǎn)錄本的數(shù)據(jù)被丟棄。最終每個(gè)細(xì)胞的平均 UMI 為 10,000 至 60,000 個(gè),并且與對(duì)應(yīng)的短讀數(shù)據(jù)情況相符(圖 D)。Nanopore 和 Ilumina 數(shù)據(jù)的基因水平的 UMI 計(jì)數(shù)也高度一致(圖 E)
文章數(shù)據(jù)分析顯示其中 40%-60% 的 Nanoporereads 可以分配給預(yù)期的 Barcode, 并保留用于后續(xù)分析(圖 C)。在數(shù)據(jù)處理過(guò)程中,非全長(zhǎng)且不能唯一分配給轉(zhuǎn)錄本的數(shù)據(jù)被丟棄。最終每個(gè)細(xì)胞的平均 UMI 為 10,000 至 60,000 個(gè),并且與對(duì)應(yīng)的短讀數(shù)據(jù)情況相符(圖 D)。Nanopore 和 Ilumina 數(shù)據(jù)的基因水平的 UMI 計(jì)數(shù)也高度一致(圖 E)
通過(guò)聚類分析發(fā)現(xiàn),CLL(慢性淋巴細(xì)胞白血?。┘?xì)胞相比正常免疫細(xì)胞具有更高比例的新型轉(zhuǎn)錄本,特別是新型剪接的轉(zhuǎn)錄本。同樣,相比激活的干細(xì)胞,靜態(tài)肌肉干細(xì)胞也有更高比例的新型轉(zhuǎn)錄本(圖 D)。
分析發(fā)現(xiàn),約 80% 的基因可以表達(dá)多種轉(zhuǎn)錄本(圖 E),但是大多數(shù)基因主要表達(dá) 1 到 2 種轉(zhuǎn)錄本類型(圖 F),約 30% 的基因含有多于一種的可變剪接事件,意味著 2 個(gè)最高表達(dá)的異構(gòu)體可能涉及多個(gè)外顯子的復(fù)雜剪接變化而產(chǎn)生不同。
文章通過(guò)分析 CLL 數(shù)據(jù),檢測(cè)到 CD45 的多種亞型(圖 G),CD45 的表達(dá)通過(guò) CITE-seg 進(jìn)行驗(yàn)證。CITEseg 可以同時(shí)檢測(cè) RNA 和細(xì)胞表面蛋白,這種方法結(jié)合三代測(cè)序,可以對(duì)細(xì)胞表面蛋白進(jìn)行更深入的分析和探索。
對(duì) CLL 數(shù)據(jù)集進(jìn)行分析,尋找只存在于癌細(xì)胞中的,且在不同的 CL 轉(zhuǎn)錄簇中具有不同等位基因頻率的 SNVS,通過(guò)經(jīng)典的曼哈頓圖最終發(fā)現(xiàn)四個(gè)變異在不同的 CLL 聚類呈現(xiàn)顯著差異(圖 C, 圖 ?D)。其中發(fā)現(xiàn)的 Gly101Val 突變,此突變已被證實(shí)通過(guò)降低 BCL2 對(duì) venetoclax 的親和力而使患者對(duì) venetoclax 治療產(chǎn)生耐藥性,通過(guò)分析發(fā)現(xiàn)患者 CLL2 攜帶約 25% 的 GIV101Va| 突變,并發(fā)現(xiàn)該突變不僅屬于亞克隆,而且與特定的轉(zhuǎn)錄簇相關(guān)(圖 E)。
單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本測(cè)序的樣品選擇與實(shí)驗(yàn)細(xì)節(jié)
由于單細(xì)胞全長(zhǎng)測(cè)序需要對(duì) mRNA 反轉(zhuǎn)錄后的 cDNA 全長(zhǎng)進(jìn)行測(cè)序,核心是需要將完整的全長(zhǎng) cDNA 擴(kuò)增至 2ug 的 ?Nanopore 建庫(kù)起始量,而常規(guī)單細(xì)胞是將一鏈 cDNA 做基礎(chǔ)擴(kuò)增后全部打斷用來(lái)做建庫(kù)測(cè)序,因此,這一實(shí)驗(yàn)細(xì)節(jié)就意味著單細(xì)胞全長(zhǎng)測(cè)序需要額外質(zhì)控。
一、樣品選擇:
常規(guī)單細(xì)胞測(cè)序樣品來(lái)源分為新鮮采集與液氮速凍兩種類型,兩種類型的樣品需要兩種處理方式,新鮮采集樣品需要在 48h 內(nèi)制備懸波并上機(jī),液氮速凍樣品需要將細(xì)胞膜破碎,丟棄細(xì)胞質(zhì),分離提取細(xì)胞核,用單個(gè)核來(lái)做單細(xì)胞測(cè)序。
不過(guò),由于細(xì)胞核里面的 RNA 大多為初始 RNA,包含有較多內(nèi)含子,而從初始 RNA 加工為成熱 mRNA 的過(guò)程大多發(fā)生在細(xì)胞質(zhì)中,因此,抽核類的項(xiàng)目并不太適用于單細(xì)胞全長(zhǎng)測(cè)序。雖然在 2022 年 7 月份一篇 Nature?Biotechnoloey 的文章是對(duì)人腦抽核后的單細(xì)胞樣品進(jìn)行三代全長(zhǎng)測(cè)序,不過(guò)由于拿不到成熟 mRNA,文章是站在了特定基因在不同亞群的外顯子保留這樣的科研角度統(tǒng)計(jì)規(guī)律(如下圖)。文章角度非常新穎,也是科研界首次用單細(xì)胞全長(zhǎng)測(cè)序發(fā)現(xiàn),人腦中某些基因在不同亞群中使用不同的外顯子組合,生成多種編碼蛋白。不過(guò),由于最終拿到的仍舊是細(xì)胞核內(nèi)的 RNA,后續(xù)還需要大量驗(yàn)證工作,因此抽核后做單細(xì)胞全長(zhǎng)測(cè)序的臨床轉(zhuǎn)化價(jià)值較小。所以,單細(xì)胞全長(zhǎng)測(cè)序的項(xiàng)目最適宜采集新鮮樣品制備細(xì)胞懸液,捕獲成熟 mRNA 開展后續(xù)驗(yàn)證工作。
經(jīng)三代單細(xì)胞全長(zhǎng)測(cè)序發(fā)現(xiàn) CADMI 基因在人腦神經(jīng)元(興奮性、抑制性)、星膠、小膠、少突細(xì)胞亞群中,會(huì)使用不同的外顯子組合。原文也有用蛋白質(zhì)譜技術(shù)對(duì)這些外顯子的多肽產(chǎn)物進(jìn)行驗(yàn)證的工作。
二、懸液質(zhì)控:
在收集到新鮮樣品之后,可以使用單細(xì)胞組織保護(hù)液(伯優(yōu)?單細(xì)胞組織保存液)將樣品在 24h-48h 內(nèi)從臨床運(yùn)輸至實(shí)驗(yàn)室進(jìn)行懸液解離,并通過(guò)顯微鏡、細(xì)胞計(jì)數(shù)儀檢測(cè)懸液質(zhì)量。
由于全長(zhǎng)單細(xì)胞對(duì) RNA 質(zhì)量要求較高,比較建議懸液活率在 85% 以上,同時(shí)用臺(tái)盼藍(lán)、AO/PI 雙染鑒定,并用顯微鏡仔細(xì)觀察細(xì)胞真實(shí)活率、紅細(xì)胞比例(紅細(xì)胞在光鏡下,可以觀察到圓餅狀的亮圈,中間有黑色小點(diǎn),有經(jīng)驗(yàn)的單細(xì)胞實(shí)驗(yàn)員可以通過(guò)肉眼觀察判斷出來(lái),而不少品牌的細(xì)胞計(jì)數(shù)儀有可能會(huì)把紅細(xì)胞計(jì)算為碎片,甚至檢測(cè)不到)。
另外,現(xiàn)階段二代單細(xì)胞測(cè)序,單個(gè)樣品的數(shù)據(jù)量大多為 100G,可以容納 5000-8000 左右的細(xì)胞捕獲量;而三代測(cè)序成本較高,站在節(jié)省經(jīng)費(fèi)的角度,建議一方面準(zhǔn)確的對(duì)細(xì)胞懸液的濃度進(jìn)行測(cè)定(不可單純依靠細(xì)胞計(jì)數(shù)儀),來(lái)控制上機(jī)細(xì)胞總數(shù)(建議上機(jī)不超過(guò) 1 萬(wàn)個(gè)細(xì)胞);同時(shí)也要結(jié)合不同品牌單細(xì)胞捕獲設(shè)備的真實(shí)捕獲率(這點(diǎn)最好找成熟單細(xì)胞科研服務(wù)公司來(lái)完成)來(lái)進(jìn)行綜合判定(建議捕獲不超 5000 個(gè)細(xì)胞如果超過(guò) 5000 需要增加三代測(cè)序數(shù)據(jù)量)。
三、文庫(kù)制備
單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本測(cè)序,只需要一次捕獲,拿到一鏈 CDNA 之后要立刻進(jìn)行全長(zhǎng)擴(kuò)增,如下圖:
? 因此,就需要將已擴(kuò)增好的 cDNA 全長(zhǎng)進(jìn)行質(zhì)控:
如上圖,cDNA 條帶主峰在 1 -1.5kb 左右,下一步可以聯(lián)系三代測(cè)序工廠寄送樣品,由他們進(jìn)行建庫(kù)測(cè)序。但是,也要測(cè)序工廠及時(shí)反饋三代文庫(kù)的質(zhì)檢圖片,要求文庫(kù)主峰與 cDNA 條帶主峰一致,方可進(jìn)行正式的 Nanopore 上機(jī)測(cè)序?qū)嶒?yàn)。
四、單細(xì)胞測(cè)序剩余樣本用于新的科研發(fā)現(xiàn):
由于現(xiàn)階段三代全長(zhǎng)測(cè)序的準(zhǔn)確性不夠高,考慮到后續(xù)驗(yàn)證工作,比較建議在單細(xì)胞上機(jī)之后,將剩余的細(xì)胞樣品進(jìn)行凍存,從 DNA、RNA、蛋白三個(gè)層面開展后續(xù)驗(yàn)證實(shí)驗(yàn):
1、DNA 水平:
在我們前期測(cè)試中發(fā)現(xiàn),三代原始數(shù)據(jù)中基因單核苷酸結(jié)構(gòu)變異 SNV(RNA 層面的 SNP、Indel)? 較多,為了拿到準(zhǔn)確的,與 DNA 層面一致的突變信息,就需要結(jié)合 DNA 層面的檢測(cè)來(lái)共同篩選核心突變。有兩種做法:
第一,同時(shí)將腫瘤患者的外周血和單細(xì)胞實(shí)驗(yàn)剩下的腫瘤細(xì)胞做全外顯子測(cè)序(兩個(gè)樣品的市場(chǎng)價(jià)合計(jì)不超 5000 元),通過(guò) ? 腫瘤組織測(cè)出來(lái)的突變 ? 扣掉 ? 自身 PBMC? 的胚系突變,可以得到體細(xì)胞突變,將這些突變 ? 基因位點(diǎn)作為核心突變,利用自動(dòng)化腳本,提取 ? 三代數(shù)據(jù)中的原始 reads,這些 reads 都帶有的 ?Cell?barcode 信息可以定位到突變所在的細(xì)胞與亞群!即可通過(guò)擬時(shí)序算法分析突變細(xì)胞 vs 非突變細(xì)胞的發(fā)育分化軌跡。
第二:做全基因組重測(cè)序(可以根據(jù)具體課題決定是否還需收集 PBMC),發(fā)現(xiàn)拷貝數(shù)變異 CNV,以及融合基因信息,將這些信息與三代全長(zhǎng)進(jìn)行聯(lián)合分析。后續(xù)分析內(nèi)容也極為豐富,可以展開多個(gè)科研角度的解釋。
2、RNA 水平:
在三代全長(zhǎng)拿到特征性轉(zhuǎn)錄本之后,還需要做后續(xù)驗(yàn)證,如果序列較少,可以通過(guò) 5'RACE、3'RACE 實(shí)驗(yàn)拉全長(zhǎng)獲得準(zhǔn)確序列;如果候選轉(zhuǎn)錄本序列較多,也可以通過(guò) Pacbio 直接做 ?Bulk? 測(cè)序(可以混樣測(cè)一份即可,目的是拿到序列),再結(jié)合單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本的特異性表達(dá)規(guī)律,可以快速、低成本獲得這些序列的完整信息,下一步即可通過(guò)構(gòu)建動(dòng)物模型,開展功能驗(yàn)證工作。
3、蛋白層面:
現(xiàn)階段的單細(xì)胞測(cè)序大多是以基因作為靶點(diǎn),但是從已經(jīng)發(fā)表的上萬(wàn)篇單細(xì)胞數(shù)據(jù)中,也經(jīng)常發(fā)現(xiàn)基因的表達(dá)特異性并不強(qiáng),這個(gè)是現(xiàn)階段單細(xì)胞測(cè)序需要升級(jí)改進(jìn)的核心關(guān)鍵點(diǎn)。而在真實(shí)組織中,基因在不同亞群中使用不同的轉(zhuǎn)錄本編碼多種蛋白產(chǎn)物。有了單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本技術(shù),也就意味著可以將靶點(diǎn)發(fā)現(xiàn)從基因細(xì)化為轉(zhuǎn)錄本,挖掘轉(zhuǎn)錄本的蛋白編碼產(chǎn)物。因此,臨床轉(zhuǎn)化最核心的一步:膜蛋白層面,可以依靠全長(zhǎng)轉(zhuǎn)錄本獲得一些全新的發(fā)現(xiàn)。
現(xiàn)有的蛋白質(zhì)質(zhì)譜技術(shù)無(wú)法做到 ? 針對(duì)單個(gè)細(xì)胞進(jìn)行廣泛的蛋白質(zhì)檢測(cè),但是蛋白質(zhì)的編碼序列都是從 RNA 層面的轉(zhuǎn)錄本翻譯過(guò)來(lái),轉(zhuǎn)錄本序列的檢測(cè)比蛋白質(zhì)的檢測(cè)要容易很多。所以,這個(gè)里面就依托一套簡(jiǎn)單的邏輯:從 DNA 到 RNA 到蛋白的中心法則,即可做到通過(guò)單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本測(cè)序,發(fā)現(xiàn)亞群特異性轉(zhuǎn)錄本,再將轉(zhuǎn)錄本序列預(yù)測(cè)的多肽產(chǎn)物與蛋白質(zhì)譜打出來(lái)的多肽產(chǎn)物進(jìn)行匹配,發(fā)現(xiàn)一條潛在的轉(zhuǎn)錄本 + 編碼產(chǎn)物,即為一條新型潛在靶點(diǎn)。其實(shí),在腫瘤新抗原發(fā)現(xiàn)領(lǐng)域,這套序列預(yù)測(cè) + 質(zhì)譜檢測(cè)的策略已經(jīng)非常成熟并目較為實(shí)用,因此,可以基干中心法則將這套成熟策略轉(zhuǎn)用到單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本發(fā)現(xiàn)新型蛋白編碼產(chǎn)物領(lǐng)域。
總結(jié)
綜上所述,單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本更適合做新鮮樣品,整體實(shí)驗(yàn)過(guò)程并不復(fù)雜,基本上現(xiàn)階段單細(xì)胞科技服務(wù)類公司都能實(shí)現(xiàn),只需要在幾個(gè)細(xì)節(jié)上稍加注意即可。
總結(jié)下來(lái),單細(xì)胞全長(zhǎng)測(cè)序的本質(zhì)只是對(duì)轉(zhuǎn)錄本加了 ? 細(xì)胞亞群 ? 的標(biāo)簽,方便從數(shù)萬(wàn)條轉(zhuǎn)錄本快速篩選到特異性表達(dá)的少數(shù)轉(zhuǎn)錄本。這個(gè)并不是一套全新開發(fā)的技術(shù),只能算是從 DNA 到 RNA 到蛋白的一整套符合中心法則的單細(xì)胞多組學(xué)的技術(shù)方案。在我們前期拜訪前沿課題組的過(guò)程中,有不少研究員曾想過(guò)這樣的方法,只是行業(yè)內(nèi)缺乏前人嘗試,我們深入思者過(guò)這些細(xì)節(jié)后,發(fā)現(xiàn)這套方案從樣品的選擇,測(cè)序?qū)嶒?yàn),數(shù)據(jù)呈現(xiàn),均比現(xiàn)階段的單細(xì)胞二代測(cè)序更加實(shí)用,更加貼近臨床轉(zhuǎn)化。從另外一個(gè)角度,轉(zhuǎn)錄本是基因功能實(shí)現(xiàn)的最小細(xì)分單位,針對(duì)轉(zhuǎn)錄本研究的單細(xì)胞全長(zhǎng)測(cè)序,算得上是轉(zhuǎn)錄組研究領(lǐng)域的終點(diǎn)站。
解析某腫瘤樣本單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本的實(shí)測(cè)數(shù)據(jù)
一、基礎(chǔ)質(zhì)控
測(cè)序 | 二代測(cè)序 | 三代測(cè)序 |
測(cè)序數(shù)據(jù)量 | 100G | 100G |
總計(jì)測(cè)得 | 約 2 萬(wàn)條基因 | 44834 種轉(zhuǎn)錄本 |
中位值 | 基因中位值:2906 | 轉(zhuǎn)錄本中位值:1720 |
詳細(xì)統(tǒng)計(jì)如下,實(shí)測(cè)基因是指在三代全長(zhǎng)中測(cè)到的基因:
以膜蛋白為例,數(shù)據(jù)庫(kù)中收錄的人總膜蛋白有 5520 個(gè),對(duì)應(yīng)轉(zhuǎn)錄本有 49893 條;在該樣品中測(cè)到了 1906 個(gè)(大部分膜蛋白不一定會(huì)在該腫瘤中表達(dá)),對(duì)應(yīng)轉(zhuǎn)錄本是 7739,其中與 Ensemble 完全匹配的轉(zhuǎn)錄本有 5401 條,新轉(zhuǎn)錄本 2338 條,意味著平均每個(gè)膜蛋白會(huì)表達(dá) 1 條新轉(zhuǎn)錄本。從總體統(tǒng)計(jì)來(lái)看,功能基因(膜蛋白、分泌蛋白、轉(zhuǎn)錄因子)會(huì)約 30% 的新轉(zhuǎn)錄本,IncRNA 由于目前數(shù)據(jù)庫(kù)收錄的并不多,所以有約 50% 的新 IncRNA。
二、轉(zhuǎn)錄本表達(dá)的可靠性:
如同二代單細(xì)胞測(cè)序一樣,三代全長(zhǎng)測(cè)序同樣會(huì)統(tǒng)計(jì)每條轉(zhuǎn)錄本在該樣品中測(cè)到的總 count 數(shù),截圖如下:
目前已經(jīng)發(fā)表的 SCI 文章,轉(zhuǎn)錄本 total?count>5 即可納入正常聚類分析,經(jīng)過(guò)實(shí)測(cè)建,議設(shè)置轉(zhuǎn)錄本 total?count>20(約占總轉(zhuǎn)錄本的 80%),作為驗(yàn)證實(shí)驗(yàn)的可靠候選。
三、轉(zhuǎn)錄本表達(dá)的特異性
單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本測(cè)序的一大核心應(yīng)用,是發(fā)現(xiàn)亞群的特征性轉(zhuǎn)錄本。單細(xì)胞二代 + 三代的合并聚類、注釋如下:
總計(jì)分 B ?cels、T?cels、Monocyte?cells、Epithelial?cells 四大群。更精細(xì)的注釋,如 Memory?B、Treg、Naive?T、ExhaustT、Mac 等我們會(huì)在后續(xù)章 節(jié)陸續(xù)展開討論。
以 CART 治療領(lǐng)域的某明星分子 MUC1 為例,二代測(cè)序基因表達(dá)情況如下如下:
不過(guò),該基因在三代全長(zhǎng)測(cè)序中,并未測(cè)到該基因的轉(zhuǎn)錄本,下文有對(duì)此類現(xiàn)象的討論。
另外一個(gè)明星癌基因 MUC2 的表達(dá)展示:
在三代全長(zhǎng)數(shù)據(jù)中,MUC2 測(cè)到了多條 Ensemble 數(shù)據(jù)庫(kù)中未收錄的全新轉(zhuǎn)錄本:
經(jīng)過(guò)后續(xù)的序列比對(duì)(如下圖紅色區(qū)域),發(fā)現(xiàn)新轉(zhuǎn)錄本是已知轉(zhuǎn)錄本的一部分序列。
示例圖如下:
此外,全長(zhǎng)轉(zhuǎn)錄本可以測(cè)到較多 lncRNA,下圖為 B 細(xì)胞中某條表達(dá)特異性 lncRNA:
綜合評(píng)價(jià):
目前單細(xì)胞二代測(cè)序?qū)蜻M(jìn)行表達(dá)定量的原理,是把該基因表達(dá)出來(lái)的所有轉(zhuǎn)錄本的 UM 進(jìn)行求和,而三代測(cè)序是每條轉(zhuǎn)錄本進(jìn)行單獨(dú)計(jì)數(shù),如某個(gè)基因在在細(xì)胞的 count 值是 100,理論上來(lái)說(shuō),在三代轉(zhuǎn)錄本數(shù)據(jù)中,可以對(duì)應(yīng)找到 100 條轉(zhuǎn)錄本 UM1。不過(guò),就實(shí)際情況來(lái)說(shuō),最終的數(shù)據(jù)產(chǎn)出都是依靠測(cè)序技術(shù),現(xiàn)階段的三代測(cè)序成本仍然較高,如果以比較高的投入來(lái)測(cè)非常多的三代數(shù)據(jù)是不太現(xiàn)實(shí)的。也就是說(shuō),只能在成本與高期望之間,選擇一個(gè)比較適中的平衡。因此,是否選擇使用單細(xì)胞全長(zhǎng)測(cè)序技術(shù),有如下幾個(gè)建議:
1、傳統(tǒng)的 Bulk-seq 研究中,借助 illumina、MGISEQ、Pacbio、Nanopore 等二代、三代測(cè)序技術(shù)同樣可以測(cè)到較多的可變剪切、融合基因、新轉(zhuǎn)錄本等。唯一讓研究者困擾的是測(cè)到的新序列太多(2000+),較難篩選過(guò)濾做后期功能驗(yàn)證。單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本測(cè)序的一個(gè)優(yōu)勢(shì),是對(duì)新測(cè)到的轉(zhuǎn)錄本加上 ? 細(xì)胞亞群 ? 的標(biāo)簽,可以比較快速的篩選,如腫瘤細(xì)胞、免疫細(xì)胞亞群中的特異性新轉(zhuǎn)錄本,節(jié)省下游驗(yàn)證成本。這類課題是比較適合單細(xì)胞全長(zhǎng)測(cè)序,最終結(jié)合實(shí)際數(shù)據(jù)發(fā)現(xiàn)特異性轉(zhuǎn)錄本。
2、如果已經(jīng)指定了某個(gè)關(guān)鍵基因,想研究該基因是否在特定亞群中存在可變剪切或新轉(zhuǎn)錄本、融合基因等,比較建議先從已發(fā)表文章,或者公開數(shù)據(jù)庫(kù)(如 htps:/singlecell.broadinstitute.ore/single_cell) 中,預(yù)先査詢?cè)摶虻膯渭?xì)胞表達(dá)豐度。如果該基因表達(dá)量較低,并且亞群(如 T 細(xì)胞)的表達(dá)比例低于 50%,則要慎重選擇單細(xì)胞全長(zhǎng)測(cè)序方法。解決方法是可以把這群細(xì)胞通過(guò)流式、磁珠等技術(shù)分選出來(lái)(人為富集),單獨(dú)對(duì)這群細(xì)胞進(jìn)行單細(xì)胞二代 + 三代測(cè)序。
3、從上述的 MUC1 未檢測(cè)到轉(zhuǎn)錄本,而 MUC2 檢測(cè)到多條新轉(zhuǎn)錄本的例子來(lái)看,在現(xiàn)階段較低測(cè)序投入情況下,三代全長(zhǎng)技術(shù)更傾向于測(cè)出來(lái)高豐度的轉(zhuǎn)錄本。從另外一個(gè)角度來(lái)說(shuō),如果某條轉(zhuǎn)錄本出現(xiàn)在三代全長(zhǎng)的表達(dá)矩陣中,也就意味著該轉(zhuǎn)錄本在真實(shí)細(xì)胞中的基礎(chǔ)表達(dá)豐度仍然較高。這種方式相當(dāng)于過(guò)濾掉了低豐度的轉(zhuǎn)錄本,這個(gè)對(duì)于 siRNA 干擾、膜蛋白、lncRNA 項(xiàng)目來(lái)說(shuō)算是增加了個(gè)較為可信的屬性。另外,如果一定要看 MUC1 基因的轉(zhuǎn)錄本,其實(shí)可以通過(guò) IGV 導(dǎo)入二代測(cè)序的 BAM 文件,直接查看該基因的原始測(cè)序序列,可以在一定程度上通過(guò)已經(jīng)測(cè)到的這些 reads 來(lái)探索該 reads 分屬于哪條轉(zhuǎn)錄本(如果該基因存在多種轉(zhuǎn)錄本的話)。
4、單細(xì)胞三代全長(zhǎng)可以直接給出來(lái)每條新轉(zhuǎn)錄本的序列,不過(guò)測(cè)序錯(cuò)誤的情況也時(shí)常發(fā)生,所以后期驗(yàn)證必不可少。
1、高質(zhì)量標(biāo)準(zhǔn):嚴(yán)格按 ISO9001:2015 質(zhì)量標(biāo)準(zhǔn)執(zhí)行;
2、標(biāo)準(zhǔn)化內(nèi)控:豐富的實(shí)操經(jīng)驗(yàn)構(gòu)建了標(biāo)準(zhǔn)化的內(nèi)控體系;
3、流程化分析:完善的分析流程,準(zhǔn)確快速解析單細(xì)胞轉(zhuǎn)錄本數(shù)據(jù);
4、專業(yè)的團(tuán)隊(duì):專業(yè)的技術(shù)團(tuán)隊(duì)具有多年項(xiàng)目方案設(shè)計(jì)、實(shí)驗(yàn)操作、售后分析等經(jīng)驗(yàn);
5、全流程服務(wù):提供樣本處理、建庫(kù)測(cè)序及數(shù)據(jù)分析的全套服務(wù)。
伯豪生物提供:?jiǎn)渭?xì)胞核測(cè)序、單細(xì)胞核測(cè)序技術(shù)服務(wù)
- 樣本類型: 新鮮組織,原代細(xì)胞,細(xì)胞系等。
- 樣本來(lái)源: 血液提取、磁珠富集、流式富集、組織解離等。
- 樣本量及其它質(zhì)控要求:
(1)細(xì)胞懸液:>10* 目標(biāo)細(xì)胞個(gè)數(shù)(最少 10,000 個(gè)細(xì)胞);活率 >85%;濃度 500-1,000 個(gè)細(xì)胞 / ul;細(xì)胞間無(wú)粘連(成團(tuán)率 <5%);無(wú)大于 40um 的細(xì)胞碎片或其它顆粒物;不存在逆轉(zhuǎn)錄抑制劑和非細(xì)胞的核酸分子。
(2)血液:EDTA 抗凝的全血(不可肝素抗凝),>5ml。
(3)組織:0.3 cm × 0.3 cm(不超過(guò) 0.5cm ×? 0.5cm)的新鮮組織,4~5 塊。
- 樣本保存運(yùn)輸:
(1)細(xì)胞懸液:最好現(xiàn)場(chǎng)制備,如要運(yùn)輸,建議使用細(xì)胞保護(hù)液,4°C 運(yùn)輸,48 小時(shí)內(nèi)送達(dá)伯豪生物實(shí)驗(yàn)室。
(2)血液:EDTA 抗凝的全血,4°C 運(yùn)輸,4 小時(shí)內(nèi)送達(dá)實(shí)驗(yàn)室;或提取 PBMC 后凍存,干冰運(yùn)輸。
(3)組織:建議使用單細(xì)胞專用的組織保護(hù)液,4°C 運(yùn)輸,48 小時(shí)內(nèi)送達(dá)實(shí)驗(yàn)室。
- 捕獲細(xì)胞數(shù)及測(cè)序數(shù)據(jù)量:
捕獲細(xì)胞數(shù) | 二代測(cè)序數(shù)據(jù)量 | 三代測(cè)序數(shù)據(jù)量 |
3000-6000(最佳建議) | 70-100G | 100G |
6000-8000 | 100G | 150G |
8000-11000 | 100G | 200G |
不建議超過(guò) 11000 細(xì)胞 |
- 全外測(cè)序 20G
? 伯豪生物提供:?jiǎn)渭?xì)
序號(hào) | 文件類型 | 查閱 |
1 | 【畫冊(cè)】單細(xì)胞全長(zhǎng)轉(zhuǎn)錄本測(cè)序解決方案 | 點(diǎn)擊查看 |
2 | 【畫冊(cè)】石蠟樣本(FFPE)單細(xì)胞轉(zhuǎn)錄組測(cè)序解決方案 | 點(diǎn)擊查看 |
3 | 【畫冊(cè)】單細(xì)胞測(cè)序解決方案 | 點(diǎn)擊查看 |