首頁美食 > 正文

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

2022-05-27由 解螺旋 發表于 美食

細胞軌跡分析來了~

大家好,我是晨曦,有了前面知識的鋪墊,相信各位小夥伴對於scRNA-seq已經不是懵懂無知的小白啦

畢竟現在都在提倡走出舒適圈,那麼這次我們就開始我們scRNA-seq的第一個高階分析的講解

說是高階分析,其實在scRNA-seq不斷普及的今天,在高階的分析,放在全國乃至全球,也會逐漸淪為普通,但是雖然使用的是越來越普遍,但是其難度卻沒有一絲一毫的降低,我們仍然要有著一顆學徒的心,踏踏實實的完成我們scRNA-seq的學習

晨曦講解:

本教程參考了網上週老師的教程+monocle3官網教程+網上各種教程

高能萬字警告!!!!!!

當我們要進行一種分析時,首先我們必須要知道這個分析是幹什麼的,接下來將通過幾個問題,為我們進行擬時序分析前的一些基本知識的講解

問題一:什麼是擬時序分析?

機體在外界調節的“刺激”下,會發生一系列的變化,這些變化歸根到底其實都是細胞功能和結構的變化,為了響應這些外界刺激,其細胞會從一種功能“狀態”轉變為另一種功能“狀態”,而這些功能和結構的轉變,往往會經歷基因表達的升高或沉默,畢竟分子表達差異決定了表型的差異

但是這類細微的變化,往往很難在體外捕捉到,這時候我們就引入了擬時序分析,或者可以稱為細胞軌跡分析,透過細胞軌跡分析可以推斷出細胞的分化軌跡或細胞亞型的演化過程,主要原理是基於關鍵基因的表達模式,在擬時間中對單個細胞進行排序,模擬出時間發育過程的動態變化

晨曦解讀

原理層面的東西瞭解個大概即可, 畢竟我們不是專門從事演算法研究的,概括一下 ,擬時序分析可以幫助我們構建細胞的發育軌跡,研究在外界刺激下,細胞的動態演變過程,這裡的偽時間是一個抽象的分化單位:它只是一個細胞沿著軌跡起點到終點的最短距離,軌跡的總長度是由細胞從起始狀態移動到終點狀態所經歷的總轉錄變化量來定義的

需要注意幾個關鍵點:

只有細胞本身存在隨時間變化的特性,才可以做擬時序分析,所以一般用在發育組織的分析中

細胞軌跡分析其實也可以看作是差異分析的細化,差異分析只是告訴我們差異,但是不會告訴我們變化,或者可以說是如何變化,而這些細胞軌跡分析會告訴我們

這裡借鑑周老師對於擬時序分析的看法(個人覺得很有共鳴)

擬時序分析主要基於

關鍵基因

的表達模式,在

擬時間

中對單個細胞進行

排序

,模擬出時間發育過程的動態變化

這裡涉及到擬時序分析本身就是一種排序而已,既然是排序,就要知道排序的基本要素

1。對什麼排序物件

2。如何判斷先後順序順序

3。如何尋找分支點(如果存在分支的話)分支

在這裡首先我們要知道,排序技術是一種在低維空間排布高維資料的降維技術,所以排序離不開降維;降維離不開特徵提取(或者選擇)

至此可以概括出擬時序分析的三個主要步驟

問題二:擬時序分析應該使用什麼工具?

這裡就不得不提及一篇文獻:

Reversed graph embedding resolves complex single-cell developmental trajectories

透過這篇文獻,我們可以引入我們的工具,也是我們接下來的主角——momocle3

Monocle引入了在偽時間(擬時間)內對單個細胞排序的策略,利用單個細胞的非同步程序,將它們置於與細胞分化等生物學過程相對應的軌跡上,然後利用機器學習技術(反向圖嵌入)進行排序

目前已經經歷了三代的更新,我們後續的講解都是以最新的版本來進行講解

晨曦解讀

如果進行了擬時序分析,希望引用下面的文獻,當然,這些文獻也是我們最好的學習資料

1.The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells

2.Single-cell mRNA quantification and differential analysis with Census

3.Reversed graph embedding resolves complex single-cell trajectories

4.The single-cell transcriptional landscape of mammalian organogenesis

Monocle3功能介紹

R包:Monocle3的功能介紹如下

晨曦解讀

功能一:執行常規的scRNA-seq的標準流程(Seurat包)

功能二:擬時序分析(將細胞按照基因表達相似水平排序)(我們重點關注的功能)

功能三:差異表達分析(分析哪些基因會隨著擬時序變化,這些基因可能就是我們研究的重點)

Monocle3程式碼操作

晨曦解讀

針對擬時序分析,首先是因為其原理確實是十分的複雜,而且學習完原理後,你走的依舊是較為標準化的流程,所以這裡我們在介紹完一些基本的背景知識後,就開始直接進行程式碼操作的部分,也是為了讓大家可以更快的掌握這一門高階分析的技術

晨曦解讀

這裡貼上一下我下載這個包的錯誤,當然這些錯誤在monocle3官網都有解決辦法~

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

可以看出來,我們進行細胞軌跡分析的時候,是需要構建CDS物件的,而這個物件構建,需要三個檔案即表達矩陣、細胞資訊、基因資訊

這裡是不是特別像我們構建Seurat物件的步驟,也就是說如果我們只有counts矩陣的時候,就可以採用官網這種方式來構建CDS物件

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

如果各位小夥伴忘記scRNA-seq標準流程,建議閱讀下面推文後再閱讀本期推文教程

晨曦解讀

首先我們來解釋第一個可能存在疑惑的問題

1.為什麼選擇原始表達矩陣?

Monocle內部有內建的標準化步驟,所以這裡的表達矩陣推薦使用原始資料,如果自己進行對資料的標準化等操作,可能會影響Monocle的分析

2.從Seurat物件中提取的這三個資料都是什麼樣的樣子?

data資料

pd資料

fData

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

從這裡我們可以看出來,我們需要的三個資料都是什麼樣的格式,其實概括來講還是表達矩陣、細胞資訊、基因資訊

晨曦解讀

然後我們來看一下這個CDS物件,下面的這些資訊不需要全部瞭解,將挑選重點的再後面逐步進行介紹

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

上面介紹了preprocess_cds函式相當於Seurat中的三步驟結合,其中這個函式中的方法有三種,分別是PCA or LSI。 For LS,RNA-seq資料選擇PCA,如果是ATAC-seq則使用LSI

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

這個圖的顏色肯定是不符合我們的要求的,我們現在來探索一下這個圖的顏色,既然要為這個圖新增顏色,就需要找到可以對映顏色的資料

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

上圖是透過monocle3包進行降維聚類的結果,對比一下seurat物件的結果,我們可以看出來,雖然影象不一樣,但是大致的分群還是類似的

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

但是看起來針對monocle3來說,還是UMAP看起來好一些~

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

對於多資料集聯合主張還是先進行批次效應的去除,整合完資料集後再進行細胞軌跡分析,而且根據作者建議,儘管在Seurat包中已經進行標準化,在進行monocle3分析的時候仍然需要再次進行標準化,所以得到一個初步的結論,如果單個數據集使用counts資料,多資料集則使用整合後的資料,然後後續就都是標準流程

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

一般來說,對於多資料集,如果亞群的分組存在明顯的分離,則說明存在批次效應,這個圖看上去沒有,畢竟只有一個數據集

晨曦解讀

接下來順步進行即可~

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

調節的具體引數還可以看plot_cells函式的幫助文件,講解的很全面~

作者在官網建議:上面這個圖將被用於許多下游分析,比如分支分析和差異表達分析

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

數字黑色圈代表節點即分叉點,黑色白色圈代表各種可能的結局,黑色的線則代表軌跡學習的路線,這些資料的可以透過引數進行設定(label_leaves和label_branch_points)

進行完軌跡學習後,根據官網的指導,下面就需要進行細胞的排序,也就是Order the cells in pseudotime這一個步驟

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

我們剛才選擇的點以及和其有關被標註了出來,灰色部分代表和我們所選擇的點沒有發育或者分化關係,所以這些點用灰色表示

晨曦解讀

重點就是細胞軌跡的視覺化沒有標註出真正的起始點在哪裡,也就是說,演算法無法明確你的組織究竟是從A到B,還是B到A,需要憑藉個人的生物學背景來判斷,比如常規來說都是幹細胞分化成各種細胞反過來是不行的

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

實際上我只想得到上面這個3D版本的聚類圖,所以我註釋掉了官網中間的兩行程式碼~

晨曦解讀

如果只是單純針對軌跡分析,想要尋找到細胞與細胞之間分化和發育的變化究竟是由哪些基因的表達改變造成的,選擇第二種即可~

第一種方法主要探討的是不同刺激下,比如時間以及治療措施等等~

晨曦解讀

這裡面比較有意思的數值就是morans_I(空間共表達),其數值越靠近1代表這個基因在空間距離相近的細胞中表達值越相似,0則代表沒有空間共表達效應

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

這個圖具體看其實就是看連線,這幾個基因會發現大部分都是直線,說明這些基因的表達在偽時間中其實並沒有太多的變化,CCL5基因變化的比較有意思,呈現波動感~

當然還有一些基因在一開始表達很強烈,但是隨著時間推移表達量逐漸下降

萬字長文介紹單細胞高階分析!學會這個分析,搞定單細胞套路80%的難題!

晨曦解讀

細胞軌跡分析就結束啦~

整體來說,這套分析流程的難點我們主要可以分成兩大部分,首先光是安裝R包其實就勸退了很多同學,所以基本上來說,各位同學需要保證自己的R包可以安裝成功

其次就是針對程式碼中的每一個步驟進行理解,當然可能還會有同學問,圖中的視覺化為什麼是這個樣子,為什麼沒有像文獻那樣的視覺化展示,其實首先如果我們獲得了細胞軌跡分析的資料後,只需要運用我們前面所教的“扒圖”技能,就可以充分get網上只要有的細胞軌跡視覺化的結果,其本質上依舊是ggplot2以及monocle3的運用

那麼我們這期推文到這裡就結束啦,近期收到了很多小夥伴的提問,也是陸陸續續的在開始進行相關推文的書寫,也歡迎各位小夥伴在評論區留言,說出你的困惑,互相討論,共同提高

我是晨曦,我們下次再見~

PS:回覆“

細胞軌跡

”可以獲得推文中的示例資料和程式碼哦~-

推文內的程式碼更多的是教學,所以擴充套件了很多,大家後臺獲取的程式碼是純分析程式碼,簡化了大家的copy難度~

晨曦單細胞文獻閱讀系列

晨曦碎碎念系列傳送門(未完待續...)

晨曦單細胞筆記系列傳送門

晨曦從零開始學畫圖系列傳送門

晨曦單細胞資料庫系列傳送門

—END—

撰文丨晨 曦

排版丨四金兄

主編丨小雪球

歡迎大家關注解螺旋生信頻道-挑圈聯靠公號~

頂部