公司動(dòng)態(tài)
提供實(shí)驗(yàn)數(shù)據(jù)分析服務(wù),聚類(lèi)分析,基因注釋數(shù)據(jù)分析
閱讀:1711 發(fā)布時(shí)間:2017-2-17世聯(lián)博研(北京)科技有限公司(BIO EXELLENCE INTERNATIONAL Tech Co.,Ltd)專(zhuān)注力學(xué)生物學(xué)(細(xì)胞組織生物分子力學(xué))與3D生物打印,應(yīng)廣大科研者要求,世聯(lián)博研在代理銷(xiāo)售科研儀器設(shè)備及配套耗材的同時(shí)提供細(xì)胞力學(xué)實(shí)驗(yàn)技術(shù)服務(wù)和3D生物打印實(shí)驗(yàn)技術(shù)服務(wù)以及數(shù)據(jù)分析服務(wù)。
世聯(lián)博研數(shù)據(jù)分析團(tuán)隊(duì)由來(lái)自微軟、華為、中科院、農(nóng)科院的力學(xué)、生物信息學(xué)、計(jì)算機(jī)專(zhuān)業(yè)人員組成,其中博士以上學(xué)歷者占50%以上,在圖像處理、蛋白質(zhì)組學(xué)、轉(zhuǎn)錄組學(xué)、基因組學(xué)、數(shù)值模擬及數(shù)據(jù)可視化處理方面擁有豐富的經(jīng)驗(yàn)。公司建立了高性能計(jì)算平臺(tái),具有強(qiáng)大的數(shù)據(jù)儲(chǔ)存和處理能力,使用Linux、R、Perl、Python、C++等工具進(jìn)行數(shù)據(jù)處理,可為客戶(hù)定制數(shù)據(jù)分析服務(wù)并提供咨詢(xún),將符合期刊發(fā)表要求的結(jié)果發(fā)送給客戶(hù)。
數(shù)據(jù)分析服務(wù) 世聯(lián)博研數(shù)據(jù)分析團(tuán)隊(duì)由來(lái)自微軟、華為、中科院、農(nóng)科院的力學(xué)、生物信息學(xué)、計(jì)算機(jī)專(zhuān)業(yè)人員組成,其中博士以上學(xué)歷者占50%以上,在圖像處理、蛋白質(zhì)組學(xué)、轉(zhuǎn)錄組學(xué)、基因組學(xué)、數(shù)值模擬及數(shù)據(jù)可視化處理方面擁有豐富的經(jīng)驗(yàn)。公司建立了高性能計(jì)算平臺(tái),具有強(qiáng)大的數(shù)據(jù)儲(chǔ)存和處理能力,使用Linux、R、Perl、Python、C++等工具進(jìn)行數(shù)據(jù)處理,可為客戶(hù)定制數(shù)據(jù)分析服務(wù)并提供咨詢(xún),將符合期刊發(fā)表要求的結(jié)果發(fā)送給客戶(hù)。
聚類(lèi)分析(cluster analysis)是一類(lèi)將數(shù)據(jù)所研究對(duì)象進(jìn)行分類(lèi)的統(tǒng)計(jì)方法。這一類(lèi)方法的共同點(diǎn)是事先不知道類(lèi)別的個(gè)數(shù)與結(jié)構(gòu);據(jù)以進(jìn)行分析的數(shù)據(jù)是對(duì)象之間的相似性或相異性的數(shù)據(jù)。將這些相似(相異)性數(shù)據(jù)看成是對(duì)象之間的“距離”遠(yuǎn)近的一種度量,將距離近的對(duì)象歸入一類(lèi),不同類(lèi)之間的對(duì)象距離較遠(yuǎn)。這就是聚類(lèi)分析方法的共同思路。具體在生物學(xué)研究中,基因表達(dá)譜分析經(jīng)常采用聚類(lèi)分析的方法,其目的就是將基因或者樣本進(jìn)行分組。從數(shù)學(xué)的角度,聚類(lèi)得到基因分組,組內(nèi)各成員在數(shù)學(xué)特征上彼此相似,但與其它組中的成員不同。其基本假設(shè)是組內(nèi)基因的表達(dá)譜相似,它們可能具有功能相關(guān)性。大量功能相關(guān)的基因,特別是被共同的轉(zhuǎn)錄因子調(diào)控的基因表達(dá)譜非常相似,它們的產(chǎn)物可能構(gòu)成蛋白質(zhì)復(fù)合體,或者處于同一個(gè)調(diào)控通路中,因此還可以據(jù)此推測(cè)未知基因的功能并評(píng)估實(shí)驗(yàn)的合理性(圖1)。 聚類(lèi)分析根據(jù)分類(lèi)對(duì)象不同分為Q型聚類(lèi)和R型聚類(lèi)。Q型聚類(lèi)是指對(duì)樣本進(jìn)行聚類(lèi),R型聚類(lèi)是指對(duì)變量進(jìn)行聚類(lèi)分析。根據(jù)聚類(lèi)方法可以分為系統(tǒng)聚類(lèi)和動(dòng)態(tài)聚類(lèi)。系統(tǒng)聚類(lèi)法一次形成類(lèi)后就不再改變,而動(dòng)態(tài)聚類(lèi)開(kāi)始先粗略地分一下類(lèi),然后按照某種*原則修改不合理的分類(lèi),直至類(lèi)分得比較合理,如K-均值聚類(lèi)等,適用于大樣本的Q型聚類(lèi)分析。
在基因芯片或者轉(zhuǎn)錄組學(xué)研究中,得到基因列表之后通常要對(duì)高達(dá)數(shù)千種基因或蛋白進(jìn)行注釋?zhuān)缘玫狡涓鞣N名字的對(duì)應(yīng)關(guān)系、染色體定位及亞細(xì)胞定位來(lái)方便后續(xù)的研究。由于注釋數(shù)據(jù)庫(kù)的數(shù)量在不斷增加,且不斷進(jìn)行著各種修改,所以在高通量組學(xué)研究中很難對(duì)這些信息進(jìn)行整合。針對(duì)這些問(wèn)題,我們開(kāi)發(fā)了專(zhuān)門(mén)的組學(xué)數(shù)據(jù)注釋流程,可方便地進(jìn)行基因ID轉(zhuǎn)換(圖2 A),并確定相應(yīng)蛋白的亞細(xì)胞定位,以推測(cè)其功能(圖2 B)。
隨著轉(zhuǎn)錄組學(xué)及蛋白質(zhì)組學(xué)的發(fā)展,現(xiàn)在已經(jīng)可以一次性得到大量的基因表達(dá)數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行分析時(shí)通常采用功能富集分析的方法(圖3),而非僅僅分析單個(gè)基因,以避免單基因分析可能產(chǎn)生的偏差,從而得到更準(zhǔn)確的結(jié)論。進(jìn)行功能富集分析需要可靠的數(shù)據(jù)庫(kù)和強(qiáng)健的算法(如累積超幾何分布、Fisher檢驗(yàn)等),把涉及相同通路和功能的基因/蛋白質(zhì)進(jìn)行歸類(lèi),有助于生物學(xué)問(wèn)題的解決。
基因編碼的蛋白質(zhì)不但會(huì)單獨(dú)行使功能,還會(huì)與其它蛋白質(zhì)之間存在著相互作用,這種相互作用使其功能更加多樣化,且可以進(jìn)行各種調(diào)控。所以,隨著后基因組時(shí)代的到來(lái),蛋白質(zhì)相互作用研究受到了越來(lái)越多的重視。現(xiàn)已有很多數(shù)據(jù)庫(kù)和工具進(jìn)行蛋白互作(包括物理互作和功能互作)數(shù)據(jù)的儲(chǔ)存和處理,其數(shù)據(jù)主要來(lái)自于基因組結(jié)構(gòu)、高通量實(shí)驗(yàn)、共表達(dá)實(shí)驗(yàn)和文獻(xiàn)挖掘。將蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行圖形化展示,為其功能關(guān)系提供了高層次神力,有助于生物學(xué)過(guò)程的模塊化分析(圖4)。 5.權(quán)重基因共表達(dá)分析 常規(guī)的差異表達(dá)分析方法大大促進(jìn)了生物學(xué)的發(fā)展,取得了很多重大發(fā)現(xiàn),但是,這些方法都忽略了基因表達(dá)模式之間的相關(guān)性。結(jié)果,這些數(shù)據(jù)產(chǎn)生的信息數(shù)量很多,卻很難從中發(fā)現(xiàn)有價(jià)值的線(xiàn)索,無(wú)法確定差異表達(dá)基因的優(yōu)先級(jí),更難以去研究潛在的生物學(xué)通路。相反,相關(guān)性網(wǎng)絡(luò)(又稱(chēng)為共表達(dá)網(wǎng)絡(luò))可以發(fā)現(xiàn)彼此相關(guān)的基因(圖5 A),并將其分為相應(yīng)的cluster(即共表達(dá)模塊)(圖5 B),然后計(jì)算得到模塊中權(quán)重zui高的基因,將其做為關(guān)鍵調(diào)節(jié)因子(圖5 C),從而簡(jiǎn)化了數(shù)據(jù)的分析過(guò)程,能夠的從數(shù)據(jù)中提取出關(guān)鍵信息,現(xiàn)已有大量的研究采用了這種方法。 6.高能量測(cè)序數(shù)據(jù)分析(差異基因表達(dá)、差異異構(gòu)體表達(dá)、可變拼接) 細(xì)胞內(nèi)基因表達(dá)水平時(shí)刻處于變化之中,具有顯著的時(shí)間、組織、條件特異性,同時(shí)許多基因還具有不同的異構(gòu)體(圖6.1),測(cè)定不同刺激條件下的基因及其異構(gòu)體的表達(dá)變化對(duì)于闡明相關(guān)的生物學(xué)過(guò)程極為重要。RNAseq技術(shù)可以一次性鑒定出大量的差異表達(dá)基因/異構(gòu)體,從而在系統(tǒng)水平了解生命活動(dòng)的機(jī)制,也可以篩選出重要基因進(jìn)行更深的功能研究。 可變拼接(AS)是真核生物基因表達(dá)調(diào)控的重要機(jī)制之一。RNAseq已成為定量分析細(xì)胞內(nèi)的可變拼接的強(qiáng)有力工具,隨著高通量測(cè)序儀的不斷涌現(xiàn),RNSseq的數(shù)據(jù)量也在以指數(shù)形式增加。在此背景下,我們提供了可變拼接分析服務(wù),對(duì)特定基因以及大規(guī)模轉(zhuǎn)錄組數(shù)據(jù)的可變拼接(圖6.2 A)、差異外顯子使用(圖6.2 B)等進(jìn)行定量分析。
7.microRNA數(shù)據(jù)分析 MicroRNA (miRNA) 是一類(lèi)由內(nèi)源發(fā)卡結(jié)構(gòu)轉(zhuǎn)錄本產(chǎn)生的長(zhǎng)度約為22個(gè)核苷酸的非編碼單鏈RNA 分子,通過(guò)與靶mRNA分子互補(bǔ)配對(duì)進(jìn)行轉(zhuǎn)錄后調(diào)控。提取細(xì)胞內(nèi)全部RNA后進(jìn)行小RNA建庫(kù),然后進(jìn)行高通量測(cè)序,通過(guò)特定的算法(圖7 A),由測(cè)序數(shù)據(jù)可得到已知的和新的miRNA分子前體(圖7 B),并對(duì)此前體產(chǎn)生的miRNA進(jìn)行定量(圖7 C)。 8.染色質(zhì)免疫共沉淀(ChIP)分析 染色質(zhì)免疫沉淀結(jié)合高通量測(cè)序技術(shù)(ChIP-seq)是鑒定基因組范圍內(nèi)DNA/RNA結(jié)合蛋白靶位點(diǎn)的標(biāo)準(zhǔn)方法,現(xiàn)已開(kāi)始在力學(xué)生物學(xué)中得到應(yīng)用,用于研究力學(xué)刺激下的蛋白質(zhì)-DNA相互作用。Chip-seq先富集目標(biāo)蛋白結(jié)合的DNA/RNA片段,然后純化和建庫(kù)并進(jìn)行高通量測(cè)序。得到的原始數(shù)據(jù)經(jīng)過(guò)特定的數(shù)據(jù)處理流程(圖8 A),可得到全基因組范圍內(nèi)與目標(biāo)蛋白互作的DNA序列信息(圖8 B、C)、基因不同位置的分布(圖8 D、E)、比較不同的生物學(xué)重復(fù)之間的重復(fù)性(圖8 F)、結(jié)合位點(diǎn)熱圖(圖8 G),并對(duì)峰相關(guān)的基因進(jìn)行GO功能富集分析(圖8 H)等。 9、主成分分析 10、HITS-CLIP分析 11、宏基因組分析 12、外顯子測(cè)序分析 13、單細(xì)胞測(cè)序分析 |