技術專欄

玩轉uniprot數據庫
供稿:技術部發布時間:2022-06-07浏覽量:2384次

一(yī)、Uniprot蛋白(bái)數據庫介紹及使用詳解

Uniprot數據庫是資(zī)源最廣、信息最豐富的蛋白(bái)質數據庫,是查詢蛋白(bái)功能的首選數據庫。Uniprot數據庫由Swiss-Prot、TrEMBL和PIR-PSD三大(dà)子數據庫構成,數據主要來自于各物(wù)種基因組測序完成後得到的全基因蛋白(bái)質序列,并包含了很多來自文獻中(zhōng)的蛋白(bái)及其功能信息。尤其是swiss-prot 子數據庫,庫中(zhōng)蛋白(bái)質信息都是手工(gōng)核對過的 ,非冗餘, 有詳細注釋信息的蛋白(bái)數據。作爲一(yī)名科研工(gōng)作者,Uniprot數據庫的使用技能應該是必備的技能之一(yī)。

(1)UniProtKB(UniProt Knowledgebase)是蛋白(bái)質序列、功能、分(fēn)類、交叉引用等信息存取中(zhōng)心;UniProtKB 主要由兩部分(fēn)組成∶

UniProtKB/Swiss-Prot∶高質量的、手工(gōng)注釋的、非冗餘的數據集;主要來自文獻中(zhōng)的研究成果和 E-value 校驗過計算分(fēn)析結果。有質量保證的數據才被加入該數據庫;

UniProtKB/TrEMBL∶該數據集包含高質量的計算分(fēn)析結果,—般都在自動注釋中(zhōng)富集,主要應對基因組項目獲得的大(dà)量數據流以及人工(gōng)校驗在時間上和人力上的不足。注釋所有可用的蛋白(bái)序列。在三大(dà)核酸數據庫(EMBL-Bank/GenBank/DDBJ)中(zhōng)注釋的編碼序列都被自動翻譯并加入該數據庫中(zhōng)。它也有來自 PDB 數據庫的序列,以及Ensembl、Refeq和 CCDS基因預測的序列;

(2)UniRef(UniProt Non-redundant Reference)将密切相關的蛋白(bái)質序列組合到一(yī)條記錄中(zhōng),以便提高搜索速度。目前,根據序列相似程度形成 3個子庫,即 UniRef10 0、UniRef90和 UniRef50;

(3)UniParc(UniProt Archive)是一(yī)個綜合性的非冗餘數據庫,包含了所有主要的、公開(kāi)的數據庫的蛋白(bái)質序列。由于蛋白(bái)質可能在不同的數據庫中(zhōng)存在,并且可能在同一(yī)個數據庫中(zhōng)有多個版本,爲了去(qù)幾餘,UniaraParc 對每條唯—的序列隻存—次無論是否爲同一(yī)物(wù)種的序列,隻要序列相同就被合并爲一(yī)條,每條序列提供穩定的、唯一(yī)的編号 UPI。該數據庫含有蛋白(bái)質的序列信息,而沒有注釋數據。

UniProt 數據庫中(zhōng),UniProtKB/Swiss-Prot 是我(wǒ)們最常用的,今天我(wǒ)們主要介紹這個數據庫的使用。我(wǒ)們在輸入欄中(zhōng)輸入CCL4L2,點擊search,就會出現不同物(wù)種該蛋白(bái)的詳細信息。找到我(wǒ)們想要的物(wù)種條目,點擊進入。

 

Uniprot數據庫主要子數據庫組成:

以上子數據庫間的關系如下(xià):uniprot會收集EMBL,GenBank,DDBJ等公共數據庫中(zhōng)的蛋白(bái)質序列及功能信息等原始數據,處理後存入UniParc的非冗餘蛋白(bái)質序列數據庫;UniPrc作爲數據倉庫,再分(fēn)别給UniProtKB,Proteomes,UNIRef提供可靠的數據集,其中(zhōng)在UniProtKB數據庫中(zhōng)Swiss-Prot是由TrEMBL經過手動注釋後得到的高質量非冗餘數據庫,也是我(wǒ)們最常用的蛋白(bái)質數據庫之一(yī)。

Uniprot數據庫官方鏈接:https://www.uniprot.org/

1. 單個蛋白(bái)質信息查詢

下(xià)圖是Uniprot官方網站首頁,在UniprotKB欄輸入蛋白(bái)ID或Accession number,然後點擊search,就可以查詢蛋白(bái)功能。

我(wǒ)們以HUMAN  CCL4L2爲例,搜索其在Uniprot數據庫中(zhōng)的信息,如下(xià)圖,頁面默認顯示Entry模式,頁面顯示内容包括:蛋白(bái)名稱、物(wù)種來源、GO功能注釋、亞細胞定位、組織特異性表達情況、互作蛋白(bái)、Domain、序列信息、同源蛋白(bái)以及其他數據鏈接等信息。

點擊Display下(xià)Publications按鈕,數據庫會展示該蛋白(bái)發表已經收錄的文章。

2. 批量蛋白(bái)質信息查詢

假如需要查詢的蛋白(bái)較多,則可以通過點擊首行任務欄Retrieve/ID mapping,如下(xià)圖,查詢蛋白(bái)列表可直接粘貼在下(xià)圖1. Provide your identifiers文本框中(zhōng),也可以将蛋白(bái)ID單列粘貼于TXT文本中(zhōng)提交到網站。另外(wài)該頁面2. Select options 還可提供ID轉換功能,支持多種數據庫間的ID轉換。

提交好蛋白(bái)列表後,點擊Submit,網站便會自動分(fēn)析,結果展現形式如下(xià):

展示信息包括:蛋白(bái)對應的基因名、蛋白(bái)描述、序列長度等信息。

點擊Column按鈕,可以選擇需要展示的數據庫信息,如GO、pathway、亞細胞定位等注釋信息,如下(xià)圖,選擇完畢後點擊save保存設置,系統會自動跳轉至信息展示頁面。

最終結果展示如下(xià)圖,勾選感興趣的蛋白(bái),即可将本次注釋結果下(xià)載到本地查看,并且支持包括Excel格式在内的多種文本格式。

Names & Taxonomyi

對于科研試劑銷售工(gōng)作者來說,用的比較多的是這個闆塊,該闆塊展示的是命名(其中(zhōng)包括蛋白(bái)名,基因名)和來源種屬信息,如需要可以直接跳轉到NCBI、Enzem數據庫進行查詢。

Subcellular locationi

之後是蛋白(bái)的亞細胞定位和拓撲結構。可以看到CCL4L2 是位于細胞膜外(wài)的分(fēn)泌蛋白(bái)

PTM / Processingi

在PTM部分(fēn),列舉着蛋白(bái)合成過程中(zhōng),分(fēn)子加工(gōng),氨基酸修飾及翻譯後修飾,比如剪切、糖基化、脂酰化、二硫鍵位置等信息,可以了解到此蛋白(bái)的信号肽序列,和前體(tǐ)蛋白(bái)并加以列出。

Sequences (10+)i

序列這部分(fēn)是科研工(gōng)作者需要的重要信息,此部分(fēn)列出了蛋白(bái)從信号肽開(kāi)始的完整序列,如果該蛋白(bái)有不同的剪切體(tǐ),各剪切體(tǐ)的序列也會一(yī)一(yī)列出。方便研究者取用。

今天Uniprot數據庫的使用就介紹到這裏,希望對您的科研有所幫助!

圖片

關閉

在線咨詢

Online consultation

  • 在線咨詢
  • 技術支持

關注微信公衆号

微信掃一(yī)掃立即咨詢

微信掃一(yī)掃立即咨詢