玩轉uniprot數據庫-武汉义森科技有限责任公司

技術專欄

玩轉uniprot數據庫

供稿：技術部

發布時間：2022-06-07

浏覽量：2384次

一(yī)、Uniprot蛋白(bái)數據庫介紹及使用詳解

Uniprot數據庫是資(zī)源最廣、信息最豐富的蛋白(bái)質數據庫，是查詢蛋白(bái)功能的首選數據庫。Uniprot數據庫由Swiss-Prot、TrEMBL和PIR-PSD三大(dà)子數據庫構成，數據主要來自于各物(wù)種基因組測序完成後得到的全基因蛋白(bái)質序列，并包含了很多來自文獻中(zhōng)的蛋白(bái)及其功能信息。尤其是swiss-prot 子數據庫，庫中(zhōng)蛋白(bái)質信息都是手工(gōng)核對過的，非冗餘，有詳細注釋信息的蛋白(bái)數據。作爲一(yī)名科研工(gōng)作者，Uniprot數據庫的使用技能應該是必備的技能之一(yī)。

（1）UniProtKB（UniProt Knowledgebase）是蛋白(bái)質序列、功能、分(fēn)類、交叉引用等信息存取中(zhōng)心;UniProtKB 主要由兩部分(fēn)組成∶

UniProtKB/Swiss-Prot∶高質量的、手工(gōng)注釋的、非冗餘的數據集;主要來自文獻中(zhōng)的研究成果和 E-value 校驗過計算分(fēn)析結果。有質量保證的數據才被加入該數據庫;

UniProtKB/TrEMBL∶該數據集包含高質量的計算分(fēn)析結果，—般都在自動注釋中(zhōng)富集，主要應對基因組項目獲得的大(dà)量數據流以及人工(gōng)校驗在時間上和人力上的不足。注釋所有可用的蛋白(bái)序列。在三大(dà)核酸數據庫（EMBL-Bank/GenBank/DDBJ）中(zhōng)注釋的編碼序列都被自動翻譯并加入該數據庫中(zhōng)。它也有來自 PDB 數據庫的序列，以及Ensembl、Refeq和 CCDS基因預測的序列;

（2）UniRef（UniProt Non-redundant Reference）将密切相關的蛋白(bái)質序列組合到一(yī)條記錄中(zhōng)，以便提高搜索速度。目前，根據序列相似程度形成 3個子庫，即 UniRef10 0、UniRef90和 UniRef50;

（3）UniParc（UniProt Archive）是一(yī)個綜合性的非冗餘數據庫，包含了所有主要的、公開(kāi)的數據庫的蛋白(bái)質序列。由于蛋白(bái)質可能在不同的數據庫中(zhōng)存在，并且可能在同一(yī)個數據庫中(zhōng)有多個版本，爲了去(qù)幾餘，UniaraParc 對每條唯—的序列隻存—次無論是否爲同一(yī)物(wù)種的序列，隻要序列相同就被合并爲一(yī)條，每條序列提供穩定的、唯一(yī)的編号 UPI。該數據庫含有蛋白(bái)質的序列信息，而沒有注釋數據。

UniProt 數據庫中(zhōng)，UniProtKB/Swiss-Prot 是我(wǒ)們最常用的，今天我(wǒ)們主要介紹這個數據庫的使用。我(wǒ)們在輸入欄中(zhōng)輸入CCL4L2，點擊search，就會出現不同物(wù)種該蛋白(bái)的詳細信息。找到我(wǒ)們想要的物(wù)種條目，點擊進入。

Uniprot數據庫主要子數據庫組成：

以上子數據庫間的關系如下(xià)：uniprot會收集EMBL，GenBank，DDBJ等公共數據庫中(zhōng)的蛋白(bái)質序列及功能信息等原始數據，處理後存入UniParc的非冗餘蛋白(bái)質序列數據庫；UniPrc作爲數據倉庫，再分(fēn)别給UniProtKB，Proteomes，UNIRef提供可靠的數據集，其中(zhōng)在UniProtKB數據庫中(zhōng)Swiss-Prot是由TrEMBL經過手動注釋後得到的高質量非冗餘數據庫，也是我(wǒ)們最常用的蛋白(bái)質數據庫之一(yī)。

Uniprot數據庫官方鏈接：https://www.uniprot.org/

1. 單個蛋白(bái)質信息查詢

下(xià)圖是Uniprot官方網站首頁，在UniprotKB欄輸入蛋白(bái)ID或Accession number，然後點擊search，就可以查詢蛋白(bái)功能。

我(wǒ)們以HUMAN CCL4L2爲例，搜索其在Uniprot數據庫中(zhōng)的信息，如下(xià)圖，頁面默認顯示Entry模式，頁面顯示内容包括：蛋白(bái)名稱、物(wù)種來源、GO功能注釋、亞細胞定位、組織特異性表達情況、互作蛋白(bái)、Domain、序列信息、同源蛋白(bái)以及其他數據鏈接等信息。

點擊Display下(xià)Publications按鈕，數據庫會展示該蛋白(bái)發表已經收錄的文章。

2. 批量蛋白(bái)質信息查詢

假如需要查詢的蛋白(bái)較多，則可以通過點擊首行任務欄Retrieve/ID mapping，如下(xià)圖，查詢蛋白(bái)列表可直接粘貼在下(xià)圖1. Provide your identifiers文本框中(zhōng)，也可以将蛋白(bái)ID單列粘貼于TXT文本中(zhōng)提交到網站。另外(wài)該頁面2. Select options 還可提供ID轉換功能，支持多種數據庫間的ID轉換。