公共数据库获取转录组分析所需相关文件操作说明

包括:参考序列(FASTA)、注释信息(GTF)、转录本序列(FASTA)、基因与转录本关系信息(TXT)、GO功能注释(TXT)、KEGG功能注释(TXT)。

完整操作说明如下所示:

1、通过网址 “www.ensembl.org” 访问Ensembl基因组数据库网站。

2、如果需要下载植物相关的数据,点击主页下方的 “Ensembl Plants” 链接进行切换。示意图如下所示:

3、以拟南芥为例,下面展示完整的操作步骤。

4、点击主页最上方的 “Downloads” 链接进入FTP下载页面。示意图如下所示:

5、在FTP下载页面, “Single species data” 部分找到拟南芥物种。示例图如下所示:

6、点击 “DNA” 列对应的FASTA链接,进入参考序列FTP下载界面,选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。

7、点击 “GTF” 列对应的GTF链接,进入注释信息FTP下载界面,选择下载 “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz” 并解压。

8、点击主页最上方的 “BioMart” 链接进入BioMart页面。示意图如下所示:

9、在BioMart页面中,点击 “CHOOSE DATABASE” 选项,选择Genes数据库,物种选择拟南芥。示例图如下所示:

10、点击页面左侧的 “Attributes” ,接着在右侧 Features大类,EXTERNAL栏目中将 “GO term accession” 选中。示意图如下所示:

11、点击页面左上角的 “Results” 按钮图标,进入导出数据页面。示意图如下所示:

12、在数据导出页面上方,点击 “Go” 按钮图标进行下载。示意图如下所示:

13、下载的文件名称为 “mart_export.txt” ,包含拟南芥基因对应的GO号信息。

14、这样我们得到三个文件,分别为: “Arabidopsis_thaliana.TAIR10.dna.toplevel.fa” “Arabidopsis_thaliana.TAIR10.44.gtf” “mart_export.txt”。

15、将三个文件导入到VG转录组软件中, 点击这里查看数据导入导出操作说明

16、在Workflows Browser中,双击流程 "Prepare: Ensembl Genome and Annotation Data Process" ,弹出通过流程创建项目对话框,并设置独立的项目名称和工作目录。

17、双击打开项目,并将三个文件作为项目流程的输入。运行项目,即可得到转录组分析所需相关文件。

18、如下所示,这些文件用于后续的比对、定量、功能富集分析。

参考序列(FASTA):Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

注释信息(GTF):ref_clean.gtf

转录本序列(FASTA):transcripts.fasta

基因与转录本关系信息(TXT):gene_trans_map.txt

GO功能注释(TXT):GO_anno.txt

KEGG功能注释(TXT):KEGG_anno.txt