easyTCGA近期更新
为什么要写这个R包生信数据挖掘必不可少要学习TCGA数据库,但是对于新手,经常卡在第一步:下载和整理数据。第一步完成了,又会卡在第二步,第三步:差异分析,生存分析......
有人会说XENA有整理好的数据,但这些数据下载后并不能直接用,还是要整理,初学者依然会卡在第一步!
对于R语言大神来说都不是问题,非常简单的R语言操作而已。但是对于初学者很难理解。
这几步操作又是必不可少的,我自己也经常需要重新下载整理数据。为了简化这几个流程,同时也是让初学者也能感受到"征服"TCGA的喜悦,我把自己常用的一些代码打包,写了这个R包。
图片
使用注意需要自己解决网络问题,比如访问github,TCGA官网, google等,如果你无法解决网络问题,那么生信数据挖掘可能不适合你......基本上你常见的生信数据库资源都是国外的,由于众所周知的原因,国外的数据很难下载,网络问题我帮不了你。
安装首先安装依赖包:
# 安装bioconductor上面的R包# 首先要改镜像,下面是清华的镜像,有时会有问题,可更改其他镜像试试(自己百度下喽~)options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")if(!require("BiocManager")) install.packages("BiocManager")if(!require("TCGAbiolinks")) BiocManager::install("TCGAbiolinks")if(!require("SummarizedExperiment")) BiocManager::install("SummarizedExperiment")if(!require("DESeq2")) BiocManager::install("DESeq2")if(!require("edgeR")) BiocManager::install("edgeR")if(!require("limma")) BiocManager::install("limma")# 安装cran上面的R包if(!require("survival")) install.packages("survival")if(!require("broom")) install.packages("broom")if(!require("devtools")) install.packages("devtools")if(!require("reshape2")) install.packages("reshape2")if(!require("data.table")) install.packages("data.table")if(!require("ggplot2")) install.packages("ggplot2")if(!require("ggpubr")) install.packages("ggpubr")
再安装easyTCGA包:
devtools::install_github("ayueme/easyTCGA")主要功能
解决TCGA(GTEx)数据下载和整理问题,顺便实现一些常见的分析和可视化
getmrnaexpr
只需要提供正确的TCGA project名字即可;自动下载并整理mRNA和lncRNA的counts,tpm,fpkm共6种表达矩阵(直接从官网的原始数据提取,未进行任何修改,所以是没有经过log转换的),以及对应的临床信息,临床信息样本顺序和表达矩阵样本顺序完全一致,无需再次整理;自动保存以上6种表达矩阵和临床信息到当前工作目录下的output_mRNA_lncRNA_expr文件夹下,并且同时保存rdata和csv两种文件格式;下载的数据为最新数据,和GDC TCGA官网保持一致;支持通过手动下载的TCGA数据进行自动整理并完成以上过程(可参考b站教程:easyTCGA:1行代码整理TCGA的6种表达矩阵和临床信息)lncRNA鉴别参考:Biotypes (ensembl.org)getmrnaexpr_xena
用于XENA网站下载的TCGA基因表达数据和临床信息的整理(仅限gdchub);直接提供文件名即可,比如:TCGA-ACC.htseq_counts.tsv.gz, TCGA-ACC.htseq_fpkm.tsv.gz,TCGA-ACC.GDC_phenotype.tsv.gz, TCGA-ACC.survival.tsv;自动保存mRNA、lncRNA表达矩阵和临床信息到当前工作目录下的output_mRNA_expr_xena文件夹下;id转换使用gtf 22,和XENA保持一致;(单独使用XENA的表达谱数据和直接用GDC官网数据相比没有任何优势)getmirnaexpr
只需要提供正确的TCGA project名字即可;自动下载并整理miRNA的counts,rpm2种表达矩阵;自动保存以上2种表达矩阵和对应的临床信息到当前工作目录下的output_miRNA_expr文件夹下,并且同时保存rdata和csv两种文件格式;下载的数据为最新数据,和GDC TCGA官网保持一致getsnvmaf
只需要提供正确的TCGA project名字即可;自动下载并整理TCGA MAF文件(masked somatic mutation)以及对应的临床信息,并自动保存到当前工作目录下的output_snv文件夹下;输出结果可以直接通过maftools::read_maf()函数读取,无需再次整理getcnv
只需要提供正确的TCGA project名字即可;自动下载并整理copy number variation数据;数据保存到当前工作目录下的output_cnv文件夹下;下载的数据为最新数据,和GDC TCGA官网保持一致getmethybeta
只需要提供正确的TCGA project名字即可;自动下载并整理450K的DNA methylation的beta值矩阵,以及对应的临床信息,数量和顺序完全一致,无需再次整理;自动整理探针信息,比如探针对应的gene symbol等,基于GRCh 38;数据保存在当前工作目录下的output_methy文件夹下;下载的数据为最新数据,和GDC TCGA官网保持一致(注意!!!整理甲基化数据需要在线下载很多数据,对网络要求很高!)getclinical
下载XML格式的临床数据,包括各种常见的临床信息,如生存信息、病理分期、放化疗数据、化疗药物数据等与GDC TCGA官网数据保持一致只需要提供正确的TCGA project名字即可(注意!!!TCGA的临床数据分为很多种,可参考TCGA临床数据(化疗数据、用药反应等)和生存信息(4种临床结局)整理)getpancancer_xena
实现对泛癌数据的整理,支持TCGA、GTEx,以及整合TCGA+GTEx原始文件是从XENA下载的;只需提供相应的表达矩阵文件和样本信息文件即可 本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。