如何使用tcga数据库 生存分析做生存分析

拿一套TCGA胃癌的数据来批量做生存分析示例
1、下载TCGA RNA-Seq数据,我们使用TCGA简易下载工具进行下载,因为我们是做预后所以就没有显著正常样本,如图共有407个样本(这是包含所有可下载的样本,要全部下载就将右上角的复选...
1、下载TCGA RNA-Seq数据,我们使用TCGA简易下载工具进行下载,因为我们是做预后所以就没有显著正常样本,如图共有407个样本(这是包含所有可下载的样本,要全部下载就将右上角的复选框全部取消勾选即可):
下载完成,我们点击合并文件功能进行数据合并
因为FPKM数据区间跨度太大,我们将其转换成TPM,使用TCGA RNA-Seq归一化工具
转换完成之后得到了新的矩阵,但是这个矩阵中包含有六万多个转录本,这里面包含了编码基因和lncRNA,所以我们使用TCGA简易下载工具的ENSG_ID转换工具进行转换提取
将Merge_Matrix.TPM.txt导入到TCGA简易下载工具使用ENSG_ID进行转换得到lncRNA和编码基因的表达矩阵
2、下载TCGA Clinical数据,因为Clinical 数据是针对于病人的,也就是说没有癌与癌旁等组织之分了,共有443个病人的随访数据
下载完成之后我们点击ClinicalFull按钮提取我们的临床信息,不懂解读的看这里:
随访数据解读和处理,打开合并后的临床数据表格找到这三列
第一个红色箭头处表示样本编号我们将其复制出来作为预后数据的第一列,第二第三个箭头处分别表示死亡时间和最后一次随访时间,我们将其合并成一列,因为两列是互斥的,有死亡时间就木有最后随访时间,木有死亡时间的就有最后随访时间
简单处理方法将Not Available、Not Applicable替换为0,然后两列相加即可,如
最后我们找到死亡事件列
复制到我们的样本信息表中,当然仔细比对之后发现有些时间数据丢失的比如下图
这种样本我们删除掉即可,共有两例
最终表格形式如:
另存为txt文件如
开始做生存分析
我们选择编码基因的表达谱来做TCGA生存分析,将样本信息和表达谱导入到批量计算生存分析工具如
注意图中红色圈圈里的,一定要选择正确,我这里选择TCGA数据集,日期选择days,选择随访信息大于30天的的样本,程序会自动匹配满足条件的样本,如图中匹配上234个样本,如果没有选对会报没有匹配的样本错误
坐等跑完,可能需要一点时间
跑完后我们发现只有一万三千多个基因,实际上我们有一万九千多个基因,其他基因去哪里了呢,剔除的这些基因是因为他们在匹配上的234个样本中表达水平怪异比如很多的0或者很多很大的值,无法做生存分析
进一步的导出结果就行
其他的画图功能双击运行的结果就可以画了,另外注意的是结果中的HR是取了log自然对数之后的HR值
阅读 ( 2181 )
你可能感兴趣的文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!关注今日:5 | 主题:114473
微信扫一扫
菜鸟进阶之TCGA使用心得-高手请略过
页码直达:
这个帖子发布于2年零92天前,其中的信息可能已发生改变或有所发展。
来源:小木虫
TCGA和GEO提供了丰富的高通量测序结果,如果加上其中详细的生存数据clinic data,就可以轻松的对相应基因做survival
analysis。下面就主要谈TCGA数据获得和处理。TCGA由NCI牵头,作为美国攻克癌计划的一个大的project,投入巨大的人力和资金,较早的进行深度测序,提供Gene
expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon
expression外显子测序结果,其临床数据整理的相对最完整,指标最多。在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC,
Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer
Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer
Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。以从Cancer
Browser下载数据最为方便,下面将TCGA基因表达数据和临床数据应用方法作为记录。我们以Colorectal
Cancer数据处理为例。我们希望结合结直肠癌症的基因表达数据和临床数据,去检索到底哪些基因会和结直肠癌的OS总生存期和DFS无病进展期相关。Cancer
Browser网址:
步骤,1,进入网页后,点击Cancer Browser 选项
2,点击左上角 Add Datasets
3,在所出现的TCGA研究队列中选取COADREAD结直肠癌,里面包含TCGA的各种高通量测序结果,因为我们想研究基因和预后的关系,我们就选择Gene expression的那个
有时候我们也会发现有IlluminaHiseq Pancan normalized的Gene
expression结果,其实质和IlluminaHiseq对运算没有任何影响,UCSC对Pancan的解释是mean-normalized(per
gene) across all TCGA cohorts。
4,点击下载标志的箭头,进行下载,解压压缩包。即可得到临床和GeneMatrix数据。
clinical_data 此文件后缀加.xls用excel打开
genomicMatrix
此文件后缀加.xls用excel打开丨丨TCGA数据处理分析思路。1,
基因表达数据和临床数据整合,可以使用R语言merge语句。2,
R语言survival包进行运算,从中选出P值小于0.01的基因进行研究,如果把一个癌症队列2万多个基因都扫一遍大概要耗时6-10h左右。(其中数据处理和算法debug比较烦杂,而且对于不满足分组的进行剔除和输出应当更加注意。)&br /
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
dachong99 编辑于
收起全部有料回复
超级盼回~~~本人最近也在研究TCGA数据库,(菜鸟一枚)想问一下楼主,1.用survival包先进行单因素分析,筛选出P值小于0.01的变量,是用的Surv()函数,然后提取出其中的wald.test对应的值吗?如果不是,楼主是用的什么方法呢?2.对于上万的变量,肯定是要写循环语句啦,下面是我写的语句,用模拟数据试了下没有问题,但用到TCGA数据中就会报错,不知道楼主可否分享一下语句,让我也学习学习y = Surv(t, d)x&-shuju[,3:6]w&-vector(length = 4)for(i in 1:4){
x.i&-x[,i]
f.i&-coxph(y~x.i)
w[i]&-f.i$wald.test}
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
一颗菜墩 请问能讲一下怎么找癌和癌旁吗,还不是特别明白There is an &metadata& file alongside the TCGA file in your &cart&. This file contains the mapping information between file name and sample name. Unfortunately, the &metadata& file is in &json& format. To load it into R, you need &rjson& package. In addition, there are multiple IDs for each TCGA file, and you need to choose the right one to mach against the meta data. After you get the file names, retrieve the 14th and 15th numbers of the names. &01& means tumor and &11& means normal.
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
看过了,受益不少,谢谢楼主。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园如何快速掌握TCGA数据库_百度知道
如何快速掌握TCGA数据库
我有更好的答案
cbioportal.org/public-portal/cgds_r.gov/tcga/tcgaHome2.jsp" target="_blank">https.nci.nci.jsp),ICGC(<a href="http.nih.gov/tcga/tcgaHome2.jsp)数据库。TCGA数据源大部分都是公开的。目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal()和GenePattern(<a href="http://www.broadinstitute.org/cancer/software/genepattern/download/index)tcga工作组发的文章。The Cancer Genome Atlas (TCGA,
采纳率:64%
为您推荐:
其他类似问题
&#xe675;换一换
回答问题,赢新手礼包&#xe6b9;
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。小木虫 --- 700万学术达人喜爱的学术科研平台
热门搜索:
&&哪位会用TCGA数据库查找数据啊,求大神指点,,跪谢
哪位会用TCGA数据库查找数据啊,求大神指点,,跪谢
谢谢你哦,我想请问下载来的数据怎么看?代表的意思丝毫不懂,
如果是Methyl-seq数据,你可以去UCSC上面下载“gencode.v19.long_noncoding_RNAs.gtf”对应一下,得到FPKM值(类似于表达量)~
我想找survial,但不知道last contact days 和death days to代表什么,而且出现很多not applicable是什么意思?
学术必备与600万学术达人在线互动!
扫描下载送金币用TCGA数据做cox生存分析的风险因子(比例风险模型) | 生信菜鸟团

我要回帖

更多关于 tcga数据库 生存分析 的文章

 

随机推荐