胰腺癌测序数据集整理

探序基因肿瘤研究院整理

1. ICGC网站

ICGC胰腺癌数据集总览,EXP-A代表有芯片的基因表达数据,EXP-S有RNASeq的基因表达数据。点击进入一个数据集,再点击Open in DCC Data Releases,可进入下载文件的页面。下载了一个exp_seq.PACA-CA.tsv.gz,里面不是一个矩阵文件,而是一个一行代表一个样本的一个基因的表达情况,要将这个表格转换成矩阵形式。同时,它的基因名字是ENSG编号的,要转换成常规基因名字。注意,同一个病人可能有多个样本的基因表达记录,要注意考虑样本类型。specimen.PACA-CA.tsv.gz文件记录有样本的来源种类,比如是肿瘤组织的,还是癌旁或者血液。donor.PACA-CA.tsv.gz记录有病人的临床信息,诸如生存时间,分期等等。关于RNASeq,基因表达表格中,有raw_read_count和normalized_read_count,也列了所使用的软件。但有时候normalized这列数据,表格并未交代清楚是TPM还是FPKM值。

2. TCGA网站

版权声明:
作者:Alex
链接:https://www.techfm.club/p/73950.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>