GEO数据样本名字与表型对应不上,问题可能在这!

来源:生信技能树
发布时间:1748671792

收到曾老板发来的信息,让我针对这个帖子中 《最讨厌这样的样品命名体系》 的数据,处理一下样本表达矩阵:GSE211266_raw_count.csv.gz中的列名与样本信息的对应情况!

矩阵中的列名:

colnames(symbol_matrix)
 [1] "JR-10S-RK-01""JR-10S-RK-010""JR-10S-RK-02""JR-10S-RK-03"
 [5] "JR-10S-RK-04""JR-10S-RK-05""JR-10S-RK-06""JR-10S-RK-07"
 [9] "JR-10S-RK-08""JR-10S-RK-09""JR-16S-RK-11""JR-16S-RK-16"
[13] "JR-16S-RK-17""JR-16S-RK-18""JR-16S-RK-19""JR-16S-RK-22"
[17] "JR-16S-RK-23""JR-16S-RK-24""JR-16S-RK-25" 

但是GEO中的表型信息一般是GSM编号,来看看吧!

寻找与symbol_matrix的列名对应的信息

这个数据的链接为:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE211266,可以看到总共有19个样本:

GSM6460125 mEC-C-YMK1
GSM6460126 mEC-C-YMK2
GSM6460127 mEC-C-YMK3
GSM6460128 mEC-C-YMK4
GSM6460129 mEC-C-YMK5
GSM6460130 mEC-TW1-YMK1
GSM6460131 mEC-TW1-YMK2
GSM6460132 mEC-TW1-YMK3
GSM6460133 mEC-TW1-YMK4
GSM6460134 mEC-TW1-YMK5
GSM6460135 mEC-TW1-YMK6
GSM6460136 mEC-TW2-YMK3
GSM6460137 mEC-TW2-YMK4
GSM6460138 mEC-TW2-YMK5
GSM6460139 mEC-TW2-YMK6
GSM6460140 mEC-TW3-YMK3
GSM6460141 mEC-TW3-YMK4
GSM6460142 mEC-TW3-YMK5
GSM6460143 mEC-TW3-YMK6

点击一个样本链接进去看看:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM6460125

可以看到 symbol_matrix的列名在这个页面的Description位置 ,这个Description一般用来放样本名字的是在是太少见啦!

由于我对GEO数据库熟悉得再不过了,所以一下子就知道怎么取得 JR-10S-RK-01 与 GSM6460125 的对应关系了!

那就是:这个页面https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM6460125的所有描述信息 一定都可以在 Series Matrix File(s) 这个文件中找到!

获取样本分组信息

下载并读取 Series Matrix 文件:

library(AnnoProbe)
library(GEOquery)
acc
gset = getGEO(GSE211266, destdir = './GSE211266/', getGPL = F) 
pd = pData(gset[[1]]) 
pd[1:4,1:5]
# 获取样本分组
colnames(pd)
pd_select <- pd[, c("title","description","time:ch1","treatment:ch1")]
head(pd_select)

学会了吗, 样本名字可能在意想不到的地方呀!

如果你有任何生信疑问,可以看看我们的这两个专辑哦: 《生信马拉松答疑》 《马拉松授课互动答疑》 也欢迎大家图文并茂发邮件:jzhang910@qq.com 或者加微信咨询:Biotree123。

如果你在学习生信的过程中觉得 孤军难以奋战 ,可以报名参加我们每月一起的生信入门课程, 最新一期在6月2号开课,跟大家一起成长与学习 生信入门&数据挖掘线上直播课6月班