这是一篇把公众号草稿整理成博客长文的复现记录:从 GEO 公开数据出发,系统复现 Kang et al. 经典 PBMC IFN-beta 刺激单细胞数据,并把质控、UMAP、细胞注释、IFN marker 和 IFN response score 串成一条可以复用的分析叙事。
为什么选这组数据?
Kang et al. 的 GSE96583 是单细胞 RNA-seq 里非常适合做复现展示的经典案例。它的实验问题清楚、公开数据可获得、结果也容易解释:同样是 PBMC,经过 IFN-beta 刺激以后,不同免疫细胞会出现不同程度的干扰素响应。
论文和数据来源
这篇复现对应的原始研究是 Kang 等发表于 Nature Biotechnology 的文章:
GEO 页面显示该数据集包含 5 个样本,其中 batch 2 包含 GSM2560248 batch 2 control 和 GSM2560249 batch 2 stim (IFN-beta)。这两个样本构成了本次复现的主体:一个是未刺激 PBMC,一个是 IFN-beta 处理后的 PBMC。
本次复现重点选择 batch 2 的两个样本:
| GEO 样本 | 条件 | 说明 |
|---|---|---|
| GSM2560248 | control | 6 小时未刺激 PBMC |
| GSM2560249 | IFN-beta stimulated | 6 小时 IFN-beta 刺激 PBMC |
数据和流程
本次复现采用标准单细胞 RNA-seq 分析流程,主要步骤如下:
- 整理 GEO matrix、barcodes、genes,构建 10X 输入格式。
- 根据 UMI、基因数、线粒体比例进行质量控制。
- 合并 control 与 IFN-beta stimulated 两个样本。
- 执行归一化、HVG、PCA、邻近图、Leiden 聚类和 UMAP。
- 使用 CellTypist
Immune_All_High模型注释免疫细胞类型。 - 检查 IFN response marker,并计算 IFN response score。
PBMC 主要细胞类型结构
CellTypist 注释结果显示,数据中主要免疫细胞群包括 T cell、myeloid、innate lymphoid cell、B cell 和 dendritic cell。
| 细胞类型 | 细胞数 | 占比 |
|---|---|---|
| T CELL | 14,229 | 49.3% |
| MYELOIDS | 7,802 | 27.0% |
| INNATE LYMPHOID CELL | 3,224 | 11.2% |
| B CELL | 2,870 | 9.9% |
| DENDRITIC CELL | 464 | 1.6% |
IFN-beta 刺激后的核心信号
本次复现重点检查了经典 IFN response marker:
ISG15, IFIT1, IFIT2, IFIT3, MX1, MX2, OAS1, OAS2, OAS3, STAT1, IRF7, IFI6, IFI27, RSAD2
这些基因均存在于 QC 后对象中,可以用于展示 IFN-beta 刺激后的响应强度。
哪些细胞类型响应最强?
为了让文章不只是“看图说话”,我基于 14 个 IFN response marker 计算了每个细胞的 IFN response score,并按细胞类型比较 stimulated 与 control。
| 细胞类型 | IFN-beta 中位数 | control 中位数 | 差值 |
|---|---|---|---|
| MYELOIDS | 1.850 | -0.502 | 2.352 |
| DENDRITIC CELL | 1.647 | -0.666 | 2.313 |
| GRANULOCYTE | 1.629 | -0.454 | 2.084 |
| B CELL | 1.166 | -0.574 | 1.740 |
| INNATE LYMPHOID CELL | 1.193 | -0.507 | 1.700 |
| T CELL | 0.927 | -0.552 | 1.480 |
这个案例能说明什么?
从公开数据、QC、注释到 marker 验证,复现链条是完整的。
IFN marker 和 response score 能直接对应免疫刺激的生物学问题。
同类 GEO、h5ad、Seurat 对象都可以整理成中文报告和图文素材。
下一步可以增强什么?
如果要把这篇做成更强的商业展示案例,建议继续补三类结果:
| 增强方向 | 价值 |
|---|---|
| 细胞类型内 differential expression | 证明不是只跑通流程,而是能回答生物学问题 |
| 和原文/Seurat 教程结果对照 | 增强“复现”可信度 |
| 图文排版和中文解读 | 直接变成公众号、博客和小红书发布素材 |
这次复现已经可以作为“单细胞论文复现服务”的第一个公开样板。后续如果有论文、GEO 编号、原始矩阵或 h5ad / Seurat 对象,也可以按同样方式整理出 UMAP、marker、细胞注释、差异分析、图表复刻和中文报告。