3003必赢贵宾会官方网址

【光华讲坛】Nonparametric Bayesian Two-Level Clustering for Subject-Level Single-Cell Expression Data

主题:Nonparametric Bayesian Two-Level Clustering for Subject-Level Single-Cell Expression Data

主讲人:中国人民大学 罗翔宇助理教授

主持人:3003必赢贵宾会官方网址 陈坤教授

时间:2021527日上午10:3011:30

举办地点腾讯会议 889 333 823

主办单位3003必赢贵宾会官方网址 科研处


主讲人简介

罗翔宇,中国人民大学统计与大数据研究院助理教授、博士生导师。2018年博士毕业于香港中文大学统计系,2014年本科毕业于中国科学技术大学统计与金融系。研究兴趣为贝叶斯统计、生物信息学、统计计算等。已有研究成果发表在国际统计或生物信息期刊上。


内容简介

The advent of single-cell sequencing opens new avenues for personalized treatment. In this talk, we will present a two-level clustering problem of simultaneous subject subgroup discovery (subject level) and cell type detection (cell level) for single-cell expression data from multiple subjects. However, current statistical approaches either cluster cells without considering the subject heterogeneity or group subjects without using the single-cell information. To bridge the gap between cell clustering and subject grouping, we develop a nonparametric Bayesian model, Subject and Cell clustering for Single-Cell expression data (SCSC) model, to achieve subject and cell grouping simultaneously. SCSC does not need to prespecify the subject subgroup number or the cell type number. It automatically induces subject subgroup structures and matches cell types across subjects. Moreover, it directly models the single-cell raw count data by deliberately considering the data's dropouts, library sizes, and over-dispersion. A blocked Gibbs sampler is proposed for the posterior inference. Simulation studies and the application to a multi-subject iPSC scRNA-seq dataset validate the ability of SCSC to simultaneously cluster subjects and cells.

单细胞测序的出现为个性化治疗开辟了新的途径。在这项研究中,我们基于来自多个个体的单细胞表达数据,解决了同时发现个体亚组(个体水平)和细胞类型(细胞水平)的两水平聚类问题。目前的统计方法要么对细胞进行聚类而不考虑个体的异质性,要么对个体进行分组而不利用单细胞信息。为了弥补细胞聚类和个体分组之间的差异,我们开发了一个非参数贝叶斯模型,即单细胞表达数据的个体和细胞聚类(SCSC)模型,以同时实现个体和细胞聚类。SCSC模型不需要预先指定个体分组数量或细胞类型数量。它能自动诱导个体子组结构,并在个体之间匹配细胞类型。此外,它直接对单细胞原始的计数数据进行建模,并考虑了数据的丢失(dropout)、库的大小和过离散的特点。我们为了后验推断提出了一个块状吉布斯抽样方法。在模拟数据和多个体的诱导多能干细胞单细胞RNA测序数据上的应用,证实了SCSC模型同时对主体和细胞进行聚类的能力。