ntry-header

2017年12月25日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。本次论坛邀请到卡耐基梅隆大学的Jiashun Jin教授,报告由清华大学统计学研究中心的邓柯教授主持,本次报告的主题是“使用重要特征主成分分析(IF-PCA)进行聚类”。

论坛现场
Jiashun JIN 教授
       金教授首先用来进行聚类的十种肿瘤的microarray表达量数据,该项目的目标是将每种肿瘤分成几个亚组,所有特征分为信号和噪音,信号的部分有不同的均值,是一个秩为K-1的稀疏矩阵,我们在这里面临的问题是信号的部分相对于噪音很少而且很弱,因此使用经典的PCA方法效果不是很好。

接下来,金教授介绍了IF-PCA方法思想,主要分成以下几步:首先是使用Kolmogorov-Smirnov统计量将原始数据变成排序特征,之后将排在靠前的特征筛选出来,最后在经过筛选之后的特征上使用主成分分析的方法。在以上每一步的操作中,都要有一些需要注意的地方,在使用Kolmogorov-Smirnov统计量对原始数据进行排序时,在计算KS score之后,使用Efron’s null correction的方法对KS score进行标准化,再选择标准化之后score排在前面的特征;在选择排名的threshold的时候,通常大家会使用cross validation或者FDR的方法,金老师使用的是Higher Criticism的标准,从中选择一个最严格的threshold进行筛选。

最后,金老师将IF-PCA方法的结果和一些已有的方法进行了比较,包括kmean, SpecGem, kmean++, COSA 以及sPCA等方法进行了比较,发现IF-PCA的方法在十种肿瘤中的五种表现都是最优的,在另外五种肿瘤中也是次优的,在所有肿瘤中的平均错误率也是最低的,这说明这种方法在实际应用中的效果是很好的。

与会人员合影
#post-11916
ntry-header

2017年12月20日,【统计学论坛】在清华大学伟清楼209成功举办。本报告邀请了宾夕法尼亚州立大学统计系的杰出教授林共进先生。本次讲座由清华大学统计学研究中心副教授李东老师主持。

论坛现场

林教授本次报告的内容涵盖了多个方面,主要内容是引入Ghost Data(幽灵数据)。林教授通过截取几部电影的片段来说明Ghost Data的由来,从新的视角发现电影中蕴含的数据思维。电影《The Six Sense》中的小男孩可以看到幽灵,在真实世界虽然大多数人不相信世幽灵或者鬼魂的存在,但有些人确实能凭借阴阳眼看到常人看不见的东西,曾有科学给出解释说是因为这些人眼睛能接收的光的频段比普通人要宽,对应到观测不到Ghost Data,我们便可以借鉴这个思想通过一些方法将“频率调宽”把隐藏的信息挖掘出来,这个过程可以形象地类比为“统计显微镜”。之后林教授用《神探夏洛克》电影中狗不吠这个现象说明案件的凶手应该是被害者的熟人,说明某些缺失数据也携带了大量信息,用汤姆克鲁斯电影《明日边缘》说明了加速学习过程的重要性。林教授认为Ghost Data主要分为virtual data(虚拟数据)、missing data(缺失数据)、pretend data(做作数据)、simulation data(模拟数据)和highly sparse data(高度稀疏数据)。引入Ghost Data的概念后,林教授介绍了一些如何处理该类数据的方法,如t-covering、因果推断等,并介绍了因果推断中不同的随机化方法导致的不同实验结果。林教授着重介绍了模拟数据应该具有的一些特点,如generality、representation、interested extremes、illusion。

林共进教授

最后林教授将传统统计方法如何应用到大数据、如何判断随机数的随机程度等问题和大家一起进行探讨。同时林教授用电影中蕴含的数据思维告诉我们应该拓宽视野了解不同领域的内容,勤于思考,敢于创新。

左起:顾冲教授、林共进教授、李东副教授
#post-11915
ntry-header

为了更好的帮助青年统计学者,积极推动统计专业博士生提高专业知识,提升专业素养,清华大学统计学研究中心于2017年12月18日在清华大学召开“2017清华大学统计学博士生论坛”。

论坛现场

来自清华大学、北京大学、乔治亚大学、北京航空航天大学等近40位学者参与论坛。来自清华大学的龚欢、黄伟清、姜瑛恺等11位同学针对自身的研究方向、研究成果以及研究过程中遇到的问题做了现场阐述。在场学者们各抒己见、踊跃发言,专家学者们点评精彩、妙语连珠。

龚欢-Quasi-Maximum Likelihood Estimation of DAR Models with Heavy-Tailed Likelihoods
黄伟清-Accounting for Tumor Heterogeneity in Identification of Driver Patterns in Cancer Genomes
姜瑛恺-A Bayesian Approach to Sufficient Dimension Reduction
杨洋-The Generalized Theme Dictionary Model
余丽姗-Identifying Important Articles from Wikipedia for Medical Knowledge Graph Construction
李祺-Discovering RNA Interaction Network by Integrating Sequence Characteristics and Expression Profiles of RNAs
单娜阳-Literature Review for Trans-eQTL Analysis and Some New Insights from Hapmap3 Dataset
蒋斐宇-Inference for Augmented Double Autoregressive Models with Null Volatility Coefficients
李艺超-Simultaneous Topology and Loss Tomography via a Theme Dictionary Mode
林毓聪-从维基百科中大规模提取疾病关系
徐嘉泽-Technical Term Recognition via Advanced Word Dictionary Model

博士生论坛给在读博士学者们提供了学术沟通的平台,也为统计学师生搭建了交流分享的桥梁,统计学中心将会以此为开端,把博士生论坛打造成品牌系列活动,给同学们提供更多切磋技艺的机会,提高专业技能。

#post-11913
ntry-header

为促进国内外生物统计学者的交流和合作,清华大学统计学研究中心于2017年12月14日在清华大学舜德楼510会议室召开“2017清华大学统计遗传与生物信息专题研讨会”。研讨会由清华大学统计学研究中心助理教授侯琳博士发起并组织。

侯琳——统计学研究中心

来自宾夕法尼亚大学、耶鲁大学、清华大学、北京大学、复旦大学、厦门大学以及中国科学院等国内外高校和研究所的多位专家学者出席了会议。

与会专家学者

研讨会上,专家学者就微生物组学,癌症基因组,单细胞RNA-seq数据分析,全基因组关联分析,生物网络聚类、图模型等研究问题做了深入的交流和讨论。此外,清华大学生物信息学教育部重点实验室的研究生也积极参与口头报告、墙报展示和讨论等环节。

与会人员合影

报告内容:

1.     Graphical model selection with latent variables-邓明华-北京大学

2.     Mathematical Modeling of Dendritic Cell Population Dynamics in the Immune System-Zuoheng Wang-耶鲁大学

3.     Functional module analysis in multiplex networks-张淑芹-复旦大学

4.     Discovering RNA regulation network via a joint analysis of RNA sequence characteristics and gene expression-邓柯-清华大学

5.     Analysis of Global mutation waves in cancer genomes-侯琳-清华大学

6.     A Bayesian statistical analysis of stochastic phenotypic plasticity model of cancer cells -胡杰-厦门大学

7.     Multi-sample Estimation of bacterial abundances in metagenomics data-Hongzhe Lee-宾夕法尼亚大学

8.     Reconstruction of cell development complex trajectories based on single-cell RNAseq data-万林-中国科学院数学与系统科学研究院

9.     Estimating the total genome length of a metagenomics sample using K-mers-花奎&张学工-清华大学

10.  Network based analysis of GWAS data-吴蒙蒙&江瑞-清华大学

#post-11912
ntry-header

2017年12月12日,【统计学论坛】在清华大学伟清楼209成功举办。本次报告邀请到爱荷华州立大学的王丽教授。报告由清华大学统计学研究中心的杨立坚教授主持。本次报告的主题是“对时空数据的半参数回归方法”。

论坛现场

王教授首先分享了PM2.5数值、交通拥堵程度和水银浓度三个案例,发现如果用传统的线性回归或广义线性回归的方法分析数据,拟合的效果不够理想。这是因为实际数据通常具有异质性和动态特征,并且存在着观测值的分布不均匀、分布区域不规则和数据量过大等问题。

王丽教授

于是,王丽教授提出了时空变系数模型(SVCM),即把回归模型中的系数变为关于地理位置或其他相关因素的一个函数。拟合该模型的传统方法有Bayesian方法和地理权重方法(GWR)。王教授提出了一种新的拟合方法—Bivariate Penalized Splines over Triangulation方法(BPST)。她介绍了该方法的理论推导和具体性质。接着展示了一个模拟案例,发现BPST方法的拟合效果要比GWR方法好很多。

最后,王教授介绍了检验模型拟合优度的方法并提出了SAR-VCM和STVCM两种拓展模型。她指出,半参数回归模型对时空数据十分适用,BPST方法可以解决数据分布不均匀和分布区域不规则等问题,并且还要深入研究有效的算法来分析大范围的时空数据。

与会人员合影
#post-11911
ntry-header

为了促进多学科学者间的学术交流和合作,更好地推动医疗信息学的发展,清华大学统计学研究中心于2017年12月1日在清华大学FIT楼召开“第一届清华大学医学信息学与医疗大数据研讨会”。

研讨会现场

来自清华大学计算机系、自动化系、医学院、工业工程系、数据科学研究院,解放军总医院以及清华大学统计学研究中心等近60人专家学者参加了本次研讨会。

与会专家学者

作为本次研讨会的发起者及组织者,清华大学统计学研究中心助理教授俞声老师强调,医学信息学作为医疗大数据产业与研究中重要的一环是一个多学科交叉的领域。希望能有更多的机会和平台,通过沟通和交流来促进研究工作,共同推进学科的发展和进步。

俞声-统计学研究中心 《Enabling phenotypic big data with PheNorm》
李睿-医学院 《医学影像和人工智能》
邓柯-统计学研究中心 《Statistical methods in medical big data analysis》
报告学生剪影
#post-11909
ntry-header

2017年11月27日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。报告邀请到北京大学兼华盛顿大学生物统计系周晓华教授。周教授身兼北京大学北京国际数学研究中心生物统计及生物信息实验室主任,北京大数据研究院中医大数据中心主任,北京大学医疗与健康大数据中心副主任等多个职位。周晓华教授的研究主要集中在医学检验、因果推断分析、缺失数据、脑科学、卫生经济卫生服务等领域,致力于发展新的统计方法。本次报告由清华大学统计学研究中心邓柯副教授主持。

本次报告由清华大学统计学研究中心邓柯副教授主持。

论坛现场

报告的主题是“在对照组异构的随机化试验中,对二值响应变量的因果推断”。

周教授首先介绍了问题的背景。在因果推断中,一个常用的假设是个体处理效应稳定假设(Stable Unit Treatment Value Assumption, SUTVA)。SUTVA假定每个个体的潜在变量值(potential outcome)不会受到其他个体的处理分配(treatment assignment)的影响,并且要求对任一个体,每种处理不能有多种版本。通常假定只有试验组和对照组,并且每组只有一个版本。在有些实际情况中,要求对照组的个体不接受治疗是不现实的。相反,他们会选择不治疗或接受不同版本的治疗。这样原来的假设就不成立,也导致了对照组异构的现象。

周晓华教授

周教授结合实际,以“自闭症治疗方案的因果推断问题”为切入点,对个体进行分类讨论并对数据建模。分配到试验组的个体有选择治疗和不选择治疗两种情况。而对照组的个体分成3种:不接受治疗,接受和试验组治疗方案一样的治疗,以及接受其他治疗方案。

周教授指出,治疗方案的因果效应在统计学意义下是不可识别的,原因是参数的个数较多。但是如果用一些不等式约束,把不可识别的参数消去,则可以得到因果效应的估计值的上下界。由此,在得到的区间是有信息的情况下,可以得出治疗方案是有作用的结论。

在提问环节,与会学者提出了若干可以推广问题的想法:1. 把响应变量扩展到实数空间(连续型变量)。2. 加上协变量(covariate)可以对估计更精准。3. 估计因果效应的上下界本质上是个优化问题,即在可行域内求解因果效应的最大最小值。希望以此切入,引发统计学科进一步深刻的研究和思考。

与会人员合影
#post-11908
ntry-header

2017年11月24日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。报告邀请到复旦大学统计系朱仲义教授。这次报告由清华大学统计学研究中心杨立坚教授主持。

论坛主持人杨立坚教授
复旦大学朱仲义教授

本次报告的主题是“基于分位数回归的面板数据的聚类”。朱教授首先提出,在面板数据分析中,我们经常用固定效应(fixed effect)来刻画个体效应。根据假设个体斜率(slope)是齐次(homogeneous)的,来改善斜率的估计。然而,无论是在统计学中,还是在经济领域,将齐次的斜率(slope)分组,此限制条件较为苛刻。其次,朱教授介绍了在面板数据分析中有很多方法可以将斜率分组来解释,比如:混合模型(mixed model),加罚模型(penalized model),K-means方法等。与条件均值模型(mean model)比较而言,分位数回归缺少可加性,处理起来相对困难。他还补充介绍了面板数据和纵向数据的区别和联系。接着,朱教授详细介绍了利用面板数据模型对个体分组(类似于聚类),他指出,这种方法的难度在于处理内生的固定效应(fixed effect)项,如果忽略这个因素则估计有偏。他提出了一种类似K-means的方法来对个体分组。这是一种新的两步法迭代算法,利用复合分位数进行聚类,充分利用不同分位数的信息,找到一最佳分位数进行分组。该算法第一步:先估计每个个体,处理固定效应项;第二步:分组后对系数最小化目标函数。

最后,朱教授给出了参数估计量的渐进理论性质,并且展示了其在模拟数据和实际经济增长数据中的表现。

与会人员合影
#post-11907
ntry-header
论坛现场

2017年11月20日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。本次报告邀请到前香港中文大学大学秘书长、中国文化研究所所长陈方正先生。报告由清华大学统计学研究中心副教授李东主持。

陈方正先生

本次报告的主题为“构建中国古代电子文献库”。

首先,陈先生介绍了建立电子文献库的目标与历史梗概:1967年,中国文化研究所成立;1986年陈先生参与其中;1988-2002年,研究所完成了传世文献(先秦两汉)的电子化;1996-2002年,研究所完成了出土文献(简帛、金文、甲骨文)的电子化。然后,陈先生介绍了他在任中国文化研究所所长期间,两支分别由刘殿爵先生和饶宗颐先生主持的传世文献计划和出土文献计划的团队人员和分工情况,以及两支队伍开展的一系列具体工作和其中所遇到的各种困难。接着,陈先生分别介绍了两支团队在1988-2002年间所取得的成果。陈先生还展示了传世文献的字数、字频等统计特征和《论语》逐字索引,以及由出土文献团队编成的《殷周金文集成译文》和《甲骨文字形表》样例。

最后,陈先生分享了他对整个计划的回顾与反思,回忆了其间协调各方面专家学者共同合作而做出的努力,简谈了整个计划对中国古代文化研究的意义。

参会人员合影
#post-11904
ntry-header

为了促进国内青年统计和数据科学学者间的学术交流和合作,更好地推动统计学和数据科学的发展,同时加强与国内外各兄弟院校之间的协同合作,清华大学统计学研究中心于2017年11月17日-19日在京召开“2017清华大学青年统计学者论坛” (2017 Tsinghua Symposium on Statistics and Data Science for Young Scholars)。

与会专家学者
与会专家学者
与会专家学者
与会人员合影
#post-11903