ntry-header

1月2日,加利福尼亚大学戴维斯分校林振华博士访问我中心。林博士毕业于多伦多大学,目前在加利福尼亚大学戴维斯分校做博士后研究。本次来访中心,林博士同中心教员深入交谈,并做题为Total Variation Regularized Fréchet Regression的学术报告。

#post-12029
ntry-header

2018年12月28日,【统计学论坛·特邀报告】在清华大学舜德楼412室成功举办。本次报告邀请到普林斯顿大学范剑青教授。报告由清华大学统计学研究中心的邓柯教授主持。报告的主题是Optimally of Spectral Methods for Ranking, Community Detections and Beyond。

随后,范教授作为中心顾问委员会成员访问我中心,并对中心的现状与发展提出建议。

#post-12027
ntry-header

2018年12月26日,【统计学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到加州大学伯克利分校的丁鹏教授。报告由清华大学统计学研究中心的俞声教授主持。报告的主题是Combining multiple observational data source to estimate causal effects.

 

#post-12026
ntry-header

2018年12月17日,【统计学论坛·特邀报告】在清华大学伟清楼209室成功举办。本次报告邀请到美国佛罗里达大学的Peihua Qiu教授。报告由清华大学统计学研究中心的俞声教授主持。报告的主题是From Disease Surveillance to Image Monitoring Challenges in Modern SPC Research and Applications.

#post-12024
ntry-header

  2018年12月10日,【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请,南加州大学孙文光教授访问统计学研究中心并作学术报告。孙教授论坛现场与会人员合影

#post-12020
ntry-header

2018年12月7日,清华大学统计学研究中心召开“2018年清华大学统计学博士生论坛”,论坛举办顺利圆满,反响热烈。博士生论坛为青年统计学者提供了一个学术交流的平台,以提高专业知识,提升专业素养。来自清华大学统计学研究中心的14名在读博士生参与了此次论坛,博士学者们根据个人的研究方向,分享了他们的研究成果以及在研究过程中遇到的问题。在场学者们积极发言,分享观点,讨论热烈。

余丽珊-A new method for automatic medical coding

 

蒋斐宇-Spurious long memory in RCOV: testing and estimation

 

刘朝阳-Mendelian-Complex Comorbidity Analysis using Chinese Electronical Medical Record

 

黄伟清-A finite mixture of generalized linear model with random effects to identify cancer driver genes

 

李艺超-Simultaneous topology and loss tomography via a theme dictionary model

 

李杰-Distribution free simultaneous confidence bands for the stationary distribution function of time series

 

徐嘉泽-Simultaneously Chinese word segmentation and named entity recognition via advanced word dictionary model

 

林毓聪-Towards building a machine learned medical knowledge graph – Extracting relations from online knowledge sources

 

郭瀚民-Sufficient dimension reduction with optimal transformation

 

单娜阳-Identification of trans-eQTLs using mediation analysis with multiple mediators

 

张园园-Two-step estimation for time varying ARCH models

 

袁正-An unsupervised method for word segmentation and term recognition in Chinese medical records

 

钟晨-EM algorithms for density estimation following group testing

 

张心雨-On the least squares estimation of TAR model with two threshold variables

 

按照博士生培养方案,中心二年级及以上的博士生每年都要汇报自己的研究进展。作为统计学研究中心的品牌系列活动之一,清华大学统计学博士生论坛给在读博士们提供了一个展示自己科研成果和学术沟通的平台,为师生搭建了交流分享的桥梁。大家在论坛上积极提问,切磋技艺,相互交流,受益匪浅。

#post-12019
ntry-header

2018年12月06日,【数据科学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到阿里巴巴集团的杨红霞博士。报告由清华大学统计学研究中心的俞声教授主持。本次报告的主题是“Extremely Large Scale Graph Representation Learning in Practice”。

杨红霞博士

信息与信息是相连接的,我们可以用一个图来研究用户与商品、商品与商品之间的关系。超大规模的图模型的研究和应用在大数据公司中扮演着越来越重要的角色,其中一些与深度学习相结合的图模型方法,已经在很多商业案例中展现了很不错的结果。在此背景之下,来自阿里巴巴集团的Hongxia Yang博士为我们分享了阿里的算法推荐团队的一些学术研究和实际应用。杨博士的报告主要分为以下四个部分:

一、阿里巴巴的情况介绍

杨博士首先向我们介绍了阿里巴巴的企业愿景和商业生态系统:一方面,阿里巴巴想要建立起一个能够让客户相会、工作和生活的平台;另一方面,通过丰富的商业生态系统,阿里巴巴拥有着非常丰富而且种类多样的数据,这些数据可以为阿里巴巴的科研提供强有力的支持。

二、Graphical Embedding和相关的研究工作

在这一部分,杨博士首先为我们介绍了图模型和Graph Embedding:图模型能够直观地表示信息之间的联系;而Graph Embedding结合了图模型和深度学习,用向量表示图模型中的节点。Graph Embedding为推荐、可视化等提供了强有力的工具。接下来,杨博士简要介绍了两篇相关的工作:(1)Graph Embedding in Fraud Detection;(2)Graph Embedding in Entity Recognition。

论坛现场

三、Graphical Embedding在当前实践工作中的应用

在实际应用中,杨博士重点介绍了Graphical Embedding在个性化云主题上的应用。包括云主题标题自动生成,云主题主图自动生成,云主题知识卡/攻略自动生成等。在很多实际应用的场景中,通过相关机器学习算法生成的结果比人工编写的效果更好。

四、未来的挑战和想法

在最后一部分中,杨博士介绍了当前Graph Embedding遇到的一些挑战:(1)包括当图中的点、边的个数以及点的Embedding维度很高时,计算复杂度会相当高;(2)在实际的应用中,每个节点具有特异性,包含各种各样的属性,边的种类也多种多样;(3)随着数据流的更新,如何实时更新图结构。(4)Scalable Bayesian deep learning,同时,杨博士也提出,统计专业的学生也可以在其中有所作为。

在本次讲座中,杨博士通过很多的实例,生动地介绍了Graph Embedding的相关理论及其应用。在讲座的最后,杨博士还给中心的博士生提出了一些建议:学习一些机器学习的课程,并且提升自己相关的编程能力,例如tensorflow, map-reduce等等。

与会人员合影

 

#post-12018
ntry-header

2018年11月29日,【统计学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到哈尔滨工业大学的李科教授。报告由清华大学统计学研究中心的杨立坚教授主持。本次报告的主题是“Probability and Statistics in our Quantum World”。

李科 教授

首先,李教授从量子力学的数学基础出发,解释我们为什么要关心量子概率与统计。量子力学是描述物质世界的一个基本理论,而描述它的工具是复希尔伯特空间中的密度算子。密度算子实际上表示了量子的概率分布。量子的状态和变化过程人们并不能直接观察到,为了得到量子的信息,我们需要进行量子测量,即正定算子值的测度,这在物理上是可以实现的。总的来说,量子力学是人类理解世界的一种世界观,而且比传统的理解更加基础和一般,是一个很朴实的理论。它不仅适用于电子原子等微观理论,也可以发展到生活中可以感知到的事物甚至宇宙等更多领域。物理学家认为我们的世界就是一个量子的世界。可以看出,这个理论也是非常数学的,统计和概率蕴含其中,所以说量子力学本质上是一个统计的理论,这也解释了我们为什么要研究量子概率和统计。

论坛现场

接下来,李教授介绍了量子假设检验的经典理论,主要包括两个基本问题,对称和非对称。在量子假设检验理论中,我们都需要做一个量子测量才能得到相关的信息,从而进行量子推断。为了寻找一个最优测量,上世纪七十年代提出了最大似然比检验的方法。寻找最优测量的过程相当于在大的希尔伯特空间中进行一个划分,在两个态的情形下已经有了一个最优的结果,但多于两个状态时,由于有复杂的相互关系,目前还没有得出一个确切的结论。李教授还对多元Chernoff距离,Stein引理以及经典概率和量子理论中的de Finetti定理等做出了解释。

最后,李教授引用了量子力学创始人的一句名言来结束报告:量子力学始于统计,也将终于统计!

与会人员合影
#post-12015
ntry-header

为了支持日益增长的医疗大数据研究和产业需求,清华大学在统计学研究中心下成立了医疗大数据中心。中心邀请 Analysis Group (AG) 展开战略合作,共同建设该中心。2015年10月30日,近百位国内学医界、学术界、产业界和政府嘉宾出席了签约和中心成立仪式。哈佛大学统计系刘军教授、Analysis Group执行董事吴琼博士做主题发言。中国卫生法学会会长、全军肛肠外科研究所所长高春芳、国家统计局统计研究所所长万东华、北京大学中国卫生经济研究中心主任刘国恩、中国科协副主席张勤做大会致辞。尤政副校长到会祝贺。

#post-12014
ntry-header

2018年4月14日,“医疗大数据与卫生技术评估论坛”在北京文津国际酒店举办。该论坛由清华大学统计学研究中心医疗大数据中心与国家卫生健康委员会卫生技术评估重点实验室(复旦大学)联合主办。清华大学统计学研究中心的战略合作伙伴——Analysis Group作为协办单位为本次论坛提供了大力支持。

#post-12013