ntry-header

2018年12月28日,【统计学论坛·特邀报告】在清华大学舜德楼412室成功举办。本次报告邀请到普林斯顿大学范剑青教授。报告由清华大学统计学研究中心的邓柯教授主持。报告的主题是Optimally of Spectral Methods for Ranking, Community Detections and Beyond。

随后,范教授作为中心顾问委员会成员访问我中心,并对中心的现状与发展提出建议。

#post-12027
ntry-header

2018年12月26日,【统计学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到加州大学伯克利分校的丁鹏教授。报告由清华大学统计学研究中心的俞声教授主持。报告的主题是Combining multiple observational data source to estimate causal effects.

 

#post-12026
ntry-header

#post-12025
ntry-header

2018年12月17日,【统计学论坛·特邀报告】在清华大学伟清楼209室成功举办。本次报告邀请到美国佛罗里达大学的Peihua Qiu教授。报告由清华大学统计学研究中心的俞声教授主持。报告的主题是From Disease Surveillance to Image Monitoring Challenges in Modern SPC Research and Applications.

#post-12024
ntry-header

#post-12022
ntry-header

#post-12023
ntry-header

#post-12021
ntry-header

  2018年12月10日,【统计学论坛】在清华大学伟清楼209成功举办。受中心邓柯教授邀请,南加州大学孙文光教授访问统计学研究中心并作学术报告。孙教授论坛现场与会人员合影

#post-12020
ntry-header

2018年12月7日,清华大学统计学研究中心召开“2018年清华大学统计学博士生论坛”,论坛举办顺利圆满,反响热烈。博士生论坛为青年统计学者提供了一个学术交流的平台,以提高专业知识,提升专业素养。来自清华大学统计学研究中心的14名在读博士生参与了此次论坛,博士学者们根据个人的研究方向,分享了他们的研究成果以及在研究过程中遇到的问题。在场学者们积极发言,分享观点,讨论热烈。

余丽珊-A new method for automatic medical coding

 

蒋斐宇-Spurious long memory in RCOV: testing and estimation

 

刘朝阳-Mendelian-Complex Comorbidity Analysis using Chinese Electronical Medical Record

 

黄伟清-A finite mixture of generalized linear model with random effects to identify cancer driver genes

 

李艺超-Simultaneous topology and loss tomography via a theme dictionary model

 

李杰-Distribution free simultaneous confidence bands for the stationary distribution function of time series

 

徐嘉泽-Simultaneously Chinese word segmentation and named entity recognition via advanced word dictionary model

 

林毓聪-Towards building a machine learned medical knowledge graph – Extracting relations from online knowledge sources

 

郭瀚民-Sufficient dimension reduction with optimal transformation

 

单娜阳-Identification of trans-eQTLs using mediation analysis with multiple mediators

 

张园园-Two-step estimation for time varying ARCH models

 

袁正-An unsupervised method for word segmentation and term recognition in Chinese medical records

 

钟晨-EM algorithms for density estimation following group testing

 

张心雨-On the least squares estimation of TAR model with two threshold variables

 

按照博士生培养方案,中心二年级及以上的博士生每年都要汇报自己的研究进展。作为统计学研究中心的品牌系列活动之一,清华大学统计学博士生论坛给在读博士们提供了一个展示自己科研成果和学术沟通的平台,为师生搭建了交流分享的桥梁。大家在论坛上积极提问,切磋技艺,相互交流,受益匪浅。

#post-12019
ntry-header

2018年12月06日,【数据科学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到阿里巴巴集团的杨红霞博士。报告由清华大学统计学研究中心的俞声教授主持。本次报告的主题是“Extremely Large Scale Graph Representation Learning in Practice”。

杨红霞博士

信息与信息是相连接的,我们可以用一个图来研究用户与商品、商品与商品之间的关系。超大规模的图模型的研究和应用在大数据公司中扮演着越来越重要的角色,其中一些与深度学习相结合的图模型方法,已经在很多商业案例中展现了很不错的结果。在此背景之下,来自阿里巴巴集团的Hongxia Yang博士为我们分享了阿里的算法推荐团队的一些学术研究和实际应用。杨博士的报告主要分为以下四个部分:

一、阿里巴巴的情况介绍

杨博士首先向我们介绍了阿里巴巴的企业愿景和商业生态系统:一方面,阿里巴巴想要建立起一个能够让客户相会、工作和生活的平台;另一方面,通过丰富的商业生态系统,阿里巴巴拥有着非常丰富而且种类多样的数据,这些数据可以为阿里巴巴的科研提供强有力的支持。

二、Graphical Embedding和相关的研究工作

在这一部分,杨博士首先为我们介绍了图模型和Graph Embedding:图模型能够直观地表示信息之间的联系;而Graph Embedding结合了图模型和深度学习,用向量表示图模型中的节点。Graph Embedding为推荐、可视化等提供了强有力的工具。接下来,杨博士简要介绍了两篇相关的工作:(1)Graph Embedding in Fraud Detection;(2)Graph Embedding in Entity Recognition。

论坛现场

三、Graphical Embedding在当前实践工作中的应用

在实际应用中,杨博士重点介绍了Graphical Embedding在个性化云主题上的应用。包括云主题标题自动生成,云主题主图自动生成,云主题知识卡/攻略自动生成等。在很多实际应用的场景中,通过相关机器学习算法生成的结果比人工编写的效果更好。

四、未来的挑战和想法

在最后一部分中,杨博士介绍了当前Graph Embedding遇到的一些挑战:(1)包括当图中的点、边的个数以及点的Embedding维度很高时,计算复杂度会相当高;(2)在实际的应用中,每个节点具有特异性,包含各种各样的属性,边的种类也多种多样;(3)随着数据流的更新,如何实时更新图结构。(4)Scalable Bayesian deep learning,同时,杨博士也提出,统计专业的学生也可以在其中有所作为。

在本次讲座中,杨博士通过很多的实例,生动地介绍了Graph Embedding的相关理论及其应用。在讲座的最后,杨博士还给中心的博士生提出了一些建议:学习一些机器学习的课程,并且提升自己相关的编程能力,例如tensorflow, map-reduce等等。

与会人员合影

 

#post-12018