ntry-header

2018年4月14日,医疗大数据与卫生技术评估论坛在文津国际酒店举行,本次论坛由清华大学统计学研究中心医疗大数据中心和国家卫生健康委员会卫生技术评估重点实验室(复旦大学)联合主办。清华大学统计学研究中心的战略合作伙伴——Analysis Group,作为协办单位为本次论坛提供了大力支持。哈佛大学生物统计系系主任林希虹教授,人力资源和社会保障部社会保险事业管理中心熊先军书记,美国国家科学院院士、斯坦福大学王永雄教授,北京大学刘国恩教授,清华大学邓柯副教授,Analysis Group吴琼博士,复旦大学陈英耀教授,北京大学人民医院王杉教授,哈尔滨工业大学王亚东教授课题组刘博副教授,中电数据服务有限公司首席应用官肖辉先生,英国谢菲尔德大学Praveen Thokala教授,清华大学张学工教授,Analysis Group韩思蒙博士,杜兰大学施李正教授,天津大学吴晶教授,国家食品安全风险评估中心风险监测部肖革新副主任等医疗领域学界和业界人士参加了本次论坛,并展开了热烈的讨论。

论坛现场

首先,清华大学统计学研究中心副主任邓柯副教授作为主办方负责人介绍到场嘉宾,并向本次论坛的组织方和出席嘉宾致谢。

林希虹 教授

随着哈佛大学生物统计系系主任林希虹教授的开幕致辞,论坛正式拉开帷幕,林教授列举了数据科学鼎盛时代,医疗领域的几大方向,如人类基因组计划、电子病历数据等,充满挑战和机遇,希望我们能迎难而上,共同将人类医疗向前迈一大步。

熊先军 书记

作为本次论坛正式报告的首位出场专家,人力资源和社会保障部社会保险事业管理中心熊先军书记,根据30年的从业经验,从卫生经济学(PE)是什么切入,论述了卫生经济学在政府决策中的重要作用。

王永雄 教授

随后,美国国家科学院院士、斯坦福大学王永雄教授对电子病历中的精准医学的研究谈了几点自己的思考。从电子病历中抓取的临床数据和人类基因组测序的基因数据有机结合,是未来精准医疗的突破点,国内目前亟需加大财政投入力度,建设人群基因库。

刘国恩 教授

北京大学刘国恩教授从中国2010年之后经济增长缓慢的现象说起,分享了不同学者对经济形势的看法,进而从经济学角度肯定了医疗在未来经济学中的重要地位。

邓柯 副教授

清华大学邓柯副教授则从医学自然语言处理的统计学方法为切入点,介绍了具体的无监督的文本分析方法在电子病历中的成功应用,带大家领略到统计模型在处理医疗电子病历中的重要潜力。

吴琼 博士

业界专家Analysis Group的吴琼博士,介绍了在卫生技术评估中识别最优人群的重要性和具体实现方式,寻找满足最少标准的最大目标人群,对临床试验、决策制定、医疗服务都是非常重要的。

陈英耀 教授

复旦大学陈英耀教授从中国卫生技术评估的发展现状和展望展开设想,从卫生技术面临的挑战和引导案例出发,阐述了卫生技术评估需要综合考虑诸多因素,有效性评价、伦理评价、评估和评审等,最后提出希望未来厘清各方利益关系,通过需求倒逼HTA发展的展望。

王杉 教授

北京大学人民医院的王杉教授作为论坛下午的第一位演讲嘉宾,从实际应用出发,阐明了大数据在医疗领域的应用场景,如达芬奇机器人、智慧人工器官、智慧医政等,并从数据共享和如何有效提取数据方面介绍中国了医疗数据带来的特殊性和挑战性。

张学工 教授

随后,清华大学的张学工教授对中国医疗面临的挑战进行了补充,根据自身的切实体会阐述了中国医疗不够精准和医疗不够普惠的问题,并提出一些建议,希望能改革医疗数据管理制度,从建立健全“个人大数据”和“全民大数据”方面入手,解决医疗大数据共享的法律困境。

肖辉 先生

中电数据服务有限公司首席应用官肖辉先生,首先介绍中电数据的发展现状,主题是大数据、大健康、大发展,围绕惠民、惠企、惠政这一总体规划,数据安全这一核心,希望能通筹建国家公司、地方分公司以及与国外公司合作,促进产业的发展。

Praveen Thokala 教授

来自英国谢菲尔德大学的Praveen Thokala教授则分享了英国的健康技术评估的制度和方法,对我国相关领域的研究和发展有重要的借鉴意义。

刘博 副教授

哈尔滨工业大学王亚东教授课题组的刘博副教授陈述了目前我国基因组研究的现状,分析了大规模基因组快速比对的技术挑战,并介绍了在相关领域的最新成果。

韩思蒙 博士

最后的演讲者是来自Analysis Group的韩思蒙博士,韩博士介绍了医疗大数据在真实世界的应用场景,通过大量案例的分析,总结出了医疗大数据、统计学方法和计算平台的支持是证据产生的重要手段。

圆桌讨论
精彩纷呈的圆桌讨论环节使论坛的气氛达到高潮。参与嘉宾分别是王永雄教授、施李正教授、吴晶教授、肖革新副主任以及肖辉先生,邓柯副教授担任主持人,嘉宾们围绕中国医疗大数据的发展的挑战和机遇问题进行了深入探讨。王永雄教授认为产业和政府需要增强合作,将基因组数据整合起来;吴晶教授提到应将医保融入医疗大数据,加强中外医疗的合作;施李正教授则认为要从政府对人才的需求和提高研究质量方面解决目前的问题;肖辉提到要解决技术方面存在的问题、完善法规和相关体系;肖革新副主任希望从数据质量、数据交流、机制创新、政府决策需要、老百姓和企业的需求方面,提升未来的供给制改革。
       论坛在陈英耀教授的闭幕词中圆满结束。陈教授提到,这次医疗大数据与卫生技术评估论坛是一个多学科多领域参与的盛会,为国际和国内专家交流合作提供了很好的机会,希望这个论坛能继续发展并延续,共同推进医疗和卫生领域的发展。

与会人员合影

 

媒体报道:http://finance.ifeng.com/a/20180420/16161350_0.shtml

(来源:凤凰网)

#post-11933
ntry-header


为了贯彻落实《中华人民共和国国民经济和社会发展第十三个五年规划纲要》和《促进大数据发展行动纲要》,积极响应国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》和人社部关于医保目录准入谈判的新举措,清华大学统计学研究中心医疗大数据中心携手国家卫生健康委员会卫生技术评估重点实验室(复旦大学)于2018年4月14日在京举行“医疗大数据与卫生技术评估论坛”。

近年来,大数据发展受到社会的广泛关注。医疗大数据,以其规模大、数据结构复杂,和多样性来源的特点,为健康产业带来了新的机遇与挑战。2017年医保目录调整,首次引入医保目录准入谈判机制,为我国的卫生技术评估提出了新的目标和要求。为了积极支持健康中国的建设,本次会议将围绕医疗大数据与卫生技术评估在中国的发展与前景,国际前沿发展与趋势,相关领域的创新研究,并紧密结合实际案例为与会者提供交流、分享的平台。

会议主题:医疗大数据与卫生技术评估的发展与展望,为健康中国助力

会议时间:2018年4月14日    8:30-17:30

签到时间:2018年4月14日    8:00-8:30

会议地点:文津国际酒店(地址:北京市海淀区成府路清华大学南门)

会议日程:

时 间 报告人 报告题目
08:30-08:40 林希虹 教授
哈佛大学
致开幕词
08:40-09:10 熊先军 书记
人力资源和社会保障部
社会保险事业管理中心
关于卫生经济学在医保应用的
思考
09:10-09:40 王永雄 教授
斯坦福大学
美国科学院院士
关于电子病历在精准医学研究中的几点思考
09:40-10:10 刘国恩 教授
北京大学
经济增长与健康中国
10:10-10:40 合影&茶歇
10:40-11:10 邓   柯 副教授
清华大学
医学自然语言处理的统计学方法
11:10-11:40 吴   琼 博士
Analysis Group
识别最优目标人群及其在卫生技术评估中的应用
11:40-12:10 陈英耀 教授
复旦大学
中国卫生技术评估发展现状和
机遇
13:30-14:00 王   杉 教授
北京大学人民医院
明日医疗—大数据时代医院之机遇和挑战
14:00-14:30 张学工 教授
清华大学
对未来医疗的若干技术和策略探讨
14:30-15:00 肖   辉 首席应用官
中电数据服务有限公司
做好健康医疗大数据安全保障工作
15:00-15:20 茶  歇
15:20-15:50 Praveen Thokala 博士
英国谢菲尔德大学
Health Technology Assessment in UK
15:50-16:20 王亚东 教授
哈尔滨工业大学
组学数据的有效利用
16:20-16:50 韩思蒙 博士
Analysis Group
医疗大数据在真实世界中的应用
16:50-17:20 施李正 教授
杜兰大学
圆桌讨论
吴   晶 教授
天津大学
肖革新 副主任
国家食品安全风险评估中心
风险监测部
其他嘉宾
17:20-17:30 陈英耀 教授
复旦大学
致闭幕词

 

主办单位:

清华大学统计学研究中心医疗大数据中心

国家卫生健康委员会卫生技术评估重点实验室(复旦大学)

协办单位:Analysis Group

#post-11931
ntry-header

2018年3月26日,中国人民大学统计学院的尹建鑫教授访问我中心,并做学术报告。报告题目是A fusionpenalized logistic threshold regression model with application to diabetes prediction.

论坛现场
尹建鑫教授

 

与会人员合影
#post-11924
ntry-header

2018年3月13日,世界范围内最具影响力的三大统计学家之一、美国国家科学院院士、美国艺术与科学院院士、现任哈佛大学统计系John L.Loeb讲席教授——Donald B.Rubin,到访清华大学统计学研究中心。尽管年过七旬,但Rubin教授依然精力充沛、神采奕奕,用整整一天的时间,先后参加了中心发展工作汇报会议、中心教员研究课题的深度探讨,以及中心在读博士生、本科生的交流座谈,并给出切实中肯的建议。Rubin教授表示,这是一只活力十足的团队,他很惊讶在短短的几年时间清华大学统计学科就能取得如此的成绩,他希望大家再接再厉,尽早在清华大学建成国际一流水准的统计学科。据悉,Rubin教授在今年9月将有望加入清华大学,力推清华大学统计学科的发展。

Donald Rubin教授(右四)同清华大学统计学研究中心教员合影

Donald Rubin教授首先听取了有关中心发展现状的汇报。Rubin教授对统计中心非常关注,并不时提出问题和建议。

Rubin教授听取中心工作汇报 

下午,Rubin教授听取中心博士后以及部分在读博士研究生的报告,并对所存在的问题给予指导。

 

Rubin教授同中心博士研究生座谈

 

最后是同清华大学在读本科生的座谈会,同学们很珍惜和学术泰斗交流的难得机会,积极参与,发言踊跃,现场气氛热烈。

Rubin教授同本科生座谈

 

Rubin教授在清华大学的访问还将继续,希望Rubin教授能带动清华大学统计学科的发展达到一个新的高度。

 

#post-11921
ntry-header

2018年3月13日,耶鲁大学的张和平教授访问我中心,并作学术报告:Surrogate residuals for generalized linear models”。

张和平教授

 

论坛现场

 

与会人员合影

 

#post-11922
ntry-header

2017年12月25日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。本次论坛邀请到卡耐基梅隆大学的Jiashun Jin教授,报告由清华大学统计学研究中心的邓柯教授主持,本次报告的主题是“使用重要特征主成分分析(IF-PCA)进行聚类”。

论坛现场
Jiashun JIN 教授
       金教授首先用来进行聚类的十种肿瘤的microarray表达量数据,该项目的目标是将每种肿瘤分成几个亚组,所有特征分为信号和噪音,信号的部分有不同的均值,是一个秩为K-1的稀疏矩阵,我们在这里面临的问题是信号的部分相对于噪音很少而且很弱,因此使用经典的PCA方法效果不是很好。

接下来,金教授介绍了IF-PCA方法思想,主要分成以下几步:首先是使用Kolmogorov-Smirnov统计量将原始数据变成排序特征,之后将排在靠前的特征筛选出来,最后在经过筛选之后的特征上使用主成分分析的方法。在以上每一步的操作中,都要有一些需要注意的地方,在使用Kolmogorov-Smirnov统计量对原始数据进行排序时,在计算KS score之后,使用Efron’s null correction的方法对KS score进行标准化,再选择标准化之后score排在前面的特征;在选择排名的threshold的时候,通常大家会使用cross validation或者FDR的方法,金老师使用的是Higher Criticism的标准,从中选择一个最严格的threshold进行筛选。

最后,金老师将IF-PCA方法的结果和一些已有的方法进行了比较,包括kmean, SpecGem, kmean++, COSA 以及sPCA等方法进行了比较,发现IF-PCA的方法在十种肿瘤中的五种表现都是最优的,在另外五种肿瘤中也是次优的,在所有肿瘤中的平均错误率也是最低的,这说明这种方法在实际应用中的效果是很好的。

与会人员合影
#post-11916
ntry-header

2017年12月20日,【统计学论坛】在清华大学伟清楼209成功举办。本报告邀请了宾夕法尼亚州立大学统计系的杰出教授林共进先生。本次讲座由清华大学统计学研究中心副教授李东老师主持。

论坛现场

林教授本次报告的内容涵盖了多个方面,主要内容是引入Ghost Data(幽灵数据)。林教授通过截取几部电影的片段来说明Ghost Data的由来,从新的视角发现电影中蕴含的数据思维。电影《The Six Sense》中的小男孩可以看到幽灵,在真实世界虽然大多数人不相信世幽灵或者鬼魂的存在,但有些人确实能凭借阴阳眼看到常人看不见的东西,曾有科学给出解释说是因为这些人眼睛能接收的光的频段比普通人要宽,对应到观测不到Ghost Data,我们便可以借鉴这个思想通过一些方法将“频率调宽”把隐藏的信息挖掘出来,这个过程可以形象地类比为“统计显微镜”。之后林教授用《神探夏洛克》电影中狗不吠这个现象说明案件的凶手应该是被害者的熟人,说明某些缺失数据也携带了大量信息,用汤姆克鲁斯电影《明日边缘》说明了加速学习过程的重要性。林教授认为Ghost Data主要分为virtual data(虚拟数据)、missing data(缺失数据)、pretend data(做作数据)、simulation data(模拟数据)和highly sparse data(高度稀疏数据)。引入Ghost Data的概念后,林教授介绍了一些如何处理该类数据的方法,如t-covering、因果推断等,并介绍了因果推断中不同的随机化方法导致的不同实验结果。林教授着重介绍了模拟数据应该具有的一些特点,如generality、representation、interested extremes、illusion。

林共进教授

最后林教授将传统统计方法如何应用到大数据、如何判断随机数的随机程度等问题和大家一起进行探讨。同时林教授用电影中蕴含的数据思维告诉我们应该拓宽视野了解不同领域的内容,勤于思考,敢于创新。

左起:顾冲教授、林共进教授、李东副教授
#post-11915
ntry-header

为了更好的帮助青年统计学者,积极推动统计专业博士生提高专业知识,提升专业素养,清华大学统计学研究中心于2017年12月18日在清华大学召开“2017清华大学统计学博士生论坛”。

论坛现场

来自清华大学、北京大学、乔治亚大学、北京航空航天大学等近40位学者参与论坛。来自清华大学的龚欢、黄伟清、姜瑛恺等11位同学针对自身的研究方向、研究成果以及研究过程中遇到的问题做了现场阐述。在场学者们各抒己见、踊跃发言,专家学者们点评精彩、妙语连珠。

龚欢-Quasi-Maximum Likelihood Estimation of DAR Models with Heavy-Tailed Likelihoods
黄伟清-Accounting for Tumor Heterogeneity in Identification of Driver Patterns in Cancer Genomes
姜瑛恺-A Bayesian Approach to Sufficient Dimension Reduction
杨洋-The Generalized Theme Dictionary Model
余丽姗-Identifying Important Articles from Wikipedia for Medical Knowledge Graph Construction
李祺-Discovering RNA Interaction Network by Integrating Sequence Characteristics and Expression Profiles of RNAs
单娜阳-Literature Review for Trans-eQTL Analysis and Some New Insights from Hapmap3 Dataset
蒋斐宇-Inference for Augmented Double Autoregressive Models with Null Volatility Coefficients
李艺超-Simultaneous Topology and Loss Tomography via a Theme Dictionary Mode
林毓聪-从维基百科中大规模提取疾病关系
徐嘉泽-Technical Term Recognition via Advanced Word Dictionary Model

博士生论坛给在读博士学者们提供了学术沟通的平台,也为统计学师生搭建了交流分享的桥梁,统计学中心将会以此为开端,把博士生论坛打造成品牌系列活动,给同学们提供更多切磋技艺的机会,提高专业技能。

#post-11913
ntry-header

为促进国内外生物统计学者的交流和合作,清华大学统计学研究中心于2017年12月14日在清华大学舜德楼510会议室召开“2017清华大学统计遗传与生物信息专题研讨会”。研讨会由清华大学统计学研究中心助理教授侯琳博士发起并组织。

侯琳——统计学研究中心

来自宾夕法尼亚大学、耶鲁大学、清华大学、北京大学、复旦大学、厦门大学以及中国科学院等国内外高校和研究所的多位专家学者出席了会议。

与会专家学者

研讨会上,专家学者就微生物组学,癌症基因组,单细胞RNA-seq数据分析,全基因组关联分析,生物网络聚类、图模型等研究问题做了深入的交流和讨论。此外,清华大学生物信息学教育部重点实验室的研究生也积极参与口头报告、墙报展示和讨论等环节。

与会人员合影

报告内容:

1.     Graphical model selection with latent variables-邓明华-北京大学

2.     Mathematical Modeling of Dendritic Cell Population Dynamics in the Immune System-Zuoheng Wang-耶鲁大学

3.     Functional module analysis in multiplex networks-张淑芹-复旦大学

4.     Discovering RNA regulation network via a joint analysis of RNA sequence characteristics and gene expression-邓柯-清华大学

5.     Analysis of Global mutation waves in cancer genomes-侯琳-清华大学

6.     A Bayesian statistical analysis of stochastic phenotypic plasticity model of cancer cells -胡杰-厦门大学

7.     Multi-sample Estimation of bacterial abundances in metagenomics data-Hongzhe Lee-宾夕法尼亚大学

8.     Reconstruction of cell development complex trajectories based on single-cell RNAseq data-万林-中国科学院数学与系统科学研究院

9.     Estimating the total genome length of a metagenomics sample using K-mers-花奎&张学工-清华大学

10.  Network based analysis of GWAS data-吴蒙蒙&江瑞-清华大学

#post-11912
ntry-header

2017年12月12日,【统计学论坛】在清华大学伟清楼209成功举办。本次报告邀请到爱荷华州立大学的王丽教授。报告由清华大学统计学研究中心的杨立坚教授主持。本次报告的主题是“对时空数据的半参数回归方法”。

论坛现场

王教授首先分享了PM2.5数值、交通拥堵程度和水银浓度三个案例,发现如果用传统的线性回归或广义线性回归的方法分析数据,拟合的效果不够理想。这是因为实际数据通常具有异质性和动态特征,并且存在着观测值的分布不均匀、分布区域不规则和数据量过大等问题。

王丽教授

于是,王丽教授提出了时空变系数模型(SVCM),即把回归模型中的系数变为关于地理位置或其他相关因素的一个函数。拟合该模型的传统方法有Bayesian方法和地理权重方法(GWR)。王教授提出了一种新的拟合方法—Bivariate Penalized Splines over Triangulation方法(BPST)。她介绍了该方法的理论推导和具体性质。接着展示了一个模拟案例,发现BPST方法的拟合效果要比GWR方法好很多。

最后,王教授介绍了检验模型拟合优度的方法并提出了SAR-VCM和STVCM两种拓展模型。她指出,半参数回归模型对时空数据十分适用,BPST方法可以解决数据分布不均匀和分布区域不规则等问题,并且还要深入研究有效的算法来分析大范围的时空数据。

与会人员合影
#post-11911