【学术活动】医疗大数据与卫生技术评估论坛

ntry-header

为了贯彻落实《中华人民共和国国民经济和社会发展第十三个五年规划纲要》和《促进大数据发展行动纲要》，积极响应国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》和人社部关于医保目录准入谈判的新举措，清华大学统计学研究中心医疗大数据中心携手国家卫生健康委员会卫生技术评估重点实验室（复旦大学）于2018年4月14日在京举行“医疗大数据与卫生技术评估论坛”。

近年来，大数据发展受到社会的广泛关注。医疗大数据，以其规模大、数据结构复杂，和多样性来源的特点，为健康产业带来了新的机遇与挑战。2017年医保目录调整，首次引入医保目录准入谈判机制，为我国的卫生技术评估提出了新的目标和要求。为了积极支持健康中国的建设，本次会议将围绕医疗大数据与卫生技术评估在中国的发展与前景，国际前沿发展与趋势，相关领域的创新研究，并紧密结合实际案例为与会者提供交流、分享的平台。

会议主题：医疗大数据与卫生技术评估的发展与展望，为健康中国助力

会议时间：2018年4月14日 8:30-17:30

签到时间：2018年4月14日 8:00-8:30

会议地点：文津国际酒店（地址：北京市海淀区成府路清华大学南门）

会议日程：

时间	报告人	报告题目
08:30-08:40	林希虹教授哈佛大学	致开幕词
08:40-09:10	熊先军书记人力资源和社会保障部社会保险事业管理中心	关于卫生经济学在医保应用的思考
09:10-09:40	王永雄教授斯坦福大学美国科学院院士	关于电子病历在精准医学研究中的几点思考
09:40-10:10	刘国恩教授北京大学	经济增长与健康中国
10:10-10:40	合影&茶歇
10:40-11:10	邓柯副教授清华大学	医学自然语言处理的统计学方法
11:10-11:40	吴琼博士 Analysis Group	识别最优目标人群及其在卫生技术评估中的应用
11:40-12:10	陈英耀教授复旦大学	中国卫生技术评估发展现状和机遇
13:30-14:00	王杉教授北京大学人民医院	明日医疗—大数据时代医院之机遇和挑战
14:00-14:30	张学工教授清华大学	对未来医疗的若干技术和策略探讨
14:30-15:00	肖辉首席应用官中电数据服务有限公司	做好健康医疗大数据安全保障工作
15:00-15:20	茶歇
15:20-15:50	Praveen Thokala 博士英国谢菲尔德大学	Health Technology Assessment in UK
15:50-16:20	王亚东教授哈尔滨工业大学	组学数据的有效利用
16:20-16:50	韩思蒙博士 Analysis Group	医疗大数据在真实世界中的应用
16:50-17:20	施李正教授杜兰大学	圆桌讨论
	吴晶教授天津大学
	肖革新副主任国家食品安全风险评估中心风险监测部
	其他嘉宾
17:20-17:30	陈英耀教授复旦大学	致闭幕词

主办单位：

清华大学统计学研究中心医疗大数据中心

国家卫生健康委员会卫生技术评估重点实验室（复旦大学）

协办单位：Analysis Group

#post-11931

ntry-header

2018年4月9日，中国科学院数学与系统科学研究院李启寨教授访问我中心，并做学术报告。报告题目是Nonparametric Estimation of a Continuous Distribution Via GroupTesting.

#post-11930

ntry-header

1月18日上午，“工业工程系年终总结暨表彰大会”在舜德楼顺利召开，大会对2017年度系内各项工作及成果予以总结，并表彰了在各领域表现突出的老师，为他们颁发获奖证书。我中心老师获得“2017年度考核校级优秀奖”、“2017年度科研工作优秀奖”、“2017年度教学工作优秀奖”、“2017年度人才引进和发展奖”“2017年度考核系级优秀奖”等多个奖项。

#post-11927

ntry-header

3月17-18日，解放军总医院举办了医疗“数据马拉松（Datathon）”竞赛。我中心俞声助理教授带领中心学生参赛，取得大赛第一名的佳绩，并在第五届长城国际军事医学论坛做报告。

Datathon，即数据马拉松，源自于硅谷的“Hackathon”。 Hackathon是在规定时间内，以集中高效的团队合作来解决IT问题、促进技术创新的实践性技术竞赛；而Datathon则强调利用大规模数据分析和跨专业、跨领域合作，从数据中提取价值。

本次比赛，由13个跨学科团队的近两百人参加。比赛是基于解放军总医院急救数据库，在2天时间内以团队为单位进行头脑风暴，提出并解决具有临床应用价值的问题。俞声教授团队本次挑战的内容是医学影像报告的自动分析并生成结构化标注，利用原创的基于图论的方法分析文本，在不使用医学词典和人工标注的条件下实现了医学术语的自动发现与语意分析。成果为促进医疗文本的有效利用和进一步的医疗领域数据科学研究提供了技术基础。

#post-11925

ntry-header

2018年3月26日，中国人民大学统计学院的尹建鑫教授访问我中心，并做学术报告。报告题目是A fusionpenalized logistic threshold regression model with application to diabetes prediction.

#post-11924

ntry-header

2018年3月13日，世界范围内最具影响力的三大统计学家之一、美国国家科学院院士、美国艺术与科学院院士、现任哈佛大学统计系John L.Loeb讲席教授——Donald B.Rubin，到访清华大学统计学研究中心。尽管年过七旬，但Rubin教授依然精力充沛、神采奕奕，用整整一天的时间，先后参加了中心发展工作汇报会议、中心教员研究课题的深度探讨，以及中心在读博士生、本科生的交流座谈，并给出切实中肯的建议。Rubin教授表示，这是一只活力十足的团队，他很惊讶在短短的几年时间清华大学统计学科就能取得如此的成绩，他希望大家再接再厉，尽早在清华大学建成国际一流水准的统计学科。据悉，Rubin教授在今年9月将有望加入清华大学，力推清华大学统计学科的发展。

Donald Rubin教授（右四）同清华大学统计学研究中心教员合影

Donald Rubin教授首先听取了有关中心发展现状的汇报。Rubin教授对统计中心非常关注，并不时提出问题和建议。

Rubin教授听取中心工作汇报

下午，Rubin教授听取中心博士后以及部分在读博士研究生的报告，并对所存在的问题给予指导。

Rubin教授同中心博士研究生座谈

最后是同清华大学在读本科生的座谈会，同学们很珍惜和学术泰斗交流的难得机会，积极参与，发言踊跃，现场气氛热烈。

Rubin教授同本科生座谈

Rubin教授在清华大学的访问还将继续，希望Rubin教授能带动清华大学统计学科的发展达到一个新的高度。

#post-11921

ntry-header

2018年3月13日，耶鲁大学的张和平教授访问我中心，并作学术报告：Surrogate residuals for generalized linear models”。

#post-11922

ntry-header

2月26日科技出版巨头Elsevier发布新闻公报，介绍了清华大学统计学研究中心俞声教授与美国麻省总医院Thomas McCoy博士共同第一作者在精神病理学顶刊Biological Psychiatry（影响因子11.412）发表的研究成果。公报被Science Daily等国外多家科技新闻媒体转载。 (https://www.elsevier.com/about/press-releases/research-and-journals/new-method-extracts-valuable-information-on-psychiatric-symptoms-from-electronic-health-records)

目前，精神疾病学家普遍认为作为精神疾病分类标准的Diagnostic and Statistical Manual of Mental Disorders已不具有足够的科学性。如抑郁症等一些诊断分类其实包含着很多不同的表现类型，而一些被分为不同诊断的疾病则很可能是同一潜在病理的不同表现。哈佛大学Isaac Kohane教授和麻省总医院Roy Perlis教授共同领导的N-GRID（Neuropsychiatric Genome-scale and RDoC-Individualized Domains）项目旨在通过临床表型大数据与基因组学大数据相结合，更科学地重新定义精神疾病的分类。

在本次研究中，俞声教授综合利用潜在语义分析、大规模相关性多重检验和正则化回归等统计技术，通过对电子病历文本的大数据分析，将精神病患者的表现投射到美国国家精神卫生学会（NIMH）提出的5个描述纬度上（Negative Valence、Positive Valence、Cognitive、Social Processes、Arousal/Regulatory），形成了患者表现的低维空间表示，为分析与区分患者表现奠定了量化基础。[1] 进一步的全基因组关联分析揭示了这些纬度与多个基因位点的相关性，为精神病理分类提供了科学依据。[2] 目前全球约有4.5亿人患有不同程度的精神与行为障碍，中国有超过1亿人患有精神类疾病。精准医学与大数据技术的发展有望使精神疾病的预防与控制得到改善。

参考文献

[1] Thomas H. McCoy, Sheng Yu, Kamber L. Hart, Victor M. Castro, Hannah E. Brown, James N. Rosenquist, Alysa E. Doyle, Pieter J. Vuijk, Tianxi Cai, and Roy H. Perlis. High Throughput Phenotyping for Dimensional Psychopathology in Electronic Health Records. Biol. Psychiatry (2018). DOI:https://doi.org/10.1016/j.biopsych.2018.01.011

[2] Thomas H. McCoy, Victor M. Castro, Kamber L. Hart, Amelia M. Pellegrini, Sheng Yu, Tianxi Cai, and Roy H. Perlis. Genome-wide Association Study of Dimensional Psychopathology Using Electronic Health Records. Biol. Psychiatry (2018). DOI:https://doi.org/10.1016/j.biopsych.2017.12.004

#post-11919

ntry-header

2017年12月25日，【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。本次论坛邀请到卡耐基梅隆大学的Jiashun Jin教授，报告由清华大学统计学研究中心的邓柯教授主持，本次报告的主题是“使用重要特征主成分分析（IF-PCA）进行聚类”。

金教授首先用来进行聚类的十种肿瘤的microarray表达量数据，该项目的目标是将每种肿瘤分成几个亚组，所有特征分为信号和噪音，信号的部分有不同的均值，是一个秩为K-1的稀疏矩阵，我们在这里面临的问题是信号的部分相对于噪音很少而且很弱，因此使用经典的PCA方法效果不是很好。

接下来，金教授介绍了IF-PCA方法思想，主要分成以下几步：首先是使用Kolmogorov-Smirnov统计量将原始数据变成排序特征，之后将排在靠前的特征筛选出来，最后在经过筛选之后的特征上使用主成分分析的方法。在以上每一步的操作中，都要有一些需要注意的地方，在使用Kolmogorov-Smirnov统计量对原始数据进行排序时，在计算KS score之后，使用Efron’s null correction的方法对KS score进行标准化，再选择标准化之后score排在前面的特征；在选择排名的threshold的时候，通常大家会使用cross validation或者FDR的方法，金老师使用的是Higher Criticism的标准，从中选择一个最严格的threshold进行筛选。

最后，金老师将IF-PCA方法的结果和一些已有的方法进行了比较，包括kmean, SpecGem, kmean++, COSA 以及sPCA等方法进行了比较，发现IF-PCA的方法在十种肿瘤中的五种表现都是最优的，在另外五种肿瘤中也是次优的，在所有肿瘤中的平均错误率也是最低的，这说明这种方法在实际应用中的效果是很好的。

#post-11916

ntry-header

2017年12月20日，【统计学论坛】在清华大学伟清楼209成功举办。本报告邀请了宾夕法尼亚州立大学统计系的杰出教授林共进先生。本次讲座由清华大学统计学研究中心副教授李东老师主持。

林教授本次报告的内容涵盖了多个方面，主要内容是引入Ghost Data(幽灵数据)。林教授通过截取几部电影的片段来说明Ghost Data的由来，从新的视角发现电影中蕴含的数据思维。电影《The Six Sense》中的小男孩可以看到幽灵，在真实世界虽然大多数人不相信世幽灵或者鬼魂的存在，但有些人确实能凭借阴阳眼看到常人看不见的东西，曾有科学给出解释说是因为这些人眼睛能接收的光的频段比普通人要宽，对应到观测不到Ghost Data，我们便可以借鉴这个思想通过一些方法将“频率调宽”把隐藏的信息挖掘出来，这个过程可以形象地类比为“统计显微镜”。之后林教授用《神探夏洛克》电影中狗不吠这个现象说明案件的凶手应该是被害者的熟人，说明某些缺失数据也携带了大量信息，用汤姆克鲁斯电影《明日边缘》说明了加速学习过程的重要性。林教授认为Ghost Data主要分为virtual data（虚拟数据）、missing data（缺失数据）、pretend data（做作数据）、simulation data（模拟数据）和highly sparse data（高度稀疏数据）。引入Ghost Data的概念后，林教授介绍了一些如何处理该类数据的方法，如t-covering、因果推断等，并介绍了因果推断中不同的随机化方法导致的不同实验结果。林教授着重介绍了模拟数据应该具有的一些特点，如generality、representation、interested extremes、illusion。

最后林教授将传统统计方法如何应用到大数据、如何判断随机数的随机程度等问题和大家一起进行探讨。同时林教授用电影中蕴含的数据思维告诉我们应该拓宽视野了解不同领域的内容，勤于思考，敢于创新。

#post-11915