ntry-header

Talk With Great Minds of Data Science

–创刊词

随着大数据时代的到来,数据科学迎来了生机勃勃的春天。值此春光烂漫之际,“水木数据派”微信公众号推出“数据科学访谈”栏目,对国内外数据科学学术大师、行业精英、知名校友等展开系列专访,请大家各抒己见,结合自己的人生轨迹和专业视角展开对话。可高屋建瓴,风发意气,指点数据科学之江山;可见微知著,语重心长,畅谈求索真理之感悟;亦可就一事一题,丝分缕析,传播数据分析思想与智慧。以兼容并包之胸怀,追求真理之态度,获益读者之宗旨,鼓舞百家争鸣,增进学术思想交流与碰撞,为我们所处的这个伟大时代留存一份别样的精彩!

统计学研究中心推出水木数据科学系列访谈首篇——美国国家医学院院士,哈佛大学生物统计系林希虹教授专访

踏踏实实做好一件事的生物统计科学家——林希虹教授访谈

林希虹教授

林希虹教授是美国国家医学院院士,美国哈佛大学生物统计系和统计系终身教授、前生物统计系主任,数量基因研究计划(Program of Quantitative Genomics)主任。2015年,在林希虹教授、刘军教授和清华大学数位资深教授的共同努力以及学校的大力支持下,清华大学成立了统计学研究中心,推动统计科学在清华大学的蓬勃发展。

林希虹教授是全球知名的统计遗传学和基因组学的专家与推动者,在临床与流行病学中高通量基因组数据分析的统计与计算方法、复杂环境因素与表型数据分析、以及大规模健康数据的统计学习与推断等方向取得了重大突破,为统计学与生物医学和公共卫生的发展做出了杰出贡献。

日前,我们很荣幸地与林老师进行了一次访谈。在这里,写下我们最深刻的感受,并附上访谈节选。

采访感悟

踏踏实实做好一件事的生物统计科学家

林老师给我们最深刻的印象可以用三个词来概括:平和,专心,科学家。作为科学家,她脚踏实地,数十年如一日地坚守生物统计领域,坚持做有价值的研究;作为领航人,她心怀社会,为哈佛生物统计和统计系、清华大学统计学研究中心和统计与生物统计界,以及健康领域的发展贡献自己最大的力量;作为教师,她桃李天下,用平和的心态给学生做最好的榜样,教给学生不要急躁和急于求成。

在整个访谈中,她对所有问题的回答都体现着她所信仰的“踏踏实实做好一件事”的科学精神。林老师从自己的学习经历谈起,告诉了我们什么是有价值的科研,什么是科学家应该坚守的本心,并道出了她心目中统计的意义:统计使科学发现更严格、更真实,更新锐,更可信。她相信统计对科学发展的独特贡献在这个数据时代是不可替代的。

访谈节选

“理解科学、远见、专注做好一件事,这是对我最大的影响。”

问:您从清华大学毕业后到美国华盛顿大学读博士。您的求学生涯对您最深的影响是什么?

林老师:在西雅图有两个人对我影响很大:Normal Breslow教授和Ross Prentice教授。首先他们的研究方式和思维很相近,都是深入理解科学、思维严谨并且专注一个领域的人。理论功底非常强,同时也对问题的科学背景有很深的认识和见解。两位教授既做统计方法的研究也做应用统计的研究。他们的理论和应用研究真正优先立足于解决重要的实际问题。像Breslow教授,在长达40年的时间里,他并不是换一种模型就去找一个数据,而是一直致力于流行病和肿瘤的统计方法和应用的研究。他很早就参与了肾母细胞瘤的研究,从中提炼出重要的和有广泛应用的统计问题和方法,通过统计研究和科学合作大幅提高了这种肿瘤患者的生存率。Ross Prentice教授亦是如此,除了在生存分析和临床试验领域的杰出贡献,作为PI,他投入了很大精力在Women’s Health Initiative研究中。这个大型临床试验对妇女健康研究产生了重大的影响。他们真正理解科学研究的目的,真谛和方法,在生物统计和公共卫生和医学中深耕,一生真正做好了一件事。这是真正的统计方法研究和应用统计,而不是为了发文章来找数据。同时他们都非常注重科学研究高标准和严格的科学伦理。

另外一点让我印象深刻的是他们都很有远见(vision)和大视野(big picture),他们能识别重要的、基础性的, 对未来科学发展有影响力的领域和问题,并很早地进入这个领域,专注于这个领域,真正做出成绩和贡献。这种远见和视野是很难得的。

注:Norman Breslow 和 Ross Prentice 均为西雅图华盛顿大学生物统计系退休教授,美国国家医学院院士。Norman Breslow 教授是林希虹教授的博士导师。

林希虹教授与清华统计中心学生座谈

“学生培养要注意独立和批判性思考、发现和解决问题,写作、计算、交流、协作的能力。”

问:您觉得需要具备什么能力,才算得上统计方向的优秀博士毕业生?

林老师:从素质上说,要能够独立识别重要问题并培养批判性思考(critical thinking)的能力。能从重要问题中思考并发现关键点,建立新颖的理念和解决办法;从能力上说,要有较强的写作能力、理论功底,计算能力以及具备有效的交流能力。很多中国学生的理论功底,编程能力和计算推导能力较强,还要更注重培养自己的独立思考,创新解决问题,科学写作和沟通交流能力。如果没有这些能力,则科研成果的影响力并不会很大。另外,现在大的科研工作都是跨领域协作进行,所以团队领袖和协作能力也很重要。

低年级的博士生,或者未来有志于进行科研工作的本科生,可以尽早进入科研组内进行学习和参与项目的研究。如果有些大问题的上手难度太大,可以先选择一些门槛低的问题,扎扎实实做些研究,逐步培养自己的研究感觉和科研能力。

问:您认为,如何能让中国多一些睿智的科学家?

林老师:这更多的是科学素质和理念的培养。要多培养发现大问题和创新解决问题的能力。在做研究时不能够心态浮躁,也不能急于求成。要静下心来享受学习、研究工作的平凡和日积月累的过程,而不是说为了去拿奖或者拿名声才去发现问题、研究问题。现在不少学生独立发现问题、研究好问题的能力还不是很强,而且压力也大,同时容易受大环境的影响,做一些短视的科研,这是需要大家共同努力来改进的。

“年轻教授需要注意三点:培养独立性;多和别人沟通;专注在一个领域做出卓越。” 

问:您对年轻教授有什么建议?

林老师:年轻教授刚毕业,需要尽快完成从学生身份的转换,自己独立地发现问题。要找到一个自己喜欢并且有意义的领域并不是一件容易的事,所以要多和别人沟通。我刚做助理教授的时候,担任我们系的seminar chair,利用这个机会我请了很多当时统计界的领军人物来做报告,并和很多不同领域的教授聊天交流,了解他们的学术思想和习惯,以及做研究的方法,请教他们对统计的大视野(big picture)和新兴领域的看法。这对我帮助很大,慢慢地,我找到了自己的方向。最后,就像我刚才说的一样,我觉得对于年轻教授,最好是发现一个比较新的、没有太多人涉足但很有前景的领域,不要跟风,然后专注于此,最终要做到当人们谈论这个领域的时候会想到你。真正进入到一个领域,是需要付出很多努力的,其中包括了解这个学科和相关学科。我2005年来哈佛之前没有做过基因统计学的研究,刚到哈佛的前几年,我对这门一窍不通的领域有了兴趣,然后在2008年利用学术轮休的一年,去和旁听了研究生一年级生物基因学的课,跟学生们一起从零开始,系统地了解这个学科。这对后来我深入到这个领域起了很大帮助。做真正对科学有贡献的研究,要有平和的心态,静下心来,要放的下,影响和效果才能够长远。

“只要你内心觉得这些事都重要,你就一定能有办法安排时间。”

问:从工作上而言,您既有哈佛系主任的管理工作,还有科研工作,同时您对家庭也付出了很多,而您是如何把这几件事情都做得很好的?

林老师:首先是你心里要知道什么对你是最重要的。如果你内心真的觉得这些事都重要,你就一定能想出办法安排时间来把这些事情都安排好。需要有创造力地因地制宜地想出解决方法。比如我在刚做系主任的时候,就跟学院说好了要安排一位副系主任,我们两个人分工合作。这样我们互相帮助分担系里的事务,同时谁也不会耽误太多科研。因为我知道科研和我的系对我都很重要。我们学院当时从没有过副系主任的体制。所以这也开了我们学院设立副系主任的先河。后来很多系也采取了这种模式。在具体时间分配上,不同人有不同的方法。我会把时间切分成不同的区块,每个时段专心做该时段安排的工作。比如我会一周安排几天专门开会,与学生同事沟通交流,然后会有几天给自己留出整块时间进行科研工作。而家庭也是对我非常重要的一件事儿,所以当我回家之后会陪小孩,在他们睡觉之后我会再进行工作。家庭的支持也至关重要。我的家庭在我的事业上给了我很多支持。

林希虹教授接受专访

“统计使科学的发现更严格更真实,更新锐,更可信。”

问:如何用两句话讲给普通人听什么是统计?

林老师:统计是一门很美的学科,它与许多科学和人文领域紧密相关,它由实际问题驱动,又反过来解决实际问题。通过有效的方法和数据分析,考虑数据的不确定性和随机性,使科学发现更严格、更真实,更新锐,更可信。

问:有些人认为,在现如今的大数据时代,很多统计方法已经落伍,可能逐步被计算机专业的机器学习算法取代了。您认可这个想法吗?在这个时代,统计最有价值的地方在哪儿?

林老师:统计中最核心的价值之一,是把数据提供的信息转换成可信的专业知识。机器学习和深度学习有很多新颖的理念和方法,同时和统计又有很多交叉的地方,也用到了很多统计方法。学科之间相互借鉴更有助于科学发展和解决大问题。当代很多机器学习算法、深度学习算法做了很多很有价值的分类和预测工作,但是预测并不是唯一有价值的目的,同样重要的是发现事件的机理和重要因素,和背后的因果联系。例如全基因测序数据可以预测一个人的疾病发病率。一个人的全基因组有30亿的碱基对。我们同时也非常需要知道是哪个基因变异会导致疾病。这样才能帮助研发新药物帮助疾病治疗。所以人工智能能帮助一部分研究目的,不会是所有的。一个重要的核心要知道疾病发生背后的机理。统计学家应该与计算机学家和行业专家一起,用互助合作的精神,为人类共同的科学发展做出贡献,缺一不可。

 

清华大学统计学研究中心

访谈小分队:牛晓月、林毓聪、张心雨

编辑:侯禹珊

#post-12067
ntry-header

2019年4月22日,香港浸会大学数学系郑明燕教授访问我中心并做特邀报告,报告的题目是A simple two-sample test in high dimensions。

#post-12066
ntry-header

#post-12063
ntry-header

#post-12068
ntry-header

#post-12062
ntry-header

2019年4月19日,全国工业统计学教学研究会青年统计学家协会(以下简称青年统计学家协会)第一届会员大会暨首届青年统计学家论坛在上海财经大学拉开帷幕。本次会议由全国工业统计学教学研究会主办,上海财经大学统计与管理学院承办,北京大学光华管理学院、电子商务与电子支付国家工程实验室、北京大数据协会、统计之都、狗熊会等单位协办。会议的主题为:青年统计学家与数据产业。

全国近千名来自高校、产业界及研究院所的专家学者集结上海,共同见证首届青年统计学家协会的选举盛事。在今天上午举行的大会开幕式上,全国工业统计学教学研究会副会长、清华大学杨瑛教授首先宣读关于成立全国工业统计学教学研究会青年统计学家协会的决定和顾问团名单。上海财经大学党委副书记朱鸣雄教授,全国工业统计学教学研究会会长、中国数学会副理事长、中国科学院陈敏教授,中国统计学会副会长、浙江财经大学党委书记李金昌教授,国务院统计学科评议组成员、中国优选法统筹法与经济数学研究会副理事长、华东师范大学经管部常务副部长周勇教授,中国现场统计研究会副理事长、中国科学技术大学吴耀华教授,中国统计教育学会副会长、中国国民经济核算研究会秘书长、首都经济贸易大学大数据与统计科学研究院院长纪宏教授,中国商业统计学会副会长、厦门大学朱建平教授等专家均出席本次大会,并致开幕词。

随后,会议选举产生了本届协会的会长、副会长,秘书长、副秘书长,常务理事、理事。

其中,我中心副主任邓柯副教授当选为首届青年统计学家协会副会长。

附本届选举完整名单:

会长:王汉生

副会长:常晋源、邓柯、冯兴东、李启寨、罗世华、马秀颖、王学钦、席瑞斌、夏寅、姚方、赵鹏、郑术蓉、郑泽敏、朱利平、邹长亮

秘书长:阮敬

副秘书长:柏杨、黄恒君、李丰、李卫光、梁超、潘蕊、平卫英、赵琬迪、钟威、周洁

#post-12061
ntry-header

​2019年4月16日,北京智源人工智能研究院召开“智源学者计划启动暨联合实验室发布会”,我中心邓柯副教授、林乾助理教授入选首批智源学者名单,成为“人工智能数理基础”这一重大研究方向的智源学者候选人,进入公示阶段。其中邓柯副教授以其在人工智能领域杰出的科研能力和成果成为国内首批入选“智源研究员”的10名学者之一。林乾助理教授则因其在高维数据和复杂模型的统计分析理论方面取得了高水平的研究成果,入选首批“智源青年科学家”。

邓柯副教授入选智源研究员

智源研究员由智源首席科学家推荐,是在人工智能基础理论原始创新有突破,对学科发展发挥了重要的带动作用的学者。在智源研究院中承担项目实施管理、开展科研活动等工作。

林乾助理教授入选智源青年科学家

智源青年科学家是有着广阔的学术视野、创新思维以及突出的专业基础和发展潜力的38 岁以下拥有博士学位的青年科学家。在智源研究院中将根据个人擅长领域或研究兴趣方向进行开放性、探索性研究。

“智源学者计划”将依托北京大学、清华大学、中科院等优势高校院所,以及北京市人工智能骨干企业研究院,重点支持四类人才:

  1. 智源首席科学家(CS)
  2. 智源研究项目经理(PM)
  3. 智源研究员(PI)
  4. 智源青年科学家

其中,智源首席科学家(CS)由领域内顶尖专家学者担任,负责研究方向的整体规划布局,并推荐智源研究员(PI)人选;智源研究项目经理(PM)则兼备技术和管理才能,协助CS管理项目,并负责多方沟通;智源研究员(PI)是所属研究领域的领军人才,开展确定领域的科研活动。

智源青年科学家是38岁以下拥有博士学位、在科研上具有无限发展潜力的青年学者,智源研究院将支持他们开展开放性、探索性研究,勇闯人工智能科技前沿“无人区”,支持他们面向未来人工智能新思维和新体系的发展,提出引领性的原创基础研究成果。

经过提名、初评、审议等流程,已经遴选出首批智源学者共21人,并即将启动公示程序。2019年计划遴选智源学者100人,其中青年科学家30-50人。2020年和2021年再分别增加100人,智源学者总体规模保持在300人左右。

北京智源人工智能研究院成立于2018年11月,由科技部和北京市政府牵头,集合高校、企业的研发能力,建设的新型研发机构。研究院将采用新的科研组织形式和人才引进培养模式,推动人工智能发展方向和理论、方法、工具、系统等方面的关键性突破。

智源行动计划是在科技部和北京市政府的指导和支持下,由政府部门、企业、高校、院所等共同提出。作为北京服务人工智能发展的顶层设计,也是一个凝聚各方智慧的行动方案。

#post-12060
ntry-header

#post-12059
ntry-header

2019年4月8日,北京大学光华管理学院商务统计与经济计量系的助理教授宋晓军访问我中心,并做学术报告,报告的题目是Testing for Significance of Inefficiency Determinants in Nonparametric Stochastic Frontier Models.

#post-12058
ntry-header

#post-12057