ntry-header

8月23日下午,清华大学统计与数据科学系2024级研究生开学典礼成功举办。统计系全体教师、2024级新生和部分在校生代表出席典礼,值得一提的是,这也是清华大学统计与数据科学系成立以来的首届开学典礼。

典礼由统计系负责研究生工作的刘汉中老师主持。 刘军老师首先代表统计系对新同学们的到来表示欢迎。刘老师强调,大家在科研路上要自发的学习,学会发掘有意义的问题,并且针对未知的问题要葆有一份钻研精神。希望同学们作为统计与数据科学系成立后的第一届新生能够找到自己的科研兴趣,做出有意义的成果。 随后,邓柯老师介绍统计系概况。邓老师回忆了清华大学统计学科的发展历史和在此过程中一代代清华统计人的不懈努力。今年是建系以来首届研究生入学,邓老师表示,希望同学们树立良好的学风,为未来的清华统计学子做好带头作用。同时,邓老师也对同学们普遍关心的系馆建设进度、学生工位规划方案等细节进行分享。同学们纷纷表示期待。 俞声老师向同学们简要介绍系研究生培养情况。俞老师希望大家能够在未来的日子里始终保持对科研的热情,能够找到自己真正感兴趣的科研方向,和导师进行有效磨合,做有意义的课题而非拘泥于发表顶刊文章。俞老师还强调了大家在博士期间严守纪律的重要性。 三年级博士研究生赵政昀同学代表统计系在校生发言。赵政昀分享:“虽然统计系的同学人数不多,但无论你感兴趣的是滑雪、舞蹈、健身、动漫,你都能找到志同道合的伙伴。而清华园本身也是一个广阔的天地,有兼顾专业性和休闲社交的体育代表队,有涵盖几乎你能想到的所有领域的上百家社团,有丰富的校园内的文娱活动,这些都等待有兴趣的你前去探索”。赵政昀也祝福学弟学妹,在统计系度过充实,最好能偶尔感受到幸福的五年。 研究生新生代表陈诗睿发言。陈诗睿同学强调了作为一名研究生,大家的学习模式会从“学习已知”变为“探索未知”,需要更加具有创造性的思维模式与独立分析问题的能力。希望大家在未来可以永远保持好奇心,保持探索的激情。最后,陈松蹊老师总结发言。陈老师首先以轻松幽默的方式回忆了自己的求学生涯中的一些趣事,这些故事不仅让新生们感受到了学术研究的乐趣,也展示了学术探索过程中的挑战与成长。陈老师还强调了对学术研究热情的重要性。他鼓励新生们要培养和保持这份热情,让它成为自己学术探索的动力。此外,陈老师还特别提到了科研写作能力的培养。科研写作不仅是展示研究成果的手段,更是深化理解和思考问题的过程。良好的写作能力可以帮助研究者更清晰地表达自己的思想,更有效地与同行交流,从而提升研究的影响力。

#post-16652
ntry-header
         数字经济的崛起催生了大数据、云计算、人工智能等新产业,也推动着传统行业的数字化转型。在“数实融合”的背景下,具备创新思维和跨界融合能力的数字经济复合人才缺口不断加大,数字人才的培育成为重要发力方向。
        为探索国内数字经济教育的正确出路,8月28日,2024年中国国际大数据产业博览会“数字人才培养”交流活动在贵阳举行,中国科学院院士,清华大学统计与数据科学系教授,全国政协委员陈松蹊作主题报告。
陈松蹊 图源主办方
        陈松蹊指出,当前科学研究过程中,获取公共数据面临诸多困难,具体体现为获取渠道不畅、缺乏高质量的再分析科学数据集等,呼吁政府部门牵头,加快推动公共数据开放共享。另外在他看来,电商数据具有公共属性,建议电商平台公开部分数据用于科学研究、模型训练。会后,陈松蹊接受南都·隐私护卫队专访,就公共数据开放等问题进行深入交流。
  • 建议电商平台公开部分数据用于科研
        会上,陈松蹊首先强调了统计学学科的重要性。他表示,在数字经济时代,数据只有经过分析才知其质量、价值、可否赋能,统计学作为指导数据收集和分析的学科,能帮助人们明确在随机与不确定性下如何使用数据,作出决策。可以说,统计学是一个方法论学科,是理工农医、社会科学研究开展的重要基础。

不过,他也指出,当前我国数据分析人才十分欠缺。据人力资源和社会保障部估计,预计“十四五”期间,统计与大数据人才需求总量将达到2000万人左右。

为此,作为全国政协委员的他,连续两年都提交了与统计学人才培养相关的提案,提出的建议包括将统计学纳入“强基计划”“基础学科拔尖学生培养计划”,加强统计与数据科学核心课程体系建设,加大统计学一流学科建设的支持力度等等。

统计学把数据作为唯一研究对象,数十年来专注于该领域研究的陈松蹊深知大量高质量数据的深刻价值,因此公共数据的开放共享成为他的重点关注方向。

陈松蹊表示,公共数据是解决国家重大需求、卡脖子问题所必需的数据基础。然而在当前科学研究过程中,获取公共数据面临诸多困难,具体体现为获取渠道不畅、过度依赖国外公共数据集、缺乏高质量的再分析科学数据集等。为解决这些问题,他重点提及了电商数据的共享开放。

在陈松蹊看来,电商数据的体量非常庞大,且带有公共属性,“因为它由广大老百姓的购买行为而产生,并不是企业自身产生的数据。”他建议,电商平台应公开部分数据用于科学研究、模型训练。

  • 学科交叉的本质是基础与应用研究的结合

南都:在科学研究过程中,获取公共数据具体面临哪些困难?您建议如何解决?

陈松蹊:首先要明确一个定义,公共数据是国家授权的公共管理和服务机构在履行公共管理职责或提供服务过程中收集、产生和处理的数据,需去除涉及个人隐私的部分。这类数据非常庞大且有价值,在数据已成为生产力原材料的当下,如何提高其资源配置效率和使用效益极其重要。

科学研究对公共数据的需求很大,比如农业需要温度、湿度、降雨量、土壤质量数据,医学药学需要大量医疗数据,环境研究需要气象数据等等。据我观察,目前在获取公共数据方面存在三大困难。

一是获取渠道不畅,通过网络下载的方式无法获取历史数据,下载通道不稳定,研究权威性容易受到影响。同时,某些公共数据仅能由拥有国家项目的企业获得,获取标准设立过高,导致多数实体企业都无法使用。

二是过度依赖国外公共数据集。获取渠道不畅导致我国科研人员大量使用国外公开数据集的情况十分普遍,比如华为的盘古气象模型是基于欧洲气象中心的再分析数据进行训练。

在我看来,这不利于科学自立自强,不利于掌握科技主动权,更不利于讲好“中国故事”。举个例子,如果国际形势出现变化,国外公共数据集来源被切断,国内的很多项目研究都可能陷入相当被动的局面。

三是缺乏高质量的再分析科学数据集。再分析数据是现有技术条件下最优质的数据集,能解决部分数据空间分布不均、时间延续性差、种类不全等缺陷。

在上述基础上,我建议由政府部门牵头,尽快打造一套公共数据开放共享体系,持续扩大公共数据的开放范围,提高开放数据质量。

南都:您提到电商数据具有公共属性,可否展开解释?

陈松蹊:我认为电商数据具有公共属性,原因是该数据的所有者不仅是电商平台,用户通过网上购物活动等产生数据,该数据一定程度上也归属于用户。

据我了解,电商平台是实现数据赋能情况最好的一类主体,他们利用海量电商数据创造了很高价值,也应该作出回馈。不需要平台将所有数据都公开,只要在脱敏的基础上公开一部分,供科研机构及企业用于统计研究、机器学习,AI训练等,整个国家的数据事业都能实现极大发展。

南都:您在会上还提到了企业应打造“数据文化”,如何理解?

陈松蹊:经过多年大数据浪潮的席卷,实体经济领域基本都意识到了数据的巨大价值。不过,除了电商平台,多数实体企业仍不清楚如何挖掘数据价值。因此从企业主动性角度出发,我提出了打造“数据文化”这一概念,意思是企业应具备利用数据进行决策管理的意识。

南都:您一直专注于统计学研究和教育事业,在您看来,该领域人才严重缺乏的原因是什么?

陈松蹊:当前我国面临数据分析人才严重不足的困境,一个很重要的原因就是对统计学重视不足,比如在各大综合类高校中,只有极少数拥有独立统计学院。今年7月,清华大学成立统计与数据科学系是一次重大突破,我担任该系筹备与建设委员会成员,希望能推动统计学基础理论研究,促进其与人工智能等前沿领域的交叉融合。

南都:在数字经济教育中,跨学科教育被认为是培养全面人才的关键。从多年学科研究和教育经验出发,您认为要建设交叉学科,什么最重要?

陈松蹊:统计学作为方法论学科,一直承载起多学科的交叉研究。我认为,建设交叉学科的本质就是更加重视基础研究与应用研究的结合,以现实为导向,解决社会发展中的具体问题。

 转自南方都市报

#post-16671
ntry-header

2024年7月18日,宾夕法尼亚大学Hongzhe Lee教授访问我系,并作特邀报告,报告的题目是Regressing Multivariate Gaussian Distribution on Vector Covariates for Co-expression Network Analysis。

Hongzhe Lee教授
与会师生合影
#post-16792
ntry-header

2024年7月,天普大学Edoardo M. Airoldi教授访问我中心,并作特邀报告,报告的题目是Designing Experiments on Social, Healthcare, and Information Networks。

Edoardo M. Airoldi教授
与会师生合影
Edoardo M. Airoldi教授与中心邓柯副教授交流
#post-16783
ntry-header

2024年6月25日,乔治华盛顿大学王会霞教授访问我中心,并作学术报告,报告的题目是Conformal Prediction in Non-Exchange-able Data Contexts。

王会霞教授
王会霞教授与中心教员交流
与会师生合影
#post-16775
ntry-header

2024年6月20日,澳门大学余俊教授访问我中心,并作特邀报告,报告的题目是On the Spectral Density of Fractional Ornstein-Uhlenbeck Processes。

余俊教授
报告现场
与会教员合影
#post-16767
ntry-header

2024年6月17日,美国范德堡大学陶然副教授访问我中心,并作学术报告,报告的题目是Efficient Designs and Analysis of Two-phase Studies with Longitudinal Binary Data。

陶然副教授
报告现场
与会师生合影
#post-16757
ntry-header

2024年6月3日,现在于爱荷华大学做博士后研究工作的张心雨博士访问我中心,并作学术报告,报告的题目是Spectral Change Point Estimation for High Dimensional Time Series by Sparse Tensor Decomposition。

张心雨博士
与会师生合影
报告现场
#post-16389
ntry-header

2024年5月30日,杜克大学徐加明副教授访问我中心,与中心师生座谈,并作学术报告,报告的题目是Recent advances on random graph matching。

徐加明副教授
报告现场
与会师生合影
中心俞声副教授与徐加明副教授
#post-16379
ntry-header

2024年5月27日,卡耐基梅隆大学唐沩婧助理教授访问我中心,并作学术报告,报告的题目是Population-Level Balance in Signed Networks。

唐沩婧助理教授
与会师生合影
#post-16371