ntry-header

2023年11月4日,清华大学统计学博士生论坛成功举办。该活动是清华大学统计学研究中心的传统活动,其设立的目标是为青年统计学者提供学术交流和分享的平台,以提高统计学者的专业知识及专业素养。同学们的科研方向涵盖统计理论基础研究、数据分析方法等多个方面,针对各自的研究成果和科研动态进行全方位展示。

活动由中心研究生工作主管俞声副教授组织并主持

俞老师提到,统计学者们需要保持脚踏实地的态度,既要深入理论研究,又要紧密结合实际问题,为社会和行业提供有力的解决方案。统计学的魅力在于它不仅是一门严密的理论体系,更是解决现实问题的重要工具,它能帮助我们更好地理解复杂的数据背后隐藏的规律,为决策提供科学依据。俞老师鼓励青年学者们不仅要在学术研究上精益求精,还要保持对实际问题的敏感性,积极参与到社会的发展和进步中去。

博士生论坛风采

黄栋 Sampling induced subgraphs and testing correlated Erdos-Renyi graphs
李易诚
Generalization error curves of analytic spectral algorithms over hilbert spaces under power-law decay
卢鑫
Debiased regression adjustment in completely randomized experiments with moderately high-dimensional covariates
赵政昀
PMC-patients, a large-scale dataset of patient summaries for retrieval-based clinical decision support systems
王羽超
High-dimensional statistics multi-group quadratic discriminant analysis via projection
韩庭萱
Rerandomization criteria of 2K factorial design–taking the importance of covariates and factorial effects into consideration
马沄
On the best approximation by finite Gaussian mixtures
于丁一
Chasing the heat: unraveling urban hyperlocal air temperature mapping with mobile sensing and statistical methods
周墨钦
TopWORDS-relation: extracting relations from domain-specific chinese texts via a relational dual-dictionary model
卢伟灏
Optimal rate of kernel regression in large dimensions
张皓博
Optimal rates of kernel ridge regression under source condition in large dimensions
付子初
HEAT-CF: Inference of heterogeneous perturbation effects in single-cell CRISPR screening experiments at single cell resolution
 陆瑶 Single-cell eQTL analysis at finer resolution
徐曼芸
On the optimality of sliced average variance estimate in high dimensions
蔡乐衡
Simultaneous inference for mean function of partially observed functional data
易盈淮
Inference for ARMA time series with mildly-varying trend
罗天派
Simultaneous inference for monotone and smoothly time varying functions under complex temporal dynamics
冯永真
Testing conditional quantile independence with functional covariate
李弘梓
Treatment effect estimation under covariate-adaptive randomization with heavy-tailed outcome
#post-15665
ntry-header

2023年11月6日,中国科学技术大学曾靖副教授访问我中心,与中心教员座谈,并做学术报告,报告的题目是:

Robust Sliced Inverse Regression: Optimal Estimation for Heavy-Tailed Data in High Dimensions。

曾靖副教授
报告现场
与会教员合影
#post-15624
ntry-header

近日,2023年自然语言处理实证方法会议(The 2023 Conference on Empirical Methods in Natural Language Processing,简称为EMNLP 2023)公布了论文接受结果,我中心邓柯老师课题组博士研究生潘长在同学的研究论文“TopWORDS-Poetry: Simultaneous Text Segmentation and Word Discovery for Classical Chinese Poetry via Bayesian Inference”入选“主会长文”单元。自然语言处理实证方法会议(EMNLP)是自然语言处理和人工智能领域的顶级会议,由国际计算语言学协会的语言数据特别兴趣小组 (SIGDAT) 组织于 1996 年发起,是在早期超大型语料库研讨会 (Workshop on Very Large Corpora, WVLC) 基础上发展起来的。

潘长在同学的入选论文针对于中国古典诗歌的文本分析展开研究,力图运用贝叶斯统计方法解决这类特殊文本的命名实体识别和分词问题。中国古代诗歌具有独特的写作风格和格律要求,富含在其他通用文本中罕见的特殊诗歌词汇,其分析至今仍充满挑战。

潘长在的论文从中国古典格律诗歌主要具有两种模式(如图一所示)的事实出发,建立了一种可以对诗歌文本分词进行有效指导的贝叶斯先验分布;并将这个先验分布与无监督中文分析方法TopWORDS的分析框架相结合,提出了一种同时进行文本分词和词语发现的无监督中国古代诗歌分析方法TopWORDS-Poetry,可以借助诗歌本身隐含的格律信息对诗歌文本进行精准分词,并有效发现诗歌中的特殊词汇(如人名、地名、典故等)。

将该方法应用到《全唐诗》诗歌文本的分析,我们通过小样本人工验证证实了TopWORDS-Poetry方法能够挖掘出大量有意义的人名、地名、文学典故等词汇,并在诗歌分词上有优良的表现。相关实验还表明,TopWORDS-Poetry方法相比于通用大语言模型ChatGPT和文献中其他已有方法,在综合表现上有明显的优势。

该论文是清华大学数字人文团队共同合作的成果,潘长在是第一作者,邓柯副教授作为通讯作者与清华大学中文系的李飞跃副教授共同指导了相关研究工作。清华大学数字人文团队由来自清华大学人文学院、计算机系和统计学研究中心3家单位的学者组成,凝聚了横跨文科、工科、理科的跨学科交叉研究力量,致力于运用前沿人工智能技术和统计学方法,解决新兴交叉领域“数字人文”中的重要问题。

该研究工作得到了国家科技部创新研究计划、清华大学国强研究院、北京市自然科学基金的支持。

 

#post-15584
ntry-header

2023年10月16日,清华大学杨宇红教授访问我中心,与中心教员交流座谈,并做特邀报告,报告的题目是:Profile Electoral College Cross-Validation。

杨宇红教授与中心侯琳副教授交流
杨宇红教授特邀报告
报告现场
与会师生合影
#post-15544
ntry-header

2023年10月9日,字节跳动公司许晶晶研究员访问我中心,与中心师生交流,并做学术报告,报告的题目是基于代码大模型的代码智能体。

许晶晶研究员
报告现场
与会师生合影
#post-15536
ntry-header

2023年9月25日,意大利国家研究理事会Fabrizio Ruggeri教授访问我中心,与中心教员交流,并做特邀报告,报告的题目是Unsupervised Statistical Tools for Anomaly Detection: The Case of Healthcare Frauds。

报告现场
Fabrizio Ruggeri教授

 

与会师生合影
#post-15518
ntry-header

2023年9月21日,北卡罗莱纳大学教堂山分校张正武助理教授访问我中心,与中心教员交流,并做学术报告,报告的题目是Modeling Human Brain Connectivity: From Discrete Networks to Continuous Functions。

张正武助理教授
张正武助理教授与中心杨立坚教授交流
报告现场
与会师生合影

 

#post-15486
ntry-header

2023年,中国科学院数学与系统科学研究院张世华研究员访问我中心,与中心教员交流,并做特邀报告,报告的题目是Intelligent Spatial Transcriptomics: Methods and Applications。

张世华研究员
与会师生合影
#post-15473
ntry-header

日前,教育部公布了2022年度“高等学校科学研究优秀成果奖”评选结果,统计学研究中心邓柯副教授与清华大学自动化系生物信息学张学工教授团队联合报送的“基因差异表达及调控的模式识别”项目荣获自然科学奖一等奖。

项目名称:基因差异表达及调控的模式识别

项目完成人:张学工、汪小我、谢震、李衍达、古槿、邓柯

#post-14991
ntry-header

近日,北京生物医学统计与数据管理研究会第三届换届大会暨第八届学术交流研讨会于首都医科大学成功举办,生物医学统计领域专家学者们齐聚一堂,展开了深入的交流和探讨。会议同时为2023年度“百济神州”青年优秀论文奖获奖者颁奖。我中心18级博士研究生沈翀荣获2023年度“百济神州”青年优秀论文特等奖,18级博士研究生朱珂荣获2023年度“百济神州”青年优秀论文二等奖。

北京生物医学统计与数据管理研究会是北京地区生物医学统计、流行病学、数理统计、管理科学、医药研发等专业的科研工作者与教学工作者的学术性民间团体,由从事与生物医学统计、管理科学及相关学科的专业科技工作者于2014年发起成立。

近年来,中心师生积极参与该研究会举办的活动,宋爽、韩庭萱等多名同学在历届论文评选中获奖。

#post-14763