【学术成果】当格律诗与统计学相遇:清华数字人文团队联合研究成果被人工智能顶级会议接受

学术成果、新闻动态
发布时间:2023年10月29日

近日,2023年自然语言处理实证方法会议(The 2023 Conference on Empirical Methods in Natural Language Processing,简称为EMNLP 2023)公布了论文接受结果,我中心邓柯老师课题组博士研究生潘长在同学的研究论文“TopWORDS-Poetry: Simultaneous Text Segmentation and Word Discovery for Classical Chinese Poetry via Bayesian Inference”入选“主会长文”单元。自然语言处理实证方法会议(EMNLP)是自然语言处理和人工智能领域的顶级会议,由国际计算语言学协会的语言数据特别兴趣小组 (SIGDAT) 组织于 1996 年发起,是在早期超大型语料库研讨会 (Workshop on Very Large Corpora, WVLC) 基础上发展起来的。

潘长在同学的入选论文针对于中国古典诗歌的文本分析展开研究,力图运用贝叶斯统计方法解决这类特殊文本的命名实体识别和分词问题。中国古代诗歌具有独特的写作风格和格律要求,富含在其他通用文本中罕见的特殊诗歌词汇,其分析至今仍充满挑战。

潘长在的论文从中国古典格律诗歌主要具有两种模式(如图一所示)的事实出发,建立了一种可以对诗歌文本分词进行有效指导的贝叶斯先验分布;并将这个先验分布与无监督中文分析方法TopWORDS的分析框架相结合,提出了一种同时进行文本分词和词语发现的无监督中国古代诗歌分析方法TopWORDS-Poetry,可以借助诗歌本身隐含的格律信息对诗歌文本进行精准分词,并有效发现诗歌中的特殊词汇(如人名、地名、典故等)。

将该方法应用到《全唐诗》诗歌文本的分析,我们通过小样本人工验证证实了TopWORDS-Poetry方法能够挖掘出大量有意义的人名、地名、文学典故等词汇,并在诗歌分词上有优良的表现。相关实验还表明,TopWORDS-Poetry方法相比于通用大语言模型ChatGPT和文献中其他已有方法,在综合表现上有明显的优势。

该论文是清华大学数字人文团队共同合作的成果,潘长在是第一作者,邓柯副教授作为通讯作者与清华大学中文系的李飞跃副教授共同指导了相关研究工作。清华大学数字人文团队由来自清华大学人文学院、计算机系和统计学研究中心3家单位的学者组成,凝聚了横跨文科、工科、理科的跨学科交叉研究力量,致力于运用前沿人工智能技术和统计学方法,解决新兴交叉领域“数字人文”中的重要问题。

该研究工作得到了国家科技部创新研究计划、清华大学国强研究院、北京市自然科学基金的支持。