• 本系概况
    • 学科简介
    • 发展历程
    • 筹建与发展委员会
    • 顾问委员会
    • 年度报告
    • 联系方式
  • 科研团队
    • 教师队伍
    • 杰出访问教授
    • 卓越访问教授
    • 博士后
    • 博士生
    • 访问教授
  • 科学研究
    • 科研领域
    • 学术成果
    • 计算平台
  • 人才培养
    • 本科培养
      • 统计学专业本科
      • 统计学“101计划”
      • 统计学专业辅修
      • 数据思维与实践课程证书项目
    • 博士培养
    • 终身学习项目
  • 招生信息
    • 本科申请
    • 博士申请
    • 继续教育
      • 学分课《初等概率论》
      • 学分课《统计推断》
  • 新闻动态
    • 新闻动态
    • 最热新闻
    • 近期活动
    • 就业实习信息
    • 校友风采
  • 招聘信息
    • 教研系列招聘
    • 教学系列招聘
    • 博士后招聘
    • 行政团队招聘
  • 友情链接
    • 中国现场统计研究会计算统计分会
  • EN
首页 > 友情链接 > 中国现场统计研究会计算统计分会 > 学会动态 > 正文

【学术活动】卡耐基梅隆大学Jiashun JIN教授访问我中心并做学术报告

学术活动、新闻动态
发布时间:2017年12月26日

2017年12月25日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。本次论坛邀请到卡耐基梅隆大学的Jiashun Jin教授,报告由清华大学统计学研究中心的邓柯教授主持,本次报告的主题是“使用重要特征主成分分析(IF-PCA)进行聚类”。

论坛现场
Jiashun JIN 教授
       金教授首先用来进行聚类的十种肿瘤的microarray表达量数据,该项目的目标是将每种肿瘤分成几个亚组,所有特征分为信号和噪音,信号的部分有不同的均值,是一个秩为K-1的稀疏矩阵,我们在这里面临的问题是信号的部分相对于噪音很少而且很弱,因此使用经典的PCA方法效果不是很好。

接下来,金教授介绍了IF-PCA方法思想,主要分成以下几步:首先是使用Kolmogorov-Smirnov统计量将原始数据变成排序特征,之后将排在靠前的特征筛选出来,最后在经过筛选之后的特征上使用主成分分析的方法。在以上每一步的操作中,都要有一些需要注意的地方,在使用Kolmogorov-Smirnov统计量对原始数据进行排序时,在计算KS score之后,使用Efron’s null correction的方法对KS score进行标准化,再选择标准化之后score排在前面的特征;在选择排名的threshold的时候,通常大家会使用cross validation或者FDR的方法,金老师使用的是Higher Criticism的标准,从中选择一个最严格的threshold进行筛选。

最后,金老师将IF-PCA方法的结果和一些已有的方法进行了比较,包括kmean, SpecGem, kmean++, COSA 以及sPCA等方法进行了比较,发现IF-PCA的方法在十种肿瘤中的五种表现都是最优的,在另外五种肿瘤中也是次优的,在所有肿瘤中的平均错误率也是最低的,这说明这种方法在实际应用中的效果是很好的。

与会人员合影

在这个信息爆炸的大数据时代,通过有效的数据分析,我们可以从大规模数据中,发现知识和规律,让数据成为推动社会进步的强大动力。

了解我们
微信公众号:清华大学统计与数据科学系
联系我们
联系地址

清华大学统计与数据科学系

北京市海淀区清华大学自强科技楼4号楼(吕大龙楼)715

联系电话

+86-10-62786091

邮箱

stats@tsinghua.edu.cn

快速导航
  • 本系概况
  • 人才培养
  • 招生信息
  • 新闻动态
  • 科学研究
  • 科研团队

版权所有 © 清华大学统计与数据科学系 京ICP备15006448号-1