【学术成果】我中心博士生提出全新预测模型，提高microRNA调控网络预测精度

ntry-header

近日，我中心2017级博士生李祺与中国医学科学院肿瘤医院王攀博士以共同第一作者身份撰写的论文“MiRACLe: an individual-specific approach to improve microRNA-target prediction based on a random contact model”被Briefings in Bioinformatics接收并在线发表。Briefings in Bioinformatics影响因子8.990，是计算生物学和生物医学方法研究领域的国际顶尖期刊。我中心邓柯副教授与中国医学科学院肿瘤医院赫捷院士作为论文的共同通讯作者，联合指导了相关研究和论文撰写。

该论文提出了一种基于随机碰撞模型的miRNA靶点预测模型miRACLe，提高了microRNA(miRNA)的靶点识别的精确度和准确度，对于诊断和治疗具有重要的意义。miRNA的调控具有高度样本特异性，目前现有的模型对于特异性样本的计算准确度以及对诊断的辅助作用有限。本论文中的模型将多种miRNA和mRNA的序列信息以及表达谱信息进行整合，可以实现对单细胞或单样本表达谱的miRNA调控靶点预测，下图是该模型的计算流程图，其中矩阵即为该算法计算得到的miRNA-mRNA之间的miRACLe得分，基于此得分即可得到不同miRNA的靶点预测结果。

通过在多个数据集上对miRACLe和已有算法进行比较，论文发现该算法在预测精度、miRNA转染实验以及肿瘤相关基因的富集性分析等多个维度上均较已有方法有更好的预测效果，并且具有更快的计算速度。值得注意的是，miRACLe算法在多种不同的生物学背景，多种不同类型的表达谱以及多个验证数据集上的表现均一致优于已有方法。

最后，该论文还尝试将miRACLe的模型框架应用到其他多种基于序列信息的方法上，例如DIANA microT-CDS、miRanda-mirSVR和MirTarget4。结果表明通过使用miRACLe的算法框架与表达谱信息相结合，可以提高其预测精度和其他生物学表现，这也进一步拓展了该算法的应用范围。

论文网址：

https://academic.oup.com/bib/article/doi/10.1093/bib/bbaa117/5868068?guestAccessKey=9caf5322-b105-4bb8-95a9-e02ccf0b7e47

#post-12180

ntry-header

2020年3月1日，我中心2017级博士生张园园为第一作者，清华大学机械工程系季林红教授为通讯作者的论文“Prediction of working memory ability based on EEG by functional data analysis”正式发表在神经科学SCI期刊 Journal of Neuroscience Methods第333卷(https://doi.org/10.1016/j.jneumeth.2019.108552, 333）。该文首次建立了以脑电信号预测工作记忆能力的多重函数型线性模型。由于使用样条函数，该模型直观易懂，计算快捷简便，理论性质可靠，基于随机抽取的122名大学生志愿者训练集，以闭眼静息态下，8个脑前区导联的脑电信号，对20名志愿者测试集进行工作记忆能力的预测，其确定系数R²在多次随机试验下的中位数为68%，最低值大于50%，最高值72%。

由张园园与我中心2018级博士生黄昆组成的杨立坚团队，从2018年12月开始分析季林红团队的大学生志愿者脑电与认知能力数据，到最终完成论文，始终坚持“面向应用，背靠理论，写好算法”的统计学思想。他们依托近10年来团队在函数型数据方向的研究成果，与机械工程系吴芳芳教授和硕士生王健凯组成的季林红团队高效合作，把样条回归估计脑电信号（EEG）的光滑轨迹，张量样条回归估计协方差函数，样条估计函数型主成分（FPCs）与得分（FPC scores）等深刻的统计学前沿理论，结合LASSO回归，转化为快速准确分析脑电数据的算法，用6个月时间很好地解决了工作记忆能力预测的问题，完成了这篇跨学科应用论文。自2019年12月该文线上发表，作者已多次收到Neurology Congress 2020等神经科学领域国际会议的邀请。

2020年2月4日，张园园作为第一作者完成的另一学术论文“Two-step estimation for time varying ARCH models”在线发表于统计学SCI期刊Journal of Time Series Analysis（https://doi.org/10.1111/jtsa.12522 ）。这篇与托雷多大学终身教授刘嵘，邵琴合作的19页重磅论文+27页在线补充材料，从理论上严格证明了对于带有时间缓变尺度的非平稳ARCH时间序列，用去除样条函数估计的尺度趋势之后的ARCH残差序列，计算ARCH系数的最小二乘估计LSE与直接用观测不到的平稳ARCH序列计算有相同的渐近正态分布。另一方面，以残差序列计算的极大似然估计MLE的渐近正态分布则不同于以观测不到的平稳ARCH序列计算的MLE。该文提出的方法被用于估计标准普尔（S&P）500从1950到2018年每日回报率的时间缓变尺度以及隐藏的ARCH参数，清楚地揭示了金融波动率水平随时间的长期缓慢增长，特别是2008年全球金融危机前后波动率尺度的大幅增长。该文在2019年7月荣获国际泛华统计协会（International Chinese Statistical Association）颁发的中国会议青年研究者奖（ICSA China Conference Junior Researcher Award），是4位获奖者中唯一的学生，也是唯一不是来自美国高校的获奖者。

张园园同学谦虚刻苦，潜心研究，在攻读博士学位两年半期间，在函数型数据与时间序列方向各发表了1篇重要论文，入选工业工程系“未来教授培养计划”。关于非参数回归相关系数曲线同时置信带的硕士学位论文，于2018年发表在统计学期刊TEST，同年获得北大-清华统计论坛优秀海报奖。目前张园园在美国爱荷华州立大学王丽教授指导下系统学习二元样条回归理论，并研究高频金融数据分布等新课题。

#post-12161

ntry-header

清华大学统计学研究中心16级博士生林毓聪投稿的论文《从医学文本库中自动提取疾病关系》荣获第四届全国高校研究生统计论坛十佳论文。该论文研究的医学知识图谱构建工作是其指导老师俞声教授的重要研究方向，而疾病关系的提取工作是医学知识图谱构建的核心工作之一。该论文投稿的全国高校研究生统计论坛是全国高校学生创新统计联盟最重要的活动之一，是供统计领域在校硕博生进行学术交流的大型会议。

在医学信息学中，一个高质量的医学知识图谱是自动诊疗、辅助诊疗等现代医学人工智能工作的基础工作，而知识图谱中最关键的元素就是概念之间的关系，如[二型糖尿病][导致][体重减轻]。疾病之间的关系是医学概念的核心关系之一，但由于种种困难并未在现有图谱中建立起来。此论文致力于通过文本挖掘和机器学习的方式，通过文本数据判断疾病与疾病之间的关系，为医学知识图谱的构建工程添砖加瓦。

该论文通过开源医学知识网站与维基百科中医学文章作为医学文本库，扩展了关系提取的数据收集机制，从文本库中进行训练数据的采集与自动标注，并进行了多轮的数据清洗，提升样本的自动标注质量与信号强度。在模型中，论文选用含Attention机制的双向Bi-GRU模型，并加入了文章章节结构信息，并使用GRU进行自动编码，最后将同一个概念-关系三元组所对应的所有训练语句进行加权后输出。

该论文在关系分类中，从准确率、加权F1值与正样本准确率三个评价指标中，均达到了远超基准模型的好结果。进一步地，论文使用模型二对无标签的疾病关系进行预测，从而挖掘新的关系。论文设定0.8作为筛选阈值，在12561个超过阈值的预测结果中抽样了200个结果使用明确的医学知识作为严格的评价标准，预测准确率达到75.5%。

综上所述，该论文至少有两方面优势。从工程层面，该论文通过数据清洗、模型搭建最终获得了关于疾病关系的高质量医学知识图谱；从方法层面，该论文对传统关系提取的数据收集方式进行扩展，并采用最适合数据形式的神经网络模型进行建模。林毓聪同学表示，这是花费近三年时间完成的工作，非常感谢俞声老师的悉心指导与审稿老师的认可，日后将会更努力的在医学大数据领域深入研究，为医学人工智能贡献出自己一份力量。

#post-12008

ntry-header

本文选自清华大学统计学研究中心开设的统计学辅修课程《数据挖掘中的统计方法》优秀学生成果。

小组成员：

高代玘：清华大学工业工程系 14级本科生

谢禹晗：清华大学工业工程系 14级本科生

指导教师：俞声

1 背景介绍

对商品评论做文本分析有很多现实意义。对公司来说，一方面可以通过顾客的意见帮助公司发现自己的核心竞争力和弱势，同时也可以发现公司竞争对手的优势。对顾客来说，顾客可以参考其他顾客的评论对其是否购买商品做决定。

情感分析（SA）又称为倾向性分析和意见挖掘，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，其中情感分析还可以细分为情感极性（倾向）分析，情感程度分析，主客观分析等。情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下，只分为两类。例如对于“喜爱”和“厌恶”这两个词，就属于不同的情感倾向。

本次研究中，我们使用基本统计学和机器学习方法对亚马逊食品评论数据集做情感分析。

2 数据集介绍

我们的是从Kaggle网站上下载的数据集。数据集原始发布在SNAP上。数据集中共包含568,454条数据。

我们提取数据集中的“分数”和“总结”两项进行后续分析。“分数”代表评论中用户给商品的打分，分数范围为1-5。“总结”是用户评论的简要总结文本。

3 研究意义

对食品短评数据集进行情感分析有较强的现实意义。现在微信朋友圈、推特等大量社交平台的“状态”都是短评的形式；“民以食为天”，食品又是大家比较关注的话题，社交平台上有很多关于食品的“感叹”或“吐槽”。通过对本数据集的研究，我们希望可以将其应用拓展到其他关于食品的短评上。

4 数据探索

对于文本处理的启发

我们随机选取打分为1-5的评论各10000条，对文本进行基本的去标点，小写化和去停词的基本处理后统计词频，制作词云图。我们发现打分为1分的词云图中有很多正向情感词汇，如“like”,”good”。

我们重新审视数据集发现打分为1分的评论中确实常常含有正向词汇，但这些词汇往往是跟在“not”这类否定副词后面。英文的停词表中去除了“not”等一些否定副词，我们在去停词时恢复了这类否定停词，重新制作打分为1的词云图，我们发现词频最高的词变为了“not“，符合我们的预期。

对于标签划分的启发

我们希望把打分为1-5的评论划分为两类。依据尝试，我们假设打分为1，2分的评论大多为负向情感评论，假设打分为4，5的评论大多为正向情感评论。但是对于评分为3分的评论的划分是很难界定的，所以我们从词云图中寻找部分启发。评论打分为1到5分的词云图如下图所示，我们可以发现对于打分为1，2，4，5的评论的假设符合我们的假设。打分为3分的评论词频最高的词为“not“,所以我们认为3分评论应归类到负向评论中。

5 数据基本处理

我们依据上述划分方法将数据集划分为打分为4，5的正向情感评论和打分为1，2，3的负向情感评论。经统计，原始数据集中有大约22%的负向情感评论和78%的正向情感评论。饼状统计图如下图所示：

我们认为数据集样本量可能超出我们的电脑运行允许范围，并且正负情感评论数目不均衡，我们选取数据集的子集进行分析。我们最终随机选取正负情感评论各10000条。依据数据探索中的经验，我们对新的数据集文本进行去标点，去停词，小写化等基本处理。此后，我们对正负情感评论分别做层次聚类和Kmeans聚类。下图展示负向情感评论的聚类结果。

从两种聚类方式的结果中我们发现，两种聚类结果相似，且都将“not“ 单独分为一类，但是我们发现在Kmeans聚类过程中“taste”和“tastes”没有被分为一类，结果不够理想。我们认为，在后续处理中，我们应考虑将文本进行主干化处理。

简言之，我们在上述探索过程中对文本处理有了新的认识，我们将以上经验运用到了后续处理和建模过程中。

6 数据清洗

基于以上分析，我们对每个词都进行了主干化，即去除前缀、后缀，将词末尾的y都替换成i等，这样可以使得同词根的不同词都变成同一种形式（不一定是词根的形式），如“tastes”变为“taste”， “potential”变为“potent”。否则，每种词都以不同的形式出现，但是实则表达的是同一含义；而由于出现频率不同，经过计算之后两个词的相似度可能会变低，影响分析的准确性。我们使用逻辑回归的分类方法进行了验证，发现主干化确实能在一定程度上提高准确率。

经过以上三种处理，即小写化、去标点及主干化，我们得到的短评变成了如下形式：

7 将文本转化为向量

词嵌入是指将一个单词转化为一个向量的过程，常见方法有One-hotRepresentation、Word2vec、TFIDF等。One-hot Representation将一个词转化为一个很长的向量，每一维代表一个词，只有这个词的位置是1，其余都是0。Word2vec通过词的出现频率和位置等计算出一个较低维的向量，用向量空间上的相似度来体现词的相似度。TFIDF在计算每个词在本文中出现的频率的同时，还考虑了在所有文章中的频率，以弱化常用词的重要程度。

7.1 Word2vec

我们首先尝试了Word2vec方法，但是结果并不理想，各种分类器的准确率都接近与随机分类。我们观察了几个情感词最相似的词及他们的相似程度：

可以发现，“great”所表达的情感要比“good”强烈一些，从最相近的词可以看出来。“bad”与“horrible”的几个衍生词都比较相近。“not”与一些负面的副词较为相近。

但是同时我们看到，Word2vec事实上并不能区分同一类词的正负含义，计算可得：

即“good”和“bad”的相似度达到了45.35%。由此，我们发现了Word2vec在情感分析中不可用的原因。

7.2 TFIDF

基于此，我们尝试了另一种方法，即TFIDF，将每一篇文章（在本文中是一句短评）转化为一个向量。TFIDF由两部分组成，TF表示的是这个词在文中出现的频率，IDF表示的是这个词在所有文章中出现频率的倒数。只有这两部分的值都较高时，我们才可以认为这个词在本文中经常出现，但是在其它文章中不常出现，因此对本文有较强的代表性。

不过此处所说的“词”并不一定是一个单词，也可能是一个词组，这种方法称为“n-gram”，词组的大小可以自行确定。当我们设定了词组的上下界时，所有长度在上下界之间的连续出现的几个词都将被作为单独的“词”进行计数。例如，当n-gram的范围为时，文本“great for low calorie dieter”包含的词组及出现频率为：

不同的上下界对准确率也会有影响，我们使用了逻辑回归进行测试：

可以看到，当下界为2时，我们忽略了所有单个词本身，但是显然丢失了很多信息。我们对下界为1的5种n-gram的准确率画图可以得到：

可以看出，仅包含单个单词的准确率较低，说明相连的几个词可以表示文章的语境含义，可以提高准确率。至于上界是几，则差别不大。

最后，为了使得不同长度的词不会因为句子本身的大小而产生过大差别，将表示这句话的向量进行了标准化，及将这个向量的欧式距离标准化为1。

8 模型拟合及预测

8.1 数据集划分及交叉验证

我们将数据集按8：2的比例划分为了测试集和验证集。并且此划分在使用各种分类器的时候保持固定，以直接对比不同方法在相同数据集上的准确率。

我们针对每种方法都进行了调参，使用5折交叉验证在训练集上选择了最佳参数。

最后，拟合好的模型分别放到测试集上进行准确率的验证，以找到最佳方法。

8.2 方法对比及分析

我们分别使用了一下7种方法进行分类，准确率如下：

我们没有尝试LSTM的方法，虽然此方法在文本处理中被证明非常实用，因为它的递归参数计算方法可以充分利用前后词的关系，体现出语境意。不过考虑到我们使用的是n-gram的TFIDF方法，已经表现了词组所体现的语境含义，因此，我们此处没有再重复利用这一特征。

从以上对比图可以看出，逻辑回归与支持向量机的分类效果是最佳的。逻辑回归在二分类中表现通常不错。文献中表明支持向量机通常是最适用于情感分析的，但是需要样本量足够大。我们认为可能是由于我们的样本量还不是特别够，因此支持向量机的效果没有比其它方法好太多。

多项朴素贝叶斯的效果比伯努利朴素贝叶斯要好。此处的多项和伯努利并非指分类的数量，是分成两类还是多类而是指变量的取值。伯努利朴素贝叶斯指的是在输入矩阵中的值只能取0/1变量，该词（词组）在本文中出现就取1，否则取0；而多项朴素贝叶斯中是用出现频率进行计数的，及出现次数越多取值越大。伯努利朴素贝叶斯由于舍弃了一个词（词组）出现次数的信息，因此分类效果会降低。

适应自举法和随机森林都是决策树的变种，虽然已经比最普通的决策树效果好，但是仍然表现不佳。原因可能在于，我们输入的TFIDF矩阵的维度过高，要进行准确的分类需要较多的树才能进行。尤其是适应自举法，需要很多分支才能逼近其球形边界。

多层感知器主要用于解决上述问题。它将一个极高维的向量映射到一个较低维的向量，即隐层的维度（此处我们选取100）。之后，再利用一个全连接层对其进行分类。这种方法也得到了一个较高的准确率，超过了85%。但是，可能由于在映射过程中可能有信息损失，因此其效果也没有超过逻辑回归和支持向量机。

9 讨论

9.1 整体准确率不是很高的原因

我们最佳的分类器——逻辑回归——的准确率也才刚刚超过85%，在情感分类的二分类问题中不算很高。我们认为有以下两种可能的原因。

首先，我们用于训练的标签并不是同一个人标注的，而是由不同用户再经过亚马逊食品购买体验之后自己打的分数。但是这其中就会涉及到不同人打分标准不同的问题。面对同样质量的食品，做出了相同的评价，但有些人可能会打4分，而有些人只会打3分，就被分到了正负两个不同的类别里。这就造成了我们的训练标签标准不统一的问题，可能进而影响了我们分类的准确性。

另外，3分的评论还是很难进行分类。虽然我们通过词云观察得到，3分评论大多数是负面的，但是仍然不排除还有很多偏正面的评论存在。我们将负样本中的3分评论全部删除，再次用最佳的逻辑回归分类器进行分类，发现准确率提高到了90.85%。由此可以看出，3分评论确实会混淆分类，尤其是3分常常是上述第一点所说的评分标准不同最易造成打分交叉的分数。

9.2 Twitter评论分类

我们又扒取了30条Twitter的食品评论进行分类，其中包含17条正面评价和13条负面评价，以验证我们的分类器在不同场合的分类效果。Twitter上的食品评论样例包括：

我们用最佳分类器逻辑回归进行了分类，得到了86.67%的正确率，可见分类效果还是非常好的。

9.3 多分类

我们尝试将3分评论划分为“中性”评论进行三分类得到如下结果：

可以看出，分类效果比二分类要差很多。尤其是中性评论非常容易被划分为其它两类，负面评论也很容易被分错。

不过，从三分类的结果中，我们可以进一步验证之前的猜测。加入了第三类之后，正面评价的分类效果没有受到太大影响，但是负面评论受到的影响较大。由此说明，3分评论还是包含负面评论比较多。但是由于正面评论的存在，导致3分评论并不能直接被划入负面评论。因此，我们的二分类器和多分类器的效果都没有达到90%。

10 未来工作

虽然Word2vec不能直接用于情感分类，但是Tang D^[6]等通过标注一句话的正负情感来格外强调同一类词的正负性。这种方法重新利用了Word2vec的优势，及可以将一个高维向量映射成低维的，就避免了维数过高带来的问题。

另外，无监督的分类方法也可以用于情感分类。通过提取某些正面和负面的词的特征，判断一篇文章是包含正面情感特征更多还是负面情感特征更多，借此来进行分类。

11 参考资料

[1] Andres Cassinelli, Chih-Wei Chen. Boost up!Sentiment Categorization with Machine Learning Techniques. 2009.CS 224N Final Project.

[2] Alistair Kennedy and Diana Inkpen. 2006.Sentiment Classification of Movie Reviews Using Contextual Valence Shifters. InComputational Intelligence.

[3] Bo Pang, Lillian Lee, and ShivakumarVaithyanathan. 2002. Thumbs up? Sentiment Classification using Machine LearningTechniques. In Proceedings of EMNLP.

[4] Bo Pang and Lillian Lee. 2004. A SentimentalEducation: Sentiment Analysis Using Subjectivity Summarization Based on MinimumCuts. In Proceedings of ACL.

[5] Peter D. Turney. 2002. Thumbs up or thumbsdown? Semantic orientation applied to unsupervised classification of reviews.In Proceedings of ACL.

[6] Tang D, Wei F,Yang N, et al. Learning Sentiment-Specific Word Embedding for Twitter SentimentClassification[C]// Meeting of the Association for Computational Linguistics.2014:1555-1565.

[7] Hu X, Tang J, GaoH, et al. Unsupervised sentiment analysis with emotional signals[C]//International Conference on World Wide Web. ACM, 2013:607-618.

[8] http://www.jianshu.com/p/60505518d7ee

#post-11937

ntry-header

本文选自清华大学统计学研究中心开设的统计学辅修课程《数据挖掘中的统计方法》优秀学生成果。

小组成员：

陈显：清华大学工业工程系 14级本科生

骆升：清华大学数学系 14级本科生

指导教师：俞声

就我们所知，每年都有新的恐龙被发现，于是我们希望能够利用机器学习的方法，来帮助古生物学家发现新的恐龙及其图像，并且预测新的恐龙的特征和数据。

那么如何用机器学习的方法“发现”新恐龙呢？我们想到机器学习里面有一类模型叫做生成式模型，可以靠输入的图像样本来生成新的图像样本，那么我们就可以利用现有的恐龙图像生成新的、现在还没有被发现的恐龙图像了。生成式模型中最火的，便是生成对抗模型（Generative Adversarial Networks），下面简称GAN。我们就考虑使用GAN来“发现”新的恐龙了。

除了新恐龙的图像，我们还希望能够通过控制用来生成新恐龙的图像样本，来控制得到的新恐龙的属性（如身高、食性等），所以我们挑选好想要的属性，使用聚类将具有类似属性的已知恐龙图像挑选出来，并放入GAN里跑。

在得到新恐龙的图像后，我们使用图像识别，从图像中获取恐龙的一些属性（如食性、生活地区等），与挑选图像时使用的属性相比较。同时，我们希望能得到其他属性，如恐龙的身高，因此我们将从图像识别中得到的恐龙属性，放入机器学习的回归和分类中，发现最后的结果是无法预测，也就是说光从图像中无法获取恐龙的身高体重等数字的信息。

GAN原理简介：

相当于有两个人，生成者负责生成图片，区分者负责区分图片。两人互相较量，互相训练，当生成者生成的图片与输入的样本无法被区分者区分出来的时候，我们就认为生成者生成的图片已经可以“以假乱真”，也就是说，我们认为此时GAN已经可以生成新的样本了。

我们认为，通过GAN生成的图片中可能会有未发现的恐龙，通过对这些图片做图像识别，就可以预测出这些未发现的恐龙的特征。

收集数据：

我们主要使用python编写爬虫从互联网上搜集数据

1、获取所有恐龙的名单

在www.dinosaurpictures.org这个网站上就已经可以得到1082种恐龙的名单了

2、获取恐龙图片

2.1 在www.dinosaurpictures.org这个网站上我们可以找到总共九千多张恐龙图片，并且每张图片还能带有恐龙的名字作为标签

2.2 在www.newdinosaurs.com这个网站上我们可以找到总共六百多张恐龙图片，每张图片也有名字作为标签

2.3 cn.bing.com/images这是个图片搜索引擎，上面搜索每个恐龙的名字都能得到很多这个恐龙的图片，但是这个搜索引擎有着很好反爬虫机制使得我们无法把全部的搜索结果下载下来，不过每个搜索结果我们都还能下载到二十到三十张恐龙图片

最终我们搜集到了总共三万多张恐龙图片

3、 获取恐龙信息

我们希望能得到恐龙的一些现有属性，因此我们从网页上抓取文本信息，主要有恐龙的生活地区、食性、身高、体长、体重、生活时期和恐龙所属的亚目、属、亚属和种。

3.1 维基百科

维基百科类似于百度百科，但是它的信息量要远大于百度百科，同时更加可靠。我们从维基百科的信息框、分类表和文章内容中抓取了如图信息，合成了一个数据集。

3.2 百度文库和百度百科

从百度文库中我们找到一个含恐龙属性的列表，并将它填到了数据集中。从百度百科中我们也爬取了信息框，但是由于信息框所含信息量较杂，对我们有帮助的信息较少，因此在最后我们选择放弃使用百度百科。

3.3 其他网站

我们还从国内外的一些恐龙专题的网站上找了一些恐龙的属性，挑选部分放入数据集。

http://www/zhklw.com/

4、预处理：

4.1 图像预处理

把黑白图剔除、把图片格式全部转换成jpg、把图片全部裁剪成统一尺寸，由于程序和硬件的限制，我们这里设置输入的图片尺寸为96*96，输出为48*48。

4.2 数据预处理

我们通过观察数据的分布，判断是否有异常点并进行去除。由于得到的数据有缺失值，我们通过已有的知识，对缺失的食性和地点作这样的判断：如果两个恐龙所属物种相同或相近，则它们是食性和地点有很大可能为相同的。通过这个规则我们填补完食性和地点的缺失值。

对于恐龙身高、体重和体长的缺失值，由于这部分数据的采集具有一定不可靠性，我们使用机器学习对缺失值进行填补。我们通过对近似密度和长高比的进行分类，将恐龙通过一定规则分为近似密度和长高比不同的几类。由于使用软件对随机森林的运用有限制，我们选择使用决策树进行分类。

使用决策树分类的规则，family为属

5、聚类挑选样本图像

样本图像是来自各种各样的恐龙，恐龙之间不同的形态差异会成为GAN结果的不可信原因。因此我们对样本进行了聚类挑选。聚类即为通过一些属性的相似性，将样本分为几个类。我们挑选（亚洲，食肉性，鸟臀类，高5米）作为目标属性，使用聚类将具有相似属性的恐龙挑选出来，放入GAN进行识别。

其中为了保证聚类可行性，我们将亚目属性进行简单分类合并为4组亚目组，将地点属性改为各大洲大致的经纬度。

6、运行GAN

使用带有显卡GeForce GTX 980的电脑用所有三万多张图片来跑300轮，总共花了十几个小时。我们还用聚类挑选出的的图片来跑GAN，以期望得到不同的结果。结果如下：

我们从得到的多个图像中挑选看起来比较像真正的恐龙的图像，结果如下：

比较以上图像，我们能发现使用聚类后产生的图像更可信，同时这些图像上的恐龙更像来自同一种类。使用全部图像得到的新恐龙形态差异较大，并且细节比较失真。

7、图像识别

使用卷积神经网络（CNN）对得到的所有图像进行图像识别，结果为（欧洲，食肉性，兽脚亚目，侏罗纪）。能够看出地点和亚目属性与我们聚类的目标属性不同，亚目属性虽然有差异，但这两种亚目都在一个亚目组里，我们在聚类的时候正是对这一组进行聚类，因此结果是可信的。而地点属性可能是由于亚洲和欧洲经纬度比较接近所导致。

8、预测新恐龙的其他属性

除了通过图像识别得到新恐龙的信息，我们还希望能够得到恐龙的体长、身高和体重。所以我们尝试对已有的属性进行分析，通过如线性回归和SVM回归对三个数据进行预测，但是结果非常不理想。我们试着将目标属性使用聚类分成几个小区间，再次使用分类进行预测，然而在训练集中的准确度也是非常不理想。因此我们放弃了这个想法。

#post-11935

ntry-header

本文选自清华大学统计学研究中心开设的统计学辅修课程《数据科学导论》优秀学生成果

小组成员：

范昂之：清华大学数学科学系14级本科生

邵钰杉：清华大学软件学院 15级本科生

钟欣艺：清华大学外国语言文学系14级本科生

指导教师：俞声

2016年美国总统大选， “邮件门” 事件被认为是导致民主党候选人希拉里白宫梦碎的主要原因。事实上，早在2015年3月份，希拉里就被曝在担任国务卿期间使用私人服务器而非官方邮箱与他人通信，涉嫌违反美国《联邦档案法》。我们找到了所有的泄露邮件。这个数据是一个大小为10.3MB的txt纯文本文件，总计有367108行，包含9960封邮件。这些邮件是希拉里国务卿时期收发的，时间集中在2009年12月到2010年12月。

原始数据格式为：

这份数据从邮件收发信息的角度来看，是半结构化的，但是邮件内容中的纯文本却是高度非结构化的，对于这样一组数据，我们决定从文本内容和收发关系入手研究。

1. 基于邮件内容的初步分析

观察一：希拉里生活起居大揭秘！

通过统计希拉里发邮件的时间，我们可以画出希拉里发邮件时间的密度函数，继而，我们可以推测出希拉里的生活习惯，例如起居时间等。从上图可以看到，希拉里起床的时间击败了绝大部分清华同学的起床时间，而入寝时间也相当晚。“这是一份一周7天，一天24小时的工作。你永远没有下班的概念。” 希拉里说。她本人也从美国媒体那里获得“劳模国务卿”的称号。而由我们数据中推测出的希拉里生活习惯也是希拉里努力工作的印证。

观察二：巴以和谈

观察“巴勒斯坦”和“以色列”这两个词的词频密度函数，我们发现它们有极大的相似性，并且在2010年9月达到高峰。查阅资料得知，中断近20个月的巴以直接和谈于2010年9月2日在美国首都华盛顿正式重启，此次和谈由希拉里主持。由于历史原因，巴以两国之间冲突不断，而美国一直扮演着在两国之间斡旋的重要角色。而两国对美国重要的战略意义使其在希拉里邮件之中维持着持久的话题热度。

观察三：希拉里时间线上的关键词

我们试图从整体上把握希拉里邮件内容的话题组成，于是我们建立了一个以邮件文本主题为资源的语料库。试图以词频分析来发现希拉里邮件的主要话题。我们在这里需要进行一些预操作。首先，我们要删除文本中的“停止词”，即stop words，这些大量的功能词对词频分析来说是一个大干扰。其次，基于英语语言的特殊性，我们对每个词汇进行了词根化处理，再经过其他一些处理之后，我们生成了这样的关键词云，词的大小与频率正相关。

作为美国的国务卿，希拉里私人邮箱的话题，确实都集中在家国大事，这印证了之前所陈述的希拉里勤奋努力的断言，同时我们注意到右下角绿色字体的以色列，这是前50个高频词中出现的唯一一个除了美国之外的国家，由此可看出其之于美国的重要性。

2. 基于收发关系的社交网络分析

我们试图仅从邮件的收发关系来分析希拉里服务器所涉及到的人物的社交模式。这个关系被一个385行*9730列的矩阵所刻画，矩阵中的元素a(i,j)所代表的是人物i在邮件j中的通信角色——发件人，收件人，抄送人。仅仅这一个矩阵，我们就可以做多方面的数据处理和分析工作。

（1）通信角色基本数据处理

首先按照发邮件的数量对这385个人进行了排序，

发送邮件前10名绘图如下：

从图中我们可以看到，Clinton发送了超过2000封的邮件，发送邮件数量2、3、4名分别是Abedin Huma、Mills Chery和Sullivan Jacob。

收邮件前10名绘图如下：

从图中我们可以看到，在这9730封邮件里Hillary收了4500封，排名2、3、4的Mills Chery、Sullivan Jacob和Huma收的邮件均不超过500封。不过考虑到这些邮件都是从希拉里的私人服务器中泄露出来的，这种现象也就不是很奇怪了。

被抄送邮件前10名绘图如下：

出人意料的是，被抄送邮件数量最多的不是Hillary，而是Huma。Hillary被抄送的邮件数量只排在第五位，甚至不如Mills Chery和Sullivan Jacob的数量多。由以上的分析和图表我们可以看出，Hillary是这个社交网络的核心，而在她周围也有一些在工作中关系很亲近的人，如Huma、Mills Chery和Sullivan Jacob。下面我们来以Hillary为核心对这个社交网络做一些分析。

社交网络分析

之前我们判断出了Hillary是这个社交网络的关键人物，现在我们首先来找到哪些人给Hillary发送的邮件数量最多。给Hillary发送邮件数量排名前十如下图：

（2）希拉里邮箱相关联系人的社交模式探索

正如我们之前在前几个图中所看到的那样，Huma、Jacob和MillsChery是和希拉里关系最亲近的人。下面我们来更进一步地分析一下Hillary的社交网络，首先我们介绍一下所谓的『小世界原理』（Small World Experiment），这个现象主要描述了这样一个事实：世界上互不相识的人只需要不多的中间人就能建立起联系，著名的『六度分割理论』就是这个原理的具体应用。我们希望在Hillary的社交网络中也能观察到类似的现象。

为了获得更多的关于这个社交网络的信息，我们需要更细致的分析。首先我们把这个社交网络用图来建模，这样就可以运用图论的一些知识来探索这个社交网络，我们首先把这个社交网络建模成一个图G=(V,E) ，V 代表节点集，节点集中的元素是这385个人，E 代表边集合，如果两个人之间有过直接的邮件通信，就在这两人之间连一条边。基于这样的建模，通过一些代数运算就可以得到这个图G 的邻接矩阵inMatrix ，从而可以运用Warshall算法来观察这385个人和希拉里的联系情况。下面这张图展示了希拉里和这385个人之间的联系：

我们用度数（degree）来度量某一个人X和Hillary之间的距离，如果Hillary和X之间有直接的邮件联系，那么他们之间的degree是1；如果Hillary和X没有直接联系，但是Hillary与A有直接联系，A与X有直接联系，那么Hillary与X之间的degree是2……以此类推。这张图的横轴是度数（degree），纵轴是在给定度数下能够直接联系到Hillary的人。我们可以观察到一个奇怪的现象，在这385个人里面只有273人是可以直接或者间接联系到希拉里的，其他112个人和希拉里没有直接或间接的邮件联系，他们大多数人只有被抄送的邮件。这说明了这385个人组成的社交网络存在着严格的上下级关系，并不是一个扁平化管理的组织。

（3）寻找核心人物

正如我们在前面看到的那样，尽管在这个社交网络中有385人，大多数人和Hillary的关系不是那么紧密，我做的最后一项工作是找到Hillary的核心圈子。这里我用了Laplace谱二分法来寻找Hillary的核心圈子，首先我们得到这个图G 的Laplace矩阵，这个矩阵是一个非负定矩阵，从而我们可以找到这个矩阵倒数第二小的特征值和对应的特征向量，并依据这个特征向量来分类。这个算法的目的其实是把这个图G 分为两部分，使这两个部分之间连的边最少。最终我得到了Hillary的核心圈子如下所示：

我们可以看到其实希拉里的核心圈子只有36个人，而Huma、Mills Chery等人也赫然在列。这也印证了我们之前的结论。简而言之，这些邮件反映出这是一个以Hillary为中心人物，以Huma、Mills Chery等人为次核心人物，具有严格上下级关系的社交网络，Hillary位于这个网络中的一个包含36个人的核心圈子中。

3. 基于不同专业从事领域的人物分类及社区发现

（1）基本设计

无论从简单粗暴的邮件收发统计还是对图连通性破坏能力的分析，我们都可以得到希拉里身边重要人物的名单。依据之前的分析，我们发现希拉里邮件的社交网络是一个上下级关系明确的网络——希拉里与几个大人物紧密联系，大人物分管下属。据此我们初步打算希望得到一种基于收发邮件这个有向图来对人物进行小的社区分划，但结果并不尽如人意。后来，观察到希拉里身边的“大人物”各有专长，我们随即设想可以依据网络信息检索，判断整个社交网络中384个人每个人的专业领域，将之贴标签，以此进行社区分划。我们的社区分划思路是：首先建立分类的目标领域，其次搜索这些人的网络信息，找到可信的介绍文本后，依据文本内容将其归属到目标领域中的一个。最后，使用可视化方法直观呈现结论。根据对希拉里身边重要人物的分析，我们认为社交网络中的人主要集中在media, foreign policy, domestic policy and fund四个领域中。

(2) 网络数据抓取

接下来关键的，也是困难的一步，就是通过网络数据抓取技术获取各个人物的文本信息资料。由于我们手上的只有人物姓名，而且重名现象极为普遍，我们如何确定检索到的确实是目标人物？并且，如何确定检索到的信息具有强的可靠性，而不是奇怪的花边新闻?

解决方案：最后我们决定只认定维基百科作为可靠的信息来源，并且设计检索人物时加上“Hillary”这个关键词来确保搜到的人确实是在希拉里邮件圈里的目标人物，并且我们要求该人的维基页面必须在google搜索的前五个条目中以保证相关性。不得不承认我们的要求是非常苛刻的，但同时也非常准确。一些可能的改进方法是扩大可靠信息来源的认定范围。另一个缺失值补充的方法将在后文提到。

于是我们设计了这样一段python程序，他读入一个存有待检索姓名的csv文件作为key创建一个dictionary，然后在google中搜索人名，存储搜索到的前五个url链接地址，对其文本匹配，如果是维基的网址则存入dictionary作为该人的value，循环完整个dictionary的keys之后开始读取value中的url，保存目标网页的有效文本。

在克服了网络搜索方面的种种困难之后，我们最终成功收集到133个人的信息。注意到我们的筛选要求是极为严苛的，仍然有超过1/3的成功率，这说明希拉里私人邮件的传送对象较为知名。

（3）确定人物专长领域

我们随即建立了一个从人物信息文本到四个专长领域维度的映射函数。如下图。而我们选择分量最大的那一项作为人物专长领域的分类结果。

（4）社交模式与专长领域信息可视化呈现

联系以上所述之种种，如果能够用优秀的可视化手段来展现的话，可以更加直观清晰地体现数据带给我们的信息。我们可以建立这样一个图，图的节点是这个社交群体中的各个人物，而点点之间的距离则由两个人物之间信息交流密集程度来刻画，而点的颜色由我们探究所得人物专长领域来决定，那么，我们可以得到下图。如同之前所介绍的，呈现出明显的中心-边缘社交模式关系。

其中，媒体以蓝色标识，外交政策以粉橙色标识，国内政策以紫色标识，资金支持以绿色标识，未找到相关信息的暂且以灰色标识。

过滤掉重要程度不那么高的人并观察希拉里周围标注上人名的点，我们获得了信息更加明确的图。

上图可以非常直观地看出，核心圈人物主要以国内外政策智囊为主。我们重点讨论一下在国内政策领域中和希拉里有强联系的Huma Abedin, 她在希拉里2016年的总统竞选中也扮演了重要的角色。她是希拉里竞选团队的副主席，同时也是希拉里从09-13年的得力助手。而她的丈夫，也在16年的总统竞选中扮演了极其重要的角色，被认为直接影响了大选的结果。

（5）分类有效性判定以及缺失值补充

注意到，在严苛的人物相关信息筛选标准下，有些人物的分类值是缺失的。对于这些人，我们也希望给他们贴标签。在本展示中，我们只对重要人物（36个）贴了标签。事实上我们的方法也可以应用到整个社交网络。我们的思路是通过“他人为自己投票”的方法来给他们贴标签。

假如一个人主要从事”Foreign Policy”，他与一封邮件A有关联（即至少为收件人、发件人、抄送者之一），并且邮件A与核心36人中的某些人有关联，那么就将这些人在”Foreign Policy”上的分数加上1。最终我们可以得到核心36人在4个领域的得分，即使他们没有维基百科。如上图，通过“他人为自己投票”的方式，我们可以得知Sullivan Jacob J, Abedin Huma, Mills Cheryl D, Anne Marie Slaughter, Verma Richard R, Jiloty Lauren C各自分工的侧重。我们得到的结果与事实相符。

#post-11845

ntry-header

本文选自清华大学统计学研究中心开设的统计学辅修课程《数据科学导论》优秀学生成果

小组成员：

张怿良（清华大学数理基科班14级本科生）

张云舒（清华大学数理基科班14级本科生）

金帆（清华大学自动化系15级本科生）

尹秋阳（清华大学自动化系15级本科生）

指导教师：俞声

摘要

大学排名一直都是社会关注的焦点，尤其是对于学生而言，通过排名了解学校是必不可少的。然而，我们常常会怀疑现存排名的合理性，也关心究竟是哪些因素影响了大学的排名，也好奇过一些简单的指标来判断一所学校的水平。本研究通过爬虫、网络检索等方式获取大学排名相关的数据，并通过相关性分析、机器学习等方法，寻找出大学排名相关的因素和判断顶尖大学水平的方法，并通过大学排名来获取更进一步的信息，如地理位置等。

1. 研究背景

1.1 引言

究竟什么样的大学才是好的大学？

不得不承认的是，给大学排名本身是一个困难的、主观的、有争议的课题。迄今为止，全世界各个地区有上百套不同的大学评价体系。他们运用不同的特征，采取不同的方法，针对不同地区的大学，给出了他们所认为的全世界大学排行榜供世人参考。许多得出的排名和结论往往还是相冲突的。

关于大学排名，我们主要关注以下几点：

1.1.1 大学间的相对位次

是指某两所大学间的孰优孰劣。众所周知，全世界不同区域都有顶尖大学互相掐架。从清华与北大，哈佛大学和MIT再到加州伯克利分校和斯坦福大学，很多学校因毗邻的地理位置和相近的学术成就，都在不断竞争希望能够在排名上高于对方。

1.1.2 世界优秀大学分布

是指世界优秀大学的地理分布。优秀大学有集聚性，我们会关心世界上优秀大学都在哪里，他们有哪些相似性。

1.1.3 现有评价体系特征

基于现有评价体系琳琅满目，不免让人对评级体系内部流程产生兴趣。我们会关心各种评价体系的不同侧重点，也会关心评价体系内部特征相关性和合理性。我们想知道的是，一个大学的优秀程度究竟和哪些特征的相关性最大？

1.1.4 获取排名的简单途径

由于大多数排名中的指标和特征很难被普通人获取（例如一些论文发表数、校友评价等等），普通人只能通过看排名得知大学好坏，却无法自己通过简单分析得到。我们所关注的是，存不存在一种简单、易获取的评价特征。让普通人也可以很快定性得出大学排名和大学好坏。

我们期望通过自己一学期《数据科学导论》的学习，体验整个从数据收集、数据清洗到分析、可视化的数据处理过程，从而回答以上我们所关心的有关大学排名的问题。

2. 数据收集及清洗

2.1 Kaggle数据集

Kaggle 是一个数据分析的竞赛平台， Kaggle上的“世界大学排名”数据集（https://www.kaggle.com/mylesoneill/world-university-rankings ）中包含了三种大学排名体系的公开数据，其中一种是Times Higher Education World University Ranking（THE）。THE的数据集情况如下：

2.2 网页数据的获取

2.2.1 大学之间的“相关条目数”（弃用）

某个大学的词条数可以作为一个很好的特征去分析大学。在单个大学搜索的基础上，我们产生了分析“相关条目数”的想法。我们的想法是基于这样的假设：如果大学A和大学B是相似的，则他们共同的搜索结果比较多，原因在于他们往往共同出现。

我们发现，我们的这种假设不能和上述数据符合。因此，我们放弃了这种检验各学校两两之间相关性的做法。

2.2.2 院校论文总数的爬取（Bing学术）

在2.2.1节爬取搜索结果条目数时，我们发现不同搜索引擎的条目数相差较大，在通用搜索引擎中，排名相近的学校的条目数也相差很大。为了解决这个问题，我们认为相比于通用网页搜索，学术领域的垂直搜索得到的页面数更加准确；同时，论文总数也是我们考查的一个重要指标。

2.2.3 结果对比：论文总数 v.s. Bing学术条目数

Fig. 论文总数和Bing学术条目数的关系

图线呈现出一个逗号的形状，这是一个有趣的发现。

依照逗号形图线，学校被大致分为了两类。对此我们的解释是：对于A类学校，它们的论文在发表后很少被再次引用，因而条目数和论文数非常接近。而对于B类学校，它们的论文被多次引用，因而同一篇论文实际上关联着多个条目。

2.2.4 最能反映学校排名的指标是论文总数

（图：P、S、W和学校排名R之间的关系）

从这个图中看出，P、S、W三个指标均和学校排名呈现（近似线性的）负相关。我们认为使用波动最小的论文总数来衡量一个学校的排名更加合理。这与后文更进一步的分析结果相符。

同时，我们发现，通用搜索的结果参考价值不大。可以从下图看出，Bing普通搜索的条目数W与其他两个指标之间相关性很弱（线性回归的R^2<0.2），且变化幅度不大，因而W指标并没有明显的参考价值。

（图：W和P之间的关系）

（图： W和S之间的关系）

2.2.5 小结

本节中，我们将抓取到的3个指标（W、P、S）和排名R进行对比，得出了以下几个结论：

论文总数P方差最小，比其他两个指标更好地反映排名R；
观察论文总数P和Bing学术搜索条目数S的关系，依据逗号形图线，将学校分为A、B两类，并猜测：论文被大量引用有助于增大该校在Bing学术搜索中的条目数，因而条目数S虽然波动比论文总数P大，但由于其考虑了论文质量的因素，也是一个可以评估学校排名的指标。
Bing普通搜索的条目数不适合作为分析学校排名的参考。

2.2.6 网页数据爬取遇到的问题和解决方法

2.2.6.1 字符编码问题（Bing学术）

我们发现，Bing学术并不会像普通搜索那样具备模糊搜索的功能，学校名称必须准确无误地输入才能得到学校的知识卡片。我们在爬取前对800个学校名称做了以下处理：

由于csv文件使用逗号间隔，我们去除了800个学校名称中全部的逗号；
将带变音符的拉丁字母变为相应英文字母，这不会影响搜索结果；
保留&和直引号，否则Bing学术搜不到学校的知识卡片，在URL中做转义处理；
舍弃无法处理的学校名称（非拉丁字母），最后从800个名称中筛选出了726个。

2.2.6.2 条目数与大学所在国的语言有关

改用学术搜索的结果，而非通用搜索引擎。

2.3 数据清洗

2.3.1 基本的数据清洗

在R软件中导入数据Kaggle中THE数据集，发现有如下问题：

数据类型：我们首先将数字类型转化为numeric，将文字类型转化为character。
年份：由于2016年之前的数据缺失程度比较高。因此，我们选取了2016年的数据作为我们要分析的数据。
学校名称（university name）：由于地方语言的问题，许多学校的名称中包含着非UTF-8字符。我们将数据里的学校名替换为使用爬虫前处理过的学校名。

2.3.2 学校总分的补全

学校的总分（total_score）是直接反映排名的指标，也是我们最关心的指标。但是，数据集中的总分只给出了前200名的具体数字，后面的学校只有大致排名范围，这显然不利于我们后面的数值上的分析。

一个直接的想法是对前200的总分作其他指标的线性回归，再将得到的线性公式去计算后面的总分。但通过登陆THE官网查阅资料，我们找到了计算总分的公式：

2.3.3 爬虫数据的整合

通过上述过程，我们完成了kaggle数据集的清洗。现在，我们需要将爬虫爬到的数据整合进来，以方便我们进行后续的分析。使用dplyr包中的left_join函数，我们将爬虫获得数据整合到数据表中。

3. 相关性分析

3.1 相关图

在对kaggle上的数据集进行了数据清洗后，再综合爬虫得到的数据，我们调用corrgram函数，得到了如下非常便于观看的相关图：

其中，对角线上是各个指标，从左上到右下分别是教学得分、国际化得分、研究得分、引用得分、收入得分、总分、学生数、生师比、国际生比例、女男比、百度搜索页面数、必应搜索页面数、必应学术搜索页面数、论文总数。

左下的数字是所对应横纵坐标两个指标的相关系数（如教学得分和研究得分的相关系数就是0.91），其中，蓝色表示正相关，红色表示负相关，颜色越深，相关系数越大，我们越需要关注，颜色越浅，相关系数越小，因此，我们只需要特别注意非常显眼的数字。

右上的图以其对应的两个指标为横纵坐标绘制出的散点图。可以发现，这其中的许多图都有很多的离群值（outlier），使得散点图无法很好地体现数据之间的相关性关系。使用Mahalanobis距离可以去掉大部分的离群值，再通过对单个变量的特别处理，我们得到如下的相关图。

3.2 相关性分析

3.2.1显然的相关性

总分与教学得分、国际化得分、研究得分、引用得分、收入得分有非常强的相关性（原因在于总分是由这五项得分线性组合得到的）

教学得分和研究得分高达0.91（有可能是因为评分有比较大的overlap）

国际化得分与国际生比例的相关系数达到了0.86

研究得分与引用的相关系数达到了0.64

学生数量与生师比的相关系数为0.27

几个搜索引擎之间的数据存在着比较高的相关性

3.2.2 隐蔽的相关性

3.2.2.1 学生数量

可以发现，学生数量这一指标与其他数据的相关性都不算高，尤其是与前六项体现学校水平的指标几乎毫不相关，这是一个非常有意思的结果。有些人认为学生太多的话教学质量显然不会太高，比如一些为了提高国民平均教育水平的基础教育大学，重点并不会放在研究上。但另一方面，如果一个学校学生过少，这个学校的水平也不可能太高，因为它无法吸引优秀的学生报考。所以，数据标明这两种因素的平衡使得相关性几乎接近于零。

下图是学生数量关于总分、教学水平、研究水平的散点图，可以发现，学生数量很高的大学水平都不高，这也印证了上面的第一条分析。但学生数量较少的大学的水平几乎遍历了整个区间，我们很难对此做出学校水平的判断。

所以我们可以得出结论：如果一个大学学生数量非常庞大，那么这个大学很难是一所非常优秀的学校。但如果一个大学的学生数量处于一个正常的量级，那么我们无法对这个学校的水平下论断。

3.3.2.2 生师比

生师比与教学质量有很高的负相关性（-0.20），这也符合常理：学生太多的话老师很难顾及到所有人，教学水平也会有所下降。

同时，对教学水平的拉低也导致了总分不会太高，但这里的相关性并不是很明显。

下图是生师比的散点图，可以发现，生师比较高的大学水平也不会太高，而且部分的学生数量非常多。但对于生师比正常的学校，我们也无法对学校水平下结论。

所以，我们得到了和学生数量类似的结论：生师比大的学校水平不会高，生师比正常的学校水平难以判断。

3.2.2.3 国际生比例

国际生比例与几个体现水平的重要指标都体现出了很高的相关性（除了收入之外）。这可能是因为想要出国的学生大部分还是那些本国比较优秀，想要去更优秀的大学深造的同学，所以选取的大学水平也相对较高，因而产生了如此高的相关性。观察下面的散点图可以发现，水平较高的大学国际生比例都不会太低，这也一定程度上支持了我校致力于提高国际化水平的举措。

除此之外，国际生比例与必应普通搜索的数据有一定的相关性（0.33），这一方面是因为国际生比例高的大学水平高，但这并不是唯一因素，因为它与学术搜索的相关性并没有这么高（0.17），所以另一方面也可能是因为国际生容易产生更多的新闻，从而增加了检索数。同时，我们还发现与必应搜索的相关性远高于百度（0.16），这可能是因为英语是现在使用的世界语言，因而产生的新闻更多地以英语为载体，而以中文为主的百度就会在信息上出现一些疏漏了。

所以，我们得出结论：国际生比例是反映学校水平的一个重要指标；国际化水平较低的学校不太可能是顶尖大学；国际生比例与必应普通搜索的数据有一定的正相关性。

3.2.2.4 搜索引擎数据

几个搜索引擎相关的数据（百度、必应普通搜索、必应学术搜索、论文数）都与总分有较高的相关性，这说明搜索结果能够一定程度上反映学校的水平。

在这之中，百度的搜索数相关度最低（0.26），这一方面是因为百度作为一种综合搜索，其结果并不一定能反映出学校的学术水平，比如学生数多可能导致搜索结果庞大。另一方面，百度作为一个中文为主的搜索引擎，搜索英文学校名的效果会次于诸如必应、谷歌这样的搜索引擎。

从散点图可以看出，个别搜索条目数过低的学校确实水平太次，但其余的学校页面相差数并不多，但水平却有很大的差别。所以，百度数据并不能很好地作为我们判断学校水平的一个指标，只能帮助我们排除掉一些比较差的学校。

相比而言，必应搜索的相关性就高了不少（0.44），这和语言可能存在一定联系。

另一方面，我们也在思考综合搜索与学校水平相关背后的原因，知名校友可能是关键的因素之一。名人所占据的条目显然远多于常人，同时，如果新闻中涉及到了他毕业的院校（尤其是在毕业于名校的情况下），那么就会增加该学校的搜索条目。遗憾的是，我们并没能找到校友相关的数据来印证我们的猜想。

观察下面的散点图，我们几乎可以看出总分与搜索数的正相关关系。但是，顶尖大学和一些水平不高的大学搜索数相差也并不太多。因此，必应普通搜索的数据也不能非常好地满足我们的要求。

必应学术和论文数与总分的相关性更高（分别是0.50和0.62），这一方面是因为学术水平是一个学校重要的硬指标，同时也为Times所重视，但更重要的是，这个指标的人为判断误差也是最小的，哪个学校的学术水平高我们可以轻易地从数据观看得出。

观察散点图可以发现，对于搜索数或论文数比较低的数据，我们不能判断出学校的水平，因为水平比较低的学校很难产生什么学术贡献。但对于相对较好的大学，这两组数据都有着非常明显的线性关系，这说明它们是我们判断顶尖大学水平的重要指标。

相较而言，论文数比页面数效果更好（顶尖学校与其他学校的搜索数差距更大），这与爬虫部分中对方差进行分析产生的结果一致。

所以我们得出结论：论文数是衡量顶尖大学的重要指标；搜索数较低的大学很难有很高的水平。

4. 数据可视化及直观数据启发下的探索性研究

4.1 数据可视化

我们从Kaggle获得了各种排名之后，想能够找到一种直观展现大学排名地区分的方法。之后的大学排名数据可视化全部基于Times2016世界大学排名。这里我们用R语言画出大学排名在各个国家中的分布以及美国大学排名的各州分布如图所示。（注：之后一律用“top大学”一词代表Times2016世界大学排名中前800的各所大学）

4.2 直观数据启发下的探索性研究

画出top大学在世界、美国的地区分布不仅仅只是想要直观展现出我们所研究数据的特点，还希望借助这种直观的可视化该我们启发，做一些更有探究性的工作。我们希望把视角扩大，结合其他的一些辅助数据，看看大学排名从直观上是否和其他的一些统计指标相关，并且试图使用机器学习的一些简单方法研究顶尖大学数量的世界分布是否能够划分出各个国家的经济水平与地理位置。最终我们选择了犯罪率、道路安全、国家旅游开销三个维度的数据。

4.3 基于机器学习的分类器设计

4.3.1 国家经济水平的分类器

我们认为top大学数量或许可以很好地预测国家经济水平状况。于是我们尝试通过175个国家的top大学数量（很多为0）来预测这些国家是否是G20国家。

我们分别尝试支持向量机和BP神经网络的方法进行分类。结果如下

(1)支持向量机（输入变量为top大学数量）

(2)支持向量机（输入变量为top大学数量、犯罪率、旅游开销、交通死亡率）

(3)BP神经网络，输入变量：top大学数量、犯罪率、旅游开销、交通死亡率

我们发现采用线性支持向量机得到的效果最为理想，在仅仅以top大学数量作为输入时，最后已经能够以较高的正确率区分出国家是否属于G20了。加上其他的几个数据集带来的额外信息（维度）之后，错误率进一步降低，第一类错误率为32%，第二类错误率为8%，总体错误率为14%。可以认为top大学的排名能够较为有效地粗略划分出国家的经济水平。

4.3.2 国家地理位置的非监督划分

Top大学数量的地理分布启发我们通过这一分布来预测各个国家的地理位置情况。我们尝试通过top大学数量来预测各个国家属于六大洲中的哪一个（除去南极洲）。换句话说，我们希望考察top大学数量数据相似性与国家地理位置相似性之间的关系。

我们选用的方法是K-means聚类。但是直接聚类的效果并不理想，数据分布过于不均匀，因而我们先通过主成分分析降维，然后进行聚类。最后得到了如下的一些结果

(1) 我们首先选用所有维度，进行主成分分析降维至5维，聚类（n=5）得到下图：

我们认为这一结果颇具解释力。左下角的绿色类包含了部分的南美洲国家、非洲国家中的一半以及几个亚洲国家，褐色类包含了多数的亚洲国家和少数欧洲、非洲国家，整一类很偏向于亚洲。湖蓝色类包含了几乎所有的欧洲国家，且很少有其他洲，几乎能够很好地提取出欧洲一类。南北美洲国家却被完全打散，没有任何的相似性。由此可见，top大学不为零的国家中欧洲国家相似性最高，亚洲也有明显的相似性。但由于72个国家中南北美洲国家数量较少，并没有呈现明显的相似性结果，非洲国家都较为靠近左下角，有一定相似性。

(2) 我们随后选用和top大学数量相关的6个维度，进行主成分分析降维至4维，聚类（n=6）得到下图：

由图可以看出仅仅采用国家所含top大学数量无法得到较为好的地理位置划分，大部分国家的数据聚集到了一起。这不禁让我们怀疑之前聚类结果中能够划分出地理位置的最主要因素是否和top大学数量没有关系。因而为了控制变量我们设计了比较试验，也就是——除去top大学数量相关6个维度外选用其他维度，进行主成分分析降维至3维，聚类（n=6）得到下图：

不难看出在缺少了top大学数量之后，聚类得到的6个类别完全没有任何特点，每个类别都比较均匀地含有各洲的国家。因此通过对比实验，我们间接地验证了有top大学数量的数据集在度量国家地理位置相似性方面有着明显的提升，top大学数量的相似性能够有效地帮助度量国家地理位置的相似性。但是单独的使用top大学数量进行地理位置度量却也无法得到很好的效果.

5. 总结与展望

5.1 总结

5.1.1 必应搜索分析

论文数是搜索引擎数据中波动最小的数据，最适合反映学校的排名。
Bing学术搜索的条目数考虑了论文质量的因素，也能辅助反映学校的排名。
必应普通搜索数和上述两个指标相关性很弱，且波动大，不适合反映学校的排名。

5.1.2 相关性分析

较高的论文数和不低的国际生比例是顶尖大学的重要特征。
论文数是搜索引擎数据中最能体现顶尖大学水平的指标。
学生数、生师比过高，国际生比例、搜索数过低，这些特征可以帮助我们排除水平较低的学校，但并不能帮助我们筛选出顶尖大学。

5.1.3 数据可视化与直观数据分析

论文数是搜索引擎数据中最能体现顶尖大学水平的指标
学生数、生师比过高，国际生比例、搜索数过低，这些特征可以帮助我们排除水平较低的学校，但并不能帮助我们筛选出顶尖大学
必应普通搜索数一定程度上反映了国际生的比例

5.2 未来展望

5.2.1 考虑相关因素的大学排名

由于时间有限，这一块我们处理好了数据却还没来得及继续往下做。但是我们已经对这一块有了初步的设想如下：

如果仅靠网页条目数排名，单个大学条目数肯定是不行的，需要综合考虑相关的条目数。综合条目数相当于一个矩阵，我们需要对这个矩阵进行一个处理。

在相关矩阵里，我们可以根据一些现实情况对条目数进行一定的修正。例如，考虑到建校时间，某些大学的条目数不能真实反映其水平（例如刚建校的南方科技大学）；例如，考虑到地理位置，相关条目数需要做一定的修正（例如A和B相差比较大，仅仅因为地理位置相近于是条目数也会相对多一些）等等。

继续这个课题本身可以是一个挑战杯项目，有很多可以做的事情。

5.2.2 从Bing学术上挖掘大学的专业分类

Bing学术对于每一个学校，还提供了“相关领域”和“相关机构”两个列表。据此我们可以得出一个学校的优势专业，从而将学校分为综合性、文理科、理工科等几类。有了大学的分类后，相关性分析可以在各自领域内进行。还可以在Bing学术中直接搜索某个领域的名字，得到这个领域的总论文数，以去除不同专业的特点对于论文数的影响。

5.2.3 寻找相关性分析的佐证

在相关性分析的过程中，我们通常都是对存在相关性的数据结合常识进行推断，但是除了分析男女比与收入关系时进行了偏相关性检验，其他的分析我们并没有寻找进一步的证据支撑。

比如我们在分析百度、必应数据时提到了校友的可能，因此，我们需要结合毕业生的数据进行分析，证实我们的猜想。再比如我们对STEM的选取也不精确，为了提高我们推理的可信度，我们需要寻找学校所属类型的数据。

现有的数据显然不足以支持我们进行进一步的分析，所以，我们需要使用爬虫等手段进行进一步地数据获取。

此外，男女比与国际化水平的联系并没有找到很好的解释，还需要进一步地探索。

5.2.4 从相关性到因果推断

本文的分析基本都是基于相关性进行的分析，对指标与大学排名之间的关系进行了推断。

但是，相关性与因果关系并没有必然的联系：有因果关系并不一定相关，有相关性更不一定存在因果关系。尽管相关性已经足以帮助我们对大学水平进行判断，但是，我们也关心指标与大学水平之间的因果关系。

但是，因果推断本来就是一件非常困难的工作，尤其是对于这个问题，我们很难设计出随机化的实验，潜在的变量也数不胜数。如何进行因果推断，或者甚至能不能进行因果推断，是一个值得探索的问题。

5.2.5 直观数据探索性工作展望

数据的地理分布所带来的启发性工作还远远没有被探索完。首先，我们仅仅完成了一部分对于顶尖大学国际分布的探索，而没有考虑可视化费尽周折才完成的美国顶尖学校的分布。这一部分的可挖掘性甚至要更强。在这一更小的区域里，更多的数据挖掘想法被赋予了可能：与美国大选、NBA球队战绩、甚至是气候、海拔的相关性与相似性度量都很可能得出非常有意思的结果。与此同时，在世界大学分布中我们还设想能够探索一些学科排名靠前大学的地理分布，例如顶尖商学院多的地方是否是大国家的大城市？顶尖理学院是否又地处较为偏僻？工科学校强的国家其GDP是否以第二产业为主？文科发达的学校是否处在历史更悠久的地区？这些都是在未来等待我们去探索的内容。

#post-11828

ntry-header

本文选自清华大学统计学研究中心开设的统计学辅修课程《数据科学导论》优秀学生成果

小组成员：

姜紫煜（清华大学工业工程系14级本科生）

谢禹晗（清华大学工业工程系14级本科生）

高代玘（清华大学工业工程系14级本科生）

王璐（清华大学工业工程系14级本科生）

指导教师：俞声

一、引言

我们常说“一见钟情”，但又是什么因素导致了一见钟情呢？哥伦比亚大学的一项基于一次“快速约会”结果的实验数据给我们提供了丰富的研究背景。利用一些数据科学中基本的数据处理手段以及R中的可视化工具，我们获得了许多有趣的结论。

二、数据清洗

此数据集原本有195列数据。但是考虑到我们的目标是预测两人配对成功的概率，其实大部分变量并没有意义。因此，我们对变量进行了一定的筛选。首先，我们通过常识选出了以下69个可能存在相关性的变量：

参与者的编号，包括第几轮以及在本轮中的编号
参与者与同伴的基本信息，如年龄、职业、家乡等
是否配对的结果
同伴对该参与者的6项打分
该参与者自己认为这6项指标是否重要的打分
同伴对这6项指标的重要性的打分
该参与者自己对自己这5项指标的打分（除去share的指标，因为这个是描述约会双方的兴趣是否相同的打分）
该参与者认为其他人如何对自己这6项指标的打分
对17项活动的爱好程度

得到的这69列数据中，有一些数据有所缺失，因此进行了针对性的数据清洗。

（一）同伴对该参与者6项指标的打分的缺失

我们通过观察，发现6项指标不是同时缺失的。而如果直接删除所有带空数据的样本，就会删掉1347条数据。考虑到一共只有8378条数据，我们选择采取填充的办法。尝试用同一轮中其余9个人的平均值来对第10个人的缺失值填补，但发现均值通常不是整数。而在后续的决策树与分类的过程中，可能需要打分作为factor，因此最终选择取其余9个人的中位数来填补。

（二）iid（该参与者在整个活动中的中编号）的缺失

在总结中位数时，我们发现总行数比iid最大值少1，没有iid伪118的参与者。因此在填充时，要注意用iid而非行数匹配。

（三）id（该参与者在该轮中的编号）的缺失

通过summary函数发现id有一个缺失，其对应的iid为552。列出所有iid为552的样本，发现id应为22。因此在缺失处填上22即可。

（四）参与者自己对自己5项特质的打分的缺失

观察发现，这5项特质的打分总是同时缺失的，说明这是由于在该轮中没有要求参与者对这个项目进行打分。通过计算，发现一共只有105个样本缺失该变量，因此我们选择删除这105个样本。

（五）参与者的年龄与同伴的年龄的缺失

通过对比iid，发现缺失年龄的参与者与缺失年龄的同伴恰好都是同一批人，因此无法对应填补。又因为用年龄的中位数补空可能造成极大的误差，而实际缺失年龄的样本又不是很多，因此，我们选择删除这一部分样本。

三、数据的探索性分析以及数据可视化

首先，我们使用一些基本的统计量及图表来描述参加这次“快速约会”的志愿者的年龄、性别、居住地、教育及工作背景等信息。

（一）年龄和性别

下图以直方图的形式描述了各个年龄段参加约会的志愿者的年龄组成。我们可以看出（1）参加约会的女性和男性的年龄分布基本是相似的，（2）志愿者的年龄大致分布在20岁～30岁之间。

基于常识我们猜测年龄差异可能对约会产生较大的影响,所以我们决定绘制直方图来展示配对成功的参与者的年龄。从图上我们可以看到参与者之间的年龄差在1岁到5岁之间的时候配对成功率较大。但这项研究的大部分参与者是年龄相仿的大学生，所以我们还不能得出年龄相近则配对成功率大的结论。

（二）志愿者的出生地分布

在这个数据集中，大多数的志愿者都来自美国，为了显示方便我们仅仅绘制了美国的部分地图以反映志愿者出生地分布（地图由maps包绘制）。

图中可以看出，人数最多的五个州依次是纽约州、加利福利亚州、新泽西州、宾夕法尼亚州和马萨诸塞州。

（三）民族背景

下图以直方图的形式展示了参加约会的志愿者的种族组成。

同时，我们还用网络图的形式呈现了配对成功的情侣的种族背景（由R的iGraph包绘制）。

种族背景

图中以圆圈和线的形式标注了各对情侣的种族来源。

（四）职业与教育背景

首先，我们根据志愿者填写的职业信息合并同类职业，并画出频度直方图。我们发现“business”出现的频率最高，符合很多人在经商的现实。

数据集中的职业、教育信息多以非结构化文本的形式呈现。为了更好的展现这一信息，我们采用了词云图的形式体现志愿者们的教育背景（主要为本科就读的学校）以及从事的职业和相应的频率。

从图中可以看出，许多参加本次“快速约会”的志愿者来自美国名校，从事行业也多为法律、商业、学术界等。可谓是“高帅富”、“白富美”也需要担心人生的头等大事啊！

（五）可视化交互：R-Shiny Dashboard

我们选取R中用于可视化的Shiny Dashboard 包将我们的结果进行可视化处理。选取Shiny Dashboard作为可视化工具的原因如下：

在课程中，我们已经学习过Shiny的应用，Shiny Dashboard可以帮助我们让我们在Shiny的基础上继续探索R中用于可视化的工具。
Shiny Dashboard可以包含多个子页面，有助于我们结构化的展示结果。
Shiny Dashboard可将模型预测部分进行交互化展示。

四、数据处理中遇到的问题

许多文字的输入不慎规范。我们并没有直接对数据进行操作，而是取样观察了部分数据，可以看出许多数据的录入不甚合乎规范。比如“新泽西州”(New Jersey)，许多人可能会有不同的表述，诸如”New Jersey is my hometown, while I currently live in NYC”(我出生在新泽西但我现在生活在纽约)等等。
文字的错误输入。由于部分数据由人工打字录入，存在一定几率的拼写错误。
重叠的语义概念。在利用分词功能处理字符串的功能时，可能出现由于拆分词组导致原本具有特殊含义的词语被拆分导致原有含义丧失（如’industrial’(工业)与’engineering’(工程)和‘industrial engineering’（工业工程））是不同的概念（工业工程应属于工程学科的一种），而当我们单纯将所有词组拆分时则得不到该分类。

为了获得较为合理的文字处理结果，我们首先用R的分词处理功能获得了我们感兴趣的关键词，解决了第一种问题；对于高频词我们使用了正则表达式检验可能发生的错误输入，还利用数据挖掘的概念探寻可能存在的相关连词汇，以减少上述第三种错误发生的可能。

五、变量间的相关性分析

下图展示了影响配对成功的重要因素的相关性，冷色调代表正相关，颜色越深代表相关性越大。我们发现“喜欢程度”这个因素与“兴趣爱好重合度”，“外在吸引力”，“幽默程度”都有很强的相关性，为后续模型的变量选择提供了依据。此外我们发现，作为评判方的志愿者在“聪明程度”和“野心程度”、“真诚度”，“幽默程度”和“兴趣爱好重合度”、“外在吸引力”也有明显相关性。

六、决定性因素分析及预测

决策树模型一

我们用决策树的方法尝试找出影响配对搭档的决策的最重要的影响因素。我们使用清洗好的数据，排除部分无效信息后进行建模。我们发现是否配对成功很大程度上取决于搭档的“喜欢程度”，这是符合常理的。但由于“喜欢程度”是一个包含很多复杂因素的变量，所以我们对模型进行优化，去除类似“喜欢程度”这样的可能与其他变量有很大相关性的复杂变量。

调整后，我们得到下图所示的模型。搭档对于志愿者吸引力的评分很大程度的影响能否配对成功。此外，适度的幽默也有助于“牵手”成功。

决策树模型二

为了预测两个参与者配对成功的概率，需要将二者的特征和相互关系同时放入模型中进行预测。因此，我们将两个参与者的对于6个特质互评的分数、及分数的差的绝对值同时放入决策树模型中。

可以发现，最重要的影响变量依然是“外在吸引力”和“幽默程度”。但与之前模型得出的结论不同的是，“兴趣爱好重合度”也成为了重要的影响因素。这很符合我们的常识，及两个人只有“三观一致”的时候才更容易在一起。

我们通常认为两个人打分的差异性也会有影响，即各方面特征都较为相近的人才更容易在一起。但是这一点在模型中却并没有体现出来，各方面打分的差的绝对值最后没有出现在决策树模型中。我们认为这可能是由于两人的差异不能简单地通过差地绝对值来体现，可能有更复杂地表示形式，因此导致变量设置不当。

七、牵手成功的预测

运用以上的决策树模型，我们希望对还未参加活动的人在该活动中能否找到意中人进行预测。但是这只能预测搭档能否看上这个参与者，而不能预测两人能否最终牵手成功，因为搭档的情况还未知，不能保证此参与者也能看上他的搭档。

通过决策树模型，我们发现一个人认为他人对自己的看法与他的搭档最终是否看上他了并没有绝对联系，这意味着人们认为他人对自己的认知通常是错误的。因此，我们假设一个参与者可以通过以往的经验得到他人对自己的打分，并用这个打分进行预测，判断自己有没有必要去参加一场快速约会。

以下两个例子说明了不同的预测结果：

八、结论

我们的决策树模型提供了如下几个有趣的结论：

受吸引程度依然是配对成功最重要的前提。虽然现在大家常常会说自己“不看脸”，但其实内心还是很诚实的嘛！
兴趣广泛的人也相对更容易配对成功。
具有中等幽默程度的人在约会中占有一定优势。

总的来讲，虽然“颜值”（attractiveness）的确对约会是否成功起到了主要作用，我们仍然无法忽视个人爱好（share）以及幽默感（fun）的重要性。所以，对于希望找到另一半的各位，不仅要维持一个良好的外部形象，追求内在也十分重要哦！

九、总结

本项目中曾使用过的研究手法和展示手段：

数据清洗
描述性统计量分析及相关图表绘制
相关矩阵等统计建模
决策树、主成分分析等数据挖掘技术
数据可视化：地图、网络图、词云图绘制
交互式操作界面的搭建

本项目使用R语言进行数据处理和展示，主要使用的扩展包如下：ggplot2& ggplotly (数据可视化绘图)、shiny（交互界面搭建）、igraph（网络图）、maps（地图）、wordcloud2（词云图）、rpart（决策树建模绘制）

参考文献：https://www.kaggle.com/annavictoria/speed-dating-experiment（数据集来源）

参考书目：Winston Chang，《R数据可视化手册》. 人民邮电出版社

#post-11826

2 数据集介绍

3 研究意义

4 数据探索

5 数据基本处理

6 数据清洗

7 将文本转化为向量

7.1 Word2vec

7.2 TFIDF

8 模型拟合及预测

8.1 数据集划分及交叉验证

8.2 方法对比及分析

9 讨论

9.1 整体准确率不是很高的原因

9.2 Twitter评论分类

9.3 多分类

10 未来工作

11 参考资料

1. 基于邮件内容的初步分析

观察一：希拉里生活起居大揭秘！

观察二：巴以和谈

观察三：希拉里时间线上的关键词

2. 基于收发关系的社交网络分析

（1）通信角色基本数据处理

（2）希拉里邮箱相关联系人的社交模式探索

（3）寻找核心人物

3. 基于不同专业从事领域的人物分类及社区发现

（1）基本设计

(2) 网络数据抓取

（3）确定人物专长领域

（4）社交模式与专长领域信息可视化呈现

（5）分类有效性判定以及缺失值补充

摘 要

1. 研究背景

1.1 引言

2. 数据收集及清洗

2.1 Kaggle数据集

2.2 网页数据的获取

2.3 数据清洗

3. 相关性分析

3.1 相关图

3.2 相关性分析

4. 数据可视化及直观数据启发下的探索性研究

4.1 数据可视化

4.2 直观数据启发下的探索性研究

4.3 基于机器学习的分类器设计

5. 总结与展望

5.1 总结

5.2 未来展望

一、引言

二、数据清洗

三、数据的探索性分析以及数据可视化

四、数据处理中遇到的问题

五、变量间的相关性分析

六、决定性因素分析及预测

七、牵手成功的预测

八、结 论

九、总 结

摘要

八、结论

九、总结