【统计学论坛】Nearly Optimal Bayesian Shrinkage for High Dimensional Regression

ntry-header

#post-11789

ntry-header

2016年12月26日，亚利桑那大学助理教授郝宁访问我中心，并做学术报告 Model Selection for High Dimensional Quadratic Regression Models。

#post-11787

ntry-header

受访人：李东
采访人：张心雨

张心雨：李老师，请简述您的求学经历，您为什么选择了统计？

李老师：这个要从大学时候说起。我本科是数学系应用数学专业的，刚开始学数学教育。大三的时候，面临考研究生选择方向的问题。我当时最喜欢的并不是统计，当时学统计的人还很少。我当时最喜欢的是群论和非线性分析，研究生就准备考这方面的。但是后来老师对我建议，选方向要照顾一下未来的就业问题，所以我就改成了当时并算不上热门的统计。当时想报中科院数学与系统科学研究院，于是给吴国富研究员写了一封信，问他收不收学生，得到首肯之后就报考了，最后以总分391分的成绩考入中科院应用数学所读硕士。入学之后，我还有另外一位导师陈敏研究员。

在大四的时候，我选修了概率论与数理统计，了解了一些统计推断的内容。那个时候特别喜欢参数统计推断，而对非参数不怎么感兴趣，结果读研究生之后，就开始学非参数的内容。研究生时对时间序列不是很感兴趣，结果研二下学期就开始做时间序列分析。研二时对线性时间序列模型比较感兴趣，对非线性的不感兴趣，结果后来发现线性时间序列模型早就被别人做完了，并且有完备的理论，于是就开始转向非线性时间序列模型，主要研究门限模型。

所以刚开始的时候，做的并不是自己喜欢的那个方向，但是自己喜欢的方向发现都被别人做的差不多了，于是只能找那个你不太心甘情愿的方向去做了，但是后来也就慢慢地就喜欢上那个方向了。做研究可能就是做多了，做习惯了的一个过程。现在回想，当初这个选择还不错，因为没有别人和你竞争。你不会发现自己正在研究的东西已经被别人研究过；同时你会做出来很多基础性的结果，对这个方向产生比较重要的影响。所以我觉得自己也还比较幸运，至今也仍在尝试用更多工具来研究门限模型。

张心雨：老师您理论功底很强，您觉得这个主要归功于您哪个阶段的学习？还是纯粹兴趣使然？

李老师：强算不上，只能说比较熟悉。这并不是因为本科学数学的原因，我当时也只学过初等概率论这一门课。主要是从我到中科院读书之后吧。一年级学习了概率论、随机数学这些基础课，二年级的时候，我们组织讨论班来讨论概率论，主要是周元燊那本《probability theory》，一本绿皮书。当时安鸿志老师指导我们读了很多概率论的书，他当时考察我们的方法很有意思。他给我们一些题目让大家去做，但并不考察你是否会做，而要求你用最简单的方法做出来。他搜集了七个比较有意思的题目，我当时一共做出了五个题目，其中有三个和他给的方法简易度相当，一个比他方法复杂，一个比他方法简单。所以安老师那时候就极力推荐我去读博士。我那时读博士的意愿并不算强烈，但老师说如果你去业界工作的话可能就浪费了。如果你还喜欢读书，那我就送你去香港好不好？于是我就到香港科技大学跟着凌仕卿老师学习时间序列。至于概率论的基础都是在平时的时候，自己读书做习题。

所以说现在我教高等概率论这门课的时候，就跟学生说不布置作业了，习题你自己去做就好。概率论主要可以看这几本书：一本是钟开莱的书，一本是周元燊的书，还有一本是Kallenberg的书，或者是Durrett的书都行，然后你去做书后面的习题。做的多了之后就会发现有很多收获，将来做研究的时候就比较得心应手。平时读到好文章，拿笔记本记录下来，经常翻看，也会有收获的。所以呢主要是靠在中科院时自己自觉读书和讨论班，以及在香港又重新修了概率论、随机过程等课程，前后一共学了四年半的概率论，又做了很多习题，所以只能说基础好一点点，没有你说的那么强。

张心雨：老师，我知道您对历史特别感兴趣。前两天和汤家豪教授座谈聊天的时候，他也提到了历史。我忽然就开了个脑洞，因为时间序列感觉和历史也有些关联，是不是研究时间序列的人会更容易对历史感兴趣呢哈哈？

李老师：没有。我从中学的时候就对历史比较感兴趣，当时教我们的老师非常有意思，从不让大家记笔记，上课像讲评书一样。虽然后来由于他教的太好被文科班抢走了吧，但是我这个兴趣就一直留下了。到了大学里面就看了一些历史书，然后又到了香港之后书就更多了，各个方面的历史书都有，后来在美国也看了很多。但是大部分也不是正史，主要是为了娱乐。因为有很多牛人，你看汤教授啊，安教授啊，他们也喜欢历史，为了和大家聊天比较和谐，自己就也去了解一些。我觉得统计圈里面讨论历史的人还比较多的，尤其是我们这些男的碰到一起，有时候大家不聊学术了没话题了，就开始聊历史了，这还是个不错的材料。历史呢，主要是个人的兴趣爱好，平时看专业的东西，看累的时候读一读，缓解一下心情。

张心雨：嗯老师，那您觉得时间序列跟历史会有某种共通之处吗？

李老师：嗯共通之处我倒没考虑过。不过确实有人用统计研究历史，有一个方向是历史动态学， dynamic history，还发表过不错的文章。我看到过别人的研究，是研究每个历史朝代它持续的时间，与当时朝代环境的一些关系。时间序列和音乐也有关系的，我当时在香港科技大学当助教的时候，有个学生就研究时间序列和音乐的关系。

（张心雨：嗯我之前去一个日本大学访问，他们有一个文化情报学部，主要就是拿统计来研究历史、文物等。）

对，时间序列可以预测未来，也可以预测过去，预测过去也就是考古嘛。根据已有信息对时间节点以前的事情进行推测。我们平时比较注重预测将来，预测过去也是有人做的。

张心雨：老师，您平时除了研究都有什么其他爱好？

李老师：我的爱好就是坐着，哈哈。我现在还好了，现在经常去跑步。以前读书的时候，喜欢的运动比较多，乒乓球篮球足球游泳网球这些，有时几个朋友周末一起打打牌，在香港的时候经常去爬山，一起买菜做饭。到了清华任教之后，这几年科研压力比较大的话，也没有去运动，现在好一点了，从今年暑假开始每天去跑步，3个月瘦了7公斤。

张心雨：老师您觉得一个比较好的、合理的博士生生活是怎样的？您对博士生有什么建议？可以是科研、生活各个方面的建议。

李老师：读博士本来就是一个很辛苦的事情。我个人当年读博士也是比较辛苦的，读书、查文献啊，给你题目之后各种事情都要自己思考自己做。对博士有什么建议的话，不同方向要求不太一样，我只说时间序列分析。个人认为时间序列分析是统计里面比较难的一个分支了，因为它不像其他分支是处理独立同分布的数据较多，时间序列分析里都是相关的数据，所以用的工具可能就比较复杂一些，对概率论的要求可能就比较高了。所以我就要求你两个师兄，一定要学好概率论的基础课，然后多做一些习题，增加一些尝试，掌握一些技术技巧。将来你做研究，你总不能遇到一个理论问题，就找别人去帮你做，不太现实。不能对别人的依赖性太强，这样你才可以走得更远。遇到困难的问题当然是可以找领域的其他人咨询的，但是你如果上来就问很简单的问题就不太好了。当然了，统计方法是很重要的，统计的思想更重要。你要有好的想法，并且有能把它实现的功底。所以第一个要求就是理论功底要扎实，第二个要求就是要有统计思想。

至于生活上，每个人生活方式都不一样了。你经常去爬爬山也行，经常回家也行，周末打打牌也行，没有什么太严格的要求。但是有一点，最好是经常锻炼，这样的话精力比较充沛。不要整天闷在办公室里，有些问题的解决并不一定是在办公室或者实验室解决的，有可能是你在外面玩的时候吃饭的时候，或者你在机场、车站的时候解决的。我就经常在走路的时候想问题，有时走到家或者到吃饭的时候就把这个问题给解决了。做研究嘛，解决问题就好了，对时间地点都没有限制。

读博士这几年时间非常快，一定要抓紧时间。给你一个题目之后，就尽快尽最大努力去做。研究的时候也不要看一山比另一山高，摇摆不定，总是换题目，这样的话，最后你把时间全浪费了，一个问题都没解决。有些问题，也许你再坚持一下就解决了。有些问题可能确实太难，近期解决不了，但是老师总不至于给你这么难的题目，这样你就没法毕业了嘛。所以肯定是一个难度适当的题目让你去做，你产生一些比较好的想法再努力去做，基本上就可能解决一个比较好的问题。

张心雨：老师请您简单介绍一下清华大学统计学研究中心。

李老师：清华大学统计学研究中心，她是一个比较年轻的实体，是直属学校的机构。目前的制度与美国大学的制度比较相像，是一个比较有激励作用的有活力的中心。目前中心有6位全职教员、3位兼职教员，也还在逐步招募新的教员。中心招的大部分都是年轻的教员，还有一些比较有名望的教授，比如杨立坚教授。中心所有教员都有海外背景。该中心是2015年6月27号正式成立的，到目前已有一年半的时间，发展还是比较迅猛的，出了一些高质量的科研成果，同时也招了一批高质量的博士生。并开设了本科生的统计学辅修学位，清华本科生对统计的需求非常大，中心教员逐渐增开新的统计课程，以满足需求。新单位嘛，没有什么历史包袱的，大家都放开手就开始干，比较有冲劲。我们现在要做的事情主要是想让中心制度化、品牌化。

张心雨：最后一个问题，老师您了解统计之都吗？您对我们有什么建议？

李老师：嗯，知道，我以前在海外的时候就知道，当时在统计之都主站上下载专业相关的材料。我感觉统计之做的这些志愿性的东西非常棒。现在你们经常举办R语言会议是吧，每年有多少场？

（张：啊今年很多，各地加起来一共有9场）

哦怪不得每个月都看到有R 会议的通知，是不是有点太多了，可以适当减少一点，我个人的感觉哈。

张心雨：嗯我们也注意到了这个问题，谢谢老师的建议！

访谈后记

李东老师是我未来的博士生导师，在学术上理论功底深厚，生活中又非常幽默有趣，是一个非常好的老师。清华大学统计中心科研氛围浓厚，老师师兄师姐又都非常优秀善良，是一个非常好的中心。欢迎各位师弟师妹关注～不说了，我去学时间序列和历史去了…

编辑 | 张心雨

审稿 | 蔡占锐

#post-11786

ntry-header

2016年12月14日，首都师范大学崔恒建教授访问我中心，并做学术报告Test of Significance on High Dimensional Covariance Matrix Structures.

%e5%b4%94%e6%81%92%e5%bb%ba1 — 崔恒建教授做学术报告

%e5%b4%94%e6%81%92%e5%bb%ba — 崔恒建教授与中心教员合影

#post-11785

ntry-header

2016年12月16日，“第一届北大-清华统计论坛”在北京大学国际数学中心甲乙丙楼召开，此次论坛旨在促进北大和清华两校教师之间以及学生之间的交流和合作，促进统计学者的共同进步，促进统计学科的发展，迎接新时代统计学面临的机遇和挑战。本次论坛由北京大学统计科学中心、清华大学统计学研究中心、北京大学数学科学学院、北京国际数学中心共同举办，共计200余位教师及学生参加。

北京大学统计科学中心科学委员会主席、美国国家科学院院士、美国加州伯克利大学统计系郁彬教授和美国哈佛大学统计系刘军教授做大会报告。

报告结束后，两校同学进行了海报展示，60余名老师及研究生参与其中，并进行积极地交流讨论，学术气氛非常热烈。

#post-11788

ntry-header

2016年12月12日，德州农工大学王所进教授访问我中心并做学术报告 A new nonparametric test for checking the equality of the correlation structures of two time series.

#post-11784

ntry-header

2016年12月9日至11日，“2016清华大学青年统计学者论坛”在清华大学隆重举行。本次论坛旨在促进国内青年统计和数据科学学者间的学术交流和合作，更好地推动统计学和数据科学的发展，同时加强与国内外各兄弟院校之间的协同合作。来自国内外顶级高校的五十余位专家学者参加了本次会议，论坛以学术报告和现场提问的形式开展，参会嘉宾畅所欲言，报告内容精彩纷呈。

会议手册.pdf

#post-12753

ntry-header

#post-11776

ntry-header

第一届北大–清华统计论坛
2016 PKU-Tsinghua Colloquium On Statistics

为促进北大和清华两校教师之间以及学生之间的交流和合作，促进统计学者的共同进步，促进统计学科的发展，迎接新时代统计学面临的机遇和挑战，第一届北大–清华统计论坛将于2016年12月16日在北京大学国际数学中心甲乙丙楼多功能会议室召开。北京大学统计科学中心科学委员会主席、美国国家科学院院士、美国加州伯克利大学统计系郁彬教授和美国哈佛大学统计系刘军教授将做大会报告。

主办方

北京大学统计科学中心
清华大学统计学研究中心
北京大学数学科学学院
北京国际数学中心

会议日程

14:00-15:00 郁彬教授特邀报告
15:00-15:30 茶歇
15:30-16:30 刘军教授特邀报告

特邀报告

（一）

报告题目：Artificial Neurons Meet Real Neurons: Pattern Selectivity of V4
摘要：Vision in humans and in non-human primates is mediated by a constellation of hierarchically organized visual areas. One important area is V4, a large retinotopically-organized area located intermediate between primary visual cortex and high-level areas in the inferior temporal lobe. V4 neurons have highly nonlinear response properties. Consequently, it has been difficult to construct quantitative models that accurately describe how visual information is represented in V4. To better understand the
filtering properties of V4 neurons we recorded from 71 well isolated cells stimulated with natural images. We fit predictive models of neuron spike rates using transformations of natural images learned by a convolutional neural network (CNN). The CNN was trained for image classification on the ImageNet dataset. To derive a model for each neuron, we first propagate each of the stimulus images forward to an inner layer of the CNN. We use the activations of the inner layer as the feature (predictor) vector in a high dimensional regression, where the response rate of the V4 neuron is taken as the response vector. Thus, the final model for each neuron consists of a multilayer nonlinear transformation provided by the CNN, and one final linear layer of weights provided by regression. We find that models using the first two layers of three well-known CNNs provide better predictions of responses of V4 neurons than those obtained using a conventional Gabor-like wavelet model. To characterize the spatial and pattern selectivity of each V4 neuron, we both explicitly optimize the input image to maximize the predicted spike rate, and visualize the selected filters of the CNN. We also perform dimensionality reduction by sparse PCA to visualize the population of neurons. Finally, we show the stability of our analysis across the three CNNs and regression methods Lasso and Ridge, and conclude that the V4 neurons are tuned to a remarkable diversity of shapes such as curves, blobs, checkerboard patterns, and V1-like gratings.
报告人：郁彬，加州大学伯克利分校统计系及电气工程与计算机科学系校长教授，加州大学伯克利分校统计系前系主任。北京大学统计科学中心科学委员会主席。她同时是北京大学微软统计与信息技术教育部–微软重点实验室的创办者及联席主任。她与基因组学、神经科学、医学领域科学家合作进行跨学科研究，开发了统计和机器学习方法/算法和理论，并与领域知识以及量化批判思维结合以解决这些领域中的数据问题。郁彬教授是美国国家科学院和美国艺术与科学学院两院院士。2006 年当选Guggenheim Fellow，2011 年受邀在 ICIAM （The International Council for Industrial and Applied Mathematics，国际工业与应用数学大会）作特邀演讲， 2012 年作了伯努利协会的图基纪念演讲（Turkey Memorial Lecture of the Bernoulli Society）， 2016 年作IMS（Institution of Mathematical Statistics，数理统计协会） Rietz 演讲。郁彬教授曾于 2013-2014 年出任 IMS 主席，也是 IMS、ASA（ American Statistical Association，美国统计协会）、AAAS（American Association for the Advancement of Science，美国科学促进会）和 IEEE（Institute of Electrical and Electronics Engineers，电气和电子工程师协会）的会士。

（二）

报告题目：Generalized R-squared for detecting dependence
摘要：Detecting dependence between two random variables is a fundamental problem.Although the Pearson correlation is effective for capturing linear dependency, it can be entirely powerless for detecting nonlinear and/or heteroscedastic patterns. We introduce anew measure, G-squared, to test whether two univariate random variables are independent and to measure the strength of their relationship. The G-squared is almost identical to the square of the Pearson correlation coefficient, R-squared, for linear relationships with constant error variance, and has the intuitive meaning of the piecewise R-squared between the variables. It is particularly effective in handling nonlinearity and heteroscedastic errors. We propose two estimators of G-squared and show their consistency. Simulations demonstrate that G-squared estimators are among the most powerful test statistics compared with several state-of-the-art methods.

报告人：刘军，哈佛大学统计系和生物统计系教授是世界生物统计和生物信息学领域的著名专家。他们实验室是转录因子-DNA 序列结合位点的预测课题的先驱。用计算机方法和统计学方法预测的这些位点经过实验室验证属实，目前已经预测的有：大肠杆菌（ E. Coli）、Basillus Subtilis、酵母和人类转录因子结合位点。此外，他们预测的部分蛋白结构也已经获得实验室证实。在贝叶斯方法、蒙特卡罗方法、生物信息学、遗传学等领域做出了一系列奠基性工作。对统计理论、复杂系统优化、基因组学、信号处理等领域产生了非常深远的影响。刘军教授 2012 年获得泛华统计协会杰出成就奖， 2010 年获得华人数学界的最高荣誉晨星应用数学金奖， 2005 年被美国统计协会(ASA)选为“ASA FELLOW”；于 2002年获得北美五个统计学会联合设立的 “COPSS Presidents’ Award”。 2001 年刘军教授完成了自己的英文著作《科学计算中的蒙特卡罗策略》。此书现已成为哈佛大学、斯坦福大学及其他高等学府的教科书。2010 至 2013 年间担任《 JASA》的联合主编，是国际数理统计学会会士（ IMS fellow）和美国统计学会会士（ ASA fellow）。

#post-12752

ntry-header

368342959264604683

#post-12751

访谈后记

第一届北大–清华统计论坛 2016 PKU-Tsinghua Colloquium On Statistics

主办方

会议日程

特邀报告

第一届北大–清华统计论坛
2016 PKU-Tsinghua Colloquium On Statistics