《大数据：统计理论、方法与应用》正式出版-厦门大学管理学院-SCHOOL OF MANAGEMENT,XIAMEN UNIVERSITY

学院新闻

《大数据：统计理论、方法与应用》正式出版

编辑者：吴慧专 | 发布时间：2019-09-30

我国设计和规划大数据及大数据产业的发展进程有三大节点。“互联网+”行动计划，这是我国大数据发展的节点之一，在此之前人们都在谈论大数据的概念、发展历史、发展特征等等，在此之后转变观念，重点转移到探讨大数据“产业”如何发展。2015年8月31日，国务院发布《促进大数据行动纲要》，这是我国大数据发展的节点之二，将大数据产业上升至国家“战略”来实施。2017年7月8日，国务院发布《新一代人工智能发展规划》，这是我国大数据发展的节点之三，也是我国认知和发展大数据产业“理念”的一个重要提升，它抓住了人工智能发展的重大战略机遇，构筑了我国人工智能发展的先发优势，促进了创新型国家和世界科技强国建设。

　我国对大数据及大数据产业发展的脉络规划得很清楚，并且形成了具有“共建、共享、共治”特色的发展格局。在这样的背景下，我们承担的国家社科基金重大项目《大数据与统计学理论的发展研究》（项目批准号：13&ZD48），于2017年12月27日顺利结项。在此基础上，我们整合了近年来在大数据理论和应用研究方面的核心成果，形成了系统的知识体系，完成了《大数据：统计理论、方法与应用》。

在大数据时代，统计学的发展被赋予新的内涵，机会与挑战并存，这样给本书的撰写提出了更高的要求。为了反映统计学对大数据发展的影响，本书注重与其他学科结合，并将突出五大特点：1）充分体现学科融合；2）拓展统计研究对象；3）丰富统计计算规范；4）改进统计研究方式；5）扩展统计应用范围。本书主要体现统计理论在技术方法的创新和应用领域的拓展，其全部内容共分五章，包括大数据下的统计理论体系、数据集综合分析、高维变量选择方法、统计并行计算方法和统计方法应用等。

本书第一章介绍大数据下的统计理论体系。大数据是统计学的自然发展和拓展，在大数据背景下，应该将统计学与计算机结合，延伸和完善统计学科体系，统计分析的内容需要进行相应的改革和调整。本章基于统计学的视角进行剖析：第一，分别从大数据下的统计理论体系研究、大数据下的数据集综合分析、大数据下的高维变量选择方法、大数据下的统计并行计算方法等四个方面着重剖析和评述了相关研究。第二，辨析了大数据的概念，澄清了大数据的认知误区，大数据从狭义的角度来讲，不仅是指数据规模巨大，还指数据结构复杂，从广义角度来讲，大数据还指处理大规模复杂数据的技术。第三，对统计工作者而言，这种改变不仅意味着拓宽了统计研究的范畴、丰富了统计研究的内容、增强了统计学的生命力，还意味着统计工作及统计研究的四个转变，即转变统计研究过程、转变统计研究方法、转变统计研究目的和转变统计研究工作思想。第四，大数据的统计研究涉及面广，应从新的视角结合现代统计技术、计算机技术和数据挖掘技术发现数据隐藏的模式和知识，进行更加全面深入的研究，更好地服务于政府决策和社会各方面的需求。

本书第二章介绍大数据下的数据集整合分析。在信息爆炸的时代，大数据通常由来源、主体或格式不同的数据合并而成，且以几何级数增长，了解不同子样本间的异质和同质性是大数据分析的两个重要目标。整合分析方法同时兼顾这两方面，从统计角度考虑数据的异质性和同质性，避免因地域、时间等因素造成的样本差异而引起模型不稳定，是研究大数据差异性的有效方法。本章围绕整合分析展开研究：第一，对惩罚整合分析方法的原理、算法和研究现状进行了系统的研究和梳理，同时通过惩罚函数对系数组进行压缩，研究变量间的关联性并实现降维。第二，提出了异构模型的整合分析，在AFT模型下建立了SGMCP惩罚，实现了异构模型的双层选择，既能剔除对所有数据集都不显著的解释变量，又能得到显著的变量只对哪些数据显著。第三，连接多种类型的组学数据和癌症结果变量，在多种机制调控基因表达的方针的引导下，考虑基因表达中的组关系，提出一种基于整合分析的正则化的标示选择和估计方法，同时有针对性地进行标记选择或对与疾病或亚型有关的标记进行识别。第四，研究了整合分析和惩罚标记选择的异构模型和同构模型。本章根据数据的特点来论证方法，以确保方法应用范围更广。

本书第三章介绍大数据下的高维变量选择方法。高维数据广泛出现在自然科学、人类学和工程学等领域，其主要特点是解释变量维度很高、样本量比较小，且噪声多存在着许多与因变量无关的解释变量。由于高维回归模型中系数存在稀疏性，因此必须通过变量选择技术筛选出最优子集，提高模型解释能力和估计精度。本章主要研究基于惩罚因子的高维变量选择方法：第一，基于组结构的变量选择方法，概括了线性模型框架下三类群组变量选择方法，着重比较了它们的统计性质和优缺点。总结了群组变量选择方法的应用情况，归纳了最新发展方向和所面临的挑战。提出了adaptive sparse group Lasso方法进行双层变量选择。第二，基于网络结构的变量选择方法，在充分考虑变量间网络结构关系的基础上，提出网络结构Logistic模型，通过惩罚方法同时实现变量选择和参数估计，并将该方法应用到我国企业信用风险预警中，构建更加适合我国国情的企业信用风险预警方法，同时提出采用惩罚的方法识别比例结构的方法，证明了该方法的统计性质，并将该方法用在CHNS医疗费用数据分析和RCHS健康保险费用数据分析中。第三，综合分析的组变量选择方法，从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。第四，将整合分析用于研究具有来源差异性的新农合家庭医疗支出，以及具有超高维、小样本等大数据典型特征的数据——癌症基因数据，得到了一些有效的结论。

本书第四章介绍大数据下的统计方法并行计算。在大数据统计分析中的高维数据特征选择、组合分类等问题，都需要高效的大数据处理算法。目前，依托于云计算的分布式处理和分布式集群等技术有强大的计算能力，给传统的数据挖掘算法注入新的血液，能够对海量数据进行有效的挖掘。本章主要研究以下方面：第一，将常用的数据挖掘算法进行MapReduce化。支持向量机、带噪声空间数据的基于密度的聚类算法、分类和回归树、贝叶斯网络、频繁模式增长算法等是应用较广泛的数据挖掘算法，对很多领域来说，将这些算法MapReduce化会产生重要价值，尤其对于存在大量数据的传统领域和新兴领域。第二，SVM，DBSCAN，CART，BN和FP-Growth等五类经典算法可以实现数据的分类、聚类、回归和关联分析，本章对类似的算法改进思想应用到其他数据挖掘算法上。第三，SVM，DBSCAN和BN等三类算法是基于迭代的，CART和FP-Growth算法是基于递归的，对这些算法进行并行化处理比较困难，本章将这五类算法的并行化研究，应用到MapReduce这一新的分布式框架上。第四，部分现有的简单数据挖掘算法已经实现了MapReduce并行计算，然而对复杂的数据挖掘算法进行MapReduce化，并探索在MapReduce下复杂数据挖掘算法的加速性也是本章研究的重点。

本书第五章介绍大数据下的统计方法应用——网络舆情分析。随着互联网的普及，网络已成为人们表达自己观念、想法和态度不可缺少的平台。网络舆情成为社会舆情的一种重要表现形式，其对于电子商务、网络信息安全都具有十分重要的意义。本章根据特定研究目的，对网络舆情进行特征提取和解读，主要从网络舆情语料的主题发现、主题的关联分析、语料的情感倾向分析和热点话题发现四个方面进行分析：第一，介绍了网络舆情分析的一般步骤，即舆情信息收集与预处理、分析模型构建、评价与解释，以及各个阶段的主要工作和具体实施。第二，分别从主题发现、主题关联和语料的情感倾向性和应用的角度出发，讨论不同方法的理论基础和算法设计，有针对性地改进模型。第三，分析了基于深度学习的情感倾向性分析方法，神经元的逐层传导结构能够处理足够复杂的数据集，在情感倾向性分析时往往能够达到优于传统统计学模型的效果。第四，探讨了大数据网络舆情分析的应用，通过闽商传承主题、热点与脉络大数据舆情分析，中国房地产网络舆情分析以及电子商务顾客评论的舆情热点的研究应用，从模型结果出发提出政策决策等方面的支撑建议。

本书在撰写和出版过程中，得到了国家统计局统计科学研究所、厦门大学社会科学研究处、厦门大学管理学院、厦门大学健康医疗大数据国家研究院、厦门大学数据挖掘研究中心、浙江工商大学现代商贸流通体系协同创新中心和北京大学出版社的支持，同时得到了厦门大学哲学社会科学繁荣计划建设项目的资助。在此一并表示由衷的感谢！

本书的完成，可以说是我们团队在大数据和数据挖掘领域研究的一个阶段性总结，有些思想、理论和方法属于我们一家之言，其愿望就是“抛砖引玉”。撰写一本好的书并不容易，尽管我们努力想奉献给读者一本满意的书，但难免仍有达不到读者各方面要求的内容。书中若有疏漏或错误之处，恳请读者多提宝贵意见，以便今后进一步修改与完善。

厦门大学数据挖掘研究中心