南开19秋《数据分析》课程期末复习资料

来源：奥鹏远程教育日期：2021-05-16 作者：奥鹏作业辅导

南开19秋《数据分析》课程期末复习资料满分答案

《数据分析》课程期末复习资料

《数据分析》课程讲稿章节目录：
第1章大数据分析概述
（1）什么是大数据
（2）大数据的特征和来源
（3）什么是大数据分析
（4）大数据分析的应用
（5）大数据分析的过程、技术与难点
第2章大数据分析模型
（1）大数据分析模型
（2）基本统计量
（3）统计机器学习
（4）统计学习方法分类
（5）统计学习方法三要素
（6）模型评估与模型选择
（7）正则化与交叉验证
第3章关联分析模型
（1）关联分析
（2）回归分析与相关分析
（3）关联规则分析
（4）Apriori算法
（5）FPgrowth算法
第4章分类分析模型
（1）分类分析
（2）k近邻法
（3）朴素贝叶斯
（4）逻辑斯谛回归
（5）支持向量机
（6）决策树(上)
（7）决策树(下)
第5章聚类分析模型
（1）聚类分析
（2）类间距离
（3）聚类分析的分类
（4）层次聚类
（5）K均值聚类
第6章大数据分析算法
（1）大数据分析算法
（2）大数据关联分析算法
（3）大数据分类算法
（4）大数据聚类算法
第7章文本分析
（1）文本分析模型
（2）文本话题分析
（3）潜在语义分析
（4）概率潜在语义分析
（5）潜在狄利克雷分配
第8章链接分析
（1）PageRank算法(上)
（2）PageRank算法(下)
（3）HITS算法
（4）链接作弊
第9章社交网络分析
（1）社交网络分析
（2）基于中介度的社团发现
（3）基于图划分的社团发现
第10章推荐系统
（1）推荐系统概述
（2）基于内容的推荐算法
（3）协同过滤推荐算法

一、客观部分：（单项选择、多项选择）
（一）、单项选择
1以下全表统计量中，不能反映数据集中趋势的是（）
A.均值
B.中位数
C.众数
D.极差

★考核知识点：基本统计量
参见讲稿章节：2.2
附1.1.1：（考核知识点解释）
根据反映出的数据特征可以将基本统计量分为两类：1. 反映数据集中趋势的和2. 反应数据波动大小的。
反映数据集中趋势的度量包括均值、中位数和众数。
能够反应数据散布情况的数据波动大小度量包括极差和方差（标准差）。

2.（   ）是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
A.监督学习
B.无监督学习
C.强化学习
D.主动学习

★考核知识点:统计学习方法分类
参考讲稿章节：2.4
附1.1.2（考核知识点解释）：
统计学习或机器学习一般包括监督学习(supervised learning)、无监督学习(unsupervised learning)、强化学习(reinforcement learning)。有时还包括半监督学习（semi-supervised）、主动学习(active learning)。
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。
无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。
强化学习(reinforcement learning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习(active learning)是指机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。

3.Apriori算法是一种（）算法
A.关联规则
B.聚类
C.分类
D.预测
★考核知识点：Apriori算法
参见讲稿章节：3.4
附1.1.3：（考核知识点解释）
Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。
为完成频繁项集挖掘，需对各项集的支持度进行计数，但在计数之前，需要完成各项集的生成工作。

4. 以下不能表达词在文本中的重要程度的是（）
A.布尔权重
B.词频权重
C.TF-IDF权重
D.向量余弦
★考核知识点：文本分析模型
参见讲稿章节：7.1
附1.1.4：（考核知识点解释）
最简单、最常用的文本表示方法是利用向量空间模型(vector space model, VSM)，也就是单词向量空间模型(word vector space model)来描述文本。
常用的表示词在文本中的重要程度的方法有：布尔权重、词频权重、TFIDF权重。
布尔权重是最简单的一种加权方式。布尔权重方法只在一定程度描述了文本的性质，即包含不包含哪些词，并没有体现出文本的全部信息，如词出现次数不同，其对文本的影响也应当不同等问题。
词频(Term Frequency, TF)权重的基本思想是词出现次数不同应当在该特征的权重中有所反映。
TF-IDF 是结合了 TF（词频）和 IDF（逆文本频率）对词在文本中的重要程度进行综合衡量。
文本之间的语义相似度可以用两个单词向量的的内积或标准化内积（余弦）表示。

（二）、多项选择

1.大数据的特征包括（   ）
A.体量大（Volume）
B.多样性（Variety）
C.速度快（Velocity）
D.价值高（Value）

★考核知识点:大数据的特征
参考讲稿章节：1.2
附1.2.1（考核知识点解释）：
目前在描述大数据特征时，一般是按照国际数据公司IDC所提的“4V”模型来刻画，即体量大（Volume）、多样性（Variety）、速度快（Velocity）、价值高（Value）。
1). 体量大（Volume）：数据量大是大数据的基本属性。数据规模的大小是用计算机存储容量的单位来计算的，数量的单位从TB级别跃升到PB级别、EB级别，甚至ZB级别。
2). 多样性（Variety）：大数据除了体量大外，另一个最重要的特征就是数据类型的多样化。即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3) 速度快（Velocity）：大数据环境中速度快有两层含义：一是数据产生速度快；二是要求数据分析处理速度快。
4) 价值高（Value）：大数据拥有大量有价值信息，通过提炼的信息，能够在更高的层面和视角，将在更大的范围帮助用户提高决策力，洞察未来创造出更大的价值和商机。

2. 按照数据结构分类，数据可分为（   ）
A.结构化数据
B.半结构化数据
C.非结构化数据
D.无结构数据

★考核知识点: 按照数据结构分，大数据的数据类型
参考讲稿章节：1.2
附1.2.2（考核知识点解释）：
大数据除了体量大外，另一个最重要的特征就是数据类型的多样化。即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
在早期，数据类型主要是以结构化数据为主，即传统的关系型数据，主要存储在关系数据库中。
随着互联网应用的深入，特别是社交网络、电子商务、传感器、智能设备的飞速发展，数据也变得更加复杂，出现了网页、web日志、博客、微博、图片、音频、视频、地理位置信息、电子邮件、文档等原始、半结构化、非结构化数据。
其中，视频等非数据占很大比例，有数据表明，到2016年，全部互联网流量中，视频数据达到55％，大数据中90％都是非结构化数据。P
并且，大数据不仅仅在形式上多元化，其信息来源、维度也表现出多样性。

3. 根据数据分析深度，可将数据分析分为（   ）
A. 关联性分析
B. 预测性分析
C. 规则性分析
D. 描述性分析

★考核知识点：根据数据分析深度，数据分析的类型
参见讲稿章节： 1.3
附1.2.3：（考核知识点解释）
根据数据分析深度，可将数据分析分为3个层次：描述性分析(Descriptive Analysis)，预测性分析（Predictive Analysis）和规则性分析（Prescriptive Analysis）。
1描述性分析基于历史数据来描述发生的事件。
例如，利用回归分析从数据集中发现简单的趋势，并借助可视化技术来更好地表示数据特征。
2预测性分析用于预测未来事件发生的概率和演化趋势。
例如，预测性模型使用对数回归和线性回归等统计技术发现数据趋势并预测未来的输出结果。
3规则性分析用于解决决策制定和提高分析效率。
例如，利用仿真来分析复杂系统以了解系统行为并发现问题，并通过优化技术在给定约束条件下给出最优解决方案。

4. 根据数据分析的实时性，可将数据分析分为（   ）
A. 实时数据分析
B. 预测性分析
C. 规则性分析
D. 离线数据分析

★考核知识点：按照数据分析的实时性，数据分析的类型
参见讲稿章节： 1.3
附1.2.4：（考核知识点解释）
按照数据分析的实时性，一般将数据分析分为实时数据分析和离线数据分析。
实时数据分析也称在线数据分析，能够实时处理用户的请求。
离线数据分析通过数据采集工具将日志数据导入专用分析平台进行分析，非实时处理数据。

5. 下列哪些方法是分类算法（   ）
A. 决策树
B. Apriori
C. 逻辑斯谛回归
D. 支持向量机

★考核知识点: 分类分析
参考讲稿章节：4.1
附1.2.5（考核知识点解释）：
许多统计学习方法可以用于分类，包括k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、支持向量机、随机森林等等。

6. 聚合聚类需要预先确定以下（）要素
A.距离或相似度
B.合并规则
C.分裂规则
D.停止条件

★考核知识点：层次聚类
参见讲稿章节：5.4
附1.2.6：（考核知识点解释）
聚合聚类需要预先确定下面三个要素：
(1)距离或相似度：
（2）合并规则；
（3）停止条件。
根据这些要素的不同组合，就可以构成不同的聚类方法。
距离或相似度可以是闵可夫斯基距离、马哈拉诺比斯距离、相关系数、夹角余弦。
合并规则一般是类间距离最小，类间距离可以是最短距离、最长距离、中心距离、平均距离。
停止条件可以是类的个数达到阈值（极端情况类的个数是1)、类的直径超过阈值。

7. 在垃圾农场中，整个Web分成（）
A.不可达网页
B.可达网页
C.导航网页
D.自有网页

★考核知识点: 链接作弊
参考讲稿章节：8.4
附1.2.7（考核知识点解释）：
为提高某个或某些特定网页 PageRank 值而构建的一系列网页称为垃圾农场(spam farm)或链接农场（link farm）。
右图中给出了垃圾农场的简单形式，按照作弊者的观点，整个Web分成三部分：不可达网页、可达网页和自有网页。
1）不可达网页：作弊者无法影响的网页，Web 中大部分网页属于不可达网页
2）可达网页：这些网页虽不受作弊者控制，但是作弊者可影响它们。例如：作弊者通常选择博客、报纸或论坛等网页作为可达网页。虽然作弊者不能控制这类网页，但可通过留言等方式在可达网页中嵌入自有网页的网址。
3）自有网页：作弊者拥有并完全控制的网页

垃圾农场由作弊者的自有网页和一些从可达网页指向他们的链接共同组成。由于没有外部指入的链接，垃圾农场就不可能能被搜索引擎采集，因而毫无价值。

南开19秋《数据分析》课程期末复习资料多选题答案

二、主观部分：
（一）、名词解释
1. 统计学习
★考核知识点: 统计机器学习
参考讲稿章节：2.3
附2.1.1（考核知识点解释）：
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

2.过拟合
★考核知识点: 模型评估与模型选择
参考讲稿章节：2.6
附2.1.2（考核知识点解释）：
如果一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高．这种现象称为过拟合(over-fitting).
过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一模型对己知数据预测得很好，但对未知数据预测得很差的现象。

3.回归分析
★考核知识点:回归分析
参考讲稿章节：3.2
附2.1.3（考核知识点解释）：
回归分析方法是在众多的相关变量中，根据实际问题考察其中一个或多个变量（因变量）与其余变量（自变量）的依赖关系。

4. 分类分析
★考核知识点: 分类分析
参考讲稿章节：4.1
附2.1.4（考核知识点解释）：
分类分析是指在已知研究对象已经分为若干类的情况下，确定新的对象属于哪一类。
5. 聚类分析
★考核知识点: 聚类分析
参考讲稿章节：5.1
附2.1.5（考核知识点解释）：
聚类分析（Cluster analysis）简称聚类（Clustering），是针对给定的样本，依据它们特征的相似度或距离，将其归并到若干个“类”或“簇”( cluster)的数据分析问题。一个类是样本的一个子集。直观地，相似的样本聚集在相同的类，不相似的样本分散在不同的类。

6. 类的直径
★考核知识点：类的特征
参见讲稿章节：5.2
附2.1.6：（考核知识点解释）
类的直径(diameter) DG 是类中任意两个样本之间的最大距离。

7.链接分析
★考核知识点：链接分析
参见讲稿章节： 8.1
附2.1.7：（考核知识点解释）
链接分析(link analysis)是对网络链接的自身属性、链接对象、链接网络等各种现象进行分析，以便揭示其数量特征和内在规律的一种研究方法。

8.网页权威性
★考核知识点：HITS算法
参见讲稿章节： 8.3
附2.1.8：（考核知识点解释）
网页权威性反映了网页本身质量的好坏，如果该网页的内容很好，则它的权威性就可能很高。

9. 网页导航性
★考核知识点：HITS算法
参见讲稿章节： 8.3
附2.1.8：（考核知识点解释）
网页导航性反映了网页作为路由的好坏，如果该网页所指向的很多网页的质量都很高，那么该网页本身的导航性就可能很高。

10.链接作弊
★考核知识点：链接作弊
参见讲稿章节：8.4
附2.1.10：（考核知识点解释）
人工创建链接结构来增加网页 PageRank 值的方法称作链接作弊(link spam) 。

11. 中介度
★考核知识点：中介度
参见讲稿章节： 9.2
附2.1.11：（考核知识点解释）
一条边(a,b)的中介度定义为节点对(x,y)的数目，其中(a,b)处于x和y的最短路径上。如果(a,b)的中介度高，那么意味着它处于两个社团之间。

（二）、简答
1.人类社会的数据产生方式经历了哪些阶段？简述各阶段的特点。

★考核知识点:数据产生方式变革、大数据的数据来源
参见讲稿章节：1.2
附2.2.1（考核知识点解释）：
人类历史上从未有哪个时代和今天一样产生如此海量的数据，人类社会的数据产生方式大致经历了3个阶段：运营式系统、用户原创内容阶段、感知式系统阶段。
（1）运营式系统：
数据库的出现使得数据管理的复杂度大大降低，实际中数据库大都为运营系统所采用，作为运营系统的数据管理子系统，如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始，这些数据规范、有秩序、强调数据的一致性，且这些数据的产生方式是被动的。
（2）用户原创内容阶段：
互联网的诞生促使人类社会数据量出现第二次大的飞跃，但真正的数据爆发产生于Web2.0时代，其重要标志就是用户原创内容。以博客、微博为代表的新型社交网络的出现和快速发展，使得用户产生数据的意愿更加强烈；新型移动设备出现，易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷
数据结构复杂，无秩序，不强调数据的一致性或只强调弱一致性，这些数据的产生方式是主动的。
（3）感知式系统：
人类社会数据量第三次大的飞跃最终导致了大数据的产生，这次飞跃的根本原因在于感知式系统的广泛使用。微小带着处理功能的传感器设备广泛布置于社会的各个角落，通过这些设备对整个社会的运转进行监控，这些设备会源源不断地产生新数据，这些数据的产生方式是自动的，数据呈现多源异构、分布广泛、动态演化等。
简单来说，数据产生经历了被动、主动和自动三个阶段，这些被动、主动和自动的数据共同构成了大数据的数据来源。

本文标签：南开数据分析课程期末复习资料

南开19秋《数据分析》课程期末复习资料

热门文章

东师英语写作（一）18秋在线作业2答案

[奥鹏]中国医科大学2022年7月《药物代谢动力学》作业考核试题

[奥鹏]川农《大学英语（本科）》22年6月课程考核[正确答案]

[奥鹏]福建师范大学2022年8月课程考试《小学课程与教学论》作业

东农23春《房屋建筑学》离线作业[正确答案]

江苏开放大学《文学概论》形成性作业124春[正确答案]

猜你喜欢

[奥鹏]东大21年秋学期《电子商务》在线平时作业1【满分答案】

大工21春《机械基础实验（二）》实验报告及要求[正确答案]奥鹏

东大21年6月考试《国际贸易（二）X》考核作业[正确答案]作业答

东师税法20春在线作业1[答案]

云开中国近现代史纲要（20春）形考作业5[答案]

东师发展心理学20春在线作业1[答案]