机器学习(Machine Learning)是人工智能的核心研究领域之一,并取得了广泛的应用效果,是引领这一轮“人工智能热潮”的关键技术支撑。《机器学习初步》课程覆盖机器学习的入门基石内容,课程主讲人周志华教授是领域内学者,所著《机器学习》(网友昵称为“西瓜书”)正是本课程的教材。本课程的教学目标是使学生对机器学习有初步的认识,初步掌握机器学习的基本原理和方法,并初步形成利用机器学习技术解决问题的思维方式。
南京大学机器学习初步(2022秋)作业题答案
开课机构:南京大学 教师团队:周志华 总点击数:
绪论
- 机器学习的经典定义是:利用()改善系统自身的性能。 A经验 B专家 C规则 D实践…
- 随着机器学习领域的发展,目前主要研究以下哪个领域的理论和方法? A汇编语言 B程序设计 C硬件 D智能…
- 机器学习利用经验,必须对以下哪个选项进行分析? A天气 B数据 C生活 D语言…
- 课程视频的西瓜数据集中,“好瓜、坏瓜”是一个西瓜样例的什么? 属性 类别标记 没有意义 数…
- 对于要预测的新的数据样本,它的类别标记是? A已知的 B未知的 C都可以 D负类…
- 机器学习的模型,____(是/不是)从数据中产生的。
- 计算学习理论中最重要的理论模型是? A计算模型 B数据模型 C机器学习 DPAC…
- 以下哪个是对概率近似正确(PAC)的正确解释? A以很低概率得到不好的模型 B以很低概率得到很好的模型 …
- 机器学习____(有/没有)坚实的理论基础。
- 课程视频中,训练数据中的“色泽”是什么? A属性 B属性值 C类别标记 D样本…
- 以下哪个选项指的是机器学习中的假设(hypothesis)? A属性 B标记 C数据 D学到的模型…
- 多分类问题____(可以/不可以)分解为若干个二分类问题。
- 归纳偏好指机器学习算法在学习过程中,对以下哪个选项的偏好? A 数据 B 某种类型假设 C 标记 D 运行…
- 以下哪个选项是指“奥卡姆剃刀”原则? A若有多个假设与观察一致,则随机选一个 B若有多个假设与观察…
- 利用“奥卡姆剃刀”原则时,确定哪个假设更“简单”,这个问题____(是/不是)简单的。…
- 以下哪种说法描述了NFL定理? A一个算法a若在某些问题上比另一个算法b好,必存在另一些问题没算法b好…
- 以下哪个选项是NFL定理的重要前提? A所有“问题”难度不同 B所有“问题”出现的机会服从任意分布 …
- 脱离具体问题,空泛地谈论“什么学习算法更好”____(有/没有)意义。…
模型评估与选择
- 下面哪一项可以作为模型好的标准? A错误率低 B精度高 C召回率高 D上述指标都可以,但视具体任务和使…
- 我们希望模型在未见样本上表现好,这一能力通常被称作模型的什么能力? A泛化能力 B建模能力 C学习能…
- 在评价模型性能时,我们更希望它____(泛化能力强/训练误差为0)
- 模型在“未来”样本上的误差被称作 A泛化误差 B经验误差 C学习误差 D训练误差…
- 有的情况下,模型学习到了训练数据满足的特有性质,但这些性质不是一般规律,这种现象被称之为 A欠拟合…
- 在训练模型时,只需要保证模型的训练误差最小即可。____(是/否)
- 模型选择有哪些关键问题? A评估方法 B性能度量 C比较检验 D以上三个选项都是关键问题…
- 为了说明模型在统计意义上表现好,我们最需要考虑 A评估方法 B性能度量 C比较检验 D以上三个选项都…
- 在没有“未来数据”的情况下,我们____(能/不能)通过训练集对泛化误差进行估计。…
- 下列什么方法可以用来获得从原始数据集中划分出“测试集”? A留出法 B交叉验证法 C自助法 D以…
- 下面哪一项不是留出法的注意事项? A需要保持训练集和测试集数据分布的一致性 B只需要进行一次划分…
- 训练集与测试集____(应该互斥/可以不互斥)
- 调参以什么集合上的性能作为评价标准? A训练集 B测试集 C验证集 D以上选项都可以…
- 当我们使用一个多项式函数去逼近数据集时,下面哪一个说法是正确的? A多项式的次数是超参数 B多项式…
- 超参数一般由____(人工/学习)确定。
- “好”模型取决于下列哪些因素? A算法 B数据 C任务需求 D以上选项都是…
- 收购西瓜的公司希望把瓜摊的好瓜都尽量收走,请问他的评价标准是? A错误率 B精度 C查准率 D查全率…
- 回归任务的性能度量之一均方误差 添加系数后 会影响判断哪个模型是最好的。…
- 以下什么检验是基于列联表的? A交叉验证t检验 BMcNemar检验 C以上检验都是基于列联表的 D以上检验…
- 下面关于交叉验证t检验错误的是? A适用于模型采用k折交叉验证的评估方法 B基于成对t检验 C无法…
- 两种算法在某种度量下取得评估结果后,可以直接比较以评价优劣。____(是/否)…
线性模型
- 以下哪个不是线性模型的优势? A简单 B复杂 C基本 D可理解性好
- 示例的属性可以属于下列哪个类别? A无序的离散属性 B连续属性 C有序的离散属性 D以上都对…
- 一卖伞商家想利用天气来预测销售额,已知他只考虑温度、湿度、降雨量三种天气特征。若商家使用线性…
- 最小二乘参数估计得到的线性回归模型满足什么性质? A均方误差为0 B均方误差最大 C均方误差最小 D…
- 最小二乘法的求解步骤是什么? (1) 均方误差对w与b求偏导;(2) 令偏导为0;(3) 求解线性方程组。 …
- 基于均方误差最小化来进行模型求解的方法称为____(5个字)。
- 为了书写的简化,多元线性回归会使用下列哪种记号? A将 与 合并为一个向量,在 的最后增加…
- 当下列哪个条件满足时,多元线性回归的最小二乘解唯一? A 不满秩 B 满秩 C 满秩 D …
- 当 不满秩时,多元线性回归需要引入____(regularization)。
- 被称为什么模型? A线性指数回归 B线性对数回归 C指数线性回归 D对数线性回归…
- 对数线性回归是令广义线性模型中的联系函数为什么函数的特例? A指数函数 B对数函数 C二次函数 …
- 广义线性模型的一般形式为 ,其中 被称为____(link function)。
- 单位阶跃函数的缺点是什么? A不连续且不可微 B单调增 C非负 D最大值为1…
- 对数几率函数作为单位阶跃函数的替代函数的优点是什么? A具有中心对称性 B严格大于0 C单调且任意…
- 反映了 作为正例的相对可能性,这个量在统计学中被称为____。
- 对数几率回归为什么不能通过令偏导为0求解? A均方损失函数太复杂 B均方损失非凸 C均方损失没有…
- 下列关于梯度下降法描述错误的是? A可以用于求解对数几率回归 B是一种迭代求解的方法 C可以比较好…
- 极大似然法最大化____函数。
- 类别不平衡问题中何时需要做特殊处理? A大类比小类重要 B小类和大类一样重要 C小类比大类重要 D任…
- 以下哪种方法不是常见的类别不平衡学习方法? A最小二乘法 B过采样 C欠采样 D阈值移动…
- 处理类别不平衡问题时,通过丢掉一部分大类样本使得训练集平衡的方法被称为____ (3个字)。…
决策树
- 下列选项哪个是决策树的预测过程? A将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测…
- 决策树学习的策略是什么? A分而治之 B集成 C聚类 D排序
- 决策树训练时,若当前结点包含的样本全属于同一类别,则____(需要/无需)划分…
- 信息熵是度量样本集合 [填空1] 最常用的一种指标 A纯度 B对称差 C大小D 重要性…
- 以下哪个选项是信息增益的定义? A划分前的信息熵-划分后的信息熵 B划分后的信息熵-划分前的信息…
- 在二分类任务中,若当前样本集合的正类和负类的数量刚好各一半,此时信息熵为____(保留一位小数)…
- 下列说法错误的是() ACART算法在候选属性集合中选取使划分后基尼指数最大的属性 B划分选择的各种准…
- 增益率的表达式是Gain_ratio(D,a)=() AGain(D,a)+IV(a) BGain(D,a)-IV(a) CGain(D,a)*IV(a) DG…
- 对视频中出现的西瓜数据集2.0(《机器学习》教材第76页),划分前的信息熵为0.998,若使用编号属性进行划…
- 剪枝是决策树学习算法对付什么现象的主要手段? A标记噪声 B数据少 C过拟合 D欠拟合…
- 提前终止某些分支的生长,这个策略的名称是什么? A预剪枝 B后剪枝 C不剪枝 D随机剪枝…
- 决策树剪枝的基本策略有“____”和“后剪枝”
- 决策树算法一般是如何对缺失属性进行处理的? A仅使用无缺失的样例 B对缺失值进行随机填充 C用其他…
- 决策树处理缺失值的基本思路是“样本赋权,权重划分”,其中“权重划分”指的是以下哪个选项? A给定划…
- 决策树处理有缺失值的样本时,仅通过____(有/无)缺失值的样例来判断划分属性的优劣…
支持向量机
- 对于线性可分的二分类任务样本集,将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的…
- 下面关于支持向量机的说法错误的是? A支持向量机基本型是一个凸二次规划问题 B将训练样本分开的…
- 两个异类支持向量到超平面的距离之和称之为____(两个字)
- 下面哪一项不是支持向量机基本型得到对偶问题的求解步骤 A 引入拉格朗日乘子得到拉格朗日函数 B …
- 下面关于支持向量机对偶问题的说法错误的是 A对偶问题需要满足KKT条件 B通过对偶问题推导出的模…
- 通过____可以得到支持向量机的对偶问题。(7个字,优化算法)
- 下面关于SMO算法说法正确的是 A是一个迭代更新的算法 B先选取KKT条件违背程度最大的变量 C当变量…
- 在求解支持向量机截距项的时候错误的说法是 A通过任意支持向量都能够求解出截距项 B为了提高鲁棒…
- 在使用SMO方法优化支持向量机的对偶问题时,每次需要选择几个变量并固定其他变量不变。 ____(只需填…
- 如果不存在一个能正确划分两类样本的超平面,应该怎么办? A将样本从原始空间映射到一个更高维的特征…
- 将样本映射到高维空间后,支持向量机问题的表达式为
- 如果原始空间是有限维(属性数有限),那么____(一定/不一定)存在一个高维特征空间使样本线性可分。…
- 关于核函数的说法,正确的是 A能绕过显式考虑特征映射 B能够缓解计算高维内积的困难 C能够直接…
- 若一个对称函数对于任意数据所对应的核矩阵_,则它就能作为核函数来使用 A正定 B半正定 C负定 …
- 任何一个核函数,都隐式地定义了一个____(九个字)
- 对于ϵ-不敏感损失函数,说法正确的是 A当自变量的绝对值小于ϵ时,没有惩罚 B当自变量的绝对值…
- 下面关于支持向量回归,说法错误的是 A间隔带两侧的松弛程度可有所不同 B支持向量回归一般要求损失…
- 对于2-不敏感损失,当自变量取值为10时,损失为____(保留整数)
神经网络
- 神经网络模型的两个最重要的要素是什么? A网络结构、激活函数 B网络结构、神经元模型 C激活函…
- 以下哪个名称不是activation function的翻译? A响应函数 B挤压函数 C激活函数 D损失函数…
- 目前神经网络最常用的网络结构是下列哪个选项? A单层后向网络 B多层后向网络 C单层前馈网络 D多层…
- 下列哪个选项是神经网络万有逼近的正确表述? A仅需一个包含足够多神经元的隐层,多层前馈神经网络…
- 下列哪个模型不具备万有逼近性? A线性模型 B泰勒展开 C傅里叶变换 D决策树…
- 多层前馈网络具有的强大表示能力称为神经网络的____性 (4个字)。
- 下列关于BP算法的描述哪个是错误的? ABP算法适用于平方损失等许多常用损失函数 BBP算法是迄今最成…
- BP算法的每一轮采用的是什么学习规则? A广义感知机学习规则 B广义最小二乘学习规则 C广义决策…
- BP算法的全称为____(7个字)。
贝叶斯分类器
- 下列说法正确的是() A贝叶斯决策论是概率框架下实施决策的基本理论 B表示把样本 x 分到第 i 类面…
- 以下哪个选项是对贝叶斯最优分类器的描述? A对每个样本 x 选择能使后验概率最大的类别标记 B对…
- 反映了分类器所能达到的最____(好/坏)性能
- 决策树属于什么模型? A判别式 B生成式 C判别式和生成式 D以上都不对…
- 先对联合概率分布建模 P(x, c) ,再由此获得 P(c|x) ,属于什么模型? A判别式 B生成式 C回归 D以…
- 机器学习估计后验概率分为两种基本策略,____式模型和生成式模型
- 贝叶斯主义认为,分布的参数是什么? A点 B分布 C点同时也是分布 D以上都不对…
- 统计学习属于什么主义? A频率主义 B贝叶斯主义 C两者都是 D两者都不是…
- 贝叶斯学习____(等于/不等于)贝叶斯分类器
- 极大似然中,若直接连乘,易造成什么现象? A下溢 B上溢 C内存不足 D计算开销大…
- 对数似然中,一般对概率取对数,然后进行以下哪个的操作? A求差 B求和 C求积 D以上都不是…
- 极大似然估计____(需要/不需要)假设某种概率分布形式
- 贝叶斯公式中,估计后验概率 P(c|x) 的主要困难在于估计以下哪个选项? Ap(c) Bp(x|c) C以上两者…
- 朴素贝叶斯分类器中,对给定类别,模型对所有属性间的独立性有何种假设? A部分不独立 B部分独立 C…
- 对____(离散/连续)属性,计算条件概率132132131231312312312.png可考虑概率密度函数…
集成学习和聚类
- 下列关于集成学习描述错误的是哪个? A集成学习只能使用若干个相同类型的学习器 B集成学习使用多…
- 下列哪些学习器可以作为集成学习中的学习器? A支持向量机 B决策树 C神经网络 D其他选项都可以…
- 由若干个相同类型的学习器构成的集成学习被称为____ (同质/异质) 集成学习。…
- 下列哪个关于集成学习的描述是正确的? A集成学习一定能取得比最好的个体学习器更好的性能 B集成…
- 下列哪个选项不是集成学习在分类任务中取得好性能的要求? A个体学习器犯错的样本较为分散 B个体…
- 误差-分歧分解表明集成学习中____(3个字) 是关键。
- 下列哪个算法不是序列化集成学习方法? AXGBoost BRandom Forest CAdaBoost DLPBoost…
- 下列哪个算法不是并行化集成学习方法? AGradientBoost BBagging CRandom Forest DRandom Subs…
- 集成学习中,后一个个体依赖于前一个个体的方法称为____(3个字) 方法。…
- 下列关于Boosting算法的说法中错误的是哪个? ABoosting算法适用于分类、回归、排序等机器学习问…
- 下列关于Boosting算法中样本权重调整的说法中错误的是哪个? A所有样本的权重和保持不变 B前一个…
- Boosting是一种____ (同质/异质) 集成学习方法。
- 下列关于Bagging算法中采样的描述哪个是错误的? A可以使用Bootstrap采样 B每个样本在每个基学习…
- 下列关于Bagging算法描述中错误的是哪个? ABagging算法中每个基学习器使用相同的数据集 B分类任…
- Bagging算法使用的采样方法是____(有/无) 放回采样。
- 下列哪个选项是一种多样性度量? AQ-统计量 B不合度量 C相关系数 D其余选项都是…
- 下列关于多样性的描述中错误的是哪个? A多样性度量中可以考虑模型的结构差异 B多样性的定义是集…
- ____(3个字) 是集成学习的关键。
- 下面哪一项属于聚类的作用? A寻找数据内在的分布结构 B作为其他学习任务的前驱过程 C帮助寻找…
- 下面哪一项机器学习任务不属于无监督学习? A分类 B聚类 C密度估计 D主成分分析…
- 聚类问题与下列哪一项监督学习任务更加相近?____(分类/回归)
- k均值聚类属于下列哪一种聚类算法? A原型聚类 B密度聚类 C层次聚类 D以上都是…
- 为了得到树形的聚类结构,应该使用下列哪一种聚类算法? A原型聚类 B密度聚类 C层次聚类 D以上都…
- 聚类好坏____(存在/不存在)绝对标准