云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 机器学习练习题与答案

机器学习练习题与答案

  • 62 次阅读
  • 3 次下载
  • 2025/5/29 3:07:52

《机器学习》练习题与解答

1. 小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。 1)回归和分类都是有监督学习问题 [单选题] [必答题] ○ 对 ○ 错

参考答案:对。

解析:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数据集中推断出函数的机器学习任务。 有监督学习和无监督学习的区别是:

机器学习算法的图谱如下:

在回归问题中,标签是连续值;在分类问题中,标签是离散值。具体差别请看周志华《机器学习》书中的例子,一看便懂:

2. 背景同上题。请判断

2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]

○ ○

对 错

答案:对

解析:这题有两个同学做错。过拟合的英文名称是 Over-fitting(过拟合)。为了说清楚“过”拟合,首先说一下“拟合” 【拟合的几何意义】:

从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。一个直观的例子,是下面的电阻和温度的例子。

我们知道 在物理学中,电阻和温度是线性的关系,也就是R=at+b。现在我们有一系列关于“温度”和“电阻”的测量值。一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。

拟合的数学意义:

在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。

【说说过拟合】

古人云“过犹不及”。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟合的很不错,但是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔给它一系列新的没学习过的数据,它判断的非常差!比如古时候有个教书先生教小明写数字,“一”字是一横,“二”字是两横,“三”字是三横。然后,小明说,老师你不用教我写数字了,我都会写。老师很惊讶,那你说“万”字怎么写,结果小明在纸上写下了无数个“横”。。 用台湾大学林轩田老师的话说,过拟合是“书呆子”,“钻牛角尖”。如果用过于复杂的模型来刻画简单的问题,就有可能得到“聪明过头”的结果。比如下面预测房子的价格(price)和size之间关系的问题(来源于andrew ng的ppt)

通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和size之间是二次函数的关系,也就是中间这幅图所拟合的情况。而右边这幅图中,自作聪明地用了一个四次函数来拟和这五组数据,虽然在已知的五个数据上都是100%准确,却得出了“当房子的size大于某个值时 房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这样的是过拟合。左边这个用一条直线来拟合 但是拟合的误差很大 也不置信,这叫“欠拟合”。 在周志华老师的书中,举的例子是这样的:

发现了没有?周志华老师用的是“是不是树叶”这样的分类问题举例,andrew ng用的是“房价和房屋面积的关系”这样的回归问题举例。这说明,分类和回归都有可能过拟合。

3. 背景同上题。请判断

3) 一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic 回归可以用来解决0/1分类问题 [单选题] [必答题]

○ ○

对 错

答案:对

解析:Logistic回归是一种非常高效的分类器。它不仅可以预测样本的类别,还可以计算出分

搜索更多关于: 机器学习练习题与答案 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

《机器学习》练习题与解答 1. 小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。 1)回归和分类都是有监督学习问题 [单选题] [必答题] ○ 对 ○ 错 参考答案:对。 解析:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数据集中推断出函数的机器学习任务。 有监督学习和无监督学习的区别是: 机器学习算法的图谱如下: 在回归问题中,标签是连续值;在分类问题中,标签是离散值。具体差别请看周志华《机器学习》书中的例子,一看便懂: 2. 背景同上题。请判断 2)回归问题和

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com