当前位置:首页 > 机器学习练习题与答案
类的概率信息,在一线互联网公司中广泛的使用,比如应用于CTR预估这样的问题中。这里我们不详细说明其原理,后续课程会讲到。很多人对它的名字会产生疑问,挂着“回归”的头,卖的是“分类”的肉,别扭的慌。
其实我们不用纠结它到底是“回归”,还是“分类”,非得二选一。可以参考一下百度百科 关于“logistic回归”的词条 其中举了一个富士康员工“自杀的日期”与“累计自杀人数”之间关系的例子,并通过logistic回归分析来拟合出一条曲线。这说明logistic回归本身也有一定的解决“回归”问题的能力,只是工业界都用它来解决分类问题。
4. 背景同上题。请判断
4)对回归问题和分类问题的评价 最常用的指标都是 准确率和召回率 [单选题] [必答题]
○ ○
对 错
答案:错
解析:本题有四个同学选错。这道题的用意 是提醒大家注意,对回归问题的评价指标通常并不是准确率和召回率,从“房价与房屋面积之间关系预测”这个例子来说,一个已知数据点离预测的曲线之间的距离是多少时能够判定为“准确”,距离为多少时判定为“不准确”?没办法区别。准确率对于度量回归问题的效果其实并不适用。回归问题的误差一般通过“误差”来评估,比如RMSE等。在滴滴大数据竞赛中 用的是这样的一个指标
很显然不是用的“准确率”来评定。
5. 背景同上题。请判断
5)输出变量为有限个离散变量的预测问题是回归问题;
输出变量为连续变量的预测问题是分类问题; [单选题] [必答题]
○ ○
对 错
答案:错 解析:说反了
6. 向量x=[1,2,3,4,-9,0]的L1范数是多少 [单选题] [必答题]
○ ○ ○ ○
1 19 6 sqrt(111)
答案:19
解析:这题错了三个同学,其实很简单。请记住: L0范数是指向量中非0的元素的个数。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
L2范数是指向量各元素的平方和然后求平方根。
7. 小明参加某公司的大数据竞赛,他的成绩在大赛排行榜上原本居于前二十,后来他保持特征不变,对原来的模型做了1天的调参,将自己的模型在自己本地测试集上的准确率提升了5%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。对此,他的朋友们展开了讨论,请将说法正确的选项打勾(不定项选择题) [多选题] [必答题]
□ □ □ □
小芳:从机器学习理论的角度,这样的情况不应该发生,快去找大赛组委会反应 小刚:你这个有可能是由于过拟合导致的
小月:早就和你说过了,乖乖使用默认的参数就好了,调参是不可能有收益的 小平:你可以考虑一下,使用交叉验证来验证一下是否发生了过拟合
答案:选择第二项、第四项
解析:大家都同意第二项,是过拟合导致的。设置第四项的目的,是提醒大家,交叉验证可以用于防止模型过于复杂而引起的过拟合。具体什么是交叉验证,请期待后续课程。
8. 关于L1正则和L2正则 下面的说法正确的是 [多选题] [必答题]
□ □ □ □
L2范数可以防止过拟合,提升模型的泛化能力。但L1正则做不到这一点 L2正则化标识各个参数的平方的和的开方值。 L2正则化有个名称叫“Lasso regularization” L1范数会使权值稀疏
答案:第二项、第四项
解析:同第6题
9. 判断这个说法对不对:给定 n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着 n的增加而减小 [单选题] [必答题]
○ ○
对 错
答案:对
解析:训练数据越多,拟合度越好,训练误差和测试误差距离自然越小 八卦:亲们,这道题曾经出现在《百度2016研发工程师笔试题》。 咱们有四个同学做错。
10. Consider a problem of building an online image advertisement system that shows the users the most relevant images. What features can you choose to use? [单选题] [必答题]
○ ○ ○ ○
concrete, abstract concrete, raw, abstract concrete, raw concrete
答案:B
解析:本题源于林轩田《机器学习基石》课件,给在线图片广告系统挑选特征。 concrete user features,
raw image features,and maybe abstract user/image IDs
大致理解一下 特征的几种类型,请做错的同学去看一下林轩田老师的视频
11. 【附加题】考虑回归一个正则化回归问题。在下图中给出了惩罚函数为二次正则函数,当正则化参数C取不同值时,在训练集和测试集上的log似然(mean log-probability)。请判断这个说法是否正确:随着C的增加,图中训练集上的log似然永远不会增加 [单选题] [必答题]
○ ○
对 错
答案:对
共分享92篇相关文档