答:有预剪枝和后剪枝两种方法。预剪枝是指在决策树生成过程中面对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分并将当前节点作为叶节点。后剪枝是先从训练集生成一颗完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。
答:我认为可能存在以下问题:
答:首先根据决策树的定义和构造方式,构造决策树从根节点开始,递归地选择最优属性进行划分,直到满足以下任一条件为止:
在题目的假设中,由于不含有冲突数据,因此不存在任何两个样本在所有属性上都相同而类别标签不同。这意味着总是可以通过足够细致的划分,将每个叶节点对应到一组具有相同特征向量且标记相同的样本集合。
此外,由于不存在冲突数据,因此此过程可以重复进行直到到每个叶节点的样本都具有相同的类别标签。通过这种方法,能够保证每个叶节点都精确地对应于具有相同特征向量和相同标记的样本集合,从而实现训练误差为 0
优点:
缺点:
解:以下⼏种情况
解:梯度下降法确实能够找到局部某点上下降最快的⽅向,但是不代表全局最优的⽅向。
解:逻辑回归确实是监督机器学习的算法,但是其本质是分类任务⽽不是回归。对特征进⾏标准化(或归⼀化)不是必须的,但这样做通常是推荐的做法,特别是当特征的量级相差很⼤时。
因为 OvR 或者 MvM 在输出结果阶段,是对各个⼆分类器的结果进⾏汇总,汇总的这个过程就会消除不平衡带来的影响(因为总和总是1)。
朴素贝叶斯分类器通常具有低方差和高偏差的特点,而 Bagging 主要关注降低方差,在易受样本扰动的学习器上效果明显。因此效果不好。
Bagging 假设基分类器之间应该是相互独立的,但朴素贝叶斯分类器的基本假设是属性之间的独立性。
Bagging 通常适用于样本容量较大的情况,但在小样本情况下,由于每个子数据集的训练样本数量有限,可能会导致基分类器之间的差异性不足以产生有效的模型多样性,进而限制了 Bagging 的效果。