机器学习中不平衡类的5种策略
合成样本是上采样的近亲,有些人可能会将它们归类在一起。例如,SMOTE算法是一种从少数类中重新采样的方法,同时稍微调整特征值,从而创建“新的”样本。 2. 下采样多数类:下采样涉及从多数类中随机移除观测值,以防止其信号支配学习算法。 首先,我们将每个类的观察结果分成不同的DataFrame。 接下来,我们将重采样多数类而不进行替换,将样本数设置为与少数类相匹配。 ***,我们将下采样的多数类DataFrame与原始的少数类DataFrame结合起性能指标:AUROC(ROC曲线下面积) 假设我们有一个概率的二元分类器,如逻辑回归。 在呈现ROC曲线之前,必须理解混淆矩阵的概念。当我们进行二元预测时,可以有4种类型的结果:
为了获得混淆矩阵,我们回顾机器学习项模型所做的所有预测,并计算这4种结果中的每一种发生的次数:矩阵的例子中,在被分类的50个数据点中,45个被正确分类,5个被错误分类。 由于为了比较不同的模型,通常使用单个度量比使用多个度量更方便,所以我们从混淆矩阵中计算两个度量,然后将其合并为一个:
为了将FPR和TPR合并为一个度量,我们首先计算逻辑回归中具有许多不同阈值的前两个度量(例如0.00、0.01、0.02、……、1.000.00;0.01、0.02、……、1.00),然后将它们绘制在一个图上,横坐标上是FPR值,纵坐标上是TPR值。得到的曲线称为ROC曲线,我们考虑的度量是这条曲线的AUC,我们称之为AUROC。
下图以图形方式显示AUROC: (编辑:泉州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |