求职刷题神器

funit.cn

讨论区 > 技术交流 > 机器学习特征重要程度问题

机器学习特征重要程度问题

第一顺位
发布于2020-12-25 14:32:09 292浏览

目前在用机器学习算法解决一个多分类问题,手动提的特征,20多维。有两个类别总是被错误分类成对方,尝试了随机森林、KNN、决策树、XGBoost都是一样的效果。输出特征重要程度feature_importances,发现有一维特征,我认为应该是这两类最关键的区分特征,但是特征重要性却很低,请问这是什么原因?能用什么方法干预吗,比如手动调整特征权重?

求大佬指点


补充:


本文首次发布于趣IT ,转载请注明出处,谢谢合作

机器学习特征重要程度问题

全部评论5
  1. 山高云阔 2020-12-25 14:34:55
    可能这个特征虽然能区分这两个分类,但对其他分类样本作用不大。你目前auc 多少?,几个分类?
    0 全部回复(1) 举报
    • 第一顺位 2020-12-25 14:35:31
      总共5类,分类结果和roc曲线如下: 我有试过单独分这两类,结果还是有很多分错的
      0 举报
  2. 山高云阔 2020-12-25 14:37:39
    单独把这两个类拿出来作为正负样本,看下各个特征再正负样本里的分布,理论上分布相差(类似信息熵)最大的应该就是重要特征。你说的这个特征如果很能区分这两类特征,那你单独分这两个的时候,他就应该很重要
    0 全部回复(1) 举报
    • 第一顺位 2020-12-25 14:38:00
      我试过单独分这两类了,分类效果跟上面差不多,这个特征的重要性也很低。请问有方法能手动调特征权重吗?
      0 举报
  3. 山高云阔 2020-12-25 14:38:28
    你看下特征在这两个类上的分布,手动调,只能从数据上入手,让数据的分布更有区分度,就是需要手动改一部分训练数据
    0 全部回复(1) 举报
    • 第一顺位 2020-12-25 14:38:48
      再请问一下,怎么看特征在两个类上的分布啊,我没有搜到相关内容。我是用sklearn模块的,有这样的函数吗?
      0 举报
  4. 山高云阔 2020-12-25 14:39:13
    就是特征值这两个类的占比。比如特征值等于1 ,a类占比多少,b类占比多少 。这两个占比区分度越大,对目标值越有可能高权值
    0 全部回复(1) 举报
    • 第一顺位 2020-12-25 14:39:32
      通过你说的方法我发现问题所在了,现在分类效果很好了,非常感谢,采纳啦~
      0 举报
  5. 妄饮晩冬酒 2021-03-25 14:14:38
    大佬真的厉害,学习了!
    0 举报

还可以上传7

表情
  • 微信扫码加好友进群