如何选择特征


  • TD DS501 Nov 2017

    在有很多特征的情况下,如何分析每个特征与预测值(属性)之间的相关性,通过相关性如何选择维度。能否把你在实战中的经验总结一下,谢谢。 请讲得基础一点,从原理,到用什么做,举个案例,谢谢。


  • TalkingData Class Moderators

    同学您好,

    首先在很多特征的情况下我们可以用Lasso, 去进行特征选取, 参见L1 regularization. 如果用普通的linear regression 我们也可以看到每个feature 的coefficient 的大小, 小的coefficient代表这个feature 对response 的影响小, 与之类似的方法我们可以用 random forest 和 xgboost 去计算feature importance, 基本原理就是除去这个feature 对模型预测结果的影响. 这些都是比较常用的feature selection 方法. 这些方法并没改变feature 本身.

    如果我们想单纯的降维, 我们可以选择降维方法如pca, svd, … 这些降维方法可以使model 变的更加简洁, 但是改变了feature所以这个时候的feature 和原来差别很大, 失去了原有feature 的解释能力


登录后回复
 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待