Data Science 问题讨论大杂烩(又名: 生长学习DS示例,持续更新中)


  • cid:53:privileges:find

    最近,我根据自己对生长学习的理解,玩了一个“游戏”——生长学习DS。游戏规则很简单。

    1. 从讨论群收集问题,形成 问题库
    2. 整理问题,提出自己的问题 (问题库 —》 根据问题库提自己的问题 —》逻辑树)
    3. 根据自己的问题,尝试理解体系,构建 逻辑树 (一开始不知道如何入手,可以了解基本的体系)
    4. 根据逻辑树,问题归类,并问题放在逻辑树相应的地方,去芜存菁
    5. 根据关键问题,选择思考更多问题,生长学习

    收集问题

    Linear Model - Discussion 1

    • A : 看到网上说,如果要用linear models, 最好把所有的features都normalize 一下。那如果是categorical 的features, 怎么normalize呢?是不是categorical的可以不用normalize?
    • B : partially correct. Get dummies for categories.
    • C : 线性模型的目标函数是凹函数时Normalization可以更快地到达极点,categorical用数值表示就可以normalize(其实一开始直接取合适的数值就好)。这是我的理解。
    • D : normalization, standardization和transformation。前两个是numerical 最后一个是categorical和ordinal。你查一下这三个的区别 很易懂的。
    • A : 那就是说Categorical的转换成dummy variables就可以了,对吧?
    • D : Yep。但是你categorical有分等级什么的吗?
    • A : 没有等级。如果分等级的话,一般怎么处理?在python里面?直接标成不同的number行不行?比如1到10代表不同的程度。
    • D : Scikit learn.preprocessing.getdummnies()
    • A : 这个可以自动处理有等级的吗?还是没有等级的?
    • D : 那个是ordinal才能那样标。getdummies是没等级的 这个function把全部categorical都分成一个一个的dummie。
    • A : ok. 没有等级的我知道弄成dummy variables就可以了。
    • D : 你也可以看看getdummies的scikitlearn文件 里面有写。
    • A : 还有一个问题,如果我的features里面有很多binary variables, 并且他们很多都是sparse的,就是很多0, 比较少的1. 是不是一般就用tree based model, 不用linear models, 像logistic regression 就一般不用?
    • D : 要看distribution of 1 and 0。如果非常不balance 得先要用其他方法把它弄balance了。
    • A : 我说的是feature,不是y。比如我有500个features全部都是binary的,但是就是非常的sparse. 现在要用这500个Feature来predict y。
    • E : 可以先做一下discriminant analysis,看看哪些是对target显著影响的。
    • A : 你是说要先做feature selection吗? 如果用tree based model. 是不是不用弄Feature Selection, 全部扔进去可以吗?
    • F : 用random forest试试唄,之后再用deep learning model试试。不用selection,random forest会反馈哪些重要哪些不重要……
    • H : correlated的binary label要用什么模型比较好 可以用mixed logistic regression吗? 比如每个人在5天里 每天有一个value 0或1 同一个人的value是correlated的.
    • A : 我觉得这个就是mixed model加入random effects就好了吧 @H。从来没有用过Deep learning的model@F , 不会用了,现在我就是直接用Random forest model,像看看还有没有什么别的思路。
    • H : 加mixed effect的话 怎么做feature selection 能用lasso吗?
    • F : deep learning model像处理vector的话可以用最基本的Fully connected model试
    • E : 我想了一下,如果不对大家指出来哈,树它找的是最降低variance的那个分支吧,那stepwise two way selection中减掉之前加进去的东西这种情况,树应该没法实现吧。
    • F : 或者1D 的cnn。
    • A : @H。我还没有在mixed model 里面加过lasso, 你去google看看有没有这样的包可以用的。
    • G : 可以用R的preprocessing做normalization和standarization, 用PCA做维度分析,用变换域上的feature。
    • I : 我最近刚做了一个项目,先用lasso选x,选完之后丢到mixed liner model 中去。我看过这样post lasso regression是可以的,不知道是不是回答了你的问题。用lasso之前要先normalize x。
    • H : 所以选的时候不是mixed model? 不知道理论上这样做合理不。categorical feature你怎么办 不能normalized呀。
    • I : 叶米糕 什么东西理论上合不合理?如果你在问能不能先用lasso选,然后在用lm的话,ESL的书上说是可以的。我也有一个categorical的。跟你一样的问题 somehow 根据我们的经验决定死活都要把它放进模型。于是这个variable不参选,直接进入mixed model 。。。

登录后回复
 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待