连续性数据的处理


  • TD DS501 Nov 2017

    1 拿到数值型数据 自变量和应变量 都 应该做什么处理,什么时候该做指数处理,什么时候该做幂函数处理,什么时候应该做交叉分析?
    3 做线性回归时 是只是把因变量做成正态分布的吗,自变量该如何处理?


  • TalkingData Class Moderators

    同学您好

    通常在拿到数据之后我们先区分:

    • 哪个是自变量
    • 哪个是因变量

    如果因变量也就是我们通常说的target,判断他的数据类型

    • 连续变量: 通常认为是呈现高斯分布(回归问题)
    • 离散变量:通常认为是multinoulli分布 (分类问题)

    接下来我们会分析自变量和因变量之间的关系, 我们希望看到以下性质:

    • 自变量和因变量之间关系简单: 如加性关系而非乘性关系, y = x1 + x2 而非 y = x1 * x2
    • 变量分布比较均匀:如变量分布并没有紧密集中在某一个特定区域
    • 变量分布无严重偏斜: 如均值和众数接近,类似高斯分布
    • 变量scale相同: 如把数据归一化,排除由于变量由于不同单位或者范围所造成的影响

    这些性质会使我们建模的时候更加方便准确

    至于指数处理(并不常见), 对数变换,幂函数变换, 等等非线性变换, 其实本质上是认为变换之后的自变量会和因变量之间的关系更加方便描述, 如变换之后他们之间可能存在线性关系

    具体用哪种方法:

    • 通常如果发现变量分布发现严重集中可以考虑对数变换,开方等
    • 如果发现分布左斜, 可以考虑平方等
    • 如果发现变量单位不同, 可以考虑归一化等

    做线性回归时,我们可以对因变量做任意合理的变换,如数据过于集中0附近,用开方将其展开, 或者发现当前变量和因变量呈现非线性关系,但当我们平方之后就发现线性关系明显了,再或者数据本身存在的物理意义,如数据出现呈现指数增长趋势,我们可以考虑取对数等等

    建立线性模型是因为我们的假设是自变量和因变量之间的关系可以用线性模型描述,当他们之间的关系存在非线性的时候,线性模型就无法描述,所以需要人为做一些变换使得假设成立,同时还可以利用线性模型很强的解释能力


  • TD DS501 Nov 2017

    此回复已被删除!

  • TD DS501 Nov 2017

    @yl3449 谢谢您的解答,感觉挺清晰的。
    还有一个问题就是如果发现变量没有明显的集中趋势,更偏向于均匀分布,分布比较平散。
    看网上可以用均匀分布生成任意的分布,有没有类似的相关资料(不同分布之间的相互转换等
    资料)



  • 如果你要是要由uniform分布来生成任意函数分布,请参考Pseduo-random number sampling,一般来说如果目标分布有可推得反函数可用Inverse transform sampling,计算统计上常用是Rejection sampling。在Bayesian生成posterior distribution会使用Gibbs Sampling或M-H Sampling,这两种方法都属于MCMC方法。

    此外你提到线性回归,在线性回归里面如果error不符合高斯分布假设,除了考虑higher order model,也可以考虑做Box-Cox transformation


登录后回复
 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待