小组信息 私有 隐藏 

cid:53:privileges:find

  • 动态规划的用户特征计算思想

    作者:Ivan Cui

    用户特征构建是机器学习的基础工作,也是影响机器学习效果的重要环节。随着大规模用户数据的产生,用户特征构建所带来的计算量越来越大,特别是流式计算兴起后如何优化传统的用户特征计算流程显得非常关键。接下来,我们就讨论一下用户特征更新的思路吧。

    假如我们希望建立一个用户每天浏览新闻数量的标签,希望以此衡量用户对新闻阅读的兴趣情况。那么应该如何构建这样一个用户标签呢?首先,我们遇到的问题是用定性标签表示用户是轻度、中度还是重度新闻用户好,还是用一个连续型的打分描述用户的新闻兴趣呢?我认为应该最大限度的保留数据原始的信息,因为连续型的打分信息含量远高于定性标签的信息含量。也许有读者认为应该考虑后端预测算法的类型,如果是做逻辑回归之类擅长处理连续型变量的算法,当然应该用连续型打分,但如果是使用决策树类擅长处理离散型变量的算法,那么定性标签会更好。这么思考看上去很有道理,但是需要注意的是信息含量的问题,有很多种处理方法把连续型变量处理成离散型变量,而且在不同的模型、不同的业务环境下,分段标准也是不一致的,即使后面采用决策树类的算法,也依然是先处理成连续型变量,后续根据业务需求对连续型变量做针对性的离散化处理。

    第二个问题是,如果处理成连续型变量,是做成用户评分更好还是直接反映用户每天的新闻阅读数量更好呢?我的建议依然是在生成用户特征时,尽可能保留原始数据的信息,即使后续因为算法需要做归一化、评分化(模拟成0-5分之间的用户打分)处理。因为根据业务环境和变量的分布特点的不同,需要针对性的设计归一化和评分化的方法,不应该在初始阶段就做相应处理。否则,在需要调整归一化和评分化方法时,需要耗费很大力气还原数据。

    回答了以上两个问题后,可以看出好的用户标签会最大限度地保留原始数据中蕴含的信息,不过这里说的信息并非指原始信息,而是经过针对性加工处理后的信息。比如:因为用户的兴趣特征是在不断变化的,做用户特征标签时,一般距今越近的行为越能代表当前用户兴趣特征,所以可以用指数函数表示用户在第n天行为数据的权重,如下:

    0_1478626750057_1.png 公式一

    其中Pagesn是第n天用户的标签值,q∈(0,1)表示衰减系数,xk是第k天用户的新闻阅读数量。

    但是这个公式有很多问题,第一个问题是:当a≠0.5时,0_1478626792227_2.png,这意味着各项权重之和不为1,那么最终的计算结果的意义不是用户新闻的阅读数量,而仅仅是分数。第二个问题是:每次更新数据都需要计算n天全量的数据,如果能做成动态规划的方式就更好。第三个问题是:对只有一天数据的新用户和有30天数据的老用户来说,他们的评分不具备可比性。

    首先,我们尝试解决最简单的第一个问题。不难看出在假定Xk不变的情况下公式一就是一个等比数列求和公式,即:

    0_1478626816763_3.png 公式二

    那么为了使得各项权重之和为1,对每一项权重除以Sn就可以了,所以公式一变换为:

    0_1478626860440_4.png 公式三

    这样一来,无论q等于多少,每一项权重之和相加后都等于1,所以计算得到的Pages的值就可以代表用户近期平均每天的新闻加权浏览量。

    第二个问题是把以上的多阶问题转化为动态规划的单阶问题。换一个角度思考,如果每一天的Pages的值都可以代表用户在那一天的加权日平均新闻阅读量,那么我们计算该用户后一天的加权日平均新闻阅读量时,只需要考虑新一天的新闻阅读数据对历史加权平均值的影响即可。而这个影响的大小仅仅和最近一天数据的权重有关,通过公式三我们可以求解出最近一天数据最加权和的影响权重为:

    0_1478626893762_5.png

    当q和n确定后,最近一天浏览数据所占权重大小Q就确定下来了,下图是在q取值不同情况下,Q和n的变化关系曲线。当n=1时,意味着仅仅只有1天的观测数据,那么当天的数据所占权重当然为1,当n趋向于无穷大时,Q=1-q,也就是衰减系数越小,Q越大,这和衰减系数的字面理解吻合,衰减系数表示了用户数据随着时间影响力衰减的快慢。

    0_1478626908617_6.png

    所以在已知Q的情况下,公式三化简如下:

    0_1478626925416_7.png

    用上面的公式就可以仅适用最近一个观测周期的数据更新Pages的值了,也就是可以用流式计算和动态规划的方法对数据做更新。

    与此同时,其实第三个问题也迎刃而解,新用户和老用户的n是不同的,n的含义是该用户有多少天的新闻浏览数据观测记录。无论n是多少,这个公式都能公平的反应用户对新闻的加权日均浏览量。另外根据业务场景对n最好也做一个上限的限制,因为根据指数函数的特性,一定天数前的数据对结果影响微乎其微。如果觉得指数函数衰减速度太快,也可以尝试把q定义为一个以n为自变量的函数而非固定值,如果这么做的话公式整体需要重新设计,但是思路还是一致的。

    最后用一个示例数据模拟一下q=0.7时,n<=30的用户加权日均新闻浏览数,让大家有一个直观的理解:

    0_1478626943137_8.png

    在第29天前,某用户第一次计算他的新闻阅读标签数据,当天他阅读了8篇新闻,故Pages=8。在第28天前,也就是该用户计算新闻阅读标签的第二天,他在那天没有看任何一篇新闻,Pages值降低到3.3篇。以此类推,在最近一天,虽然他只看了5篇新闻,但因为过往29天数据的加权,他当天的Pages值仍然达到了18.35。可以看出根据这个算法,可以很好的反映用户在最近一段时间内的加权行为特征。

    发布在 太阁x博客
  • 项目创意收集大赛

    “That would just say things and do them without having any idea how. Were gonna put a man on the moon. How are we gonna do it? When we gonna do it? Why are we doing this? No idea. We just did stuff – Crazy but great.”
    by Jerry Seinfield

    传统出租房子的做法是在Craigslist网站发帖子。“但我们不想这么干,因为在Craigslist发千篇一律的帖子会显得冷冰冰的,于是我们打算自己动手建一个网站。” 于是,Brian Chesky与Joe Gebbia创办了Airbnb。

    “当时市场上没什么好电动汽车” ,于是,Musk创办了Tesla。

    Crazy maker总是能带给我们无数的惊喜。去异想天开,去拿着hacker的精神去实践,去诠释一切的可能性。

    0_1478458188387_0714_leadership-800x480.jpg

    被leetcode虐成狗的同学们, 还在为简历焦头烂额的同学,让我们脑洞大开一下,告诉我们你疯狂的,甜蜜的项目创意,一起来参加我们的项目创意征集大赛吧! 你不仅有机会获得太阁coupon和会员奖励,还能遇见知心的小伙伴,组队完成你们自己的项目!

    本次的活动由太阁社区项目组主办。太阁项目组一直都是社区的重要部分。我们以Github和讨论群为聚集地,分享心得,实践技术,结交志同道合的好友。半年以来已经有几百位小伙伴参与过我们的项目挑战,我们已经完成了许多高质量的项目。

    优秀项目展示

    爬虫项目是目前为止完成效果最好的项目之一,我们来看看由文哲大师制作的github社区排行榜吧!

    https://github.com/BitTigerInst/Github-Ranking-Crawler

    via GIPHY

    为了让热爱网课的同学们,按需找到心仪的课程,huaweidong,lizkGitHub,sccds三位同学制作出十佳课网站。

    https://github.com/BitTigerInst/CourseWebCrawler

    via GIPHY

    接下来,看看wjcdenis,hanyu2, haolin29 利用meteorjs搭建的应用商店:

    https://github.com/z502185331/BitTiger-AppStore

    via GIPHY

    最后我们来看一个利用最新的VR技术做出来的炫酷3D版俄罗斯方块:

    https://github.com/BitTigerInst/AR-3D-Tetris

    via GIPHY

    参与方式
    在本帖下回复你的创意
    活动奖励
    一等奖:一周vip or 三张课程coupon
    二等奖:两天vip or 二张课程coupon
    三等奖:一张课程coupons
    评分标准
    以点赞数量排序

    发布在 太阁x微项目
  • 【10.27】在科技领域,如何成功转型做business

    “我对Business感兴趣,我该不该转型?”
    “我走现在这条路,到底适不适合?”

    你可能也在寻找人生导师给你建议。

    可是没有经过思考的问题,都不是真正的问题。

    本次太阁直播,邀请了来自GoPro的魏锴,为我们解读Business的各个领域,各个方向需要什么知识和技能,分享自己如何从理工科背景成功转行的recruiting故事,以及在GoPro的工作经历。
    这里没有心灵鸡汤,有的是一位学长的直言不讳。

    我们希望,讲座之后,

    你能对科技领域的business有更深刻的认识

    清楚应该提升什么硬技能

    例如数据处理,根据实际问题建模

    如何提升软实力

    如何掌握行业趋势,提高沟通技巧,如何有效networking

    慢慢学会该怎样思考自己的未来

    是否要转行,如何发现自己的优势,如何成功转行

    没有适用一辈子的锦囊妙计,但你可以做自己一辈子的人生导师。

    讲座大纲

    • What is business?
    • How to transfer to business function?
    • For students-知识储备
    • For students-path
    • For professionals
    • My recruiting story
    • 为什么要转行?
    • 如何确定未来的方向?
    • 如何实现成功转行?
    • My time at GoPro
    • Skills Desired

    嘉宾介绍

    魏锴
    2007年毕业于北理机电工程学院,加入中国航天空间技术研究院。2012年于CMU商学院读取MBA学位,毕业后加入GoPro总部从事市场方向的管理工作,任GoPro Competitive Insights Manager. 并经营个人公众号:头上有棵树。(id: treeonhead)。不求闻达于网红,但求旧事不忘,细水长流。

    讲座时间

    美西时间:10月26日(周三)7:30pm-8:30pm

    美东时间:10月26日(周三)10:30pm-11:30pm

    北京时间:10月27日(周四)10:30am-11:30am

    发布在 太阁x直播
  • 【10.02直播总结】Walmart 女神带你走进Data Analytics世界

    作者:Zhihua Cai

    讲师介绍:
    Iris Wang 本科毕业于工业工程 (Industrial Engineering) ,进入A.T. Kearney. Consulting company. 工作期间Iris明确了自己对数据分析的喜爱,离开了公司,在西北大学获得Master of Analytics,之后在Walmart eCommerce部门进行多年Analytics的工作,近期转入Adobe继续从事Data Analytics的工作。

    行业背景

    目前的Data Analytics 市场需求旺盛,待遇高。

    Data Analytics 偏重于数学统计,和数据展示。在编程能力要求上要比软件工程师,数据科学家低一些。

    根据工作的的领域。 可以将Data Analytics 分成四类

    0_1476897966806_1.png

    1. Business Analytics. 服务于公司的老板,负责分析数据来为拓展市场和业务决策提供依据。
    2. Customer Analytics. 服务于市场经理, 负责分析客户的行为,来拓展市场,推广产品,提高用户体验。
    3. Product Analytics. 服务于产品经理,研发部门,负责分析产品的性能。让产品更为成功。
    4. Operation Analytics. 负责分析运营是否有效。节约成本。
    如何选择加入哪种团队。

    0_1476898057244_2.png

    如果希望有多种经历,可以选择加入consulting公司。如果有一个比较明确的方向,可以选择加入Cooperate。有的组是一个大组都是Data Analytics。这种组利于你向同行学习。也有的组是混合了不同专业背业的人员组成,你需要负责所有的数据分析任务,但是交流的人会少一些。

    Data Analytics 职业发展

    Data Analytics 可以一直做数据方面的公做。也可以做到管理层。因为在工作的过程中,不断积累数据操作的经验,和对公司运营,产品,未来问题的深刻理解,Data Analytics可以变成Product Manager, Data Scientist.

    Data Analytics 的工作内容

    Data Analytics主流的工具R, SQL, Python 等等。

    一个典型的数据分析的项目有以下几步:

    1. 问题的定义。
    2. 数据的预处理。
    3. 探索性的数据分析。
    4. 对数据建模,得出结论。
    5. 向服务对象,深入浅出的用商业语言展示分析的结果。
    常用的数据模型

    0_1476898146276_3.png

    1. Supervised Learning. (指导型)
      回归分析。
      决策树。
      黑盒分析。
    2. Unsupervised Learning. (自学型)
      聚类。
      主成分分析。

    Data Analytics 面试准备

    面试的形式有哪些?
    1. 技术问卷(Questionaire)
      a) SQL
      b) 简单编程题
      c) 从数据表中发现问题。
      d) 数据模型的比较
      e) 统计问题。

    2. 数据操作题(Data Exercise)
      考小型的项目。可能限时。
      比如给定一些数据,让你分析用户的留存,预测今后的用户留存情况。
      要求能够定义问题,并且熟练运用某种语言(R, Python)把程序写出来。

    1. 编程题(SQL Coding Test)
      要求非常熟练SQL的操作。排序,表合并,平均值,中位数等等。

    2. 电话面试

    3. 行为面试(Behavior Interview)
      你是否和我们的组合拍。
      如何准备?
      用STAR原则来描述自己曾经做过的项目。在某个背景(Situation)下,为了解决某个问题(Task),我采取了哪些行动(Action),取得了怎样的结果(Result)。

    4. 现场面试(In-Person Interview)
      Communication skill. 回答问题有逻辑。对做过的项目了如指掌。

    如何学习DataAnalytics?

    先学习,多练习,做总结。多做项目。
    0_1476898317000_4.png
    0_1476898359740_5.png
    0_1476898368437_6.png
    0_1476898374935_7.png
    0_1476898380393_8.png
    0_1476898387460_9.png
    0_1476898393261_10.png
    0_1476898401712_11.png
    0_1476898409645_12.png
    0_1476898417439_13.png
    0_1476898435402_14.png
    0_1476898442735_15.png
    0_1476898457231_16.png
    0_1476898464386_17.png

    发布在 太阁x博客
  • 小豆芽背后苹果打着什么主意?

    随着iphone 7 以及ios 10一同面世的Airpods无线耳机一再传出槽点。比如,因该耳机外型犹如电动牙刷上半部分,160美金约合1100人民币的美丽价格,一不小心进掉进马桶里,早高峰人下车了耳机没下车… 诸如此类,不禁让小编产生好奇,苹果是哪来的自信味这个看似功能不友好的小豆芽高调定价,这背后埋伏着什么还未被大众感知的可能性?

    0_1474478911128_Picture1.png

    首先我们要引入一个词“Contextual Artificial Intelligence”,小编初译成“语境人工智能”或“情景人工智能”。据国外评论报道,无线耳机的推出将带动语境人工智能整个平台业务的发展,性能更稳定持久的语境人工智能产品能和人对话,并完成人们提出的口令。毫无疑问,这个商业平台的发展最先得益的就是苹果Siri,然后扩展到其他开发商和创业公司。

    此话怎讲?其实大部分人都不知道,早在今年苹果开发者大会上,公司就把SiriKit的兼容性分享给大家了,并支持多个种类的app 给Siri提供服务,也就是说这些app要通过Siri接受人们的语音指令,然后完成运行。说起来容易做起来难,这对小小的耳机机身有着很高的硬件要求。

    0_1474479168411_Picture2.png

    • 两个机身分别含有独立电池和芯片(官方取名W1)

    • 双加速计和传感器来探测是否塞进了人体的耳朵

    • 麦克风、接收天线

    0_1474479686318_Picture3.png

    两只耳机装进小盒子里就可连接充电,因为W1芯片的存在,连接耳机和设备变成非常容易。以至于苹果官方都不使用“Pair配对”,而是“Connect连接”来进行市场推销,以区分开现有的蓝牙技术等。值得一提的是,芯片不仅简化了连接外来设备,还负责管理电量延长待机时间的功能。对了,官方介绍耳机充满一次电的使用时间是5小时,小盒子又可以额外给耳机充电24小时。根据可靠消息,其实小耳机的电量还是挺耐用的,因为你不用的时候,将他装进小盒子里就能自动蓄电。

    0_1474479189368_Picture4.png
    0_1474479696118_Picture5.png

    用Airpods小豆芽连接非苹果设备也很容易,按一下它身后的按键,搜索蓝牙、确认连接,就能像使用正常耳机那样享受音乐了。既然是耳机,那么音质处理和控制怎么样呢?

    据说,音质是杠杠的好呀!外国人用了“Solid”这个词来形容。重低音貌似很爽?原因是设计让耳机会将耳朵塞得很紧,几乎隔绝外界杂音。好消息!据外国小哥真实体验,塞着耳机又跑又跳相当的嗨,还是没掉!他的解释是,没有了之前的线向下拉扯,耳机又被托在耳蜗里稳稳地。

    和小耳机互动起来也是相当灵活自如。塞进耳朵,耳机就会自动传出开启的提示音,脱离耳朵就会自动关闭,单独使用一只耳机和同时使用两只,都是一样的效果,两个耳机可独立工作。双击按钮就会启动Siri,然后开始你的指令咯。其实小编和大家有一样的concern… 只有一个按钮,且就用来启动Siri,也就是说要调节音量,或者切歌都要先和Siri打招呼….感觉大家都还需要一段时间来适应无线小豆芽和Siri万能小秘呢~~是我,估计还是要掏荷包自己操作手机变音量…Pia!这是土豪的玩具,你不需要!

    0_1474479701630_Picture6.png

    本文作者:Jialu Li

    发布在 太阁x博客
  • Bug Report [Minor] - Cannot Clear Deleted Posts

    I have successfully cleared my own deleted posts before. But it seems that I could not clear other people’s deleted posts.

    0_1474343078919_upload-688d33f5-db53-4347-b0da-912e9594c7f7

    0_1474343128476_upload-ff2be071-ddc9-44e9-8516-0a541b189f6d

    console error:
    0_1474343040789_upload-9ab11799-0e9c-49d9-bc43-c88b95577035

    OS X 10
    Chrome Version 53.0.2785.116 (64-bit)

    发布在 评论与反馈
  • Bug Report [Minor] - Broken Fav Icon?

    Not sure if this is intentional. The community fav icon used to be the same as the main site?

    0_1474342789920_upload-e916dd5a-1b02-4bd7-aa53-9f10e1b47a1b

    OS X 10
    Chrome Version 53.0.2785.116 (64-bit)

    发布在 评论与反馈
  • Bug Report [Minor] - Tagging Input Box Overlaps with Editing Box

    This is quite minor.

    0_1474342523827_upload-e48c590d-4571-4140-96d0-72aebe7cc916

    OS X
    Chrome Version 53.0.2785.116 (64-bit)

    发布在 评论与反馈
  • RE: Bug Report - Category not selected

    console errors:

    0_1474342399558_upload-aeb5c836-f61e-4629-b03a-9b04ab417fae

    发布在 评论与反馈
  • RE: Bug Report - Category not selected

    I have encountered some error many times.

    发布在 评论与反馈

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待