1. 首页 >软件教程 > 正文

如何解决那些真正困难的数据科学问题

导读 在接下来的两周内,随着NCAA的March Madness篮球锦标赛接近高潮,世界各地的数据科学家将密切关注他们的预测算法是否能度过年度锦标赛的高

在接下来的两周内,随着NCAA的March Madness篮球锦标赛接近高潮,世界各地的数据科学家将密切关注他们的预测算法是否能度过年度锦标赛的高潮。

获奖者将获得SAP SE的吹牛权利和认可,这是其年度#ViztheMadness分析竞赛的一部分。SAP开展了与体育相关的分析竞赛已有大约五年的时间,最近又涉足解决更大的结构性问题的主题,例如 市政水安全和电网弹性。

SAP全球云分析产品营销全球副总裁Nic Smith表示:“我们喜欢加入并解决有趣的,新潮的话题,以处理算法并发现隐藏的见解。” “这对于社区来说很有趣,它显示了如何使用分析。”

这也是许多公司越来越流行的方法的一个例子,这种方法通常在极其困难的数据科学家需要通读的情况下完成非常复杂的大数据项目。那些数据科学家需要大笔资金。随着大数据成为主流,假设甚至可以找到候选人,数据科学家的薪水已飙升至 12万美元以上。竞争可能是吸引顶尖人才的一种经济高效的方式,而且成本通常不高。

没有人知道数据科学竞赛市场的规模,但是经营两个最大的竞赛平台的Kaggle Inc.和Topcoder Inc.总共拥有近150万会员。Google LLC认为Kaggle的业务足以在 去年以未公开的价格购买。

在本周末,Kaggle进行了17项比赛,最高奖金为100,000美元。 DrivenData Inc.专门从事应对社会挑战的比赛,共有6个,其中一个要求参赛者预测 坦桑尼亚偏远地区水泵的 故障率。两家公司都拥有一流的蓝筹客户,风险投资支持的竞争对手 CrowdAnalytix Inc.也是如此。

新观点

数据科学竞赛也是一种寻找新观点的方法,这些新观点不一定会被某个特定学科的人们所接受。“无论您是谁,最优秀的人才都超出了您的组织壁垒,”世界银行创新实验室的计划官Trevor Monroe说,该银行自2014年起定期举办比赛。

对于SAP竞赛的参赛者来说,奖励是一件T恤,并被指定为SAP“ Data Genius”,但在其他数据科学竞赛中,赌注要高得多。例如,在线房地产上市服务公司Zillow Inc.已经为代码投递者提供了120万美元的奖金,他们可以改进其旗舰Zestimate算法来估算房屋价值。

由Kaggle主办的第一轮比赛共有4,400名参赛者提交了75,000多个参赛作品。现在,排名前100位的参赛者已进入第二轮比赛,明年将选出优胜者。

Zillow拥有自己的数据科学家团队,但是有时它会参考人群的智慧来寻找不同的观点。考虑到有关洛杉矶地区房屋的一系列数据点-平方英尺,卧室数量,到学校的距离等等,参赛者提出了截然不同的方法来评估房屋价值。

“我们发现第三名的获胜者与其他获胜者完全没有关联;Zillow数据科学与工程部门的高级经理安迪·马丁(Andy Martin)说。他说,实际上,大多数入围者甚至都不来自房地产行业。

Topcoder首席执行官Mike Morris并不感到惊讶。他说:“我们几乎总是发现赢得这些比赛的人与这个行业无关。”

美国国土安全部 在可以帮助改善其威胁预测算法的数据科学家面前悬赏150万美元。霍尼韦尔公司(Honeywell Inc.)向参赛者提供2500美元,他可以在飞行的不同阶段建立最佳的飞机燃油效率模型。澳大利亚网球有限公司将向能够提出一种更好的算法来估算网球比赛终点的人支付5,000美元。

科学配对

专家说,数据科学是一门非常适合竞争形式的学科。“通常没有一个正确的答案,因此您可以比较方法。” CrowdAnalytix的首席执行官Divyabh Mishra说,CrowdAnalytix是一家专注于生命科学和专业服务公司的众包分析服务。“但是与软件开发不同,一个人通常可以提供解决方案。”

许多数据科学家将自己视为孤独的狼,他们喜欢自己解决问题并学习新的学科。Mishra说:“这些数学家喜欢同时处理多个问题。” “对他们来说,乐趣在于它既是艺术又是科学。”

金钱很重要,但是专家们认为这不是主要动机。莫里斯说:“竞争对手说他们之所以在这里,是因为他们喜欢竞争。” “即使他们输了,他们也会学到新的东西。”

Topcoder竞争对手Wladimir Leite同意了。自2003年以来,巴西计算机取证专家赢得了41场比赛,这些都与计算机取证没有任何关系。他说:“我学到了很多我什至没有听说过的东西。” “这些比赛是结识具有惊人技能的真棒人才并保持我的编程技能的绝佳途径。”

竞争精神

专家们说,竞争形式似乎带来了最具创意的想法,并全面提高了绩效水平。这就是为什么成功的平台都使用排行榜和计分机制,使参赛者能够将自己与同行进行比较的原因。DrivenData联合创始人Greg Lipstein说:“游戏化是体验的重要组成部分。”

竞争形式并不适合所有问题。应该清楚地说明目标和变量,清理数据并限制范围。如果解决方案的路径明确,则竞争将无法进行。最好的问题是那些可以从全新的角度受益的问题。

一个很好的例子是DrivenData在2015年发起的一项挑战,试图将消费者评分网站Yelp上的评论与波士顿餐馆的健康违规相关联。通过语言分析,星级评定和访问频率数据,参赛者编写了预测模型,并将其与实际的历史违规记录进行了比较。获奖算法使纽约市在相同数量的检查员的情况下发现了25%的违规事件。

如果数据科学领域的技能短缺持续存在,并且需求没有放缓的迹象, 那么竞争可能成为完成大数据项目的更具吸引力的选择。即使目的只是为了预测篮球比赛的结果。SAP的Smith表示:“我们的预测准确性一直在70%到80%的范围内。” “今年发生这么多麻烦时,我们并不感到惊讶。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢