慧聪网首页慧聪通信网首页资讯展会人物运营商设备商3G手机iPhone手机CDMA找供应找求购免费注册立即登录加入买卖通即时沟通网站导航

慧聪通信网

有关大数据的误区:数据统计≠大数据

http://www.tele.hc360.com2014年04月02日11:40 来源:钛媒体T|T

    【慧聪通信网】大数据太火了,被广泛应用到各行各业,而近阶段又有着明显的过热迹象。大数据到底是一个营销词汇,还是一个方法论?本文作者老李正是一家大数据服务提供商的资深员工,他所做的项目就是针对不同行业进行大数据分析。他认为,关于大数据你首先必须有一个基本认识,那就是“大量的数据并非一定具有价值”。另外,数据统计并不等同于大数据,数据统计和大数据的区别就在于人工智能。

大数据

    近两年来,“大数据”被广泛应用到各行各业,而近阶段又有着明显的过热迹象。从央视的春运迁徙图到姚晨看到微博数据的惊呼;从两会期间的两会大数据,到《星星》都叫兽的高低领毛衣,“大数据”被人们推到了一个前所未有的高度,同时也从一个高精尖的科研方向变成了一个世人皆知的营销词汇。

    我既没有资格代表学术界,更没有资格来判定谁是谁非。我只能就自己的工作经历,来谈一下我眼中的大数据:

    什么是大数据?

    百度百科对大数据的定义是这样的:大数据(bigdata)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

    Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    个人认为Gartner的定义更为贴切。“新处理模式”是一个很关键的词汇,这也是我所理解的“大数据”区别于传统统计分析等最关键的特征之一。这个所谓的“新处理模式”有两层含义:

    1、由于海量的数据,需要更高效的存储和处理技术,Hadoop成为了大数据时代的标志;

    2、如果你认为大数据就等于Hadoop,那就大错特错了。Hadoop只是大数据时代的一个必要条件,大数据还有一个明显的标志是数据挖掘和人工智能的紧密结合。这也是我理解的“大数据”与现在很多所谓“大数据”项目最明显的区别之一。我会在后面的案例中给大家展开。

    除了上面的“新处理模式”上的区别,个人认为还有一个最主要的区别是:数据统计分析是基于已有数据的纵向归类,而大数据是基于对已有海量数据的处理,对还未产生的数据作出预测和推荐。数据统计是已经发生的事情,而大数据往往被用于还没有发生的事情预测或者推荐中。

    预测和推荐,是如何实现的?

    目前主要的推荐算法大致可以分为两类。一个是基于行为,一个是基于内容。当然,针对不同的领域,不同的预测和推荐的对象,又会有十余种算法。这就不是本文展开的内容了。

    基于行为的分析,顾名思义,即对用户在互联网、移动互联网留下的“痕迹”,即浏览、点击、收藏、购买、二次购买的分析,得出未来会选择购买的预测和推荐结果。基于行为的分析,属于群体智慧,综合利用群体用户的行为偏好。用户之间会相互影响,更加符合现实世界中的用户行为。

    

图1、电商基于行为的推荐漏斗算法

    基于内容的分析,包括对文字、图片、音频、视频等信息的分析,得出预测和推荐的结论。内容的“基因”和用户的偏好相匹配,最有代表的是潘多拉的音乐推荐项目,其将曲库中所有歌曲都由400多位专家打上标签,然后建立个人与音乐的联系,从而完成音乐的推荐。内容的分析只针对个人,与用户之间关系无关。

责任编辑:王彩屏

【慧聪资讯手机客户端下载

上一页123下一页

责任编辑:王彩屏

【慧聪资讯手机客户端下载

关注排行

  • 今日
  • 本周
  • 本月
  • 健康指南