大数据多大才算大?“大数据”这个词本身具有莫大的误导性,再加上行业里动辄宣传和鼓吹Google、Facebook的机房有多大,存量有多大,就更容易让人们认为,必须数据量超级大才算大数据入了门,才算“大”数据。认为数据很多才算大才有价值,就好比饭越多越好吃,音乐声音越大才越好听一样经不起推敲。
做大数据的目的究竟是什么呢?尤其是作为商业用途来说,无非是为了多赚钱或者多省钱,不论是直接的还是间接的。一旦脱离开这些,谁来买单,谁来背成本?大数据价值就成了伪命题。
Google和Facebook这样的公司做大规模系统的目的也不是为了炫富,而是他们确实数据量膨胀到一定程度了,不得不使用一些平时应用场景里不多见的技术,所以“这些技术一定是大数据的必备条件”就自然变成了误导人们的信息。作为挑战尖端科技和中国这种人口基数的互联网公司的客观需求,研究超大规模架构集群技术是一个方向而且绝对正确,但不建议中小型公司邯郸学步。
中小型公司需要大数据吗?答案是肯定的,不仅需要,而且非常需要。中小型公司要用大数据做什么?这种需求多少年来一直没有变过,还是刚刚说的要么多赚钱要么多省钱。多赚钱多省钱的途径在数据运营中最常见的就是指标管理,再有就是诸如财务分析、人力成本分析、工作效率及成果分析等。这些东西在日常生产生活中占了绝大多数的数据应用场景。对这些对象研究明白了就已经能解决大部分运营问题了。
如果还想做得深入一些怎么办?再把参考维度的数据增多就可以了,如刚刚这些数据指标是否和气候变化有关?是否和地理位置有关?是否和大气污染程度有关?是否跟当前热播的电视剧有关?是否跟短时间内网上的一个热词有关?是否跟交通状况有关?是否跟人们使用的上网设备有关等。这些数据的引入不需要做得非常多,只要相互结合有效且丰富适度,就可以挖掘。甚至指标自身前后是否彼此有影响规律,也是一个值得研究的课题。