1、大数据概述
1.1 大数据
大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。
大数据的特点:(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。
1.2 数据分析
数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。
数据分析主要涉及的技能:(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。综合来看,可以说数据分析=技术+市场+战略。
2、智能数据理念分析
虽然在大数据时代传统的智能数据分析法已经不能适应当前的需求,但是依然有一定的相似性,相关理论和技术依然可以沿用,几种常见数据分析法:第一种方法是决策树。这种数据分析方法需要基于信息论基础上,这种方法实现的输出结果容易理解,精确度较高,效率也较快,但是它不能用来对复杂的数据进行处理与分析。第二种方法是关联规则。这种方法主要是用于事物数据库中,通常带有大量的数据,当今使用这种方法来削减搜索空间。第三种方法是粗糙集。这种数据分析方法能够对数据进行主观评价,只要通过观测数据,就可以清除冗余的信息。第四种方法是模糊数学分析。这种数据分析方法能够对实际问题进行模糊的分析,与其他的分析方法相比,能够取得更为客观的效果。第五种方法是人工神经网络。这种数据分析方法具有自学习功能,在此基础上还具有联想存储的功能。第六种方法是混沌和分形理论。这两种理论主要是用来对自然社会中存在的现象进行解释,一般用来进行智能认知研究,还能应用于自动控制等众多领域中。第七种方法是自然计算分析方法。这种数据分析方法根据不同生物层面的模拟与仿真,通常可以分为以下三种不同类型的分析方法:一是群体智能算法,二是免疫算法,三是DNA算法。群体智能主要是对集体行为进行研究,免疫算法具有多样性,经典的主要有反向、克隆选择等,而DNA算法主要使属于随机化搜索方法,它可以进行全局寻优,在实际的运用中一般都能获取优化的搜索空间,在此基础上还能自动调整搜索方向,在整个过程中都不需要确定的规则。当前DNA算法普遍应用于多种行业中,并取得了不错的成效。
3、大数据背景下的智能数据理念分析
大数据具有一定的复杂性,只有通过使用新的智能分析技术才能对数据进行有效处理。目前已经有专家针对大数据提出了新的智能分析技术方案,例如HAVEn、Teradata Aster分析平台,经过研究发现推出的一系列分析方案,基本上离不开Hadoop分析平台。Hadoop主要分为以下两大部分,其中一个部分是分布文件系统,专家称之为HDFS,另一部分是分布计算系统,专家称之为MapReduce。一般来说HDFS主要是表现为主/从结构,其中主结构称为名字节点,主要功能是管理元数据,从结构通常称为数据节点。主要功能是用来存放,或者管理相关的应用数据。一个HDFS系统能够支持的数据非常庞大,一般能够达到10PB数量级,因此HDFS系统能够应用于大数据处理分析中。同时为了能够更好的支持大数据,在HDFS系统的基础上,还继续构建Hbase系统,该系统的接口语言色设为Pig。并且还构建了Hivi系统,该系统主要是属于数据仓库。此外还构建了机器学习软件包,称为Mahout,这样就可以对大数据进行有效管理以及分析。这些新的智能数据分析融合了多种传统的技术,能够对大数据进行更为全面、高效的分析。
4、结语
大数据包含结构内外的海量数据,随着云计算平台进行大规模收集处理,通过建立数据库的手段,对数据分流,使用数据挖掘等方法进行处理、分析,使得所数据结果更加符合显示状况。数据分析理念是通过阐明存在于世界、物质、感官享受上的复杂网络关系,从而做出符合时代背景的分析决策。