大数据概述
2021-03-18 21:48:40 43 举报
AI智能生成
大数据是指规模庞大、复杂多样的数据集合,通常难以通过传统的数据处理工具进行捕捉、管理和处理。大数据的特点包括“3V”:数据量巨大、数据类型多样、数据生成速度快。此外,还有“Veracity”(数据准确性)和“Value”(数据价值)等维度。大数据技术涵盖了数据采集、存储、处理、分析和可视化等多个方面,包括分布式计算、云计算、人工智能等技术的应用。大数据在各行各业都有广泛的应用,如商业智能、市场营销、金融风险管理、医疗健康等领域。通过对大数据的挖掘和分析,可以发现隐藏在海量数据中的规律和趋势,为决策提供科学依据,提高效率和竞争力。
作者其他创作
大纲/内容
一、基本概念
1.数据
数据是可以获取和存储的信息。
2.数据可视化
指通过图表将若干数字以直观的方式呈现给读者。
指通过图表将若干数字以直观的方式呈现给读者。
3.数据分析
针对以关系型数据库中以table形式存储的数据,按照某些指定的列进行分组,然后计算不同组的均值、方差、分布等。再以可视化的方式讲这些计算结果呈现出来。
4.数据挖掘
机器学习的算法纷繁复杂,最常用的主要有回归分析、关联规则、分类、聚类、神经网络、决策树等
二、大数据和大数据分析
大数据首先是数据,其次,它是具备了某些特征的数据。目前公认的特征有四个:Volumne,Velocity,Variety,和Value,简称4V.
1.Volume:大量
就目前技术而言,至少TB级别以下不能成大数据。
2.Velocity:高速。
1TB的数据,十分钟处理完,叫大数据,一年处理完,就不能算“大”了。
3.Variety:多样。
就内容而言,大数据已经远远不局限数值,文字、图片、语音、图像,一切在网络上可以传输显示的信息,都属于此列。从结构而言,和存储在数据库中的结构化数据不同,当前的大数据主要指半结构化和非结构化的信息,比如机器生成信息(各种日志)、自然语言等。
4. Value:价值。
如果不能从中提取出价值,不能通过挖掘、分析,得到指导业务的insights,那这些数据也就没什么用。不过现在还有另外一种提法:只要是数据就都有用,能不能获得价值,是分析人员的能力问题。
三、大数据技术
1.Hadoop
简单描述Hadoop原理:数据分布式存储,运算程序被发派到各个数据节点进行分别运算(Map),再将各个节点的运算结果进行合并归一(Reduce),生成最终结果。相对于动辄TB级别的数据,计算程序一般在KB – MB的量级,这种移动计算不移动数据的设计节约了大量网络带宽和时间,并使得运算过程可以充分并行化。
2.Storm
Storm对源源导入的数据流进行持续不断的处理,随时得出增量结果。
3.Spark
UC Berkeley AMP Lab开始研发分布式运算的中间过程全部内存存储的Spark框架,由此在迭代计算上大大提高了效率
4.NoSQL 数据库
NoSQL数据库中存储的数据无需主键和严格定义的schema.于是,大量半结构化、非结构化数据可以在未经清洗的情况下直接进行存储。这一点满足了处理大量、高速、多样的大数据的需求。当前比较流行的NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。
四、和数据、大数据相关的职位
1.BI (business intelligence)
销售网点提交的excel表,把其中数据导出到数据库里,进行一些SQL查询,然后用可视化工具将结果生成图形表格提交给业务人员参考。
2.(data analyst)/(data scientist)
两个职位,在有些机构组织中,职责不同;在另一些地方,职责相同,或相似,但级别不同。对于职责不同的地方,一般数据科学家要使用机器学习的算法,而数据分析师则专注在统计。
3.(大)数据工程师(data engineer/big data engineer)
这个职位更偏重于数据本身的处理,即大规模(TB/PB级别)数据的提取、迁移、抽取和清洗。数据工程师也可以进行数据挖掘工作,或者协助数据科学家实现算法
4.数据质量(data quality)
担任这个职位的,是保证各层级数据完整性和准确性的人员。他们负责制定数据完整性和准确性标准,设计检测方法并实施检测。
0 条评论
下一页