• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

大数据和应用级 大数据概述

武飞扬头像
长岛山没有雪
帮助1

目录

1.什么是大数据?

2.大数据的特征4V

3.大数据的数据结构

结构化数据

非结构化数据

半结构化数据 

4.大数据情景下科学计算模式发生了那些变革? 

 5.什么是大数据分析5V?

 6.大数据分析的应用场景?

7.大数据分析的流程 

1.数据采集技术

2.数据预处理技术

 3.数据存储与管理技术

4.数据分析处理技术 

5. 数据挖掘技术

6.数据可视化


1.什么是大数据?

        大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和数据处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.大数据的特征4V

  • 数量(volume)
  • 多样性(variety)
  • 速度(velocity)
  • 价值(value)

3.大数据的数据结构

  • 结构化数据

         结构化数据具有较强的结构模式,数据本质上是“先有结构,后有数据“,可以使用关系数据库描述与存储。例如用户信息表,首先基于关系库建立一个包含用户名、性别、出生日期、住址4个属性表的表,表中插入的每位用户的数据都具备这4个属性值。

  • 非结构化数据

        非结构化数据的数据结构不规则,没有预定义的数据模型,并不能用数据库的二维逻辑很好的进行描述 。例如,存储在文本文件中的系统日志、图像、音频、视频等数据都属于非结构化数据。

  • 半结构化数据 

        介于结构与非结构之间,存在半结构化数据。它是一种弱化的结构化数据形式,具有一定的结构性,但并不符合结构化数据的严格模式,仍有明确的数据大纲,包含相关的标记,用来分割实体及实体的属性,如XML、JSON等标记表现形式的数据。

4.大数据情景下科学计算模式发生了那些变革? 

  1. 商业的变革
  2. 社会管理变革
  3. 思维的变革

 5.什么是大数据分析5V?

  • 数量(volume)
  • 多样性(variety)
  • 速度(velocity)
  • 价值(value)
  • 真实性(Veracity)

 6.大数据分析的应用场景?

  • 城市治理
  • 电子商务
  • 医疗影像处理
  • 制造领域
  • 自然语言处理

7.大数据分析的流程 

1.数据采集技术

2.数据预处理技术

  • 数据清洗
  • 数据集成
  • 数据归约
  • 数据变换

 3.数据存储与管理技术

  • 分布式文件系统(HDFS):(Hadoop Distributed File System)HDFS是开源工具Hadoop的核心模块之一,可以用来部署在低廉的服务器硬件上基于分布式理论构建,具有高容错性,可扩展性等特点,封装性很好。
  • 分布式列存数据库HBase:HBase是构建在HDFS上的分布式列存储系统,用于海量结构化、半结构化数据存储。HBase具有高可靠、高性能、水平扩展、可伸缩、面向列的特点。
  • 内存数据库Redis:内存数据库抛弃了磁盘数数据管理的传统方式,主要指将数据尽量放在内存中直接操作的数据库。
  • 消息分发和存储Kafka:Kafka是由Apache软件基金会开发的一个开源流处理平台,是一种高吞吐量的分布式发布订阅消息系统,是可划分的、多订阅者、冗余备份、持久性的日志服务,主要用于处理流式数据,具有高吞吐量、分布式和易扩展的特点,支持在线、离线业务

4.数据分析处理技术 

  • 离线数据处理:典型计算框架有MapReduce(分而治之,整个计算过程分成Map和Reduce两个阶段)、Hive(Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取,转化,加载,是一种可以存储、查询和分析存储在Hadoop的大规模数据机制)、Spark(Spark提供了一系列不同应用需求的组件,主要有Spark SQL、Spark Streaming、MLlib、GraphX。)等。
  • 实时数据处理:实时处理的典型计算框架有Spark Streaming、Storm等

5. 数据挖掘技术

6.数据可视化

  • 统计图表
  • 2D、3D区域
  • 时态
  • 多维
  • 分层
  • 网络

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhibaehj
系列文章
更多 icon
同类精品
更多 icon
继续加载