分类 大数据 下的文章

什么是HadoopHadoop 是一个适合大数据的分布式存储和计算平台。狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统→存储;MapReduce:分布式离线计算框架→计算;Yarn:资源调度框架广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框架。Flume:日志数据采集;Sqoop:关系型数据库数据的采集,数据的导出;Hive:深度依...

阅读全文 »

大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下:采集、存储和计算的数据量都非常大。计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示,它们之间的关系是:1GB = 1024 M...

阅读全文 »