你要了解的九个大数据技术
Hadoop是大数据领域最流行的技术,但也并不是唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是要了解的。 1.Apache Flink 是一个高效、分布式、基于Java实现的通用大数据分……
数商 2019-03-18
Scala系列之自定义函数
前言 函数,其最大的好处在于避免了代码的重复编写,可以使编程过程更加地高效。尽管在《[大数据之脚踏实地学12--Scala数据类型与运算符](https://mp.weixin.qq.com/s?__biz=MzIxNjA2ODUzNg==……
lsxxx2011 2019-03-17
一文了解大数据五个通用化处理框架与三大核心技术
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、……
数据跨界 2019-03-12
Scala系列之控制流语句
Scala中的输入与输出 在Scala中经常会涉及到变量值的输入和输出,输入是指通过键盘将数据信息传送到Scala环境的内存中,输出则是指将内存中的数据返回到指定的地方(如电脑屏幕、本地文件或数据库等)。 两种输入方法 通过等号赋值的方法……
lsxxx2011 2019-03-10
零基础学习大数据的路线和方向
大数据本质是:数据挖掘深度和应用广度的结合。对海量数据进行有效的分析和处理,而不单单是数据量大就叫大数据。 随着人们对大数据的认识越来越深入,很多零基础人员看到了大数据的未来,也想学习这个前沿技术,踏入时代的领军行业。但是一直没有一个很好的……
数据跨界 2019-03-04
Scala系列之数据类型与运算符
前言 在春节期间,欢天喜地的办理了自己的婚礼,导致春节前后的一段时间都比较忙碌,进而使自己原创文章的脚步放慢了很多。许多朋友留言,表示想看大数据相关的文章。那么,我们就接着《[大数据之脚踏实地学11--Spark神器的安装](https:/……
lsxxx2011 2019-02-28
基于Hadoop的商业银行大数据平台研究与实现
以移动互联网、云计算、大数据和人工智能为代表的新一轮科技创新,正在快速改变传统的生产与管理方式,对商业银行的经营模式甚至中介功能形成全面冲击,商业银行能否用好大数据,加快创新实现转型,决定了其未来的可持续发展能力。传统以关系型数据仓库为基础……
数据跨界 2019-02-26
eBay Hadoop/Spark自助分析系统实践
>导读:当下,企业越来越重视数据资产的价值,并以此作为提高行业竞争力的重要支撑。海量、多源的数据处理是实现其数据价值的必备能力。以Hadoop/Spark为核心的大数据处理技术已经成为现代企业数据平台的标准。为应对业务用户对工作负载自助分析……
数据跨界 2019-02-26
Windows7系统搭建单机版Spark开发环境
Windows7系统搭建单机版Spark开发环境,具体步骤如下: 1 安装JDK JDK8 下载链接: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloa……
陆勤 2018-09-04
Hadoop学习路线
Hadoop学习路线 一、Hadoop入门,了解什么是hadoop 1、Hadoop产生背景 2、Hadoop在大数据、云计算中的位置和关系 3、国内外Hadoop应用案例介绍 4、国内Hadoop的就业情况分析及课程大纲介绍 5、分布式……
不错哟 2017-06-23
Hadoop是什么?它是学习大数据钥匙
有人认为 hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章《为什么 Hadoop 正在消亡?(Why Hadoop is Failin……
不错哟 2017-06-08
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介……
数商 2017-05-03
分布式计算开源框架Hadoop入门实践(二)
作者:岑文初 其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要……
数商 2017-04-15
分布式计算开源框架Hadoop入门实践(一)
作者:岑文初 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的……
数商 2017-04-15
Apache Spark介绍及案例展示
作者:RADEK OSTROWSKI 2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spa……
数商 2017-04-15