搜索到 320 条结果

您可能要找:

手把手教你做文本数据挖掘
一、文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 二、文本挖掘步骤 1)读取数据库或本地外部……
lsxxx2011 2016-01-10
自学机器学习向导
自学机器学习向导 这里,你在学习机器学习的过程中,可以做很多的事情。这里有很多来自书籍和课程的资源给你提供参考,甚至你可以参加比赛和属性使用工具。在这篇文章里,我想对这些活动提供一些架构,并在你从程序员转变为机器学习专家的旅途中给你提供一些……
firedata 2016-03-08
使用R绘制几种常用的双坐标轴图形
之前公众号推送了一系列关于使用ggplot2包绘制统计图形的文章,有网友询问是否可以绘制双轴的统计图形。很抱歉,Hradly在设计ggplot2包时就没有将双轴图形功能考虑进来。难道R语言就无法绘制双轴图形了吗?非也,R不仅是统计学家的标准……
lsxxx2011 2016-02-19
使用R绘制其他图形之热图及网络图
热力图是一种非常常用的统计图形,该图将两个变量(一般是离散变量)的交叉汇总信息以颜色的形式展现出来,而映射给颜色变量的是连续型数值变量,下面就以例子说明热力图的优势: #模拟数据集 set.seed(123) Year <- re……
lsxxx2011 2016-02-15
用dplyr包进行数据操作
dplyr包是由Hadely Wickham编写的,并用于数据操作的包。这个包给我们用户提供了一个关于探索性数据分析以及操作中,一些功能强大,而且容易操作的函数的一个程序包。这里,我会讲述几个关于dplyr包里最常用的几个函数。 在这篇文章……
firedata 2016-02-02
数值型数据的探索分析
数据分析过程中,往往需要对数据作基本的探索性分析,查看数据是否存在问题,如缺失值数量、是否存在明显的异常值、数据是如何分布的、数据的集中趋势和离散趋势等。 探索性分析一般包括三大部分,即数据的分布情况、数据的集中与离散趋势和数据的分布形态……
lsxxx2011 2016-03-08
基于R语言的主成分和因子分析
主成分分析 主成分分析,是一种降维的分析方法,其考察多个变量间相关性的一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。 为什么要……
lsxxx2011 2016-01-08
Accelerate R applications by cuda on GPU讲座总结
[微课堂]Accelerate R applications by cuda on GPU 分享内容: 本次讲座会介绍在数据分析中用到的并行化技术,并以R为平台介绍如何开发移植和优化数据分析的各种算法,如深度学习,knn算法。GPU当今已成……
薛丽丹 2016-04-23
教你使用tidyr包进行数据预处理
之前介绍了如何使用data.table包、reshape包、plyr包和dplyr包进行数据预处理。 最后再跟大家介绍一下tidyr包。 有关data.table包、reshape2包、plyr包和dplyr包的介绍请参考: 《强大的da……
lsxxx2011 2016-01-28
灵活的字符串处理包:stringr
在文本或非结构数据处理中往往需要正则表达式的强大功能,需要字符串的处理,下文就讲讲这几天梳理的stringr包中的函数。该包仍然由伟大的Hadley做贡献。 word(),从句子中提取词组(适用于英语环境下的使用) word(string,……
lsxxx2011 2016-04-01
手把手教你使用ggplot2绘制条形图
数据分析报告中经常会看见各种各样的条形图,如简单条形图、水平交错条形图、堆叠条形图、堆叠百分比条形图等,本文从R语言的角度,教大家绘制各式各样的条形图。 绘制离散单变量的条形图 从数据形式来看:有汇总好的数据集和明细数据集 使用 汇总好的数……
lsxxx2011 2016-01-16
如何使用R语言解决可恶的脏数据
在数据分析过程中最头疼的应该是如何应付脏数据,脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误,所以必须谨慎的处理那些脏数据。 脏数据的存在形式主要有如下几种情况: 1)缺失值 2)异常值 3)数据的不一致性 下面就跟大家侃侃如何处理……
lsxxx2011 2016-02-17
我们都是数据人,您意识到了吗?
我们都是数据人,您意识到了吗? 文/陆勤 我们都是数据人,既是数据的生产者、又是数据的消费者。 数据生产者的场景,比比皆是。 电商平台,购买喜欢的物品,生产了与购买相关的数据;社交圈子,分享各自的见解,生产了与分享相关的数据;搜索引擎,寻……
陆勤 2016-04-17
手把手教你使用ggplot2绘制折线图
折线图同样是应用非常广泛的统计图之一,通过折线图可以反映某种现象的趋势。通常折线图的横坐标是为时间变量,纵坐标则是一般性的数值型变量,当然,折线图也允许横坐标为离散型数值和数值型数值。下面来解释一下关于折线图的绘制。 一、绘制单条折线图 >……
lsxxx2011 2016-01-17
手把手教你使用ggplot2进行数据分布探索
手把手教你使用ggplot2进行数据分布探索 数据探索过程中往往需要了解数据的分布情况,例如上下四分位数的位置、数据符合哪种分布等,下文将使用R的ggplot2包探索数据分布情况。 数据探索中,使用最为广泛的分布图就是直方图,ggplot2……
lsxxx2011 2016-01-23