如何处理不平衡数据集
分类是机器学习中最常见的问题之一。处理任何分类问题的最佳方法是从分析和探索数据集开始,我们称之为探索性数据分析(EDA)。唯一目的是生成尽可能多的关于数据的见解和信息。它还用于查找数据集中可能存在的任何问题。在用于分类的数据集中发现的一个……
陆勤 2019-05-13
穆勒报告的词云:R的简版教程
这是一个利用R代码从穆勒报告生成一个词云的快速而简版的教程,可以在Github上面找到(https://github.com/raklein/mueller-wordcloud)。 所有的功劳都归于Alboukadel Kassambara……
陆勤 2019-04-25
tidyr包实现数据重塑教程
介绍 本文描述了新的pivot_longer()和pivot_wider()函数的使用。他们的目标是提高gather()和spread()的可用性,并结合其他包中发现的最新特性。 一段时间以来,很明显,spread()和gather()的设……
陆勤 2019-03-29
ggplot2包学习和使用教程
概述 ggplot2是一个基于图形语法以声明方式创建图形的系统。您提供数据,告诉ggplot2如何将变量映射到美学,使用什么图形原语,以及它所要处理的细节。 安装 # The easiest way to get ggplot2 is t……
陆勤 2019-03-29
R和Python做数据可视化
R和Python使我们拥有生成复杂而有吸引力的统计图形的能力,以便获得洞察力和探索我们的数据。两者都具备良好的处理数百万数据点的能力(根据平台的不同可能有数十亿)。 用Python可视化数据 Seaborn构建在Matplotlib之上,……
陆勤 2019-03-28
Python语言做数据分析教程
引言 那是几年前的事了。在SAS工作了5年多之后,我决定离开我的舒适区。作为一名数据科学家,我正在寻找其他有用的工具!幸运的是,我很快就决定了——Python是我的开胃菜。 我一直有编写代码的倾向。这是做我真正热爱的事情的时候。代码。事实证……
陆勤 2019-03-26
使用R和tidytext对Trustpilot 的评论进行主题建模
>在这篇和分析中,我们将主题建模应用于我目前的电信提供商丹麦Trustpilot对“3”(其他国家的“三个”)的评论。 我对他们的客户服务不满意,并认为这将是一个有趣的主题建模用例。 通过这种方法,我们可以尝试找出客户体验的哪些方面出现在积……
陆勤 2019-01-04