微信公众号


R语言
数据科学与人工智能
转载 第2篇:客户画像
作者:张华 原文链接: http://100000p.com/article/2c9f60ee5e3d631a015e5e939dd10993 从2004年开始在数据服务领域工作,拥有13+年的“可怕”经验,专长在数据建模领域和数据架构领域。 在大数据技术栈领域,拥有5+年的“吓人”经验,专长在依据不同的业务场景,整合……


转载 第1篇:第一份数据报告的诞生
作者:陈丹奕 原文链接:https://zhuanlan.zhihu.com/p/20256824 因为在之前的回答里提到,建议希望成为数据分析师的知友们在学习过相关知识以后,做一份自己的数据报告,作为求职的敲门砖,展示已有能力。后来发现,我这个建议自以为干货,但其实犯了“给鸡汤不给勺子”的错误,很多人(>20个)发私……


转载 一文看懂特征工程在金融风控中的应用
转载:http://www.uml.org.cn/ai/201811051.asp 在建模领域人们常说,数据和特征决定机器学习的上限,而模型和算法只是不断地逼近这个上限。所以,特征工程在建模中起到了决定性的作用。在金融实践领域,虽然特征工程得到了越来越多的重视,但是大家对特征工程的理解,出于行业机密和特征工程的复杂性等……


原创 我的视频号-传播和分享数据|英语|教育|生活的内容
很开心,能够作为微信的内测用户,我已经开通了微信视频号。 长按二维码,点击【识别图中的二维码】,进入王路情微信视频号。 我的视频号会分享和传播数据,英语,教育和生活的内容。 一 数据 我是一位数据工作者,做过数据分析师,数据挖掘工程师,算法工程师,大数据科研项目经理等与数据相关的岗位。 我会在视频号里面分享一系列与数……


原创 PDFMV框架
0 前言 我从事数据工作数年,阅读数据相关的书籍数本,我一直思考着两个问题: 如何发掘数据洞见? 如何创造数据价值? 逐渐地,我总结和提炼出PDFMV框架,“Problem-Data-Feature-Model-Value”的简称,并且在数据项目积极地尝试和实践,进一步深化对这个框架的认识,强化对这个框架践行。 ……


原创 实战数据科学(R语言)
我今天给大家推荐一本书籍:《实战数据科学(R语言)第二版》。 1为什么阅读这本书? 我阅读这本书,有这些原因: 1 我曾经读过这本书的第一版,也向数据人推荐过。2020年这本书又推出了第二版,关于本书的介绍,也可以看一下这个网页(http://www.win-vector.com/blog/2019/11/pract……


原创 my 2019 and my expectation on 2020
Currently, I cannot calm myself down to do some reading on the papers and learn programming, and even review for my final. Therefore, it’s time to write somethi……


原创 特征选择:卡方检验
01 卡方检验是什么 >卡方检验是一种统计量的分布在零假设成立时近似服从卡方分布的假设检验。在没有其他的限定条件或说明下,卡方检验一般指的是皮尔森卡方检验。——《维基百科》 上图表示分别在1、2、3、4、5的自由度下,卡方统计量(X轴)与P值(P-value,Y轴)之间的变化关系。 02 卡方检验与特征选择 特征选择……


原创 特征选择
01 为什么要做特征选择? 我们研究特征选择,有这些好处: 1 大数据时代,数据挖掘和机器学习的一大挑战就是维数灾难,特征选择是缓解维数灾的一种有效方法。 2 通过特征选择,可以建立有效的模型,避免过拟合,提升模型能。 3 对高维数据做处理和分析时,使用特征选择,可以减少内存的空间和降低算力成本。 4 做特征选择,可以……


原创 绘制多种算法的Accuracy的对比分析可视化
问题提出 利用多种算法解决科学问题的时候,记录每种算法在各个采样点下性能指标,比方说Accuracy,如何绘制这些算法的Accuracy的对比分析的可视化呢? 解决方法 第一步:数据导入 # 数据导入 library(readxl) model_accuracy_data <- read_excel('model……


原创 一键更新所有R包
一键更新所有R包 > 感谢 Guangchuang Yu教授的R包(https://github.com/GuangchuangYu) 。 使得更新R如此容易。 使用该编辑器即可得到版式整洁优雅的,各平台统一的文本格式。您无需考虑字体、颜色、行间距等问题,即快速完成排版。 1 - 检查R 各 mirror地址 的下载速……


原创 聚类分析中的可视化
问题提出 当数据没有标签或者有少量标签的时候,我们需要使用聚类分析来发现数据的模式。便于理解聚类分析的结果或者效果,如何对聚类分析做可视化呢? 解决方法 第一步:安装和加载聚类分析R包-factoextra library(pacman) p_load(factoextra) 第二步:导入数据集,采用R语言自带的……


原创 使用R语言为学术出版制作高分辨率的图像
问题提出 我们做学术研究,时常需要把大部分结果做可视化,便于总结,分享和传播。我们如何制造能够符合学术出版的高分辨率图形呢? 解决方法 学术出版物,为图形的格式化有明确的要求,经常用的图形格式:TIFF格式,EPS格式或者PDF格式,其他图形格式不提倡,甚至是不允许,因为存在图形的压缩或者失真。 使用R语言制造高分辨率……


原创 Python人工智能与机器学习知识体系
Python人工智能与机器学习知识体系 1 熟练Python3编程语言,能够利用Python3解决一些数据工程化的问题。 2 具备数据分析和机器学习的理论,熟悉数据科学工作流程。 3 熟练掌握Numpy和Scipy科学计算工具的使用。 4 熟练掌握Pandas数据分析工具的使用。 5 熟练掌握Matplotlib和S……


原创 R数据科学知识体系
R数据科学知识体系。 1 熟悉R语言基础知识 1)R语言是什么?R语言能够做什么?为什么要使用R语言?R语言的优势和劣势? 2)R语言的工作环境构建,R语言的集成开发工具软件RStudio的熟悉和应用。 3)R语言扩展包的管理和使用。 2 熟悉数据科学基本知识和工作流程 1)数据科学的Why-How-What问题。 ……


翻译 作为一名数据分析师,R是怎样影响我的?
作者:Zoe Turner 原文链接: https://nhsrcommunity.com/blog/how-r-changed-me-as-an-analyst/ 我猜想有很多关于R语言的博客和R语言为什么如此伟大呢? 它是免费的。 它是开源的。 它有一个伟大的社区。 它是可重复性的。 你当然可以在Twitte……


作者

文章归档

2020年08月
2020年07月
2020年06月
2020年05月
2020年04月
2020年03月
2020年02月
2020年01月
2019年12月
2019年11月
2019年10月
2019年09月