信用评分:第7部分 - 信用风险模型的进一步考虑
以满足科学模型开发的主要标志 - 严谨性,可测试性,可复制性和精确性以及可信度 - 考虑模型验证以及如何处理不平衡数据非常重要。 本文概述了可用于满足这些标志的高级验证框架,并简要介绍了处理不平衡数据时常用的方法。 高级验证框架 “太好了以……
陆勤 2018-06-05
信用评分:第6部分 - 分割和拒绝推断
>“细分和拒绝推断,还是保持简单? - 这是个问题!” 本文探讨了计分卡开发过程中经常需要解决的另外两个方面:分割和拒绝推理(RI)。 分割 多少个评分卡? 标准是什么? 最佳做法是什么? - 是我们试图在评分卡开发早期回答的常见问题,从识……
陆勤 2018-06-05
信用评分:第5部分 - 评分卡开发
评分卡开发描述了如何将数据转化为评分卡模型,假设数据准备和初始变量选择过程(过滤)已完成,并且已过滤的训练数据集可用于模型构建过程。 开发过程包含四个主要部分:变量转换,使用逻辑回归的模型训练,模型验证和缩放。 >图1.标准评分卡开发过程……
陆勤 2018-06-04
信用评分专题
>信用评分专题收录和汇集信用评分这个主题的文章。通过信用评分专题的阅读,真正明白为什么要信用评分?信用评分是什么?信用评分有哪些类型?如何设计和实现信用评分等一系列有价值的课题。 一 理论篇 信用评分专题一 1 [信用评分:第1部分 - ……
陆勤 2018-06-04
信用评分:第4部分 - 变量选择
“以少胜多”是信用智能的主要理念,信用风险模型是实现这一目标的手段。 通过使用自动化流程并专注于关键信息,信用决策可以在几秒钟内完成 - 并且最终可以通过使决策流程更快而降低运营成本。 更少的问题和快速的信贷决策最终会提高客户满意度。 对于……
陆勤 2018-06-04
信用评分:第3部分 - 数据准备和探索性数据分析
>“垃圾进出垃圾”是计算机科学中常用的公理,也是对项目成功的威胁 - 输出质量在很大程度上取决于输入的质量。 因此,数据准备是任何数据挖掘项目的关键方面,包括信用评分卡的开发。 这是CRISP-DM周期中最具挑战性和耗时的阶段。 项目总时间……
陆勤 2018-06-03
信用评分:第2部分 - 信用评分卡建模方法
信用评分:第2部分 - 信用评分卡建模方法 > 伟大的设计通过简单化来呈现其丰富性。(M. Cobanli) 作为数据科学家,我的责任是设计和开发一个准确,有用和稳定的信用风险模型。我还需要确保其他数据科学家和业务分析师能够评估我的模型或……
陆勤 2018-06-03
信用评分:第1部分 - 为什么要进行信用评分?
>信用评分:端到端的开发过程,是一个系列性文档,作者详细地介绍信用评分的why-what-how等问题。 信用评分:第1部分 - 为什么要进行信用评分? 合理的“现在购买,稍后付款”是许多金融和零售公司为了增加客户群而向其客户提供的诱人服……
陆勤 2018-06-03
机器学习强化Fintech
> 机器学习现在不仅是流行语。 它已经改变了人类工业的工作方式,而FinTech不是局外人。 金融中介使用的数据量正在突飞猛进地增长。 如今,广泛应用于银行业务和金融业务的大数据分析技术几乎不会让任何人充分意识到这个问题。 越来越多的玩家……
陆勤 2018-06-01
银行业大数据
银行业大数据 银行业日常产生大量数据。 为了区别于竞争对手,银行正在采用大数据分析作为其核心战略的一部分。 分析将成为银行关键的游戏变革者。 在这张信息图中,我们探讨了银行在业务中采用分析的方面。 总结 银行业所面临的主要挑战:大数据,……
陆勤 2018-05-31
作为数据科学家应该学习的第一件事
根据30年的商业经验,下面的列表是我认为首先应该在数据科学课中讲授的(非全面的)内容选择。 这是我文章的后续内容为什么Logistic回归应该最后讲解。 我不确定下面这些主题是否在数据营或大学课堂上讨论过。 问题之一是招聘教师的方式。 招聘……
陆勤 2018-05-26
金融领域7大数据科学案例
近年来,数据科学和机器学习应对一系列主要金融任务的能力已成为一个特别重要的问题。 公司希望知道更多技术带来的改进以及他们如何重塑业务战略。 为了帮助您回答这些问题,我们准备了一份对金融行业影响最大的数据科学应用清单。 它们涵盖了从数据管理……
陆勤 2018-05-19
github和git使用总结
本文总结github和git的使用。 [TOC] 1 github和git介绍 github是什么? > GitHub是通过Git进行版本控制的软件源代码托管服务,由GitHub公司(曾称Logical Awesome)的开发者Chris ……
陆勤 2018-05-14
数据科学面试问题二
续[数据科学面试问题一](http://shujuren.org/article/577.html "数据科学面试问题一")。 [TOC] 1 您将在时间序列数据集上使用什么交叉验证技术? 您应该意识到时间序列不是随机分布数据这一事实,它本……
陆勤 2018-05-13
数据科学面试问题一
数据科学也被称为数据驱动型决策,是一个跨学科领域,涉及以各种形式从数据中提取知识的科学方法,过程和系统,并基于这些知识进行决策。 数据科学家不应仅仅根据他/她对机器学习的知识进行评估,而且他/她也应该具有良好的统计专业知识。 我将尝试从非常……
陆勤 2018-04-29