火眼科技大数据风控模型研发的两大关键点
火眼科技:大数据风控模型研发的两大关键点
数据科学仅仅是数据决策的一个算法环节,但是算法的实现要有很多基础设施作支撑,就像人一样——人的正常活动不仅靠的是大脑,也需要骨骼、血液作支撑。我们能在极短的时间内做出授信决策,很大程度上依赖于我们有一个强悍的系统作支撑。
整个授信环节可以分成很多步骤,如果能在早期的授信环节,通过较少的数据对用户的风险作出判断,那这就不会经过后面的操作,决策作出的就比较快。很多指标都是以“流式”的方式进行计算的,即只要当符合一个指标计算需要的条件被满足的时候,它就可以很快地被计算出来,不是等到所有的数据都准备好了之后才开始计算。总之,要做到“快数据”,整个计算引擎都是需要经过高度优化的。
“乐高式”的分布式模型
在业务的所有链条里,人工智能技术和数据是贯穿整个产品生命线的。模型结构采用分布式结构,也就是说,无论客群、渠道如何变化,模型基本上可以保证在一定的稳定性水平上。分布式模型的个考量是灵活性。因为模型里有很多的子模型,可以根据合作伙伴、合作模式的不同,把子模型非常松散地作排列组合——像乐高玩具一样——形成优的方案。这样的处理会比较标准化、模块化,像乐高玩具一样可自由拆分组合。比如说有一些合作伙伴,基于用户体验的考量,不想用基于用户地理信息的行为数据。使用分布式的模型结构,就不需要每对接一个渠道方都重新做一次模型了。
第二个考量是模型的稳定性。因为一个模型可能会接四十多个数据源,有时数据的底层是非常“脏”的,并不是拿来就能用的,如果底层的数据出现抖动的话,可能会对模型产生比较大的影响。使用分布式结构模型,如果一个子模型效果或稳定性上出现问题,只要把这个子模型拆开,换一个模块就行,这样可以保证其他的子模型不受影响。第三个考量是模型的效果。机器学习允许使用不同的方法——比如神经网络、深度学习、增强学习、决策树等各种的算法——去解决同一个问题。具体场景下哪个办法好,是在实践的过程中发现的。
兼用传统逻辑回归与机器学习算法
传统的风控模型都是线性模型,比如逻辑回归,它的特点是高度结构化和可解释性。但问题是,如果两个变量与之间不是线性的关系,在把它变成线性关系的过程中会损失很多信息。而且这种情况下,去做特征工程时,是需要人去想的。但人总有局限性,你看到想到的东西并不是全部,有时它甚至是错的。
火眼科技提醒大家:机器学习、深度学习的模型,它的好处是能自我适应、自我学习,但这类模型基本上是一个黑盒子。因为模型的结构非常复杂,比如说一个决策树模型里可能有一千棵树,每一棵树可能会有三四层——结构上非常复杂以至于人没有办法去描述它。这可能也是为什么一些传统银行里的从业人员,用AI模型的时候会比较没有安全感,因为他看不到这个模型里是怎么样的,总觉得要自己掌控的才能放心。
www.***
数据科学仅仅是数据决策的一个算法环节,但是算法的实现要有很多基础设施作支撑,就像人一样——人的正常活动不仅靠的是大脑,也需要骨骼、血液作支撑。我们能在极短的时间内做出授信决策,很大程度上依赖于我们有一个强悍的系统作支撑。
整个授信环节可以分成很多步骤,如果能在早期的授信环节,通过较少的数据对用户的风险作出判断,那这就不会经过后面的操作,决策作出的就比较快。很多指标都是以“流式”的方式进行计算的,即只要当符合一个指标计算需要的条件被满足的时候,它就可以很快地被计算出来,不是等到所有的数据都准备好了之后才开始计算。总之,要做到“快数据”,整个计算引擎都是需要经过高度优化的。
“乐高式”的分布式模型
在业务的所有链条里,人工智能技术和数据是贯穿整个产品生命线的。模型结构采用分布式结构,也就是说,无论客群、渠道如何变化,模型基本上可以保证在一定的稳定性水平上。分布式模型的个考量是灵活性。因为模型里有很多的子模型,可以根据合作伙伴、合作模式的不同,把子模型非常松散地作排列组合——像乐高玩具一样——形成优的方案。这样的处理会比较标准化、模块化,像乐高玩具一样可自由拆分组合。比如说有一些合作伙伴,基于用户体验的考量,不想用基于用户地理信息的行为数据。使用分布式的模型结构,就不需要每对接一个渠道方都重新做一次模型了。
第二个考量是模型的稳定性。因为一个模型可能会接四十多个数据源,有时数据的底层是非常“脏”的,并不是拿来就能用的,如果底层的数据出现抖动的话,可能会对模型产生比较大的影响。使用分布式结构模型,如果一个子模型效果或稳定性上出现问题,只要把这个子模型拆开,换一个模块就行,这样可以保证其他的子模型不受影响。第三个考量是模型的效果。机器学习允许使用不同的方法——比如神经网络、深度学习、增强学习、决策树等各种的算法——去解决同一个问题。具体场景下哪个办法好,是在实践的过程中发现的。
兼用传统逻辑回归与机器学习算法
传统的风控模型都是线性模型,比如逻辑回归,它的特点是高度结构化和可解释性。但问题是,如果两个变量与之间不是线性的关系,在把它变成线性关系的过程中会损失很多信息。而且这种情况下,去做特征工程时,是需要人去想的。但人总有局限性,你看到想到的东西并不是全部,有时它甚至是错的。
火眼科技提醒大家:机器学习、深度学习的模型,它的好处是能自我适应、自我学习,但这类模型基本上是一个黑盒子。因为模型的结构非常复杂,比如说一个决策树模型里可能有一千棵树,每一棵树可能会有三四层——结构上非常复杂以至于人没有办法去描述它。这可能也是为什么一些传统银行里的从业人员,用AI模型的时候会比较没有安全感,因为他看不到这个模型里是怎么样的,总觉得要自己掌控的才能放心。
www.***