当大数据碰撞征信会产生什么?
发布时间:2015-11-11

随着大数据风潮的来临,在改变数字产业的同时,也让更多关联产业产生了颠覆性的变化,例如征信行业以及以征信为基础的金融行业。 行为数据化,数据信用化,在这一系列流程中,曾经评判个人或者企业的标准和方式已经被深刻地打上时代烙印,带有更多“大数据特性”以及“互联网特性”,刻画个体画像的方式在变化,打造刻画不同画像模型的征信行业也正在变化。

 

大数据时代让非金融数据获得了全新生命。一方面,针对非金融数据的分析和建模在某些领域或主题上,获得了较针对传统金融数据分析后更为有价值的结果;另一方面,当前中国社会存在着大量并不拥有金融数据的群体,大数据时代让这一群体有了可被“评判”的标准,进而享受更多的社会服务。

 

当大数据碰撞征信会产生什么?那么,《第一财经日报》记者专访了哈佛大学数据挖掘和风险建模专家Dan Steinberg以及前海征信CEO邱寒。两位业内最为权威的专家,就当下流行的获取数据的方式、获取数据的类型、分析数据的方式,以及未来如何拥抱这些变化等话题进行讨论,以期能帮助广大读者理解就这些变化在当下能起何种作用。

 

日报:在数据获取方面,当前的数据和过去的数据在获取渠道以及数据类型存有哪些主要的差别?

 

Dr.Dan:我这有一个非常有趣的案例。一家英国网站,可以帮助登录该网站并回答网页上面问题的用户预测寿命长短。最有意思的是这些问题的设计,并非如血压值以及同身体相关的传统医学数据,

 

而是采集,平时走路的速度,睡觉的时长等看似跟医学并不相关的问题。同时,这些问题的设计者也均来自英国顶级医学研究者。他们在做预测模型的时候发现,真正医学数据并未带来有效价值,反而是看上去不起眼、看似没有关联性的数据产生了真正的效用。

 

大数据时代的到来,让更多人猜想,类似的事件是否会发生信用风险管理上,一些意想不到的数据可能会跟信用产生一些关联。对于数据分析模型来说,在最初可能会投入上千个变量,但最终产生实际效用的可能仅有20个,而当前的大数据研究、机器学习所聚焦的也更多在于帮助分析师从那些认为可能存有关联,或者看似完全不具有关联性的数据中,提取、聚焦出真正相关的变量。

 

邱寒:的确,我在实际的分析建模工作中也发现,很多原先并不被认为与借贷风险相关的新型数据在实际分析中显示出了对于借贷风险的预测能力。比如一些网络使用习惯的数据。类似的研究在美国的一些创新型互联网金融公司中也在进行,也发现了许多有趣的新指标。与十几年前根据美国信用卡数据进行风险建模时不同,目前就我们前海征信来说,我们所使用的维度已经大大超过传统的金融建模方法,被测试的字段可能高达千计,而最终进入模型的有效字段也往往有几百个。大数据时代,不管从数据来源还是建模方法上都产生了巨大的变化。

 

日报:不同的授信额度对应的数据需求有哪些差异?是否微小额度更注重验真,大额度授信更为复杂?

 

Dr.Dan: 我曾经在新西兰做一个项目时产生了非常有趣的结果。人们对于自己身份会提供ID证明,而不同的提供方式代表着信用程度不同。当时人们一般选择两种呈现方式,一种是出示护照,另外一种是出示身份证、驾照等。数据显示,利用护照的用户群体更容易违约。

 

虽然这说明呈现ID的方式对违约程度具有指向性,但是如果这种测量方式被意图违约的人知道了,那么这个骗贷的群体将不会再选择护照这种方式,同时这种测量方式的效度会短时间内高速下降,因为这种方式一旦被这一群体所了解,他们会选择反向操作。

 

我对个人授信不甚了解,但从曾经企业信贷违约模型搭建经验表明,对于不同放贷额度对数据要求的确不同。当面对大企业、中性企业以及小微企业等不同规模的企业时,所运用的变量数量相差无几,但是具体的变量维度的确各不相同,不同类型企业运用的数据内容各不相同。

 

邱寒:正如我一直所说的,风险评估是一个系统工程,并非一个信用分可以解决所有问题。从信用分到负债承受能力等多个维度都会对一个人最终的还款行为产生影响。小额授信和大额授信的确从流程上是存在很大不同的,同时有无抵押品的流程以及不同场景均会存在较大差异。现在一概而论微小贷看重验证并不合适,因为如果防范得不到位,也会积小成多,造成重大损失。

 

日报:目前在国际上通行的在判断个人信用方面,包含哪些信用判断维度?金融数据占据怎样的角色和地位?

 

Dr.Dan: 我觉得,尚无法从全球角度给出一个全局层面的判断。但在新西兰的一个信贷项目经验表明,某些属性、维度、字段并非属于金融数据的数据类型对于信审模型起到的作用比原始金融数据更重要。当面对金融数据缺失时,这些数据的价值就会被进一步放大,中国目前拥有大量金融数据缺失的客户,而放贷机构无法让客户现行刷卡五年,五年后拥有金融数据后再行放贷。

 

如果能够证明,其他非金融数据在某种程度上能够代替原始金融数据,甚至有产生比金融数据更好的效果,那么会大幅提升中国信贷领域的效率,同时中国信用体系也会实现跳跃式发展。

 

邱寒:很多风险预测维度的确存在国际差异,其中有一部分维度是国际通用的,但也有一部分是与不同国家的特定情况相关联。例如,经验发现在美国发现开宝马车的人的信用表现比开通用汽车的人得信用表现要好,但该结论在中国并不适用。实际操作过程中往往会发现很多与别的国家不一样的一些维度。这样的差异很多时候同各个国家的文化,习惯有关系。

 

与此同时,与这些创新型指标不同,金融数据的表现在不同的国家却往往呈现出比较一致的结果。在最终模型中的权重当然还是有差异的,但效果方向却往往是一致的。我注意到,经验数据显示,在模型中金融数据还是发挥着最重要的角色,至少占据了65%以上的解释度。

 

日报:面对相同的数据,在整合和分析方面,相比过去现在是否会由于技术的升级而出现不一样的结果?变化主要有哪些?对于金融机构来说,意义又在于哪些方面?

 

Dr.Dan:目前在数据分析方面,相对于评分卡、逻辑回归等常用方法外,最为先进的数据分析方法是Treenet(随机梯度提升)。相对于传统分析方式,Treenet有三方面的好处,第一,拥有数据缺失值处理的能力;第二,不同于传统非线性建模;第三,具有交互作用,可以同时考量2-3个变量。

 

同时,treenet可以让更多的数据维度更充分地利用到模型之中。逻辑回归等经典模型所利用的数据维度比较少,而treenet能够让更多有预测性的维度被包含到模型之中,同时精度也有一定提升。

 

某机构如果大规模使用这种机器学习方式,同时运行几百上千个模型,如果每一个模型在使用过程中效率的提升是微小的,但是产生的累计效应是巨量的、惊人的。

 

此外,许多金融机构在制作模型的过程中,在利用经典模型、经典方法过程中需要大量的人工接入,一旦有人工就受制于人力资源的现实。例如,一共5个分析师,每个人都有很多人工工作,导致每个月只能建构4个模型,但其实很多业务场景都需要模型,进而导致在其他业务上没有运用模型,或者运用精度不高的模型。新技术的产生让更多的业务、更多的分析主体被覆盖,因此生产效率也得到相应的提升。

 

邱寒:传统的建模过程,要经过数据准备,数据清洗,建模,验证,实测等等过程,一整套流程往往需要耗费几个月,对于风险评分卡而言,由于涉及到的测试更为全面和严格,周期甚至更长。这样的周期肯定不能适应大数据时代得需要。同时,由于在大数据时代数据量与覆盖的维度与以前不可同日而语,必须使用创新的建模方法。前海征信独创了多维立体纳米建模方法,融合深度神经网络,机器学习和传统的逻辑回归等方法,大量使用自动模型训练,极大地提高了建模的效率。能做到实时反馈实时优化。

 

日报:通过数据来判断一个人的信用是否能够完全规避风险?如果不能,风险点在哪里?金融机构该如何更加有效地运用这些数据?

 

Dr.Dan:在某种程度上,金融数据依旧扮演非常重要的角色。例如,一个人信用额度用的使用比例,假设该用户拥有5张信用卡,总共额度是10万块钱,上一个季度用了只有2%的额度还是90%的额度,这样的信息,比该客户到星巴克点了什么咖啡,近期看了间谍片还是科幻片更有价值。但目前问题是,中国大量群体金融数据确实,只能寻找其他数据来代替,试图发现该类数据可能存在有效性。

 

举个例子,曾经给纽约某家大型银行做一个项目,当时这家银行在做“目录营销”,即在给客户邮寄信用卡账单的同时附带一些推销的广告,例如电视机、旅游产品,收取佣金,以作为银行另一个营收渠道。在美国,互联网真正普及之前,目录营销是除了实体店销售外最大的直销型商业模式。

 

因为数据量很大,当时有美国专业卖数据的公司,收集了每一个客户的地址,将所有主要从事目录营销公司做了一个集中调查,了解到某一个具体地址,在当年响应了哪些目录营销的活动。这种方式类似于当下某些互联网利用浏览器中的cookies收集浏览历史一样,通过cookies了解网民访问了哪些网站。

 

当时针对获取的这部分数据以及该银行自身的金融数据制作做了一些模型,其中一个模型仅仅利用了银行方面的数据,另外一个模型则相反,只运用了目录营销的数据。模型分析结果显示,录营销的数据几乎没有产生作用,仍然是银行自身的数据占据了主导作用。金融自身的数据还是最重要的。传统金融数据不可取代,部分群体数据缺失的情况下,可以试图寻找相对次优的方法。

 

邱寒:目前看来,金融自身的数据还是最重要的,在我们前海征信的模型中占据了大部分的解释度。当然一些创新数据也在发挥作用。我认为应该充分尝试,谨慎使用。

 

风险评分是一项非常专业和严肃的工作,除了准确度之外,还非常关注稳定性。因为,有些创新变量可能在某段时间某些情况下有作用,例如也许会发现喜欢穿红衣服的人信用情况比较好,但是一两个月后又变成喜欢穿绿衣服的人信用情况比较好了。这一类变量就是有相关性但稳定性很差的。这时候就要平衡好准确性和稳定性的选择。有一个建模专业术语叫做避免over-fitting(过度拟合),这在风险建模工作中尤为重要,就是要更多选用有解释度并且稳定性高的解释维度。从目前的实践情况来看,金融自身的数据不仅是解释度的贡献度高,稳定性表现也是非常好的。

 

日报:中国和美国的社会信用环境的区别是什么?观察国内的数家征信机构中,哪个机构具有一定的领先性?

 

Dr.Dan:我尽管没有在中国市场工作,但是比较确信的是不同市场所运用的模型以及授信评分机制存在差别较大,这种区别受制于经济、文化等多种因素。应该比较欣喜地看到,像前海征信这样的中国企业开始崭露头角,相信如果中国的征信机构把工作做的好,完全可能有一天某家机构成为中国的FICO,成为真正具有竞争力的征信机构。甚至在未来,当积累足够多的经验之后,可以走出国门,赴越南、马来西亚等国家一显身手。不可否认,这个过程可能是漫长的,从美国的FICO从上个世纪60年代就已经开始从事这个事情,可以看到这条路一定是漫长的。但是千里之行始于足下,类似前海征信这样具有前瞻性的公司已经走出了第一步。

 

邱寒:作为在国内的相关行业的从业者,这个问题我是这么看的,其实我们才刚刚起步,还有很多当务之急的事情要去做。作为人民银行第一批批准进行个人征信准备的征信机构,我们前海征信立足于金融,一方面采用了国际前沿的大数据技术,同时也保存了历史验证有效的传统算法的核心内容。在构建评分卡的过程中,同美国FICO,韩国NICE等都有过深入的交流,独创的多维立体纳米评分技术也得到国际专家的认可。由此不难看出,由于大家都看到了征信的重要性,国际国内的同行之间的互动日益密切和较强,最简单的例子就是,众所周知,FICO是这方面的国际权威,但它的评分技术还偏重在传统技术和金融数据上,他们也希望学习前海征信整合金融与非金融、结构化和非结构化数据的经验,进一步推动模型的升级;反过来也一样,我们也在学习国际国内先进同行的经验。

 

VIA:《第一财经日报》

乐思舆情监测中心(www.knowlesys.cn)文章,转载请注明出处,谢谢!

分类: 大数据应用 标签: