1月 2019 | 文章 |

最近,益博睿亚太区首席执行官Ben Elliott在媒体上说,“我们整合第三方替代数据,是为了令那些不受金融体系覆盖的客群(un-banked)和受金融体系覆盖但不满意其服务的客群 (unhappy banked)可以得到更好的金融服务而努力。”

 

我想以此开篇,也以此作为我们在对更多数据源进行研究时的方向和目标。正确且崇高的意图,将确保我们在拥有更多个人隐私数据和将这些数据诉诸于共享时,时时刻刻提醒自己,莫忘初衷。

 

第一波数据尝试发生在2015年,尝试的数据大部分应用于放贷审核方面,数据来源主要是快速集成的各种变量,比如:透过卡号串接的方式得知跨行的交易行为、提款存款的行为、频次和时间;身份三要素/四要素的验证、学历的验证;乘机数据和运营商数据,包括乘机频次、使用该运营商的年限等;又或者透过多家互金平台的查询,集合成以手机号或身份归户的多互金平台申请查询记录等。当时,各家互联网金融机构为了快速的跑马圈地,针对无人行征信记录的客群,纷纷采买了许多不同数据提供商的相关整合变量的数据,成功令到很多信用白户们因此享受到了便捷的网络金融贷款和信用卡服务。但负面效应也随之而来,由于变量和来源的相对可预测性与针对性高,造假相对容易,加之网络传播力度惊人,也让许多金融业者在没有其他措施的快速放款下,蒙受了不小的损失 。

 

于是,市场在2016-2017年开始了第二波的数据尝试。其时,主流应用仍然是放贷的下沉客群,我们运用了更多更底层的数据,去组合更细微的变量。但是,我们发现从各平台(包括线上和线下)组合而成的消费习惯、消费频次和消费金额等的变量,无法等同于海外常见的信用卡使用交易数据。一家信用卡清算机构所拥有的数据相对于各个线上和线下平台而言更具完整性和全面性,所以任意单一消费平台和场景的信息补充,对于风险的衡量和估算,仍然还是有其效果局限性。

 

过去,人行的变量预测力强,归功于它掌握了个人在金融机构的全部放款数据;但最近这几年的成效在减弱,原因就在于互联网金融的崛起——这些互金机构掌握了许多个人数据但却不需要报送人行,由此导致个人金融数据从全面变成片面。于是,人行便透过百行征信等企图重新丰富其数据完整性,毕竟,完整的放款情况仍然是预测风险的最佳途径。而目前,由于非金融机构的贷款盛行,未被人行收录的数据仍不在少数,我们便也只能坚持不懈地寻找更多数据源去推测某个体或其家族成员未入人行体系的金融铺险有多少,有多久和是否存在逾期情况,并修正机器学习理论从逻辑式回归到更进一步的深度学习领域,以捕捉风险中的微弱因子和其对风险的影响。

 

另外,对中小企业来说,现金流不管是去向国内或海外市场,都是极为有利的补充信息,若能充分掌握市场上绝大部分中小企业的付款和收款数据,模型效能也会非常精准。这里,我们得提到中国这个市场的独特性,中国太大了,不管是个人或企业,我们很难整合出一个完整的样貌,所以有中国特色的解决方案便应运而生,这也是大家近年来看到的从1+N模式,扩展到1+N+N模式,再到N+N+N模式的供应链金融红红火火的基础。我们可以从某些大企业和大集团出发,向下整合其供应商,和供应商的再下游供应商,画出集团概念的现金流动网络,从而给予下游和再下游的小微企业贷款,这便是在大数据下逆向回流到对公金融的一种应用。故这几年,拥有较多对公资源的银行系资金,在中小企业贷款中成长较为迅速,表现相对亮眼。

 

而回首2018年,替代数据除了应用于审贷,还开始聚焦于贷后管理。目前自动化语音方兴未艾,这是指对于一些还款有异常或者经常迟缴的客户,可以进行语音提醒;舆情追踪也是时下热点,这适用于比较有规模的企业和一些特定的产业,如餐饮业,这类企业相对较容易在网络上获得讨论和关注,也就较容易通过开展舆情追踪来进行自动化的贷后管理。

 

经过这些年,中国市场渐渐学习到,数据的积累必须全面和正确,冰山一角的数据、半壁江山的数据和其他存在间接推论关系的补充数据,很多时候,的确是让我们看到了不同的面貌,但是否就能代表一个人的风险?想必不是那么准确和有效。就像瞎子摸象这个故事告诉我们的那样:一个瞎子摸到大象的腿,他很有信心地形容“大象是根大柱子”; 一个瞎子摸到大象的耳朵,他大叫起来“大象是把大蒲扇”; 一个瞎子摸到大象的牙齿,他就说“大象像个大萝卜”; 一个瞎子摸到大象的尾巴,他嘟囔道“大象是根草绳”;四个人各执一词,但明眼人一看便知,他们只是以偏概全,没能全面和真实地了解事物的情况而已。同理,片面的讯息很容易造成自动化上的误判,也是我们务必需要自我警惕的部分。

 

风险是个大议题,这样的大议题比较难用替代数据去衡量和预测,尤其是中国市场的替代数据源完整性相对不足的情况下,但是,这些替代数据源在某些特定的和小范围的情境下使用,仍然是能起到补充和预测效果的。未来,中国市场将更仔细拆解每一个环节,每一个产业,每一个金融产品,和每一个细节上的应用,针对每个小环节的需求,提供不同的数据支撑和方法论的应用。中国市场对于替代数据的预期将更趋于合理化,其应用与发展也将更趋于细致化,这是一种质的提升。

 

我们仍然在持续尝试应用第三方多元数据,市场的重中之重仍然是如何更精准地覆盖更多客群。自动化的秒贷审核——不论你是正规军或是异军突起,这个行当,仍在快速地起飞和成长,在这条路上,坚持不懈地努力,拥有更多元化的数据仍是必要的前行方向,但在使用上必须更加小心和谨慎,对于模型效果的审慎判断和测试,仍然是避免大量损失发生的唯一指导原则。益博睿已经在这条路上走了许多年,面对蓬勃发展的大数据,我们永远敢为人先,并且永远谦卑,未来,一定会有更多元、更大量、更完整和更正确的替代数据,只要我们继续尝试、一路修正、不断精进自己。我们的征途,是希望所有的企业和每一个你我,都成为这场数据革命下的赢家。