大数据风控那点事

编辑：夕照寺 | 2016年1月4日 | 会议会展 | 评论已关闭 | 2922

·摘　要·

大数据风控作为传统风控方式补充，主要利用行为数据来实施风险控制，用户行为数据可以作为另外的30%客户风控的有效补充。大数据风险控制的作用就是从原来被拒绝的贷款用户中找到合格用户，识别出已经通过审核的高风险客户和欺诈客户。

大数据风控那点事？（上）

大数据风控同传统风控在本质上没有区别，主要区别在于风控模型数据输入的纬度和数据关联性分析。据统计，目前银行传统的风控模型对市场上70%的客户是有效的，但是对另外30%的用户，其风控模型有效性将大打折扣。

一、银行信用风险控制的原理

金融行业中，银行是对信用风险依赖最强的一个主体，银行本质就是经营风险，不同的风险偏好决定了银行的经营水平。在经济结构调整周期过程中，信用风险管理也是各个银行面临的巨大挑战。

1.两种常见的信用风险管理方式

银行信用风险管理有两种方式，第一种方式是从大量申请人中找到合格的贷款客户，将贷款放给这些人。第二种方式是从申请人中识别出有潜在风险的贷款客户，不将贷款发给这些人。可以简单地认为是找到好种子和识别出坏种子

2.如何找到合格的贷款人？

银行在找好种子时，一般会对好种子进行一些基本限定，从贷款人的学历、年龄、收入、职业、资产、负债、消费等几个方面进行打分，最后综合评级，依据评估分数进行贷款审批，可以简单地认为是风险定价（RBP）。

贷款销售人员主要的任务是找到好种子的用户，通过KYC和风险评估等方式的找到潜在合格客户。这个阶段的风险控制可以认为是一个基线控制，经过风险评估之后，会得到客户的评估分数或风险评级。在控制基线之上的客户会被放进来，认为是潜在合格客户；风险管理部门进一步验证，如果审核通过之后，就会依据分数和级别发放贷款。

3.识别出潜在风险的人

利用数学模型来识别风险客户，目的是找到欺诈客户和未来不会还款的用户。在识别坏种子时，数学模型和坏种子是关键，数学模型决定风控方式是否科学，数据纬度是否全面，结论是否科学。坏种子是用来修正风控模型参数，提升模型的鲁邦性，同时让模型可以不断完善自己。在预防欺诈用户时，行业共享的黑名单也起到了很大的作用。

坏种子对识别出欺诈用户和潜在违约用户十分关键，风控模型是否有效的一个前提就是是否有足够多的坏种子。

4.个人消费金融授信的5P原则

信用贷款分为抵押贷款和无抵押贷款，其中抵押贷款的风险相对较低，风险评估过程中主要关注抵押品的自身价值和贷款覆盖率，贷款用途和还款能力占信用审批权重比例较低。银行过去大量的个人贷款，都是抵押贷款，其中按揭房贷占了很大的比重。

无抵押贷款称为信用贷款，时髦的称呼为消费金融。贷款人无需进行财产抵押，仅仅依靠自身信用分数或还款能力申请贷款。相对于抵押贷款，其风险较高，也是银行信用风险管理的重点领域。这几年消费贷款增加较快，预计2017年同个人消费相关的消费贷款，可以达到27万亿左右。很多银行、信用卡中心、互联网金融公司都在争夺这个市场。

个人金融消费贷款除了遵循CCCP消费金融授信审核标准之外，授信5P原则也经常用于评估客户信用风险。“5P”原则主要是指贷款人情况（people），资金用途（purpose），还款来源（payment），债权确保（protection），借款人展望（perspective）。

·贷款人情况

是指贷款人信用情况、个人财力、银行往来记录，其中其个人信用评分比重最高，个人财力次之，贷款人的还款记录和还款意愿也很重要。

·资金用途

是指贷款人的借款用途是否合理、合法。是否用于投机领域或高风险领域，例如高利贷或赌博等。资金用途是否合法，同贷款被按时归还相关度较高。

·还款来源

是授信审批中最重要的，用来了解贷款客户是否具备还款来源，其偿债能力如何。其中客人的月度薪资收入、资产收入、支出费用、财产价值都高度相关。其中常用衡量标准是无担保贷款不得超过月收入的22倍（DBR小于等于22），月还款金额不得超过客人扣掉所有支出费用后，所剩费用的一半。另外信用卡的授信额度也会被考虑在内。

·债权确保

主要是指对申贷客户所提供的各项担保品进行评估，当贷款违约时，银行可以处理担保品，减少带贷款损失。消费金融一般无担保品，因此债权担保不太适用，但是某些消费金融公司会让贷款人购买一个担保产品，一般为贷款总额的2%，可以作为债权确保。

·借款人展望

就是贷款人未来违约的可能性，依据贷款人的行业、薪资、职业、职务、学历等因素进行预测，评估未来发生风险的概率。一般入门门槛低、专业程度低，可替代性高度高的工作或行业风险较高。

5.贷前风险控制的重要性。

信用贷款的风险控制分为贷前，贷中，贷后三个阶段。贷前控制主要是找到合格贷款人；贷中控制主要预防抵押品资产减值，无法覆盖贷款标的，或者预防借款人还款能力下降，无法按时归还贷款；贷后控制，主要当贷款发生逾期时，通过催收降低银行损失。其中，贷前风险控制是最为重要的。

摩根大通银行有一个统计，75%的信用风险可以在贷款前进行风险控制，贷后风险控制的有效性大概只用25%。因此对于金融企业，贷款前的风险控制更为重要。在信用卡领域，贷款前的恶意欺诈占整体信用贷款损失的60%，真正贷款到期，不进行还款的的客户只占信用贷款损失的40%。互联网金融企业也是如此。信用贷款风险控制过程中，贷前风险控制是最为重要的。

二、金融行业信用风险控制的挑战

金融行业在过去主要依靠经验和宏观经济形式来实施风险控制，以定性为主，更多依赖风险管理精英的个人能力，特别在经济发展很好的时期，风险管理偏好不太科学，不能够反应出真正的风险水平。定性的风险管理占主体，定量的风险管理起到很小的作用。

现在，越来越多的银行正在重视定量风险管理，积极利用风控模型来实施风险评估。巴塞尔III协议的推行，推动了定量风险评估。大多数中国银行的风控模型大多从国外引入，经过自己定制和改良之后用于信用风险评估。但是信用风险和操作风险比较复杂，由于信息不全以及其他问题，很多国外的信用风险模型效果不太明显。于是大多数中国银行参考国外信用风险评估模型，做了一个中国版本。包括著名的FICO风控模型，现在银行很少直接采用。

在这个中国版本的风控模型中，企业信用贷款过于依赖政府授信和国有企业，这种粗放型信用风险管理在经济结构调整过程中，引发了很高的不良贷款率。对私业务中，过高的信用审核标准，无法为更多的贷款申请人提供贷款，造成了无法为更多人提供服务，特别是在信用消费领域，无法实现普惠金融服务。

银行在个人信用风险管理过程中遇到的主要挑战。

1.缺少坏种子

银行建立风控模型的基本原理是，利用大量坏种子，寻找到共性信息，建立风控模型。在利用另外一批坏种子来优化风控模型，找到合适算法，预测参数，加快收敛等。

坏种子对于建立风控模型至关重要，如果坏种子数量不够，风控模型无法设定参数和修正模型。过去银行严格的信贷审批机制，造成了小额贷款（信用消费信贷）规模很小，产生的坏种子也不多，规模较小的坏种子对于建立信用评估模型不利，，无法优化已有的模型和提高风控模型的适用性。

信用风险常见的算法有参数统计法例如逻辑回归、Bayes风险判别分析法，以及非参数统计方法例如聚类和K－means法，神经网络法。现在应用较多的是SVM支持向量级机方法，其在小样本、非线性及高纬模式识别中有特有的优势。同时SVM也是努力最小化结构风险的算法。

2.数据纬度不全

量化风险评估需要将涉及到此风险的所有相关数据都包含进来，通过模型进行信用风险评估，计算出还款意愿和还款能力。评估采用的基本数据因素有年龄、收入、学历、客户资历、行业、区域等，其占主要部分。信用因素包含如负债状况、缴款记录、理财方式；以及行为因素例如交易时间和频率等。

除了这些变量和因素，其实还有一些因素并没有被考虑到现有的风险评估模型中。例如贷款者的身体健康情况、生活规律、是否参与赌博、是否参与民间借贷等，同信贷违约高度相关的信息没有被考虑到信用风险评估当中。

特别是用户行为特征，几乎很少的信贷评估模型会考虑用户的行为。如果客户在借款前，频繁去澳门赌博、或参与民间高利贷、或有吸毒历史、或者飙车、或者经常半夜出入夜店等危险区域、或经常半夜使用App等。这些危险行为因素都会对其信用风险产生影响，但这些因素原来并没有被考虑到信用风险评估之中。

风险评估过程中，如果数据纬度不全，高相关数据没有被考虑进来，对风控模型是一个大的风险。信用风险评估模型缺少了重要风险因素的输入，其评估结果的偏离度就会较大，评估结果失效的可能性就很大。

3.风险定价不够精细

量化风险管理的一个核心是风险定价，根据银行自身的风险偏好来对资产进行定价，高风险资产定价较高，低风险产品定价较低，根据风险高低来制定资产收益，RBP（基于风险定价）已经成为主流。

大多数银行过于保守，不愿意容忍较高的逾期率和不良率，对于所有信贷产品都一视同仁，严格控制逾期率和不良率水，一旦过高，立即缩紧信贷政策，严格控制贷款规模。复杂的经济环境和风险场景，以及缺少全面数据，让风险管理专家更加谨慎对待风险管理，误杀率远远大于漏放率。

实际上，不同风险的产品应该有不同的信贷风险控制指标，高收益的产品，其不良率应该比低风险的产品要高。例如利率为12%的小额信贷就可以容忍3%左右的不良贷款率，其利差收益完全可以覆盖不良贷款。对于风险较低的消费信贷，其不良贷款率也可以适当放开。在逾期和不良贷款管理中，应该按照风险覆盖程度细化资产定价，不能采用统一的风险偏好，这样才能支持消费贷款，依据风险水平，提供精细化信贷产品。

4.风险模型的自我学习能力和数据的实时性

量化风险成为主流风险管理方式之后，银行也在思考风险评估模型的科学性。影响信用风险管理的因素很多，除了客户自身的还款能力和还款意愿，还有恶意欺诈、外界经济环境、黑天鹅事件等不可预见的因素。信用风险的评估完全依赖风控模型将会产生另外一个风险，就是模型自身学习能力和数据实效性。

好的风控模型需要具有自我学习能力，可以依据输入数据来修正模型，另外模型的抗干扰能力也需要较强，避免大量噪声数据干扰计算结果。具有自我学习能力的模型可以适应外部多种因素的变化，同时也可以自身迭代提高，抵抗外界噪音干扰。

实时有效的数据对于风险评估结果影响也很大，数据是有时间价值的，滞后的数据会影响评估结果，不能反映实时风险变化情况。实时的数据录入和动态信用风险评估现在对银行是一个巨大的挑战，一个月进行一次的风险评估并不能实时反映信用风险变化情况，银行需要找到一个好的方法来建立动态风险视图，不仅仅是信用风险管理，其他的风险管理方法也要向实时数据录入和风险实时评价方向转变。

5.外部风险来源的多样化

现在的信贷市场，不再是银行一家的市场。互联网金融企业的崛起，让客户更加容易获得贷款，同时也加大了银行管理信贷风险的难度。

例如一个客户在银行环境内部授信额度是10万，但是其在外面的互联网金融公司、典当行、民间借贷机构，都有借贷行为，可能总计借贷规模远远超过10万元。客户的高额借贷增加了违约风险，这些不在金融企业内部的借贷行为，银行无法了解，也无法实施有效的信贷风险管理。

信贷环境的复杂给银行信贷风险管理带来的较大挑战，客户信贷信息分散和孤立，造成了外部风险来源的多样化，银行需要寻找一种方式来打破这种信息不对称，购买外部信贷数据可以解决这个问题，但信贷数据的覆盖率也是一个较大的挑战。

大数据风控那点事？（中）

2015年互联金融出现了井喷式的发展，行业贷款规模已经突破1万亿元，同时几个大的案件也将互联网金融推到了风口。相对于传统金融来讲，互联金融面对的客户风险较高，其风控面临的挑战更大，对数据风控对要求就会更高。

三、互联网金融行业的风控挑战

中国的互联网金融企业愿意从美国挖一些风控人才来提高自身风控水平。但是美国的征信环境比中国简单，很多信息可以拿得到，美国已经是一个成熟的信用社会，复杂的欺诈场景和复杂的信用风险场景不多。很多风控模型到了中国之后并不适合，因此很多中国领先的互联网金融公司并没有采用美国的风控模型，大多是自己开发风控模型。中国目前互联网金融的风控环境和东欧的信用环境相似，东欧的一些征信公司在中国很有市场就是这个原因。中国互联网金融公司在信贷风险管理方面面临的挑战如下。

1.客户风险较高

传统金融主要服务70%左右的客户，他们共同的特征就是还款能力强或者背景好。其他的客户包括中小企业和收入较低的白领、蓝领客户，银行不愿为他们提供服务。互联网金融公司主要为这些客户提供短期贷款、过桥贷款、消费贷款、发薪日贷款等。

大多数互联网金融客户收入较低，在银行那里拿不到较好的贷款额度，不是银行的目标客户，其信用评分较低。传统金融认为这批客户还款能力较差，不愿意降低信贷审批要求，为他们提供融资。

特别在目前中国经济调整的阶段，这些小企业经营者或者中低收入人群缺少原始积累，受宏观经济影响较大，企业经营和收入波动较大，他们的还款能力不稳定。互联网金融客户中，还款能力不稳定的客户占很大比例，他们的信用风险较高，对互联网金融企业的信用风险控制提出了很大的挑战。

2.客户信用信息不全

传统金融行业可以借助于人民银行的企业征信和个人征信数据实施信用风险评估，各个银行和信用卡中心也可以及时更新客户金融信贷信息，共享黑名单。在传统金融领域，个人和企业的信用信息集中在一起，容易进行风险评估。

在互联网金融领域，大多数互联网金融公司没有接入人行征信系统，无法拿到客户全维度信用信息，例如客户财产、学历、收入、贷款、金融机构交易信息等信息。互联网金融企业在实施信用风险评估时，仅能够依靠客户提供信息进行验证，但是客户在传统金融领域的借款信息，互联网金融客户的信用信息是不全的。

互联网金融企业无法拿到客户所有的信用信息，包含传统金融环境和民间借贷领域，缺少这信息对其实施信用风险评估影响很大。这也是互联网金融反欺诈公司或征信公司兴起的原因，他们主要的作用就是解决了客户信用信息不对称的问题。

3.恶意欺诈和薅羊毛比例较高

信用风险体现在两个方面，一个是客户恶意欺诈，另外一是客户信贷违约。依据互联网金融企业的经验，恶意欺诈占了其60%左右的信用损失。

互联网金融企业还面对了另外一有趣的问题，专门有一批薅羊毛的人，利用互联网金融企业的营销漏洞，通过新用户注册，用户推荐，积分兑换，短期投资来攥取超额收入。经过精心设计，薅羊毛的收入可以达到20%／月。很多互联网金融企业风险控制部门主要任务就是找出羊毛党，拒绝他们的贷款请求。

互联网金融的不良贷款率没有对外公布，但是依据行业经验，5%的不良贷款率是一个较好的水平，主要损失来源于过高的互联网恶意欺诈、过高的信贷审批成本、以及过高的获客成本。

恶意欺诈基本上以团伙作案为主，并且这些人越来越聪明，技术手段越来越先进，越来越进化，很难找到公共特征，也很难归纳，不容易及时发现。恶意欺诈的共性信息较少，即使有大量的坏种子，也不好建立风控模型来实施控制，

互联网金融公司只能依靠风控经验、客户信息验证、部分行为数据来实施反欺诈。

4.客户违约成本低，债务收回成本较高

互联网金融公司的客户违约比例较高，并且建立了自己的贷款催收团队。互联网金融公司遇到贷款违约时，一般采用三种方式进行解决。

第一种是将资产打包，以3-4折的方式卖给资产管理公司，由他们去催收，效果不是太好，损失较大，还有法律分线风险，因此不是主流。

第二种方式是由担保公司承担，客户承担2%左右的担保费用，这个较为普遍，但是一旦借款规模较大，也不太适合。另外加大了客户贷款成本，产品竞争力下降。

第三种是自己催收，大部分逾期的贷款可以催收回来，恶意不还款的客户较少。逾期之后又还款的客户反倒是互联网金融的优质客户，其给公司带来的收益最高。但是缺点就是催收成本太高，客户违约成本很低。

中国缺少个人征信评分，造成客户信贷违约成本较低，个人贷款的违约，不会影响客户的正常社会生活和商业行为。

5.风控模型冷启动问题

每年都有大量互联网金融公司出现，风控成了所有互联网金融公司的核心竞争力。每一家互联网金融公司都会建立风控模型，实施信用风险管理。

坏种子和数据是风控模型重要输入，决定了风控模型的有效性。新兴的互联网金融公司，面对新的客户，缺少足够的种子用户来优化模型，同时也缺少用户的行为数据来完善用户风险评估卡。

互联网金融公司做风控时，缺少坏种子用户和数据的冷启动对其风控是一个较大的挑战。这种信贷违约和恶意欺诈的坏种子，不能够通过其他方式来解决，例如线下和向第三方购买。互联网金融公司只能依靠自己的业务不断积累，利用自己平台积累的数据和种子来解决这个问题，一旦管理不好，会对新兴的互联网金融公司造成较大影响。

四、大数据风控的优势和劣势

大数据风控是一个广义词和一个时代的热词，量化风险控制就是利用数据分析和模型进行风险评估，依据评估分数，预测还款人的还款能力、还款意愿、以及欺诈风险。

大数据主要是指全量数据和用户行为数据，目前领先的数据风控或者大数据风控使用的还是小数据，使用的是围绕客户周围的信用数据，这些数据的特点是和用户的信用情况高度相关。之所以叫做大数据风控，完全是一个是时代用语，确切地说就是利用数据实施科学风控。就像互联网思维一样，就是以客户为中心的商业思维，被称为互联网思维，只不过是利用了这个时代的特征而已。

·大数据风控的优势：

1、用户行为数据成为风控数据

风控最好的数据还是金融数据，例如年龄、收入、职业、学历、资产、负债等信用数据，这些数据同信用相关度高，可以反映用户的还款能力和还款意愿，这些数据因子在风控模型中必不可少，权重也很高，是信用风险评估最好的数据。

但是除了这些强相关的数据，一些用户行为数据对信用风险评估也具有较大的影响，例如用户是否经常去澳门赌博，用户是否经常刻意隐藏自己，用户是否参与高利贷，用户是否具有吸毒倾向，是否患有重大心理疾病等等，这些信息在一定概率下决定了用户风险水平。

在某些条件下这些因素会成为决定信用风险事件的强相关数据。过去这些用户行为数据，并没有放到信用风险评估模型中，没有参与客户的信用风险评估。金融企业和互联网金融企业在分析已经发生的信用风险事件之后，发现的这些用户行为信息在很多风险事件中起到了很关键的作用。小概率风险事件会导致很严重的后果，同信用风险事件的发生具有较强的关联性。

现实世界的用户行为可以揭示信用风险，互联网上的用户行为也同信用风险高度相关。例如全部用大写字母填写资料的人，信用贷款逾期率较高；凌晨1点登陆网络申请贷款的人，恶意欺诈的比较多；手机上只有贷款App，没有其他App的人，其恶意欺诈比率高；缺少社交活动的人，其贷款逾期可能性较高。这些用户行为信息都同信用风险高度相关，可以作为一个重要因子进行录入，影响客户的信用评分。

大数据风控的一个最大的优势就是丰富了信用风险评估的数据纬度，这些用户行为信息，很大程度是大数据采集和分析的结果，用户一般是不会提供给金融行业的。很多信息是规律性信息，需要大数据分析才有可能得到，其在信用评估中的权重，也需要不断的优化模型去完善。

2、实时输入和实时计算，解决风险视图实效性问题

传统风控的另外一个缺点是数据录入和评估结果的滞后性，缺乏实效性数据的输入，风控模型反映的往往是滞后数据的结果。利用滞后数据的评估结果来管理信用风险，本身产生的结构性风险就较大。

银行现有的风险控制机制是参考历史数据＋模型＋专家经验。但是风险事件的联动效应已经变大，一个小的风险事件可能在很短的时间内产生巨大的影响后果，风险事件撬动的杠杆变大了。历史数据反应未来趋势的相关程度正在变弱，因此信用风险管理需要大量实时的数据，已有的模型对风险事件（尤其是内部欺诈，外部欺诈）的识别能力在下降，需要新的风险控制模型和实时数据。

大数据的数据采集和计算能力，可以帮助企业建立实时的风险管理视图。借助于全面多纬度的数据、自我学习能力的风控模型、实时计算结果、坏种子数据，企业可以提升量化风险评估能力。

数据、技术、模型、分析将成为信用风险评估的四个关键元素，其背后的力量就是大数据的技术和分析能力。企业利用大数据的风控能力，实时输出风险因子信息，为金融企业提供实时风险管理视图，提高风险管理的及时性。

3、丰富数据输入纬度以及较细的颗粒度，对传统风控的补充

传统风控模型已经不能适应复杂的现代风险管理环境，特别在数据信息录入纬度上，影响客户信用评分的信息较多，很多都没有引入到风险评估流程。例如企业所处行业的竞争环境以及同业产品的竞争、企业产品的生命周期、企业的关联交易信息和司法信息、贷款个人的心理和性格、上下游产业经营情况、市场需求变化、客户对企业产品的评价等。

大数据风控可以提供全面的数据（数据的广度），强相关数据（数据的深度），实效性数据（数据的鲜活度）。这些数据颗粒度可以很小，同内部数据以及原有数据打通和整合之后，会影响风险评估结果，提升信用风险管理水平，客观地反映用户风险水平。

信用风险管理中还款意愿也较为重要，多维度、全量的用户行为数据可以客观揭示用户的还款意愿，另外细小的颗粒度信息在打通之后，可以更加客观了解客户的还款能力。全量数据加用户行为分析，可以充分了解客户行为，帮助企业识别出恶意欺诈客户。这些多纬度，细颗粒度，全面的信息正是大数分风控的优势所在，同时也是传统风控的一个很好的补充。

·大数据风控的劣势：

还是要强调一下，信用风险评估最好的数据还是金融数据，就是人行征信系统里的数据，大数据风控只是一个补充，不能够完全替代传统的信贷风险管理。大数据风控可以从数据纬度和分析角度提升传统风控水平，是一个必要的补充，可以让传统风控更加科学严谨，但是不是取代传统风控的模型和数据。

大数据风控也有缺点，例如数据的覆盖率，匹配率，饱和度，鲜活度，查得率，以及相关度，甚至数据采集和使用涉及得隐私问题都是大数据风控的缺点。就像大数据应用本质一样，其只是提供辅助决策，数据可以说明一个问题，但是不能都代替人脑去做决定，当利用数据分析出结果后，风险管理决策还是需要风险管理专家依靠其他的信息来决定。市场上大多数的征信公司和风控公司都面临这些问题，数据的匹配率很多都低于20%，有的做风控的公司，其数据匹配率低于8%，无法进行商用，吹牛的成分很大。

大数据风控那点事？（下）

五、反欺诈成为信用风险防范的主战场

依据几家互联网金融公司的数据，在统计的信用风险损失事件中，恶意欺诈占了60%的比例。恶意欺诈防控成了所有互联网金融公司的主要风险管理任务。市场上常用的防范恶意欺诈的方式有三种。

第一种是利用黑名单机制，来拒绝一些恶意欺诈人获得贷款。但是道高一尺，魔高一丈，黑名单共享机制时效性越来越差，并且恶意欺诈的人频繁使用其他人信息进行欺诈，黑名单机制在一定程度上很难帮到金融企业预防欺诈。并且很多平台不太愿意共享自己的黑名单，因为黑名单在一定程度反映贷款平台风控管理水平，过多的黑名单会影响平台的声誉，甚至影响平台融资。另外黑名单覆盖率较低也是一个挑战，目前领先的反欺诈企业，其黑名单覆盖率也不超过30%。

第二种是利用共享贷款数据机制，第三方企业或者大的P2P，防欺诈联盟共享贷款平台的贷款记录。其他贷款平台可以依据申请人在其他平台的贷款记录来决定是否提供贷款，降低欺诈风险。这种方式效果比较好，但是对于最先受理恶意欺诈的贷款平台是无效的，原因是没有其他平台的贷款记录，无法识别出贷款者是否属于恶意欺诈。

第三种是借助于平台自己的风控模型，依据坏种子归纳出来的规律，识别出恶意欺诈申请者。这种方式正在成为主流，其中基本采用信息验证，特征匹配，行为分析等方式来识别出贷款用户是否属于恶意欺诈用户。常见的方式有验证用户的工作地点，生活区域，查看手机应用安装，社交活动轨迹，设备聚集点，是否经常换手机卡，是否刻意隐藏个人信息，是否短期内故意暴露个人信息等方式。企业利用风险评分卡来对用户进行评估，依据评分结果来决定是否贷款给客户。

移动大数据可以帮助金融企业防范恶意欺诈，例如可以通过手机的位置信息来验证申请人的居住地和工作地；依据App安装列表来验证用户是否在活跃在多家借款平台；依据数据识别用户是否在几天内不停更换手机卡；依据手机App装载和使用情况来辨识用户是否安装了很多恶意软件例如密码破解器，伪装号码软件；客户是否仅仅使用贷款软件，没有安装常用软件。借助于移动大数据和用户行为信息，金融企业可以识别恶意欺诈用户。国内领先的移动大数据服务商TalkingData，正在为互联网金融公司提供移动大数据来防范用户的恶意欺诈，数据的查得率超过了50%左右，具有成熟的数据商业应用场景。

六、ZestFinance如何利用大数据实施风险控制

市场上最热的大数据风控公司就是美国的ZestFinance。其技术来源于Google，正在为15%左右的美国客户提供信用评估服务，并且也服务很多传统金融企业，共有400万美国人直接通过ZestFinance申请信用评分，另外在银行等金融机构通过ZestFinance模型获得信用背书的人数则远远大于该数。

ZestFinance公司的CEO介绍了他们公司在大数据风控领域的经验，很值得传统企业借鉴。欧美传统银行通常采用对所有人都适用的线性回归模型，其中包含性别、出生地等20个左右变量，对每个人都简单化处理，以打分卡的形式评分ZestFinance采用的变量则多达70000个，采用的算法也不是线性回归模型，而是来自Google的大数据模型。

FICO信用评分参考的数据变量只有不到50个，很多人摸清了FICO关注的变量后，就可以“模型套利”增加自己的信用评分，例如一个人可以每天反复在图书馆借书还书“刷信用”。

银行往往采用200个一下变量和几个模型，从模型数量而言，传统征信评分通常采用一个模型，ZestFinance采用十个模型，从不同角度进行计算。十个模型从不同角度衡量申请人的分数，其中两个是进行身份验证防欺诈的，一个是预测提前还款概率的，其余都是评判还款意愿和能力的。最后会用一个决策模型将十个模型的结果整合在一起，得到最终的结果。

ZestFinance发现模型越多，准确率越高。有两个模型，对利润的提升分别是16.9%和9.4%，可能第二个模型往往会被弃用。但如果把这两个模型放在一起使用，利润会提升了38.3%。每个模型平均半年就会诞生一个新版本，替代旧的版本。新版本通常会加入更多的变量和数据源。每个新版本模型都以开发者的名字命名，从而纪念付出劳动与智慧的工程师。

ZestFinance模型中大部分信号都是通过机器学习找到的。例如，一个人在网上填表喜欢用大写还是小写就是一个信号。ZestFinance模型发现，填表喜欢全部用大写字母的人违约率更高。在月收入经过验证的情况下（ZestFinance有一些渠道可以大概获知一个人的收入状况），收入越高，违约率越低。然而，在月收入没有经过验证的情况下，自己填写月收入7500美元的人违约率是最低的，填写7500美元以上则数字越大违约率就更高。

很多人将社交数据视为神器，但是ZestFinance不这么认为，主要还是采用结构化和类结构化的数据，例如交易信息、法律记录、租赁信息等，来源主要是从数据代理商处购买。

ZestFinance的先进之处并非数据来源，“我们有的数据银行都有”，区别在于，银行的人有数据却不会用，就好比坐拥大量矿藏却不会冶炼。相反，ZestFinance最大的优势就是“数据冶炼”，同样的数据到了ZestFiance手中，就可以碰撞产生无数有价值的信号。

作者：鲍忠铁；来源：数据观