基于制造业的CRM的客户流失分析

客户世界 | 2015年7月13日 | 客世原创 | 评论已关闭 | 2475

|陈思行陈保钢|2009-09-14

随着全球经济一体化的浪潮，中国正在成为世界制造业的中心，它为中国的企业提供了更多机会的同时，也带来了更强劲的竞争。随着全球化竞争的加剧，制造企业开始寻求新的战略竞争点，整个产业也逐渐从产品和价格竞争转向服务竞争。为了提高企业的竞争力，目前很多企业在信息化技术方面加大了投入。比如ERP、PDM和CRM等信息技术在企业的推广应用等。

ERP的意思是企业资源计划，系统主要包括四大部分，即财务管理、生产制造管理、分销与后勤管理及其他管理模块。它的重点是在企业的内部生产领域。它强调的是以产品为中心，以企业内部生产领域为重点。

PDM侧重于对产品开发阶段数据和企业内部产品数据的管理，它的体系结构是强调以文档为中心的研发流程管理，重点在于建立文档之间的联接。

CRM (Custom Relationship Management)的意思是客户关系管理，它强调把客户放在核心位置，其理念要求企业完整地认识整个客户生命周期，围绕“客户接触点”，提供与客户沟通的统一、集成的平台和工具，涉及企业一切与客户有关的信息交互进行处理，提高员工、客户接触的效率和客户反馈率，为客户提供整体的服务!同时采用数据挖掘技术对有关信息进行分析，得到有价值的信息和知识。

如果说现在企业的竞争是产品的竞争、企业资源的竞争，那么，不久的将来它将转向以客户为中心的服务上。CRM系统正是为满足上述需求应运而生。目前，在发达国家，制造业的服务创新已成为企业利润的增长点。

本文针对CRM客户关系管理中的客户流失问题，结合制造业的特点，从数据挖掘技术层面进行思路探讨。试图得到企业管理层面和信息技术层面对CRM客户关系管理中的客户流失问题予以关注，为企业未来赢得新的利润增长点。

1 问题由来

CRM对制造商的作用在于了解客户所有的行为活动并确保与客户的关系。它能把前端办公和后台生产联系起来，是企业和客户的交叉点，能帮助制造商制造出定制化的产品，增加销售并降低营销开支，且使客户的购买变得更加方便。制造业CRM系统主要包括营销管理、销售管理、服务管理、呼叫中心、客户信息管理、决策支持等多个模块。它的关键技术之一在于能否提供基于联机分析处理的数据仓库技术，从而具备动态、整合的客户数据管理和查询功能，对客户购买行为具有参考功能;对客户流失具有警告功能。此外，CRM的客户分类技术，让企业建立起一对一的客户服务体系，实行差异化客户管理(如根据客户特点，可将其分为① 内在价值型客户。② 外在价值型客户。③ 战略型价值客户)，为客户创造非同一般的价值，也是企业从中获得长久利润、需要引起关注的关键技术之一。

工程机械尤其是混凝土机械近年来获得了迅猛发展，与此同时，混凝土机械产品市场又有两大特点:一是市场需求发展大，产品使用周期短，两三年后的回头客相当多;二是随着社会改革的推进和国家投资方向的转移，客户群体会有较大方面的变动。如国有企业占主体时，以国企为主要购买力;而随着商品租赁业发展，个体购买又成为了主力;而大型建设施工购买又回到了建设施工单位。由于市场的竞争，相同产品的制造厂家对客户的争夺往往相当激烈，有时甚至到了白热化的地步。

显然，我们既要大力发展新客户，又要努力保留旧客户。保留一个旧客户要比争取一个新客户便宜的多。为改进保留客户的一种途径就是客户真正流失之前准确预测并采取行动挽留客户，而基于客户关系管理的数据挖掘技术和方法是解决该问题的途径。一般说来，针对CRM中客户获得、客户保留、客户忠诚和客户赢利分析各个方面，客户特性及客户行为信息的分类具有相当重要的意义。最大程度的预测潜在的客户流失是我们需要密切关注的。采用数据挖掘的分类思路可以在制造业客户关系管理中起到相当重要的作用。

2 CRM软件中常用数据挖掘方法

利用数据挖掘的分类算法构造CRM的分类器，是数据挖掘技术在商业领域中的重要应用之一。数据挖掘的中的聚类方法和决策树分类算法是常见的，也是一种相对准确、有效的分类方法。

CRM相关技术的发展日新月异，它包括运营型(前台)，分析型(后台)，协作型(渠道)。这里尤其是分析型CRM的技术发展得最快，这也是很多CRM理想中的功能实现成为可能的关键。数据仓库，数据挖掘和呼叫中心是三个其主要的技术组成。本文主要分析数据挖掘部分。

所谓数据挖掘是从大型的数据库中提取隐藏的、有预测性的信息，它是能帮助企业从已有数据中提取到最先进和流行的趋势并为其提供效益。简言之，数据挖掘是应用数据分析和运算法则来探索数据模式并进行科学地描述和预测。

常用的数据挖掘方法有如下几种:

2.1 回归预测

回归预测是比较传统的预测方法，它是根据历史记录分析得出总体趋势，并将这种趋势用某种数学方程式来表示。利用这个方程式，就可以输人未来的一个或多个变量计算出预测结果。如果方程式的变量是一次方的，那么就成为直线性回归，如果是多次访问的，就成为区线性回归。典型的客户流失预测都可以采取回归分析的方法。

2.2 决策树

决策树是一种类似于枝丫形状的二分制。数据分析和预测方法，主要适用于对数据进行归类分割和预测。根据客户特征，对客户大市场进行分割，从而得到相对较小的客户群体。

2.3 聚类和邻点预测

聚类和邻点预测对于客户关系管理来说是有类似的分析目的的。聚类是指如何将一批数据按照相似特性归类，使我们能对他们有一个形象的概括性理解;邻点预测是在归类的基础上对未来数据进行预测。

2.4 规则导引

规则导引是从一个样本数据库中发现并归纳出数据行为模式，即用“如果A，那么B，否则就是C”，这样的判断语句来描述这种隐藏在数据仓库中的规律。数据挖掘技术中的规则导引就是要从大量的客户数据中发掘出这些规则。

3 制造企业CRM数据挖掘综述

在CRM系统中，最重要最有挑战性的则是对流失客户的预测。制造企业营销和市场部门，根据购买产品的客户信息资料，通过数据挖掘方法，往往可以预测潜在的流失客户。

客户流失分析就是应用数据挖掘技术，预测哪些是潜在流失客户，同时评估出最有效的客户保持方法。本文提出一套基于制造业CRM系统中预测客户流失的方法的基本思路。

该方法一般分为三个步骤:第一，应用软件对数据进行挖掘测试，其中包括统一的客户资料，客户属性，购买信息，模型参数，模型等等。第二，应用数据分析方法和所讨论的数据挖掘技术对客户流失前的行为分析进行简化的知识发现。第三，应用系统聚类和决策树ID3的方法对模型应用的实验结果进行过程分析。

常见的数据挖掘主要分为两种:即探索性的数据挖掘和验证性的数据挖掘。其中探索性的数据挖掘中最常使用的就是聚类，而验证性数据挖掘的代表就是分类。聚类分析法是一种无监督的自下而上的学习过程，主要目的是把没有“标记”的数据分为有意义的“组”(或者就叫聚类);而分类是给定已知“标记”的训练数据，然后通过学习得到描述模式，然后运用该模式对未来的数据进行分类，是一种带监督的自上而下的学习，如决策树ID3法。由于这两种类别具有一定的典型性，都可以用于数据挖掘的客户流失分析。

3.1数据源介绍

进行数据分析首先必须从客户的数据库中间找到最能够代表和刻画客户行为的属性。针对2005一2006两年中，某企业800个购买某工程机械产品的客户信息，从中了解到导致客户流失的因素较多，但有共性的部分也有很多。因此，我们把客户与本公司交易次数、公司属性、公司资产规模、付款方式、公司所在地、产品用途作为统计信息中的主要属性。

我们将所拥有的所有可能的客户信息属性变量转换成0，1，2等属性，其他数字变量不变，应用2一检验，选除了某特定制造企业客户流失的一般统计属性。

3.2 系统聚类实验分析

系统聚类法实验的基本思想是:设有n个样品，每个样品测得m项指标。然后用不同的数据表示客观数据的定量属性和定性属性。当定义或计算样品间的距离(或相似系数)和类与类之间的距离之后。可以将n个样品各自自成一类，这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并，并计算新类与其他的类间距离，再按最小距离准则并类。这样每次缩小一类，直到所有的样品都并成一类为止。这个过程再可以用谱系聚类图形象表达出来。

3.3 实验聚类

根据特定产品、众多客户的统计信息中的主要属性，按照上述系统聚类实验，得到我们所需要的信息。

基于上述个体行为数据进行聚类操作，在对未来行为的预测能力上，往往比其他类型的数据效果更好、更精准。

3.4 决策树ID3法实验及分析

决策树技术是用于分类和预测的主要技术，决策树学习是以实例为基础的归纳学习算法。着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性判断从该节点向下的分支，在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则，整棵树就对应着一组析取表达式规则。

考虑一个任意的变量，它有两个不同的值A和B。假设已知这个变量不同值的概率分配，将估测该概率分配的不纯度。

情况1.如果P(A)=1和P(B)=0，那么知道这个变量的值一定为A，不存在不纯度，因此已知变量结果值不会带来任何的信息。

情况2.如果P(A)=P(B)=0.5，那么它的不纯度明显地高于P(A)=0.1和P(B)二0.9的情况。在这种情况下，已知变量的结果值就会携带信息。

不纯度的最佳评估方法是平均信息量，也就是信息熵。定义如下:设S是s个样本数据集合。假定类标号属性具有m个不同值，定义m个不同类C;(i=l，2，…，m)。设s:，是类C中的样本数，对一个给定的样本分类所需的期望信息或者信息墒为: ，其中P为任意样本属于Ci的概率，并用Si/S估计。信息增益:信息增益是指期望信息或者信息嫡的有效减少量(通常用“字节”衡量)，根据它能够确定在什么样的层次上选择什么样的变量来分类。假设存在两个类P和N，并且记录集5中包括x个属于类P的记录和y个属于类N的记录。那么，用于确定记录集5中某个记录属于哪个类的所有信息量为:

假设使用变量A作为决策树的根节点，把记录集s分为子类{s1,s2,…,sk}，其中每个si={i=1,2,…k}中包括个属于类P的记录。那么，用于在所有的子类中分类的信息量为:

假设选择变量A作为分类节点，那么它的信息增量值一定大于其它信息增量值。变量A的信息增量为:Gain(A)=Info(S)-E(A)

信息增益可通过下式计算:

信息量:

期望熵:

信息增益:Gain(A)=Info(p,n)-E(A)

重复上述步骤，分别得到各个根节点，同时计算相应属性的信息增益值。最后，根据公式计算结果得到制造企业是否需要对该潜在的流失客户实施新的服务的决策树，如图1所示。

3.5 实验规则引导结果及实验方法分析及评价

遍历决策树，输出叶结点类属性值，ID3通过不断的循环处理，逐步求精决策树，直至找到一个完全正确的决策树。用ID3算法构造的决策树是从顶向下归纳，最后形成了一组类似IF……THEN的规则。其最原始的程序只是用来区分象棋中的走步，所以区分的类别只有两种，即真或假，其属性值也是一些离散有限的值。现在ID3算法己发展到允许多于两个类别，而其属性值可以是整数或实数，这里仅仅采用了它最原始的原则，提供一条基本分析思路。这种算法利用了互信息(信息增益)的概念，算法的基础理论清晰，使得算法较简单。该算法的计算时间是例子个数、特征个数、结点个数之积的线性函数。而且搜索空间是完全的假设空间，目标函数必在搜索空间中，不存在无解的危险。可以利用全部训练例的统计性质进行决策，从而抵抗噪音。

但用信息增益作为特征选择量存在一个假设，即训练例子集中的正、反例的比例应与实际问题领域里正反例比例相同。但一般实际情况并不能保证相同，因而计算训练集的信息增益就有偏差。ID3在建树时，每个节点仅含有一个特征，是一种单变元的算法，特征间的相关性强调不够。虽然将多个特征用一棵树连在一起，但联系还是松散的。

正因为如此，我们在具体的客户关系数据处理中，目前仍处于一种摸索的阶段。但上述方法的探讨，仍值得借鉴或进一步深人研究。

4 结语

本文试图将数据挖掘技术中有最代表性的系统聚类分析法和决策树ID3算法思路应用于制造企业的客户流失分析，为基于制造行业的CRM的客户流失分析做一初步的探讨。对于数据挖掘遇到的个体行为数据，分别运用两种较有代表性的数据挖掘方法进行具体实验和理论方法分析比较。尝试应用聚类分析和决策树这两种有代表的数据挖掘方法融入到制造业客户流失管理的信息处理中，为制造企业针对不同客户群体提供个性化服务提供一个分析思路，为未来企业信息化竞争创建一个良好的平台。

责编：admin