数据仓库与数据挖掘在期货行业的应用

客户世界 | 2015年7月12日 | 会议会展 | 评论已关闭 | 1417

||2008-05-27

随着计算机信息技术的普及，数据仓库与数据挖掘技术在我国金融业(如银行、证券、保险等行业)得到了比较广泛的应用，但是在国内期货行业，由于资金、技术、人员等问题，期货公司还很少涉及这一领域，使其在对市场研究和品种研究上始终面临着一个无法穿越的“瓶颈”。

我国期货业数据仓库应用现状

我国期货市场历经10多年的磨砺后，如今已经进入发展的“快车道”。期货市场的“火热”和上市品种的不断丰富，吸引了大量的投资者进入。由于期货市场是一个高风险与高收益并存的市场，这就要求期货公司必须在研究上下足功夫，尽量做到对期货市场风险的可控性和可预知性。

我们知道，进行期货研究所需要的数据非常多而杂，涉及层面不管是宏观的还是微观的，都要进行充分考虑和分析整合，从而对期货公司建设数据仓库提出了迫切要求，而且对数据进行深度挖掘也成为了期货公司研究的重中之重。期货公司的研究水平达到一定高度后，形成自己的核心竞争力，不仅能对自身客户投资起到一定的引导作用，而且还能吸引更多的投资者参与到市场中来。

行业整体研究水平高低会直接影响到市场发展的质量和速度。国际期货市场上，大型优质期货公司如曼氏金融、瑞富都拥有自己的一套专业数据仓库系统，且经常利用数据仓库的数据进行定量分析，撰写研究报告，为客户提供投资方案。目前，国外期货市场运用定量方法进行分析已经非常广泛，因此发展比较迅速，投资者认知水平也比较高。而国内期货市场，虽然近几年交易和持仓规模迅速扩大，期货新品种不断推出，但期货公司整体研究水平并没有紧紧跟上市场对研究的强烈需求。随着我国期货市场的发展，其不可避免地对期货公司的研发水平提出了更高的要求。

借鉴国外期货公司的经验，国内期货业整体研究水平上不去的主要原因是绝大部分研究还局限在定性分析上，定量研究方法运用得太少，直接导致期货公司在对客户投资交易的指导上表现得比较差。定量研究较少并非期货公司研究人员不会或者不愿意，而是因为定量研究需要的数据太多，实际能找到或买到的数据太少。同时，定量研究往往不局限在单一品种数据的收集上，还与国内外宏观经济数据有关联。目前，国内期货业没有具体期货品种数据的专业网站和数据仓库，即便是有也只是分散的少量数据，收集数据工作量非常大。期货公司购买的昂贵相关行业数据，也只限于一个品种和行业的数据，缺少宏观经济方面的数据。在当前上市品种不断增加的情况下，这笔支出是一般期货公司难以承受的，这也从另一方面增加了期货公司进行定量研究的难度。

研究能力是期货公司发展和体现竞争力的核心，其水平高低不仅会直接影响到公司客户的盈亏，同时也会影响到公司业务的发展。而且随着股指期货的即将推出，期货公司在提供专业化研究服务方面显得更加重要。但是，我国期货行业业务单一，竞争激烈，国内大部分期货公司仍难摆脱亏损局面，或者是盈利能力并没有随着市场发展同步提高，多数公司面临诸多的问题：

一是在品种增加、研究人员数量增加有限的情况下，单个研究人员负责的品种越来越多，受能力及精力限制，研究难以深入。

二是虽然受市场发展的推动，市场研究开始由普遍信息处理、定性分析上升为定量定性结合，但由于国内相关市场还不成熟，所需的研究数据不仅少，而且公布渠道不通畅，研究人员花费在数据寻找上的时间过多，研究效率极低。

三是即使期货公司购买了相关收费的专业资讯服务，但受端口限制，仅有少量人员能使用，相关信息并不能迅速便捷传达到公司其他员工及客户手里，即大量信息无法共享。另外随着新品种的不断推出，单一公司财力无法购买所有品种的相关信息，新品种的研究进度受到较大影响。

四是数据处理及分析的方法普遍处在低级水平，大量基础原始数据转化成可用数据的时间过长，无法使用相关分析软件进行分析又导致最终分析的深度不够。

五是研究人员的流动（转向业务或交易方面，或者直接离开期货公司或期货业）直接导致期货公司研究水平无法得到有效沉淀和积累。

以上存在的种种问题使期货公司的研究难以深入，从而构成了为投资者提供正确投资指导的一块“硬伤”。因此，对数据的收集与挖掘成为了期货公司解决当前存在问题的唯一途径。只有搜集到所需要的数据，然后通过各种方法对数据进行深度研究与挖掘，撰写出高水平的研究报告，才能提高期货公司的整体研究和服务水平。

建设数据仓库的功能和目标

为了解决期货公司数据收集难的问题，一些有能力的期货公司对数据仓库进行建设非常有必要。数据仓库的概念起源于W.H.Inmon的研究，他把数据仓库定义为面向主题的、集成的、非易失的，随时间变化的数据集合，而且可以支持各种投资管理决策的数据库系统。

期货行业数据包括国内外期货品种历史数据、品种基本数据、期货公司营业部交易结算数据、客户交易数据、国内外宏观经济数据等，数据仓库系统能帮助期货公司充分地利用这些信息资源。建立期货公司数据仓库系统，主要实现以下功能和目标:

第一，建立数据仓库系统的目标数据库，集成期货公司的相关数据。对各个营业部交易数据、行情数据、其他业务系统数据进行定期抽取，把异地系统的数据经过抽取转换，集中到公司总部的数据仓库中，为各种分析提供全局、一致的数据基础，从而提高决策信息的及时性、准确性、全局性和一致性。

第二，在数据仓库数据的基础上，建立日常的投资决策支持查询系统，包括报表查询和动态信息查询，解决现有OLTP（联机事务处理）系统中的投资决策支持查询和报表能力的不足。

第三，实现重要专题分析。专题分析是针对特定范畴的决策支持领域进行的分析，常见的专题分析包括客户关系管理分析、账户分析、交易数据分析、财务分析、经营状况分析、风险分析、利润/成本分析以及市场分析等。要求充分利用期货公司的丰富数据，能够从多个角度动态分析这些专题。

第四，以数据仓库数据和专题分析为基础，把一些信息和分析结果公布在网站上，为公司网站和CALLCENTER提供信息服务，为客户提供个性化服务。

第五，逐步实现深层次的数据挖掘和投资决策分析，研究品种、市场行情、客户、利润等数据中蕴含的内在关系。数据挖掘在期货业的技术应用方向主要有客户分析、品种分析、客户管理、交易数据分析、风险分析、投资组合分析等。

数据挖掘是数据库建设成败的关键

在完成对数据仓库的建设后，如何通过现有的数据源进行数据挖掘，将是数据仓库建设成功与否的一个重要环节。数据挖掘是指从大量的、不完全的、模糊的、随机的实际数据中提取隐含在其中但又是潜在有用信息和知识的过程。数据挖掘的过程可粗略分为:问题定义、数据收集和预处理、数据挖掘算法执行以及结果的解释和评估。

1.问题定义

问题定义指的是利用数据挖掘可以分析哪些问题。定义清晰的挖掘对象，认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最后结果往往是不可预测的，但要解决的问题是有预见性、有目标的。在定义挖掘对象时，需要确定这样一些问题:从何处入手，需要挖掘什么数据，要用多少数据，数据挖掘要进行到什么程度。在问题定义过程中，数据挖掘人员必须和相关领域专家以及最终用户紧密协作，一方面明确实际工作对数据挖掘的要求，另一方面通过对各种学习算法的对比，进而确定可用的学习算法。

2.数据收集和数据预处理

数据准备又可以分为三步:数据选取、数据预处理和数据变换。在确定数据挖掘的业务对象后，就需要搜索所有与业务对象有关的内部数据和外部数据，从中选择出适合数据挖掘应用的数据。如果数据挖掘是基于数据仓库的，那么数据的选择比较简单，因为数据仓库己经为数据挖掘者准备好了用于数据挖掘的基本数据。否则，就要从各种数据源中选择用于数据挖掘的数据，这就意味着需要集成和合并数据到单一的数据挖掘库中，并协调来自多个数据源数据的差异。对这些数据差异的协调是解决数据挖掘质量的关键，多个数据源中出现的差异主要是在数据定义和使用方法上。在选择好数据后，还需要对数据进行预处理，进行清洗，解决数据中的缺值、冗余、数据值的不一致、数据定义的不一致、过时数据等问题。数据的应用变换是为了使数据适用于计算需要而进行的一种数据转换，这种转换主要源于两方面的原因:一是现有数据不满足分析需求而进行的数据变换;二是应用具体数据挖掘算法的需要。为了使计算结果更高效准确，需要对数据进行应用变换。

3.数据挖掘

数据挖掘算法执行阶段，首先根据对问题的定义明确挖掘任务或目的，如分类、聚类、关联规则发现或序列模式发现等。在确定了挖掘任务后，就要决定使用什么样的算法。选择算法有两方面的考虑:一是不同的数据有不同的特点，因此需要用与之相关的算法来挖掘；二是用户或实际运行系统的要求，有的用户可能希望获取描述性的、容易理解的知识，也有一些用户只希望获取预测准确度高的预测性知识。

4.结果解释与评估

数据挖掘阶段发现的模式，经过评估可能存在冗余或无关的模式，需要将其剔除；也有模式不满足用户要求的可能，这时则需要整个过程回退到前一阶段，如重新选取数据，采用新的数据变换方法，设定新的参数值，甚至换一种算法等。另外，数据挖掘最终是要给人类用户用的，因此要对发现的模式进行可视化或把结果转换为用户易懂的另一种表现形态。数据挖掘算法执行仅仅是整个过程中的一个步骤。数据挖掘质量的好坏取决于两方面因素:一是所采用的数据挖掘技术的有效性；二是用于挖掘的数据的质量和数量。如果选择了错误的数据或不适当的属性，或对数据进行了不适当的转换，那么挖掘质量不会很好。整个数据挖掘过程是一个不断反馈的过程，如果未能产生期望的结果，就需要重复先前的过程甚至从头重新开始，直至产生满意的结果为止。

国内数据仓库基础建设存在的问题

数据仓库和数据挖掘在我国起步较晚，都是最近几年的事，但发展却非常迅速。不过与国外相比，国内在数据仓库基础设施建设以及企业的行政支持环境等方面仍存在很多欠缺。

1.数据仓库基础设施不健全，缺乏数据积累

我们知道，数据仓库是建立在企业原有业务系统基础之上的，那么各业务子系统的建设是否完善，数据是否完整、规范，是决定未来数据仓库性能的关键因素。但由于国情所限，在数据库的规模上，目前国内企业与国外企业还存在一定的差距，更有甚者一些企业的数据库因没有资金维护而变成了“死库”。

建设数据仓库系统，没有数据积累是没有任何意义的。一般来说，我国可用于分析的数据库平均规模较小，在几十GB。而在信息化水平比较发达的国家，数据库达到几十TB的很多。此外，经过多年的经营，虽然国内大企业均建立了不同的业务理系统，但由于各种原因这些系统在文档规范管理和数据清洁性方面做得不是很好。

2 .企业建立数据仓库行政支持不够

数据仓库项目一般投资巨大，成本回收周期长，中小企业根本无力在这方面做某些尝试。大部分的企业决策者，虽然有建设数据仓库的现实需求，但同时又对其高投入、长周期不能容忍，这使得他们对数据仓库的项目支持往往不能够善始善终，即使能勉强做下去，也往往会偏离数据仓库的建设准则。此外，由于对项目的长期性、艰巨性认识不足，一些用户以为今天建立了数据仓库系统，明天就能够解决商业竞争中的所有问题，能取得很大效益，这种没有充分认识到项目建设的长期性和艰巨性、急功近利的思想也会影响企业有效应用数据仓库技术。

3.数据挖掘人员参与力度不够

数据挖掘的应用，需要多方面人员共同参与，包括领域专家、数据管理员、数据分析人员、业务分析人员、数据挖掘专家等。他们往往形成一个团队，其中每一个人都可能对数据挖掘的结果产生或好或坏的影响。现实中，用户没有参与数据仓库建设的需求分析，而数据仓库的最终用户是企业的中高层领导或其助手，这与OLTP（联机事务处理）系统直接面对具体的工作人员有明显的不同。对许多企业来说，要使最终用户与信息技术人员真正在一起合作是比较困难的，且在项目初始阶段，公司领导也往往提不出具体的目标，只是希望信息技术人员对出现的问题提供快速的解决方案，这必然导致最后开发出来的系统难以满足用户的决策要求。

4.项目实施过程中管理混乱

建立数据仓库的目的是大力提高经济效益，而执行有效的数据仓库策略的最大障碍往往不是技术方面的。集中式数据仓库具有可控性和可靠性，但灵活性不够；分布式数据具有很大的灵活性，但可能会导致各部门之间不能有效地协同工作。因此，在确定数据仓库的功能规模上，经常反映出存在机构内部关系复杂的问题，也会遇到行政上的种种障碍，从而增加了技术实现上的难度。

5.具体实现过程中的技术问题

数据仓库中的数据可能来自不同的数据源，它们分布在不同的硬件、数据库、网络环境中，为不同的业务部门服务。因此，对这些数据的整合可能会遇到很多技术困难，如果不能保证数据仓库中数据的高质量，也就很难获得有价值的决策信息。另外，数据分析工具的选择问题，目前仍没有一种大众化的、简单易用的集成工具。

中期数据库分析系统主要功能

为了解决以上出现的一些问题，增强期货公司研究人员的研究能力，协调和引导公司各部门的基础研究工作，避免重复投入，从整体上统一、规范、组织、管理和利用相关信息资源，以提供高质量的研究报告，同时更好地服务公司进行套期保值的企业客户及VIP客户，中期公司试图建设一个可供研究与分析的期货数据库信息系统，以服务于公司各部门、各营业部及VIP客户的研究分析需要，并通过数据库项目对公司研究及业务人员进行统计分析软件的相关培训，大幅提高员工普遍研究分析方法及水平。中期数据库分析系统主要功能如下：

1.数据库存取与显示功能

一是收集影响各期货品种价格的各类因素，从宏观、行业到微观层面。二是通过信息整理使各种因素系统化。三是根据分析者的需求提供各种数据组合。四是把数据信息变成直观的图表信息。五是把固定的换算关系模块化，减少重复劳动。

2.数据的分析功能

在集合以上大量数据的基础上，根据各因素与分析对象之间的关系建立分析模块，显示直观的可操作性报告。通常的研究方法可划分为定性研究和定量研究，实际运用中，多以定性研究实现研究的“宽度”，定量研究实现研究的“深度”。没有定量分析支撑的定性分析结果就失去了说服力。

在实际期货价格研究中，每一影响因素的定性分析通常会有三种结论：涨、跌和振荡。而影响价格的因素众多，使得市场在任何时候都存在上涨或下跌的理由，定性分析一般不会清楚地表达出到底是涨还是跌（或者哪个概率大），涨跌幅度大概是多少，涨跌时间会持续多久等，大多数情况下很难做出令人信服的选择。为了使定性分析的结论能有数字支撑，具说服力，有必要对其进行量化。

量化作为一个过程，不是一蹴而就的，它大致需要经过几个阶段：因素分解→评分→汇总。其根据的是这样一个思路：将定量分析的对象按照合理的方式分解成重要的几个影响因素，对每个部分依照各自的标准进行评分，然后将各部分的分数乘以权值并相加，所得的分数就是该对象的量化值。整个过程的难点和重点是“分解”并“确定”权重阶段，要求执行者对分析的对象有系统性的把握，了解分析过程中的各个因素并能优化分配。“分解”包括两个方面：“分类”与“分层”。分类是将研究对象中包含的因素分门别类；分层就是对不同类别的因素再次分类，并放入下一层次。分解其实就是一个分类、分层再分类的过程，如树枝一样向下延伸下去，形成一个如下图所示的树形结构。

在分解时要注意，划分的标准要统一，分类要精细，分层要清晰，但是类别和层数不能过多，否则会带来非常繁琐的计算过程，而且需要各层各类规定一个权值。同层同类的各部分权值总和为10。

在评分阶段，各个因素采取的方法应相同，量化标准也要一致。通常是将各部分因素值划分为5个部分：明显利多、一般利多、多空平衡、一般利空、极度利空，然后再转化为“5、4、3、1、0”的分数一一对应。

汇总时将各部分的分数乘权相加为上一层类别部分的分数，再将类别部分的分数乘权相加得出总的分数就是量化值。如上图所示的量化值：

O=[（A1×Pa1+A2×Pa2）×Pa]+[B×Pb]+[（C1×Pc1+C2×Pc2+C3×Pc3）×Pc]。

其中第一层的各类量化值分别为：

OA=（A1×Pa1+A2×Pa2），OB=B，OC=（C1×Pc1+C2×Pc2+C3×Pc3）。

如果希望总分不要太大，在由下层部分汇总分数到上层类别时，可以统一乘以一个比例数字。如设定比例数为0.3，那么O=OA×0.3+ OB×0.3+OC×0.3，该比例数值一般以1除该层的类别数。上图中的第一层类别数为3，所以设定比例数为1/3，取小数值为0.3。在此量化的过程中，工作量最大的是评分。首先要考虑采取什么方法来评。一般来讲，包括：专家法、经验法、观察法等。期货研究作为专业性的研究，通常由专家及经验决定。

通过期货公司研究部门和专业团队对品种深入研究的结合，该数据库分析和运用两者协同，将对各品种分析提供强有力的理论及经验支持，对数据库数据进行评分汇总，最终对各品种价格走势做出强弱判断。另外，通过运用外部统计软件，对要求的品种可以进行后期价格走势预测。

整体数据库分析结论对品种研究及分析有极强的参考作用，有助于策略报告的撰写，其对数据挖掘的设计主要有以下方面内容：

第一，关联规则的挖掘。关联规则挖掘发现大量数据库中各项集之间的关联关系。随着大量数据的增加和存储，许多人士对于从数据库中挖掘关联规则越来越感兴趣。从大量数据中发现有趣的关联关系，可以帮助制定许多投资决策，如组合投资、价格预测等。目前，关联规则挖掘已经成为数据挖掘领域中的重要研究方向。关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性，如果两个或多个事物之间存在关联，那么其中一个事物就能从其他已知事物中预测得知。所谓关联规则是指数据集中支持度和信任度分别满足给定阀值的规则，其形式化定义如下：设I={i1，i2，…im},i是m个不同项目的集合，给定一个交易数据库D，其中每一个交易T是I中一组项目的集合，一条关联规则就是X→Y的蕴涵式，其中X、Y属于I，且X交Y为空集。如果D中C%包含X的交易同时包含Y，那么关联规则X→Y在D中置信度C成立；如果D中S%的交易包含X∪Y，那么关联规则X→Y在D中具有支持度S。在进行关联分析时，用户需要输入两个参数：最小置信度和最小支持度。关联分析就是生成所有具有用户指定的最小置信度和最小支持度的关联规则。

第二，数据分类。分类在数据挖掘中是一项非常重要的任务，目前在商业上应用最多。分类的目的是构造一个分类函数或分类模型，该模型能把数据库中的数据项映射到给定类别中的某一个，即要发现一些指定的商品或事件是否属于某一特定数据子集的规则。要构造一个分类模型，需要有一个训练样本集作为输入。训练样本数据集也称训练集，是由一个个数据库记录组成的，每一个记录包含若干条属性，组成一个特征向量。训练集的每一个记录还有一个特定的类标签与之对应，该类标签是系统的输入，通常是以往的一些经验数据。分类的目的是分析输入数据，通过在训练集中的数据表现出来的特性，为每一类找到一种准确的描述或者分类，由此生成的类描述用来对未来的测试数据进行分类。尽管这些未来测试数据的类标签是未知的，但我们仍可以由此预测这些新数据所属的类。分类器的构造方法有统计方法、机器学习方法、神经网络方法等，统计方法包括贝叶斯分类和非参数法，机器学习方法包括决策树法和规则归纳法，前者对应的是决策树或判定树，后者一般为产生式规则。

第三，聚类分析。聚类分析是对群体及成员进行分类的递归过程。一个簇是一组数据对象的集合，在同一簇中的对象彼此类似，而不同簇中的对象彼此相异。将一组物理或抽象对象分组成为由类似对象组成的多个簇的过程被称为聚类，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。距离是经常采用的度量方式。聚类分析是对输入集中的记录进行分类，由聚类分析工具根据一定规则，合理划分记录集合，把相似的记录放在一个聚集里，用显式或隐式的方法描述不同的类别。聚类和分类的不同在于聚类不依赖于预先设定好的类，它要划分的是未知的、不需要训练集和带类标号的训练实例，它属于无指导学习。

第四，序列模式。序列模式分析和关联分析相似，其目的也是为了挖掘数据之间的联系，但序列模式分析的侧重点在于分析数据间的前后序列关系。几个重要研究方向包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘和周期模式挖掘。其中，时序序列研究能发现数据库中形如“在某一段时间内，顾客购买商品A，接着购买商品B，而后购买商品C，即序列A→B→C出现的频度较高”之类的知识，其描述的问题是“在给定的交易序列数据库中，每个序列是按照交易时间排列的一组交易集，挖掘序列函数作用在这个交易序列数据库上，返回该数据库中出现的高频序列”。

中期数据库的优势与效益

1.中期数据库的优势

首先，该系统中的数据库结构完备，数据量大。目前，国内期货行业很少有涉及商品期货及宏观经济数据的数据库，一般都是零星的品种数据。虽然国内有不少专业咨询公司数据信息非常专业，但品种门类不全，且宏观方面的数据较少，尤其是针对即将上市的股指期货。当前也有一些公司拥有期货数据库，但主要是交易数据，缺少品种基本面数据。相比之下，中期期货数据库在数据结构上非常齐全，包括期货研究所需门类数据，如国内宏观经济、国际宏观经济、国内外证券市场数据、行业数据以及国内外期货市场数据。

其次，该系统具备分析预测功能。虽然形式上与一般的数据库相似，但中期“Db-Plus期货数据信息及分析系统”最明显的一个特点是含有较为强大的数据分析及预测模块，这一模块不仅是国内外数据库不具备的，而且也是国内金融投资行业运用较少的先进分析软件。另外，以往主要是研究或专业人员浏览并运用数据进行分析，而普通投资者由于相关专业知识有限，精力有限，大多很少看，也很难用于分析，但“D-Plus期货数据分析系统”增加了多个数据分析预测模块后，使运用数据库的人员范围大幅扩展，从而使数据运用及分析预测可以走进普通投资者的生活。

2.中期数据库的社会效益

中期“Db-Plus期货数据信息及分析系统”于2005年立项开发，2006年年底完成初步设定功能并投入实际应用，为公司和客户都创造出了非常巨大的经济效益。而且，该系统于2007年在25位专家的一致鉴定下，获得了深圳第三届“金融创新奖”三等奖的荣誉称号。

随着公司异地营业部以及VIP客户不断使用和运用该系统，大幅提高了员工及投资者对数量分析的浓厚兴趣，令其理性分析市场、理性投资交易的理念深入人心。另外，利用这个系统所具备的大量丰富数据，还增进了公司与其他期货公司、专业信息公司以及期货交易所的相关合作。随着对外交流与合作以及使用人数及范围不断扩大，必然有助于整个期货行业的快速发展。对期货行业来说，倡导理性分析、理性投资理念有助投资者快速成熟，有利期货市场更快成长。

总体上看，与国外期货市场相比，目前我国期货市场尚处于发展的初始阶段，期货公司整体盈利水平不高，许多研究尚处于较低层次。由于建设数据仓库所需的资金较大，加之对技术、人员的要求也比较高，目前对期货公司来说难度还比较大。当然，中期公司在数据仓库的建设方面还处于探索阶段，很多方面都需要进行完善，而且也需要大量资金的投入。不过相信在未来的一段时期内，国内期货公司都将会拥有属于自己的、全面的数据仓库系统，从而提高研究水平，增强期货公司的核心竞争力。

责编：admin