<%@LANGUAGE="JAVASCRIPT" CODEPAGE="936"%> 北京和勤新泰技术有限公司
   
   
 
     
 
商业智能的支撑技术

李艳 (北京城市学院 信息学部 100083)
 
    由于商业智能(Business Intelligence, 以下简称BI)是涉及一个很宽领域的,集收集、合并、分析和提供信息存取功能为一身的解决方案,需要综合运用数据仓库、OLAP和数据挖掘等技术。因此我们有必要先来了解一下这些BI的支撑技术。
  支撑BI的数据收集和合并技术——数据仓库和数据集市
  实施BI的前提是将来自企业业务系统和外部环境中的各种数据收集、合并起来。这当然离不开数据仓库和数据集市技术的支持。
  数据仓库(Data Warehouse)是指从多个数据源收集的信息,以一个一致的模式存储起来所得到的数据集合。在构造数据仓库时,要经过数据清理、数据变换、数据集成、数据装入和定期数据刷新等过程。数据仓库收集了整个组织的主题信息,因此,它是企业范围的。宽松地讲,数据仓库是一个数据库,它与组织机构的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持

  按照W. H. Inmon这位数据仓库系统构造方面的领头设计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的 、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。让我们进一步看看这些关键特征。
  面向主题的 ( subject-oriented )是指数据仓库的建立是围绕一些主题的,如顾客、供应商和产品等,它所关注的是为决策者提供数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。
  集成的( integrated)是指通常情况下,数据仓库中的数据来自多个异种数据源,如关系数据库、一般文件和联机事务处理记录等。
  时变的(time-variant )是指存储在数据仓库中的数据能够提供历史的信息(例如过去5-10年)。数据仓库中的关键结构,隐式或显式地包含时间元素。
  非易失的 (nonvolatile )是指数据仓库中所存放的数据在物理上是分离的。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。
  概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。为此,数据仓库也常常被看作是一种支持结构化和专门的查询、分析报告和决策制定的体系结构。
  数据仓库通常是企业级应用,因此涉及的范围和投入的成本非常巨大,使一些企业无力承担。因而,他们希望在最需要的关键部门建立一种适合自身应用的、自行定制的部门数据仓库子集。正是这种需求使数据集市应运而生。数据集市( Data Mart)是聚焦在选定的主题上的,是部门范围的。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。根据数据的来源不同,数据集市分为独立的和依赖的两类。在独立的数据集市中,数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖的数据集市中的数据直接来自企业数据仓库。
  
BI的分析技术——OLAP、数据挖掘和文本挖掘
  数据仓库和数据集市解决了数据的收集和合并问题,接下来就需要对数据进行分析了。对于结构化的、数值型的数据,可以采用联机分析处理和数据挖掘技术。而对于非结构化的、文本型的数据,需要采用文本挖掘技术。
  根据OLAP委员会的定义,联机分析处理(Online Analytical Processing,简称OLAP) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。进行OLAP分析的前提是已有建好的数据仓库,之后即可利用OLAP复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分析,是因为用户在选择相关数据后,通过切片(按二维选择数据)、切块(按三维选择数据)、上钻(选择更高一级的数据详细信息以及数据视图)、下钻(展开同一级数据的详细信息)、旋转(获得不同视图的数据)等操作,可以在不同的粒度上对数据进行分析尝试,得到不同形式的知识和结果。
  与OLAP的探测式数据分析不同,数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,并利用它们为决策者提供决策依据。
  数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。在实际应用中,根据模式的实际作用,细分为分类模式、回归模式、时间序列模式、聚类模式、关联模式和序列模式6种。其中包含的具体算法有货篮分析(Market Analysis)、聚类检测(Clustering Detection)、神经网络(Neural Networks)、决策树方法(Decision Trees)、遗传算法(Genetic Analysis)、连接分析(Link Analysis)、基于范例的推理(Case Based Reasoning)和粗集(Rough Set)以及各种统计模型。
  数据挖掘与OLAP的区别和联系是:OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。
  随着技术的进步,人们已不再满足于分析数值型的数据了,那些埋藏在e-mail、 状态备忘录、新闻故事、新闻发布会以至营销作战方案、合同、管理机构的文件和政府报告里的文本信息,如果能够自动由计算机识别出来,对于决策者的支持作用无疑要胜过前者。 日趋成熟的文本挖掘技术正好满足了人们的这一需求。

  文本挖掘是采用计算语言学的原理对文本信息进行抽取的研究和实践。文本挖掘的关键领域包括:
  · 特征提取
  · 主题标引
  · 聚类
  · 摘要

  采用特征提取能够在文本中发现某种特殊的信息片段,例如某种形式的类型描述或者商业关系。识别出Alpha Industries是一家公司的名称即为前者,而识别出Alpha Industries是Beta Enterprises的全资子公司, Margaret Johnson是 Gamma Group的主席和CEO,则是发现商业关系的例子。
  主题标引使用文本中词汇的意义来识别文档中包含的广泛的主题。例如,有关阿司匹林和布洛芬的文档可能都被分到疼痛缓解剂或止痛剂之下。类似这种的主题标引通常是使用多维分类法实现的。在文本挖掘意义上的分类法,就是一个等级的知识表示方案。有时也被称为本体论,以区别于导航式的分类法,例如Yahoo所采用的分类表。
  聚类是另一个应用在商业智能中的文本挖掘技术。聚类按主要特征将相似的文档分到一组。在文本挖掘和信息检索中,通常用一个加权的特征向量来表示一篇文档。这些特征向量包含着一组主要的主题或关键词以及一个表明该主题或词汇相对于整篇文档的重要性的权重值。文档聚类通常采用三种方法:等级聚类、二元聚类和自组织地图。
  最后一个文本挖掘工具是自动摘要。摘要的目的就是尽量减少用户阅读的文本量。许多文档的主要思想最少可以用原文篇幅的20%来概括,因此摘要后的损失很少。但正如聚类一样,自动摘要也没有唯一的算法。许多采用词汇的形态分析以识别出最经常采用的词汇,同时消除那些表达很少意义的词汇,如冠词the, an 和 a。一些算法将首句和尾句中包含的词汇赋予较高的权重,而一些方法则寻找能够表明一些句子很重要的关键词组,例如“总之”(in conclusion)和“ 尤为重要的是”(most importantly)。
  BI的表示和发布技术——信息可视化和Web技术
  数据经过分析后得到的即为商业智能。为了使它们直观、简练地呈现在用户面前,需要采用一定的形式表示和发布出来,通常采用的是一些查询和报表工具。不过,目前越来越多的分析结果是以可视化的形式表示出来。这就需要采用信息可视化技术。所谓信息可视化是指以图形、图像、虚拟现实等易为人们所辨识的方式展现原始数据间的复杂关系、潜在信息以及发展趋势,以便我们能够更好地利用所掌握的信息资源。 所谓一张图片胜过千言万语,就是这个道理。
  随着Web应用的普及,商业智能的解决方案能够提供基于Web的应用服务,这样就扩展了商业智能的信息发布范围,享有访问权限的用户只要能够登陆互连网,就可以及时访问自己所关心的内容。作为基于Web的商业智能解决方案,需要一些基本的组成要素,包括基于Web的商业智能服务器、会话管理服务、文件管理服务、调度、分配和通知服务、装载平衡服务和应用服务等。以应用服务为例,需要为用户的查询、分析和报表请求提供浏览器插件。由于商业智能应用涉及到对多个分散在各地的异构数据库的存取,因此还需要CORBA、IIOP协议和Java、XML语言的支持。
  当然,随着新技术的不断涌现,会有更多的技术应用到商业智能解决方案中来,我们期待着计算机帮助我们生产出更多的商业智能。

  参考文献:
  1 韩家炜. 数据挖掘概念与技术.北京:电子工业出版社,
  2 Jason Weir. A web/ business intelligence solution. Information systems management. Winter, 2000
  3 Dan Sullivan. The Need for Text Mining in Business Intelligence. DM Review. Dec. 2000

  张春林 mysticalisland@tom.com


 
新闻中心 站点地图 诚聘英才 联系我们