欢迎来到千学网!
您现在的位置:首页 > 实用文 > 其他范文

怎样去宣传数据仓库?数据库教程

时间:2023-07-19 09:19:46 其他范文 收藏本文 下载本文

下面就是小编给大家带来的怎样去宣传数据仓库?数据库教程,本文共9篇,希望大家喜欢,可以帮助到有需要的朋友!

怎样去宣传数据仓库?数据库教程

篇1:怎样去宣传数据仓库?数据库教程

数据

主 题:怎样去宣传数据仓库?

作 者:hem

所属论坛:数据仓库

问题点数:300

回复次数:1

人气指数:6

发表时间:-9-13 16:38:32

数据仓库是 面向主题的、集成的、随时间变化的非易失的数据集合,用于支持管理层的决

策分析,

数据仓库对历史的数据做分析,以得出所分析主题的发展趋势,来支持决策层的决策分析。用于联机分析处理。

数据库 普通关系型数据库 大多用于联机事务处理,处理当前的事务、交易。

集成的例子:

就拿一家百货公司来说, 公司有好多的分公司,每个分公司有自己的日常交易纪录数据。

有真实的详细的交易历史纪录、也有月度、年度归总数据。总公司需要了解公司的运营状

况,以决定以后如何拓展业务,了解客户购物趋势,推广新产品等系列决策。试想想,如果

每个子公司将所有的历史数据都送到总公司,请问,总公司需要多少磁盘、多少资源来存储

这些数据? 总公司要这些数据干什么?总公司不需要这些详细的数据,如果子公司根据一

定的周期归总之后在送到总公司,这样一来,数据量小了,有利于分析了,

但是,这么多子

公司里面,每个公司的数据结构定义可能不相同。需要统一数据定义。

送到总公司来的数据是比较全面的。这样一来,公司可以对用户购物趋势、购物能力等主题

做一个比较全面的分析,以发掘客户、扩大公司规模。

面向主题:

通讯公司可能只是纪录用户的应收款、预付款、通话纪录、费率。如果建立一个客户主题区

域,用来纪录用户所购买的服务、用户所在地域。这个主题区域可以帮助通讯公司预测客户

增长率、客户的地域分布、客户购买服务的倾向以增加新的服务,在那些区域出售什么通讯

产品等等的决策。

随时间变化:

上面两个例子都提到这个。百货公司的记账系统、通讯公司的记账系统都是随时间变化的最

好的例子,记账系统定期归总数据,然后将归总数据不断加到数据仓库里面来,这样数据仓

库也就是随时间变化的。

非易失性的:

一般的,追加到数据仓库里面的数据是不允许更改的,它不同于联机事务处理系统,允许修改数据库纪录。这样数据仓库的数据一般不会丢失。

数据仓库有几个要点:

集成 (抽取、转换、装载) ETL

元数据 (描述数据的数据) MetaData

主题 星型结构

数据仓库中 数据的查询是最重要的。 视图、索引是提高查询的选择。

代码库是统一、集成的前提。

篇2:什么是数据仓库数据库教程

数据

目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策,

什么是数据仓库数据库教程

。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

根据数据仓库概念的含义,数据仓库拥有以下四个特点:

1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测,

企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。

整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。

数据仓库系统体系结构

·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;

·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

篇3:SQL Server 中的商务智能和数据仓库(2)数据库教程

例如,设想一个“客户”维度,关系型源表有八列:•

客户键

客户名称

年龄

性别

电子邮件

城市

地区

国家

相应的 Analysis Services 维度应具有七个属性:

客户(整型键、以“客户名称”作为名称)

年龄、性别、电子邮件、城市、地区、国家

数据中存在一种自然层次结构,{国家、地区、城市、客户}。出于导航目的,应用程序开发人员可以选择创建第二个层次结构:{年龄、性别}。商务用户并没有看到这两个层次结构行为方式之间有何区别,但是,自然层次却可以从深谙层次关系的索引结构(对用户隐藏)中受益。

新维度结构的最大优势在于:

维度不需要加载到内存中。因此,维度可以非常巨大(经测试,Beta 2 可支持上千万名成员)。

用户可以添加和删除属性层次结构,而不必再重新处理维度。属性层次索引结构属轻型结构,在后台计算,并不影响多维数据集查询。

重复的维度信息被去除;使得维度更加轻巧。

由于引擎为并行处理创建了机会,因此维度处理信息性能得到了改进。

维度类型

Analysis Services 中包括两种维度类型:常规层次类型和父子类型。Analysis Services 2005 新增了一些重要的新维度结构。其中有些结构的名称是临时的,但是,这些名称都是 BI 文献中较为通用的。

角色扮演:维度扮演着一些重要角色,具体哪些角色要依上下文而定。例如,[时间] 维度可能会被 [订购日期] 和 [发货日期] 重用。在 2005 中,扮演着某些角色的维度只需存储一次,便可多次使用。这样便可使所需的硬盘空间和处理时间降至最低。

事实:事实或“退化”维度与事实(如事务编号)具有一一对应的关系。从本质上讲,退化维度不能用于分析,但可用作标识,以定位特定的事务,或识别组成聚合单元的事务。

引用:维度并不能够直接和事实数据表发生联系,但可通过另一维度间接发生联系。这方面的原型示例有 [地理位置] 引用维度,它同时关联了 [客户] 和 [销售团队] 两个维度。引用维度可能由数据提供程序提供,并包括在多维数据集中,不必再修改事实数据。

数据挖掘:数据挖掘维度支持从数据挖掘模型(包括群集、决策树和关联规则)生成的维度。

多对多:这些维度有时被称为多值维度。在大部分维度中,事实能且只能连接一个维度成员。多对多维度解决了多维度成员问题。例如,银行储蓄客户可以有多个帐户(支票、储蓄);一个帐户可以有多个客户 (Mary Smith、John Smith)。[客户] 维度有多个成员,这些成员都与一个帐户事务相关联。在维度不能够直接关联事实数据表时,2005 多对多维度支持复杂的分析,并扩展了维度模型,使之超越了传统的星形架构。

量度组和透视

Analysis Services 2005 引入了“量度组”和“透视”,以用来简化分析数据库的设计和部署。在 Analysis Services 2000 中,鼓励用户构建多个物理多维数据集。每个多维数据集相当于一个特定的维度,通常还相当于一个特定的关系事实数据表。虚拟多维数据集以一种对商务用户透明,而对开发人员设计又不太复杂的方式,合并多个事实数据表。

在 2005 中,最通用的方案将具有一个包含一个或多个“量度组”的物理多维数据集。量度组中的事实数据具有特定的细化程度(由维度层次的交叉点定义)。查询根据需要被自动定向到不同的量度组。在物理层上,分区(与 Analysis Services 2000 分区类似)在“量度组”上定义。

大型应用程序将为用户提供大量的维度、量度组,而且还会给导航带来难度。在“多维数据集编辑器”的“透视”选择卡中定义的“透视”可以创建一个多维数据集的子集“视图”。为了要提供一定程度的个性化,可以将安全性角色与适合该角色的透视集相关联。

我们希望大部分的 Analysis Services 2005 数据库都包含一个具有多个量度组和多个透视的多维数据集。

对多维数据集事实结构和查询性能所做的其他改进有:

量度可以为空;在 SQL SERVER 2000 中,“null” 量度被当作 0 处理。

适当的多维数据集分区使得“非重复计数度量值”的查询性能得到了改进,性能值增加了几个数量级。

对备选数据库管理系统的访问由可扩展的部件基础结构提供。RDBMS 的部件用于指定如何为关系查询和写入优化 SQL 语句。用户可以轻松添加其他关系系统的部件;部件被作为 XSL 文件实现。

计算和分析

使用分析服务器(如 Analysis Services)最大的争议之一就是其集中定义复杂计算的能力。Analysis Services 一直以来都能交付丰富的分析数据,但对某些复杂概念却很难实现。

其中一种概念就是半累积量度。最通用的量度值(如 [销售额])能够清晰地汇总所有维度:长期以来的 [总销售额] 是指所有产品、所有客户在所有时间内的销售总额。相比之下,半累积量度值可能在某些维度中是累积的,而在其他的维度却不是累积的。最常见的一个例子便是余额,如仓库中的货品数。很显然的,昨天和今天这两天的余额总计肯定不等于昨天的余额加上今天的余额。相反,它可能是期末余额,虽然在有些情况下它是期初余额。在 Analysis Services 2000 中,您必须定义一个复杂的 MDX 计算,帮能交付正确的度量值。而在 Analysis Services 2005 中,期初余额和期末余额都是本机聚合类型。

非重复计数度量值在 2005 中也得到了很大的改进。现在,非重复计数度量值可定义在字符串数据上,而查询可以被定义为在任意集合上执行“非重复计算”。而 Analysis Services 2000 只能够在预先定义的层次结构上执行非重复计算。

“时间智能”向导将创建一个时间计算维度,其中包含该期间与最后期间的对比计算,可以移动平均值,同时还可创建其他的通用时间计算构造。

MDX 脚本

多维表达式 (MDX: MultiDimension Expression) 是一种功能非常强大的语言,可用于定义 Analysis Services 2000 计算和安全规则。MDX 功能强大,但也也很复杂。Analysis Services 2005 利用被简化了结构和语法的“MDX 脚本”定义了一种新的计算模型。

MDX 还是 Analysis Services 系统中的查询语言。查询工具(如 Excel 透视表)根据用户的“拖放”行为生成 MDX 查询。MDX 的这种使用与“MDX 脚本”无关;“MDX 脚本”用于服务器定义的对象,如计算成员和单元计算,并非用于用户查询。

在定义 Analysis Services 2005 多维数据集时,其中只包含结构,而没有数据。“MDX 脚本”是多维数据集结构的组成部分。一般情况下都会定义一个默认的“MDX 脚本”命令,用来计算默认的聚合。默认的“MDX 脚本”命令只包含一条语句:

Calculate;

在多维数据集完全处理之后,应用默认 MDX Script. 之前,多维数据集将包含叶层级的数据,但不包含聚合。在应用单一语句的默认“MDX 脚本”时,将计算和存储聚合。

“MDX 脚本”语句包含以下命令,用分号隔开:

限制语句作用域的作用域语句

公式和值分配

计算成员定义

命名集定义

在多维数据集的设计中,Business Intelligence Development Studio 的用户界面和“MDX 脚本”均(其中包括计算成员和命名组)在“计算”视图中构建。“MDX 脚本”可以在提供语法向导的默认“计算表单”视图中查看,也可以在“计算脚本”视图中查看,这一视图把“MDX 脚本”显示为一组用分号分隔的命令。您可以在这两个视图间来回切换,虽然“表单”视图的显示要求整个脚本的语法必须正确。

“MDX 脚本”具有几个主要功能:

脚本遵循过程模型:依次应用语句。“MDX 脚本”开发人员不需要再受传递次序的烦恼,他们得到充分的保护,不必再担心会编写出引起无限制递归的脚本。

可包含计算:SCOPE 语句使您可以针对多维数据集的特定区域,定义一个或多个计算。例如:

SCOPE ([Customers].[Country].[Country].[USA]);

[Measures].[Sales] = 100;

END SCOPE;•

作用域可以嵌套。

可缓存计算:CACHE 关键字表示脚本计算结果应存储在磁盘上,而不是在执行运行时计算。在查询包含大量复杂计算的大型多维数据集时,缓存的计算可以实现非常高的查询性能。当输入缓存计算更改时,该计算便会被删除和重建。

用户可以对“MDX 脚本”进行调试。您可以逐行完成“MDX 脚本”,浏览每步的多维数据集结果。

存储过程

Analysis Services 2005 引入了存储过程,来扩展用户定义功能 (UDF: User defined function) 所提供的能力。存储过程可以用任何公共语言运行时编程语言(例如 C++、Visual Basic 或 C)编写。存储过程允许一次性开发公共代码、将代码存储在一个位置,并在其他存储过程、计算和用户查询中重新使用所存储的公共代码,从而简化了数据库的开发和实施。

在 Analysis Services 2005 中存在两种类型的存储过程:

MDX 函数存储过程与任何其他的 MDX 函数相似,它提供了一种可轻松扩展 MDX 语言的机制。

自定义存储过程执行特定于实施的任务,例如多维数据集处理,或更新多维数据集部分中的单元。

存储过程可用于执行客户端应用程序可以执行的任何任务。

关键绩效指标

Analysis Services 2005 为服务器端计算定义引入了关键绩效指示 (KPI) 框架,用来衡量您的业务。这些 KPI 将通过数据访问 API 和 Microsoft 与第三方工具,被显示在报告、门户和仪表板中。对于 Beta 2 版本而言,还没有可用于显示 KPI 的客户端工具。

不同的评论员和供应商用缩写 “KPI” 指代不同的概念。对于 Microsoft SQL Server Analysis Services 2005,精确定义 KPI 的过程可分为以下四个步骤:

有待测量的值:物理度量值,如销售额,计算度量值,如利润,或在 KPI 中定义的计算,

值目标:定义度量值目标的值(或解析为值的 MDX 表达式),

状态:评估当前值状态的 MDX 表达式,其正常值范围从 -1(极差)到 +1(极佳),

趋势:评估当前值趋势的 MDX 表达式。相对其目标而言,值是逐渐变好还是逐渐变坏?

以下是网页上显示的一些 KPI 示例:实时商务智能

数据仓库和商务智能应用程序过去都是使用“过时”的或高延迟的数据,数据每月、每周或每天刷新一次。传统拥护者断言,实时 BI 是相互矛盾的,因为统计决策不需要刷新频率过高(超过每天一次)的数据。评论者忘记了一件事情,就是商务智能应深入整个企业,而不仅仅是将策略或制定的战术决策部署给少数的分析家或行政执行人员。可操作的商务智能要求低延迟的数据。

Analysis Services 2005 为可操作的商务智能提供了新的处理选项。在 Analysis Services 2000 中,无论是多维数据集的存储模式还是分区策略,都是用“拉”模型处理。启动 Analysis Services 进程在源数据库中查找新的信息、处理可选存储的详细数据,并计算和存储聚合。

在 Analysis Services 2005 中仍支持“拉”模型,但结合了对低延迟商务智能异常有效的其他选项。

从 DTS 管道中推出数据,或从自定义应用程序中推出数据。数据可以从 DTS 包管道直接流入 Analysis Services 分区,不用立即存储。这种方案可用于降低分析数据的延迟(和存储成本)。

按主动缓存管理多维数据集,以指定延迟和性能特性管理缓存,勿需管理干涉。

Analysis Services 多维存储的查询性能特性主宰着关系型存储。简而言之,查询针对多维 (MOLAP) 存储执行时效果最佳。其不足之处是延迟:多维存储是从其关系源向下流动的。主动缓存技术的技巧就在于能够在最小化数据延迟和管理成本的同时最大化查询性能。

主动缓存功能简化了管理数据过期问题的过程。如果事务发生在源数据库(如新的维度成员或新的事实事务)上,现有“缓存”便会过期。主动缓存技术提供了一种可调整的机制,可确定重新构建多维缓存的频率;指定在重新构建缓存时答复查询的方式;在不需要任何管理干涉的情况下启动过程。

主动缓存技术使您可以将多维数据集设置为在事务发生时,自动刷新其多维缓存。虽然 Analysis Services 处理数据速度非常快,但处理过程还是需要一些时间的。如果多维缓存处理过程没有完成,主动缓存配置便可以自动将查询重定向到相关的存储。

在设计主动缓存配置时,一定要谨记必须为每个多维分区都设置主动缓存。如果分区包括短时间范围(如一小时)内的数据,缓存刷新过程可能会发生的非常快。最为复杂的主动缓存配置依赖于从关系数据库发往有更新发生的 Analysis Services 的通知。Microsoft SQL Server 关系数据库支持这种通知。对于不能够提交通知的数据库,可以将 Analysis Services 配置为根据定义的查询,轮询更改。

主动缓存的参数有:

静止期:在服务器开始处理新信息前,关系源必须处于事务空闲状态的时间量。该参数通常设置为一个小于十秒钟的值。如果在关系源上存在许多连续的更新,则应等待静止期,以针对重复性删除和重建缓存加以保护。

延迟:允许用户访问过期数据的时间量。如果延迟设置为 0,则只要收到通知,用户查询就会被重定向到关系源。如果延迟设置为 600 秒,用户则只能访问十分钟前的数据。如果设置为 -1,则表示用户将一直访问过期数据,直至主动缓存处理完毕。

静默覆盖间隔:更改通知与主动缓存处理开始之间的最大持续时间。如果源数据库被不断更新,此参数将覆盖“静止期”设置。

强制重建间隔:当源数据库系统不能提供更新通知时,可使用此参数提供简单的主动缓存功能。如果源数据在 SQL Server RDBMS 中,则应将该参数设置为 0。

数据挖掘概述

Microsoft SQL Server 2005 Data Mining(数据挖掘)属于商务智能技术,它可帮助您构建复杂的分析模型,并使其与您的业务操作相集成。数据挖掘可回答如下问题

该客户的信用风险如何?

客户的特征如何?

人们愿意同时购买哪些产品?

下个月能卖出多少产品?

数据挖掘应用程序将数据挖掘模型集成到日常的业务运营之中。许多数据挖掘项目的目标是构建可供业务用户、合作伙伴和客户使用的分析应用程序,而不必理会应用程序底层的复杂计算。要实现这一目标,需要执行两个主要步骤:构建数据挖掘模型并构建应用程序。SQL Server 2005 Data Mining 使这些步骤比以往更加简单。

Microsoft 2005 中数据挖掘功能的目标是构建具备以下特征的工具:

简单易用

可提供一整套的功能

可轻松嵌入到产品应用程序中

紧密集成其他的 SQL Server BI 技术,以及

能够扩展数据挖掘应用程序的市场。

可以肯定,本白皮书的每位读者几乎都曾“使用”过数据挖掘应用程序。如果您已在线购得了本书或音乐,并收到了“购买此产品的其他客户”的建议,或者,如果信用卡公司要求您确认一宗可疑交易,或者,食品店在收条上打印个性化优惠券,所有这些,都是您从使用数据挖掘应用程序中得到的好处。时至今日,这种应用程序的开发已集中于解决大型公司所面临的最大问题,这些公司能够承受分析能力的匮乏以及巨额的开发费用,而这些都是过去用传统方法构建数据挖掘应用程序所需面对的。正如 Microsoft 的 OLAP 技术已推动了 OLAP 市场增长一样,我们期望能够将数据挖掘技术推广开来,使那些在过去不能开发这种应用程序的企业和部门也能够加入到其开发行列中来。

使用 SQL Server 2005 Data Mining 工具开发一套数据模式,然后在这些模式的基础上随意执行预测。这是所有数据挖掘的模式:开发、模式发现和模式预测。

数据挖掘算法

所有数据挖掘工具(包括 Microsoft SQL Server 2005 Analysis Services)都采用了多种算法。当然,Analysis Services 是可扩展的;第三方 ISV 可以开发算法,并将所开发的算法无缝地融入到 Analysis Services 数据挖掘框架之中。根据数据和目标的不同,应该采用不同的算法,而且每种算法都可用于解决多个问题。

数据挖掘工具擅长解决多种类型的问题。下表概括了业务问题的大致分类:

分析问题示例Microsoft 算法

分类:为案例分配预定义的级别(如“好”与“差”)

信用风险分析

客户流失分析

客户挽留

决策树

贝叶斯算法

神经网络

分割:开发一种按相似案例分组的分类方法

客户资料分析

邮件推销活动

群集

顺序群集

关联:相关性高级计算

购物篮分析

高级数据研究

决策树

相关规则

时间序列预测:预测未来

预测销售

预测股票价格

时间序列

预测:根据相似案例(如现有客户)的值预测新方案(如新客户)的值

提供保险率

预测客户收入

预测温度

全部

偏差分析:发现案例或群体与其他案例和群体之间的差别

信用卡欺骗检测

网络入侵分析

全部

SQL Server 2005 中附带了最流行的数据挖掘算法。

Microsoft Decision Trees(决策树)通常是数据研究的起始点。它是主要的分类算法,对离散和连接属性的可预测建模效果很好。用算法构建模型时,它着眼于数据集中每个输入属性是如何影响预测属性的结果的。其目标是找到一个输入属性及其状态的组合,使您能够预测出所预测属性的输出结果。

Microsoft Naïve Bayes(贝叶斯算法)能够快速构建可用于分类和预测的数据挖掘模型。如果知道可预测属性的每种状态,便可计算出输入属性每个可能状态的概率。这种算法只支持离散(不连续)属性,它认为所有输入属性都是彼此独立的(前提是知道可预测属性)。因为贝叶斯算法的计算速度非常快,因此在初始数据研究阶段通常会选择这种算法进行分类和预测问题。

Microsoft Clustering 使用迭代技术将来自数据集的记录分成若干个包含相似特性的簇。通过使用这些簇,您可以研究数据,找出彼此之间的相互关系。您还可以从群集模型创建预测。

Microsoft Association 基于 priori 算法,它为在大型数据集中查找多路关联提供了一种有效的方法。Association 算法在数据库所有事务中循环,在单一用户事务中查找最有可能同时出现的项目。关联的项目被分到一起,放入项目集中,生成可用于预测的规则。Microsoft Association 通常用于购物篮分析。对于 Association 分析而言,执行大量“非重复计数”的关系或 OLAP 分析是一个值得考虑的选择。Microsoft Association 算法对算法参数的选择很敏感,因此,对于一些小问题,使用 Microsoft Decision Trees 算法进行购物篮分析可能效果更佳。

Microsoft Sequence Clustering 将顺序分析与在数据研究和预测中使用的群集方法结合在了一起。顺序群集模型对事物发生次序很敏感。此外,群集算法还考虑到记录群集中的其他属性,使您可以开发关联顺序和非顺序信息的模型。Sequence Clustering 算法将被用于执行点击流分析,以便于分析 Web 站点的通信流量、识别与特殊产品销售关系最为密切的页面,并预测接下来要访问的页面。

Microsoft Time Series(时间序列)会创建可用于预测一个或多个连续变量(如股票价格)的模型。Time Series 算法的预测完全依据于在模型创建过程中从培训数据中推导得出的趋势。Microsoft Time Series 使用 AutoRegression Trees 技术,非常简单易用,并可生成精确度极高的模型。在该算法中有一条专门用于时间序列的统计分析规则。大多数其他数据挖掘产品都提供了多项技术,如 ARMA、ARIMA 和 Box-Jenkins,统计师必须在这些技术中确定模型的最佳技术选择,

Microsoft 选择了一种方法,既可使广泛的受众能够理解时间序列,又具备异常精确的结果。

Microsoft Neural Net 和 Decision Trees 及 Na?ve Bayes 一样,主要用于数据研究、分类和预测。Neural Net 是一种人工智能技术,该技术可以利用所有可能的数据关系。因为它是一种非常彻底的技术,因此它是三个分类算法中最慢的算法。

构建挖掘模型

模型的构建、培训和测试过程是创建应用程序过程中最为困难的一部分。正如下面我们要讨论的,实际开发应用程序是一个简单的编程过程。在开始构建数据挖掘模型之前,您应当已经收集和清理了您的数据,这些数据极有可能位于数据仓库中。SQL Server 2005 Data Mining 可以从关系数据库或 Analysis Services 多维数据中访问数据。

开发数据挖掘模型的最佳人选是同时具备业务和技术技巧的人员。模型的开发人员将会从其统计背景中获益、了解企业面临的关键业务问题、对数据和关系产生极大的好奇心,同时还能够利用 SQL Server 2005 工具处理和存储数据。现有数据仓库小组中的成员最有可能遇到这些标准。

作为数据挖掘的初学者,应在构建原型模型的同时,计划花费数周时间来研究数据、工具以及可供选择的算法。使用一台您具备数据库管理权限的开发服务器。构建模型的最初阶段是探索阶段:您可能会希望以不同的方法来重新构建数据和实验。当然,您肯定希望从少量数据子集开始,并在开发愈加清晰的模型设计时扩展数据集。在原型阶段,不要为如何构建一个“可供生产使用”的应用程序而担心。使用 DTS 或执行任何所需数据处理最为舒适的任何工具。保存一份记录有必要转换的高级日志,但不要期望您所做的一却都能成为永久应用程序的一部分。

您应当准备两套数据:一套用于开发模型,而另一套用于测试模型的精确度,从中选择适合您业务问题最佳模型。在考虑如何划分数据子集时,要确保没有引入任何偏差。例如,从十个客户中选择一个客户,或根据姓氏的第一个字符区分,或根据一些其他任意属性区分。

开发数据挖掘模型的过程涉及选择以下内容:

输入数据集、

输入字段、

数据挖掘算法,以及

该算法在计算过程中所用到的参数。

如果不知道哪种类型的算法适合处理您的业务问题,请先从“决策树”或“贝叶斯”入手研究数据。如果不知道要包括哪些属性,就选择所有属性。使用相关性网络视图,从中获得可帮助您简化复杂模型的视图。

在原型开发阶段,您可能希望构建相关模型,以便评估最佳算法和模型。使用“挖掘精度”图表评估在预测中效果最佳的模型。您可能还希望构建相关模型,对相同的数据执行不同类型的分析。这些模型在作为相关模型时的处理速度要比作为独立定义模型时的处理速度快。

在构建和测试原型后,便可以构建和测试实际数据挖掘模型。在将数据输入数据挖掘引擎前,如果需要转换数据,那么为了要实现这些操作,应当开发可供生产用的操作流程。在某些情况下,可能要选择从 DTS 管道直接植入挖掘模型。如果在少量数据的基础上开发原型,将需要在整套培训数据的基础上重新评估备选模型。

构建数据挖掘应用程序

在 Business Intelligence Development Studio 中开发和研究数据挖掘模型可使企业获得巨大的价值。您可以浏览模型,了解数据与业务之间的关系,并使用该信息促进策略决策的制定。但是,其最大的价值还是来自可以影响公司日常操作的数据挖掘应用程序:例如,向客户推荐产品、记录客户信用风险,或根据预测的库存不足下订单的数据挖掘应用程序。要开发可操作的数据挖掘应用程序,您需要跳出 Business Intelligence Development Studio 的圈子,并用 Microsoft Visual Studio 或您选择的其他开发环境编写代码。

大部分企业客户都将面向客户的数据挖掘应用程序实施为基于 web 的 Win32 应用程序,如 ASP 页。数据挖掘模型业已构建完毕,而且应用程序也可以根据客户的选择或在 web 商务应用程序中输入的内容,为客户执行预测。这可能是十分简单的应用程序;唯一不寻常的部分是发布预测查询。

数据挖掘应用程序开发人员不一定就是开发数据挖掘模型的人员。应用程序开发人员应具备一流的开发技能,而对业务或统计知识的需求则相对较低。

Microsoft 的数据挖掘技术大大地简化了构建自动化数据挖掘应用程序的过程。其中共有两个步骤:

开发数据挖掘预测查询,其 DMX 语法在“数据挖掘”规范的 OLE DB 中定义。不需要手工编写 DMX,用户只需单击 Business Intelligence Development Studio 编辑器左栏上的“挖掘模型预测”图标即可。“预测查询构建器”图形化工具会帮助您开发预测查询。

在数据挖掘应用程序中使用预测查询。如果应用程序只使用 DMX 便可完成预测,则项目应包括 ADO、ADO.Net 或 ADOMD.Net 等类引用(建议在 Beta 1 之后的开发中使用 ADOMD.Net)。如果您正在构建一个更为复杂的应用程序(例如要显示用户挖掘模型查看器,如“决策树查看器”),将需要包括 Microsoft.AnalysisServices 和 Microsoft.AnalysisServices.Viewers 类。

有些客户(主要是独立软件供应商)希望创建可生成数据挖掘模型的应用程序。这种应用程序可能会替代在 Business Intelligence Development Studio 中开发挖掘模型,但可能只适用于特定的领域,如 web 分析。在这种情况下,开发项目就需要包括 Microsoft.DataWarehouse.Interfaces,以便可以获得对 AMO(Analysis Management Objects,分析管理对象)的访问权限。 DMX 示例

数据挖掘过程包括三个步骤,分别为创建数据挖掘模型、培训模型和根据模型预测行为,这三个步骤都可通过简单、类似 SQL 编程语言的 DMX 来实现。示例语法如下所示;DMX 的完整使用方法可从联机丛书中获得。

创建数据挖掘模型:

CREATE MINING MODEL CreditRisk

(CustID LONG KEY,

Gender TEXT DISCRETE,

Income LONG CONTINUOUS,

Profession TEXT DISCRETE,

Risk TEXT DISCRETE PREDICT)

USING Microsoft_Decision_Trees

培训数据模型:

INSERT INTO CreditRisk

(CustId, Gender, Income, Profession, Risk)

SELECT CustomerID, Gender, Income, Profession, Risk

From Customers

根据数据挖掘模型预测行为:

SELECT NewCustomers.CustomerID, CreditRisk.Risk,

PredictProbability(CreditRisk)

FROM CreditRisk PREDICTION JOIN NewCustomers

ON CreditRisk.Gender=NewCustomer.Gender

AND CreditRisk.Income=NewCustomer.Income

AND CreditRisk.Profession=NewCustomer.Profession六、Reporting Services

随着 Microsoft SQL Server 2005 的发布,Microsoft 在其集成商务智能平台中拓展了一个新的主要组件。即 SQL Server Reporting Services,该组件使得人们不管在任何商业环境中,都可将适当的信息送达适当的人员,从而扩展了 Microsoft 的商务智能发展前景。

Reporting Services 是一个基于服务器的完整平台,可创建、管理和交付传统报告和交互式报告。它包括您创建、分发和管理报告所需的一切工具和信息。同时,产品的标准模块化设计和应用程序编程接口 (API) 使软件开发人员、数据提供商和企业能够集成原有系统或第三方应用程序中的报告功能。

Reporting Services 随 SQL Server 2005 一起发布,其中包括:

用于创建、管理和查看报告的一整套工具

用于承载和处理报告的引擎

可将报告嵌入到(或将解决方案集成到)不同 IT 环境中的可扩展体系结构与开放式接口。

为什么使用 Reporting Services?

毫无疑问,能够在适当的时间将适当的信息送达适当的人员具有巨大的价值。对于许多企业而言,这是一个挑战,因为这些需要访问信息的人员不但具有广泛的技术专业背景,而且还可能分散在整个传统组织内的不同位置,甚至于组织之外。

Reporting Services 通过灵活的订阅和交付机制简化了传统报告与交互式报告的创建过程,并可将这些报告顺利地交付给广泛的人群。它还为处理复杂苛刻的商业环境提供了必要的安全性和可管理性。

Reporting Services 提供了独一无二的属性组合:

完整的、基于服务器的报告平台:Reporting Services 支持从创建报告到提交报告和后续管理的整个报告生命周期。

灵活可扩展的报告功能:Reporting Services 具用可扩展的交付选项,可同时支持众多格式的传统报告和交互式报告。它可通过开放式的 API 和接口轻松集成到任何环境或解决方案中。

可伸缩性:产品基于 web 的标准化模块设计,可轻松扩展为支持高数据容量的环境。您能够创建具有多个报告服务器的报告服务器场,访问同一核心报告,为数以千计的 web 客户端提供服务。

与 Microsoft 产品和工具的集成:Reporting Services 随 SQL Server 一起发布,可轻松集成我们所熟悉的 Microsoft 工具,如 Office 和 SharePoint Portal Server,无需进行编程和自定义设置。

使用 Reporting Services 的途径

由于 Reporting Services 是结合可伸缩、可扩展体系结构的单一完整的报告平台,因此它可满足范围广泛的报告需求。

企业报告:企业可在内部报告和商务智能应用程序中使用 Reporting Services。许多公司都创建数据集市或仓库来汇总操作数据。通过使用 Reporting Services,公司的 IT 员工可以设计各种报告,并将这些报告通过电子邮件分发,或在公司门户上发布,将这些报告部署给的整个企业中的个人。Reporting Service 作为集成在 Microsoft BI平台中的一项综合报告解决方案,为企业提供了巨大的价值。

嵌入式报告:独立软件供应商 (ISV) 可以使用 Reporting Services 将报告预先定义为打包应用程序(随 Microsoft SQL Server 同时运行的)的一部分。客户的 IT 组织可按原样访问这些报告,或使用 Reporting Services 自定义报告,或为特定业务需求创建新报告。Reporting Services 为独立软件供应商 (ISV) 提供了一种在应用程序中嵌入灵活的交互式报告的简单方法。

为合作伙伴/客户设计的 Web 报告:组织可以将传统报告或交互式 web 报告部署为通过外部网络与客户或合作伙伴交互。Reporting Services 在提供个性化和互动性的同时,还使报告客户摆脱了复杂的底层数据源。

Reporting Services 功能

Reporting Services 将集中式托管报告系统的优点与桌面及基于 Web 应用程序的灵活性和按需选择性集于一身。Reporting Services 是一个完整的报告平台,支持从报告创建到报告部署的整个报告生命周期。

制作报告

Reporting Services 包括创建传统报告或交互式报告所需的一切工具及技术,其中包括具有报告设计向导功能的图形化报告设计器工具。

报告制作功能详细信息

受到广泛支持的数据源

Microsoft SQL Server

Microsoft Analysis Services

所有兼容 OLE DB 的数据源

所有兼容 ODBC 的数据源

灵活的制作工具

报告设计器(使用 Visual Studio 2005)

基于 XML 的报告定义语言 (RDL)

生成 RDL 的第三方工具

灵活的报告格式

自由格式

表格

矩阵

图表

使用运行时筛选的参数化报告

排序和分组

演练

链接的报告

模块化报告执行

转换是从查询流程中分离出来的一个流程;同一份报告可能转换为不同的格式。

执行可按计划执行,也可以按需执行。

管理报告

Reporting Services 包括基于 web 的工具,可用于管理报告和报告服务器 Web 应用程序。管理员可使用此界面为报告定义基于角色的安全性、编排报告执行和提交,以及跟踪报告历史。或者,企业或 ISV 可以使用 Reporting Services Web Services API 编写自定的管理工具。

由于报告定义、文件夹和资源都存储在 SQL Server 数据库中,因此,您可以使用其他工具(如 SQL Server Management Studio)管理元数据,或使用那些充分采纳已发布 API 的第三方应用程序。

Reporting Services 实施了一个灵活、基于角色的安全模型,用来保护报告和报告资源。这一功能可根据各种不同的安全需求量身定做。该产品包括根据需要集成其他安全模型的可扩展接口。

报告管理功能详细信息

报告元数据

名称

描述

数据源管理

连接

凭据

参数管理

默认

提示

报告编排

集成 SQL Server 代理

执行属性

实时、缓存或快照。Reporting Services 快照是报告数据集(运行报告快照时报告的源查询结果)的存储副本。

报告执行的历史

被保留下来,以供需要时再次使用的快照分类列表

报告安全性

用户、组和角色

报告服务器 Web 应用程序

基于 Web 的管理工具,这些工具可用于:

定义安全性

安排报告的执行和提交

跟踪报告历史

灵活的管理 API

Web 服务 API

提交报告

您可以将报告提交到门户、将其以电子邮件的形式发送给用户,或让用户使用基于 web 的报告服务器从文件夹层级中访问报告。导航、搜索和订阅功能可帮助用户根据其需要定位和运行报告。个性化的订阅功能可让用户自行选择自己喜欢的转换格式。

报告提交功能详细信息

报告转换选项的范围

Web 格式 (HTML)

打印格式 (PDF, TIFF)

数据 (Excel, XML, CSV)

通过开放式 API 实现的其他格式

灵活的提交选项

按计划

由事件驱动

个性化的订阅

显示的报告或链接交付

数据驱动的订阅

集成的其他应用程序

七、总结

Microsoft SQL Server 2005 是一个完整的商务智能平台,它所提供的基础结构和服务器组件可用于构建:

易于查询且维护成本较低的大型复杂数据仓库;

较小规模的企业或大型企业中的部门可以轻松构建和管理小型报告和分析系统;

向操作用户交付分析数据的低延迟系统;

闭环分析和数据挖掘系统;以及

扩展商务智能的嵌入式系统。

为用户所熟悉的工具(SQL Server 关系数据库、DTS、Reporting Services 和 Analysis Services OLAP 以及数据挖掘)也都得到了极大的改进。新增功能(如 Business Intelligence Development Studio 和 SQL Server Management Studio)进一步扩展了 Microsoft BI平台。每个工具都具有创新性,其设计都可令您事半功倍:用比以前更少的硬件、规模更小的团队更快更好地构建、部署和管理重要的商务智能应用程序。

附录 A:代码示例递归查询示例USE AdventureWorks

GO

/*

This query brings back a list of managers, and the count of employees

who report to them directly or indirectly).

*/

WITH reps_cte (emp, mgr, recursion_level)

AS

(

/*Get the initial list of employees.*/

SELECT EmployeeID, ManagerID, 0

FROM Employee AS E

/*Get a Union of the anchor and the recursive term.*/

UNION ALL

SELECT reps_cte.emp, E.ManagerID, recursion_level+1

FROM Employee E, reps_cte -- Join with Employee

WHERE reps_cte.mgr=E.EmployeeID -- This employee's manager

AND recursion_level<=20 -- up to 20 levels of mgmt

) -- End of common table expression

/*Now query the recursive common table expression reps_cte*/

SELECT r.mgr, E.[LastName]+', ' + E.[FirstName]

AS MgrName, count(*) CntEmployees

FROM reps_cte r INNER JOIN [Employee] E ON (r.mgr=E.EmployeeId)

GROUP BY mgr, E.[LastName]+', ' + E.[FirstName]

HAVING count(*) >1-- Means they manage at least one person

ORDER BY 3 DESC-- Sort by count of employees

GO

篇4:怎样修改查看Oracle字符集及怎样修改字符集数据库教程

oracle

[Q]怎么样查看数据库字符集

[A]数据库服务器字符集select * from nls_database_parameters,其来源于props$,是表示数据库的字符集,

客户端字符集环境select * from nls_instance_parameters,其来源于v$parameter,

表示客户端的字符集的设置,可能是参数文件,环境变量或者是注册表

会话字符集环境 select * from nls_session_parameters,其来源于v$nls_parameters,表示会话自己的设置,可能是会话的环境变量或者是alter session完成,如果会话没有特殊的设置,将与nls_instance_parameters一致。

客户端的字符集要求与服务器一致,才能正确显示数据库的非Ascii字符,

如果多个设置存在的时候,alter session>环境变量>注册表>参数文件

字符集要求一致,但是语言设置却可以不同,语言设置建议用英文。如字符集是zhs16gbk,则nls_lang可以是American_America.zhs16gbk。

[Q]怎么样修改字符集

[A]8i以上版本可以通过alter database来修改字符集,但也只限于子集到超集,不建议修改props$表,将可能导致严重错误。

Startup nomount;

Alter database mount exclusive;

Alter system enable restricted session;

Alter system set job_queue_process=0;

Alter database open;

Alter database character set zhs16gbk;

篇5:电信企业参与竞争的利器数据仓库和数据挖掘数据库教程

数据

电信企业参与竞争的利器-数据仓库和数据挖掘

基于Sybase的广东电信数据仓库解决方案

广东电信科学技术研究院

1 概述

随着电信市场的开放,竞争将越来越激烈,利润的降低使得必须从粗放的经营转变到集约的经营,同时经营决策需要尽可能多的定量的依据和尽可能快的速度。所有这些需要技术上的支持----数据仓库和数据挖掘广东省电信科学技术研究院是华南地区通信技术支持及科研开发的最高技术部门,围绕保障通信大网运行安全、高效和通信市场的需求而进行系统维护支持、网管系统开发、多媒体研究、网络技术与市场研究、计费系统研究与开发、人员培训和计量检测等七个方面的工作。研究院目前拥有一支900多人的年富力强、实力雄厚的研发队伍。

研究院开发的Thinker-BC多媒体网综合业务管理系统是一套统一的综合业务管理系统。它为电信运营商以及各级ISP提供一个稳定而灵活的业务支撑平台。该平台能够提供所有的多媒体数据通信基本业务及各种增值服务,该平台具备极强的可扩展性,具备快速的新业务生成、推广能力。系统能够灵活地定义各项服务的资费政策,及各项业务的捆绑销售优惠策略,并对各项服务提供准确、实时的计费功能。其中的数据仓库决策支持系统是基于Sybase的数据仓库解决方案开发的。业务经营决策者可以利用这个系统快速准确地了解到各项业务的发展情况、为进一步的决策支持工作提供坚实的基础。

2 需求主要特点

数据量庞大

目前,广东公众多媒体通信网拨号用户总数已达到70万。根据业务需求分析,广东省163/169网到底的用户总数将达到800万以上,其中拨号注册用户达400万,主叫用户300万,卡用户100万,专线用户也将达到1万户以上。在这些大量的数据背后隐藏着许多重要的信息。

业务结构复杂

系统的最终用户是电信内部的各个部门,因此最终用户的需求不尽相同。

经常变化

业务策略不断变化。表现为资费政策的不断变化。

3 方案介绍

Thinker-BC2000多媒体网综合业务管理系统的数据仓库系统模型如下图所示:

3.1 系统软件平台

数据仓库的实施是一个相当复杂的过程,主要包括五个部分的内容:数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现和数据仓库的维护和管理。

Sybase提供了覆盖整个数据仓库建立周期的一套完整的产品包:Warehouse Studio,它包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。以下说明了我们是如何结合Sybase的产品来做数据仓库的设计与开发。

数据仓库的设计、建模

数据仓库的设计工作对于决策支持系统起着至关重要的作用,它需要根据决策需求确定主题,从数据源到数据提交,对数据仓库的数据组织进行逻辑结构的设计,还要按照业务用户最能理解的方式组织和提供信息。

在这个阶段,我们使用了PowerDesigner WarehouseArchitect。WarehouseArchitect是个高度优化的数据库工具,广泛用于数据源的逆向工程、建模、数据仓库方案设计,以适应每个业务需求。通过对逻辑设计、物理设计和应用建模进行集成,WarehouseArchitect方便了数据仓库的开发和实现。

数据转换与集成

在进行数据仓库的建立时,最大的挑战之一是如何将原始业务数据转化为一致的格式,使之更好地为决策支持服务。这包括对已有数据的准确性和一致性进行检验、净化,将数据进行转化、提取、转换、装载到数据集市或数据仓库以及对其进行定期更新和管理。PowerMart作为数据抽取工具,从各种异够的数据源中抽取数据,在数据抽取过程,用户可以根据不同的抽取阶段,灵活定制各种数据抽取流程,并定时地将数据加载到数据仓库中。

PowerMart是一个集成的软件产品套件,用于建造和管理数据集市和分析应用。PowerMart交付了一个开放的可伸缩的解决方案,主要定位于数据集市完整的生命周期和分析应用开发及产品化的管理,能够支持多种平台上快速变化的大量数据作为数据来源,进行复杂的转换处理以及支持高速的数据加载。其metadata repository 能够协调并驱动一系列的核心功能,包括抽取、转换、加载和管理等。

PowerMart的图形化用户接口帮助数据仓库管理人员很容易的设计复杂的source-to-target的映射,然后可以由PowerMart强大的服务器来自动地执行,

数据存储与管理

数据仓库的存储可以选用多维数据库,也可以选用关系型数据库或其它特殊的存储方式。数据的存储要保证数据的安全性、完整性、一致性,同时还要具有复杂的分析查询的高效性。

我们选用了Sybase的数据仓库产品Adaptive Server IQ。Adaptive Server IQ是一个关系型数据库,为高性能决策支持和数据仓库的建立而进行了优化。IQ中的关键技术是纵向数据存储(通过列而不是通过行来进行)、Bit-Wise查询索引和数据压缩。

数据分析和展现

联机分析处理(OLAP)是一个分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过多种OLAP工具对数据仓库中的数据进行多维分析、汇总,形成图表或报表的形式,使决策者可以清晰、直观地看到分析结果,这正是数据仓库系统所要达到的目的。

数据仓库的开发应用主要有结构设计、数据集中组织和管理、数据的快速高效访问等。其中数据的访问一般都是由较为成熟的业务智能工具完成,因此不同于OLTP系统,数据仓库系统的前端开发编程量是比较小的,但是其维护工作的时间跨度要大,因为决策支持应用的随意性较强,不可能再象业务系统那样固定一个统一的操作模式。

BusinessObjects作为较早进入中国市场的业务智能提供商,其产品操作精简、功能丰富,并且有直观易懂的前端展现元数据管理部分,在这个解决方案中与IQ的高速查询效率相得益彰。

数据仓库的维护和管理

元数据是关于数据的数据,能够表示、定义数据的意义及系统各组成部件之间的关系的数据,它包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求及数据时限等。管理好元数据是管理数据仓库的关键。

Sybase的Warehouse Control Center通过对元数据仓库的集中管理,提供了数据仓库解决方案的保证技术。从设计和开发到实现到最终用户访问,由工具和数据库产生的对元数据的密集型集成和管理保证了真正企业级数据仓库的建立。Warehouse Control Center是基于Intellidex技术的为数据仓库开发人员提供的数据仓库元数据管理工具,能够在数据仓库环境下进行数据采集、捕捉、存储、管理和发布逻辑的、物理的以及上下文相关的信息,而不用去管它的物理存储位置是在联合数据仓库上、分布式数据仓库上还是二者兼有。业务用户可以浏览根据其需求而生成的元数据对象,甚至可以使用发布和登记性能请求或选择附加性能。

3.2 系统硬件平台

数据仓库服务器:

sunE5500 / 8 cpu/4G RAM/18G硬盘

运行Sybase IQ。 数据迁移服务器:

IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4

运行PowerMart Server 管理Web服务器两台:

IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4

分别运行BO Web Intelligence和Warehouse Control Center Server。 存储网络:

采用Veritas的SAN系统

3.3 系统主要功能

数据仓库与决策支持系统对在线事务处理应用和在线统计分析应用进行有效地隔离。保证了业务管理系统在线事物处理的安全、稳定、可靠、高效地运行,也确保了决策支持系统能够快速及时地获取统计数据。 省中心和地市业务管理人员能够每月按照要求生成预先定义好的标准统计报表。业务分析人员通过非常简单易用的图形界面,能够快速准确地进行语义层查询并把所需的业务数据、信息和分析结果以丰富的形式快速地展现出来,为领导的决策提供准确的依据。 提供数据挖掘功能,挖掘出潜在的影响业务发展的因素。

为客户管理系统提供服务,为客户提供快速的账单及各种服务清单查询。并提供挖掘大客户的手段。

4 结束语

我们已经在广东视聆通和福建163网上,使用Sybase的数据仓库解决方案,成功实施了数据仓库系统,并且基于BO(Business Object)开发了统计分析报表系统。

目前,正在建设广东省新一代的多媒体网综合业务管理系统,其中包括新版本的数据仓库系统。而这个数据仓库系统也是采用Sybase的数据仓库解决方案。

篇6:了解一下NULLs怎样影响IN和EXISTS数据库教程

如果你的数据库设计在任何一栏中都允许NULL值的话,你需要了解一下,在你的查询语句中,不同的子句是怎样对待这一问题的,

了解一下NULLs怎样影响IN和EXISTS数据库教程

从表面上看,可能显示出这样的情形,即SQL子句IN与EXISTS可以互换。然而,在处理NULL值时,它们的表现截然不同,而且得到的结果也很可能不同。问题源于这样一个事实,即在一个Oracle数据库中,一个NULL值意味着未知,因此,对一个NULL值的任何比较或操作也都是无效的,而任何返回NULL的测试也都被忽视了。例如,以下这些查询语句都不会返回任何行:

select 'true' from dual where 1 = null;

select 'true' from dual where 1 != null;

值1既不能说是等于NULL,也不能说是不等于NULL。只有是NULL的时候才会返回一个真正的NULL值并返回一行。

select 'true' from dual where 1 is null;

select 'true' from dual where null is null;

当你使用IN时,相当于你告诉SQL接受一个值,并将它与某个清单中使用=的每一个值或一组值进行比较。只要存在了任何NULL值,就不会返回任何行,纵使两个值都是NULL也不行。

select 'true' from dual where null in (null);

select 'true' from dual where (null,null) in ((null,null));

select 'true' from dual where (1,null) in ((1,null));

一个IN从功能上等同于=ANY子句:

select 'true' from dual where null = ANY (null);

select 'true' from dual where (null,null) = ANY ((null,null));

select 'true' from dual where (1,null) = ANY ((1,null));

当你使用一种与EXISTS等同的格式时,SQL会计算行数,却忽视子查询中的值,就算你返回NULL也一样。

select 'true' from dual where exists (select null from dual);

select 'true' from dual where exists (select 0 from dual where null is null);

从逻辑上看,IN与EXISTS是一样的,

IN子句在外部查询中比较子查询返回的值,并过滤掉行;EXISTS子句在子查询内部比较那些值并过滤掉行。在出现NULL值的情况下,作为结果而出现的那些行是相同的。

selectename from emp where empno in (select mgr from emp);

selectename from emp e where exists (select 0 from emp where mgr = e.empno);

不过,当逻辑被转变成使用NOT IN和NOT EXISTS时,问题就出现了,这两个语句会返回不同的行(第一个查询会返回0行;第二个返回意想的数据-它们是不同的查询):

selectename from emp where empno not in (select mgr from emp);

selectename from emp e where not exists (select 0 from emp where mgr =e.empno);

NOT IN子句实际上与用=比较每一个值相同,如果任何一个测试为FALSE 或NULL的话,它就会失败。例如:

select 'true' from dual where 1 not in (null,2);

select 'true' from dual where 1 != null and 1 != 2;

select 'true' from dual where (1,2) not in ((2,3),(2,null));

select 'true' from dual where (1,null) not in ((1,2),(2,3));

这些查询不会返回任何行。而第二个更值得怀疑,1!=NULL是NULL,因此对整个WHERE条件来说都是错误的。它们会这样运行:

select 'true' from dual where 1 not in (2,3);

select 'true' from dual where 1 != 2 and 1 != 3;

只要你在结果中阻止系统返回NULL,在这之前你还是可以使用NOT IN查询(同样,这些都能运行,不过我假定empno不是NULL,在我们这个案例中,这是一个很好的假设):

selectename from emp where empno not in (select mgr from emp where mgr is not null);

selectename from emp where empno not in (select nvl(mgr,0) from emp);

由于了解了IN,EXISTS,NOT IN,以及NOT EXISTS之间的差别,当一个子查询的数据中出现NULL时,你就可以避免一个非常普遍的问题了。

篇7:服务器和客户机是怎样连接的数据库教程

2.3.1 服务器如何连接客户机

(1)出现如图2.34所示的【欢迎使用】界面,

(2)出现如图2.35所示的【监听程序配置,监听程序】界面。

(3)出现如图2.36所示的【监听程序配置,选择监听程序】界面。

(4)出现如图2.37所示的【监听程序配置,选择协议】界面。

(5)出现如图2.38所示的【监听程序配置,TCP/IP协议】界面。

(6)出现如图2.39所示的【监听程序配置,更多的监听程序】界面。

2.3.2 客户机怎样连接服务器

管理客户机的工作原理如图2.40所示,

1.【命名方法】的配置

(1)出现如图2.41所示的【欢迎使用】界面。

(2)出现如图2.42所示的【命名方法配置,请选择命名方法】界面。

Oracle 9i支持如表2.4所示的5种命名方法。

表2.4 Oracle 9i的5种命名方法

名称主要特点本地命名适合具有少量不经常更改服务的简单分布式网络目录命名通过目录服务器进行解析,适合大型网络Oracle名称(Oracle Names)通过Oracle名字服务器进行解析,适合大型网络主机命名通过【计算机名称】进行解析,适合局域网外部命名通过非Oracle命名服务进行解析,很少用

(3)出现如图2.43所示的【命名方法配置,主机名】界面。。

(4)出现如图2.44所示的【命名方法配置完成】界面。

2.【本地网络服务名】的配置

(1)出现如图2.45所示的【欢迎使用】界面。

(2)出现如图2.46所示的【网络服务名配置】界面。

篇8:怎样在vc、delphi中使用mysql数据库教程

怎样在vc、delphi、vb等程序中使用mysql呢(mysql odbc驱动程序的使用)?我们经常会遇到这样问题,怎样在非web程序或asp程序中使用mysql数据库呢?对于这个问题有两个解决方案:

1、使用mysql提供的api函数库,

很多有名的mysql客户端工具就是这样实现的,大名鼎鼎的winmysql工具就是这样的。这在大部分的开发工具中都可以实现。

比如vc,bcb,delphi,vb等,只要能调用第三方的api就能实现。但对程序员的要求很高,而且要熟悉一套mysql的api函数集,这不是对每个人都 很轻松的事。而且这种方法不能用于asp等程序,因为它不支持com对象。

2、第二种是使用myodbc驱动程序。

你可以到www.mysql.com下载myodbc驱动程序,然后照着下面的做就可以了 第一种选择是下载完全安装包,这种包很大,但对于我们来说有用的只有myodbc.dll这个文件,却要下载这么大的文件,不太合适。当然,如果你 很菜的话,我建议你选择这种方式,这样容易些,但不符合cfans的作风,是吧。

第二种是直接下载myodbc.dll文件,只有几百k,但不太容易使用,本人经过很久摸索才找到使用它的方法。

首先你将包解开,将myodbc.dll 文件放到windowssystem 或 winntsystem32目录下,这取决于你的系统是win9x还是winnt(win2k),你应该 知道吧。然后打开一纯文本编辑器,如editplus,notpad之类,(取决于你的喜好)将下面一段话保存为一文件,扩展名为.reg,知道了吧,这是注册表文件,不要搞错呀(不包括下面的一长串等号) 如果你用的是win2k请将第一行换成 Windows Registry Editor Version 5.00

==========================================================从下行开始

Windows Registry Editor Version 4.00

[HKEY_LOCAL_MACHINESOFTWAREODBCODBCINST.INImyodbc driver]

“UsageCount”=dword:00000002

“Driver”=“C:\WINNT\System32\myodbc.dll”

“Setup”=“C:\WINNT\System32\myodbc.dll”

“SQLLevel”=“1”

“FileUsage”=“0”

“DriverODBCVer”=“02.50”

“ConnectFunctions”=“YYY”

“APILevel”=“1”

“CpTimeout”=“120”

[HKEY_LOCAL_MACHINESOFTWAREODBCODBCINST.INIODBC Drivers]

“myodbc driver”=“installed”

=======================================结束于上一行

(bill.gates)就这样吧.保存后,双击刚才的文件,应该叫 xxx.reg 吧,然后选择确定,ok,搞定了,

然后你打开odbc设置程序,建一新数据源,选择myodbc驱动程序,剩下的就看你自己了。

篇9:怎样解决MySQL 5.0.16的乱码问题数据库教程

问:怎样解决MySQL 5.0.16的乱码问题?

答:MySQL 5.0.16的乱码问题可以用下面的方法解决:

< P>

1.设置phpMyAdmin

Language:Chinese simplified (zh-utf-8)

MySQL 字符集:UTF-8 Unicode (utf8)

MySQL 连接校对 gbk_chinese_ci

2.创建数据库时

整理设置成 gbk_chinese_ci

3.用SQL建立表中

ENGINE=MyISAM DEFAULT CHARSET=gbk;

ENGINE=InnoDB DEFAULT CHARSET=gbk AUTO_INCREMENT=40 ;

4.检查表结构中

varchar(100) 的整理属性为gbk_chinese_ci

其它类型的整理属性为空,

怎样解决MySQL 5.0.16的乱码问题数据库教程

5.代码中加上

$db->query(“SET CHARACTER SET GBK”); Linux下需要,Windows下则不需要。

此种操作相当于Connection Character Sets and Collations

什么是数据仓库数据库教程

自定义链接后端数据库数据库教程

Building a TSQL Loop数据库教程

oracle里的常用命令数据库教程

Oracle 9i的数据类型数据库教程

查找bad sql的方法数据库教程

成功应该怎样去定义

日期时间转换为日期的SQL语句数据库教程

更新字符串列表中,指定位置的字符串数据库教程

linux中清空Mysql数据库ROOT密码教程linux操作系统

《怎样去宣传数据仓库?数据库教程(共9篇).doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

点击下载本文文档