计算机新技术学术讲座.ppt

上传人:牧羊曲112 文档编号:4995676 上传时间:2023-05-28 格式:PPT 页数:132 大小:949.50KB
返回 下载 相关 举报
计算机新技术学术讲座.ppt_第1页
第1页 / 共132页
计算机新技术学术讲座.ppt_第2页
第2页 / 共132页
计算机新技术学术讲座.ppt_第3页
第3页 / 共132页
计算机新技术学术讲座.ppt_第4页
第4页 / 共132页
计算机新技术学术讲座.ppt_第5页
第5页 / 共132页
点击查看更多>>
资源描述

《计算机新技术学术讲座.ppt》由会员分享,可在线阅读,更多相关《计算机新技术学术讲座.ppt(132页珍藏版)》请在三一办公上搜索。

1、计算机新技术学术讲座,报告人:黄 超,2,个人简介,复旦大学计算机软件与理论 博士东南大学电子商务系 副教授东南大学经济决策与信息管理研究所 副所长主要研究方向:数据库/数据仓库、数据挖掘与知识发现、智能信息处理。已在国内外计算机类核心期刊发表论文十余篇,其中多篇论文被EI检索。研究课题:数据挖掘应用平台研制及应用(国家863项目)智能交通数据挖掘平台(信息产业部攻关项目)环球多市场金融信息平台(上海市科委攻关项目),3,主要内容,计算机硬件与互联网技术计算机软件技术智能信息处理技术,4,计算机硬件与互联网技术,集群计算技术网格计算技术普适计算本体论与语义网络,5,集群计算技术,什么是集群集群

2、是使用两台或两台以上的服务器组成的服务器集合,用以提供高性能的不停机服务,每台服务器均承担部分计算任务和容错任务,但是整体上表现为一个单一系统。与传统的并行计算模型相比,集群中各节点的复杂度中等,但是在单一系统映像、可靠性和可伸缩性上更优越。由于集群大多使用标准的商用部件,因此能够大幅度降低企业成本,如下页表所示。,6,集群计算技术,7,集群计算技术,集群系统的组成部分后台共享存储设备集群内部网络通讯公共网络虚拟的前台界面无虚拟内存的的集群系统为了进一步提高集群系统的效率,使用高速网络将各主机的内存连接起来,当一个任务的内存不够时,它可以通过远程缺页的方式使用远程结点的内存,这样可以通过高速网

3、络共享全局内存。,8,集群计算技术,无虚拟内存集群系统的难点整个资源的分配概念发生了变化,它是基于内存的资源分配;一个结点可能需要访问另外一个结点的内存,这就需要解决结点内存的所有权和自治问题;需要解决全局内存管理问题(集中式还是分散式),通过全局内存管理,应能达到减少网络流量,降低延迟和数据本地优化的目的。目前的操作系统还没有实现上述的处理,我们需要重构操作系统以方便内存资源共享。,9,集群计算技术,集群的分类科学计算集群该集群主要用于大规模数值计算,解决复杂的科学问题。这种集群上一般运行专用软件,能够将数据分布到不同的服务器上进行解决。针对不同的科学计算任务,一般有以下两种方式:任务分片方

4、式:将任务分成多个子任务并分配到各节点,每个节点单独运行出结果,最后汇总计算结果;并行计算方式:各个节点可以进行具有强藕合关系的运算,运算中交换大量数据。,10,集群计算技术,负载均衡集群该集群的目的是使负载尽量在各个节点中均衡分布,如计算负载、网络流量负载等。高可用性集群该集群的目的是使服务系统的运行速度和响应速度尽可能快,通过将程序运行在冗余节点上,集群具有更好的容错性。高可用性集群可以分为主从方式、双机备份方式和多机备份方式。,11,集群计算技术,并行数据库集群近年来兴起的集群类型,同时具有并行计算、高可用性和负载均衡等多种特征,主要用于高端数据库领域,如Oracle RAC和 IBM

5、DB2 EEE。Oracle RAC系统每台主机拥有独立的CPU和内存,但是共享磁盘空间,主要针对于大量用户并行的访问,I/O冲突采用数据库的锁机制解决;DB2 EEE中各计算机拥有独立的CPU、内存和磁盘,并且高速相连,对每一次访问,每个节点查询本地表中的相应结果,返回给协调程序,最后汇总成最终查询结果。,12,网格计算技术,网格的基本概念什么是网格(GRID)网格是以Internet技术和分布计算技术为基础,将地理上分散的各类计算资源、存储资源、数据资源、应用资源、仪器设备等构成统一的虚拟环境,采用开放标准的协议,实现资源的有效共享,为动态参与的、由多机构所形成的虚拟组织协同完成高性能计算

6、、信息处理等各类应用,提供可扩展的、安全的、一致的、不同等级质量的服务。网格是集群系统的进一步发展。,13,网格计算技术,网格计算的产生背景分布式计算、高性能计算、大规模的资源共享、协同工作、数据密集型的科学计算。网格的本质特征是分布与资源共享高度抽象自相似动态性和多样性高可扩展性网格计算的示例(见下页图所示),14,网格计算技术,Tier 1,15,网格计算技术,网格的系统结构(见下页图所示)网格结点:地理上独立的计算和信息中心,由Internet 上孤立、异构的各类资源组成;网格中间件:网格体系结构的核心部分,其功能是屏蔽网格资源层中计算资源的分布、异构性,向网格应用层提供透明、一致的服务

7、接口,如远程进程管理、资源分配、存储访问和安全控制等。网格应用工具层:提供更为专业化的服务和组建不同类型的应用。网格应用层:应用层包括各种应用软件的研究、高速网格的建设等,它可以使用户方便地共享网格中的各种资源。,16,网格计算技术,17,网格计算技术,典型的网格系统(1)Globus系统什么是GlobusGlobus 是一个研究性的项目,其主要的研究目标是网格基础技术研究,以及相应软件的开发和标准的制定。Globus 是网格技术的典型代表,也是目前事实上的规范。Globus 是一种软件基础设施,它以单一虚拟机的方式处理分布异构的计算资源,其核心在于Globus Metacomputing T

8、oolkit(GMT),它提供了建构一个计算网格所需的基本服务,如安全、资源定位、管理和调度、通讯服务等。,18,网格计算技术,Globus的五层结构,19,网格计算技术,典型的网格系统(2)TeraGrid系统TeraGrid网格系统基本情况与主要应用TeraGrid网格系统最初包括4个节点,后扩充到9节点,节点间通过 10-30 GB/s 的专用网络互联,具有超强的计算能力和存储能力。协作进行分布式数据集的分析和交换:各节点进行独立的数据分析,整个项目的完成依赖于快速和频繁的分析结果交换,如研究宇宙射线项目;多个机构共享的分布式模拟:例如规模庞大的地震模拟计算在不同的节点进行,任何节点的科

9、学家可以通过高速网络快速获取各个不同阶段的计算结果;,20,网格计算技术,网格计算的关键技术安全技术网格安全机制相当复杂,各种自治资源交互时既不能影响资源本身的可用性,又不能在系统中引入漏洞。Globus 提出了网格安全基础设施GSI,GSI 主要集中在网络的传输层和应用层,采用X1509 认证和安全套接层(SSL)通信协议,GSI 中的主要安全技术包括安全认证、安全身份相互鉴别、通信加密等。,21,网格计算技术,异构系统的单一系统映像技术网格包含多种异构资源,实现异构机器间的合作和转换,向用户提供统一、透明的服务是首要问题。Globus 中使用使用轻量级目录访问协议(LDAP)作为访问该信息

10、的接口。通过使用LDAP服务器,MDS 在公共接口中提供了中间件信息,从而将统一的图像放在全异资源的顶部。,22,网格计算技术,网格统一资源管理技术网格资源管理包括资源信息的组织、查询与更新等,网格资源分为计算类和非计算类资源。计算类资源信息包括所有网格结点及网络的静态和动态信息,如结点计算能力、存储能力、网络结构和性能指标;非计算类资源信息指网格中服务于系统和用户的信息,如网格用户信息、软件信息、服务功能信息等。Globus 使用GRAM 处理资源请求、执行远程应用、分配资源等任务,并根据计算资源的情况,把资源更新信息发送给MDS。,23,网格计算技术,网格技术的缺陷和局限网格系统对数据通讯

11、速率要求很高,影响了系统效率或提高了成本;网格系统的维护费用比集群等高得多;由于目前网络带宽比CPU资源昂贵得多,且因特网成本降低的速度低于芯片成本降低的速度,因此网格系统目前比较适合于计算复杂、但数据传输量小的应用。对于大多数应用,集群系统方案综合看来更优越。,24,网格计算技术,网格技术在数字油藏模拟中的应用背景当前被模拟的油藏模型从几十万个单元到几千万个单元,运行平台主要是专业的并行机。随着老油区开发难度的增大,油藏模型的面积和数量将会明显地增加和扩大,继续用传统的并行计算机来模拟,为了达到理想的模拟速度和效果,其硬件平台的投资将很高。同时随着随着并行机市场不断萎缩,其系统的扩容、维护等

12、都存在很大的问题。,25,网格计算技术,目的为获得低成本、高性能的计算平台,以满足企业对油藏模拟不断增长的计算需求,国外石油公司逐步采用了基于网格技术的PC 集群系统(即以PC 集群作为网格主节点,再通过网格中间件并入其他异构系统)替代并行机来进行油藏模拟。对比实验选择了国外某油田100 万个网格、8 个断层、7 个组分、100 个井的模型,模拟时间20 年。对比IBM SP2并行机与基于千兆以太网、Myrinet 高速交换技术和AMD Opteron 64 位CPU的PC 集群系统。(基于VIP 模拟软件),26,网格计算技术,实验结果(新疆油田勘探开发研究院提供)在模拟计算的精度和稳定性上

13、,PC集群系统与并行机结果相当;到IBM SP2 的4 个节点8 CPU 的并行机上模拟,系统运行了30.2 个小时后,同样CPU 个数的基于Myrinet 的PC 集群的运算时间为11.66 小时;基于千兆以太网的PC集群运算时间是16 小时,在运算速度上,比IBM SP2 提高了2.61.9 倍;VIP 软件的计算节点之间需要大量的数据交换,去计算相邻网格单元边缘处的偏移。在PC 集群系统中,当计算节点很多时,存在着访问网络的瓶颈问题。,27,普适计算,普适计算普适计算的定义普适计算是信息空间与物理空间的融合,在这个融合的空间中人们可以随时随地、透明地获得数字化的服务。随时随地是指人们可以

14、在工作、生活的现场就可以获得服务,甚至是由系统主动提供;透明是计算机技术已经渗透到人们的日常生活中,以致于人们根本没有意识到这些技术。普适计算强调把计算机嵌入到环境或日常工具中去,让计算机本身从人们的视线中消失,让人们注意的中心回归到要完成的任务本身。,28,普适计算,普适计算的研究内容智能环境和不可见的计算即物理环境与信息环境有效地融合,信息环境能够自动、智能地感知物理环境中的变化。常用的方法包括:(1)直接在物体上嵌入一定的感知、计算、通信能力,使其同时具有物理空间和信息空间中的用途;(2)为每个物体添加可以被计算机自动识别的标签,如红外或者RFID。,29,普适计算,无缝的可移动性用户能

15、够在不同的服务空间中很自然地移动,可以把应用从一个设备移动到另一个设备中。普遍的信息访问通过网络和服务器的支持,用户能在任何时间和地点检索信息,利用任何种类的交互设备与远程联网的设备进行交互。觉察上下文的计算系统能觉察在当时的情景中与交互的任务有关的上下文,并据此做出决策和自动地提供相应的服务。,30,普适计算,普适计算的实例RFID(无线射频识别标签)通常为一片带有存储单元和天线的半导体芯片,通过天线与读取器进行非接触通信。普适计算环境下,带有RFID标签的衣服能够在商场收银台显示商品的价格,能够将衣服的布料成分传递给洗衣机和电熨斗,使洗涤、烘干程序和熨烫温度均可以自动设定。家庭计算机可以通

16、过RFID信息了解到衣物的保暖、防风性能,自动比较主人外出前穿戴衣物的保暖性能是否适应室外的气候,包括当时的气候和一段时间之后的气候。如果主人出远门,计算机还会通过订票信息了解目的地的气候情况并进行分析,这些分析会根据每个个体的衣着习惯进行。,31,本体论与语义网络,本体论与语义网络什么是本体(Ontology)在哲学界,本体作为表述哲学理论的术语,是指形成现象的根本实体。在信息技术与知识领域,本体是用于描述或表达某一领域知识的一组概念或术语,可用于组织知识库较高层次的知识抽象,也可用来描述特定领域的知识。总的来说,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体

17、系和描述语言。,32,本体论与语义网络,研究本体的意义本体可以在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和继承。本体和数据库在功能上有些相似,但是定义本体的语言,在词法和语义上都比数据库所能表示的信息丰富得多,并且本体提供的是一个领域严谨丰富的理论,而不单单是一个存放数据的结构。本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础,这种形式化的描述可成为软件系统中可重用和共享的组件。,33,本体论与语义网络,对于知识管理系统来说,本体就是一个正式的词汇表。本体可以将对象知识的概念和相互间的关系进行较为精确的定义。在这样一系列概念的支持下进行知识

18、搜索、知识积累、知识共享的效率将大大提高,真正意义上的知识重用和知识共享也能成为现实。本体适合表示抽象的描述,而企业模型是人们对企业或者企业的某些模型的抽象描述,因此在企业逻辑建模中,本体的使用可以帮助我们清楚地理解企业特定领域的相关元素、关系和概念,让知识表达更加准确便捷,帮助人们进行更好的企业决策。,34,本体论与语义网络,本体的分类顶层本体描述的是最普遍的概念及概念之间的关系,如空间、时间、事件、行为等等,与具体的应用无关,其他种类的本体都是其的特例;领域本体描述的是某个特定领域(如医药、地理等)中的概念及概念之间的关系;任务本体描述的是特定任务或行为中的概念及概念之间的关系;应用本体描

19、述的是依赖于特定领域和任务的概念及概念之间的关系。,35,本体论与语义网络,语义网络的产生背景现有互联网技术只是按照URI来定位信息,并没有对信息的含义进行描述,但对信息的内容并不关心,因此互联网上信息处理的自动化、智能化程度是很低的。语义Web通过扩展现有互联网,在信息中加入表示其含义的内容,使计算机可以自动与人协同工作,提高信息处理的自动化和智能化。语义Web是要把Web 上的资源(如一篇文章里的关键词的含义和主题思想)用本体论语言标注明确其语义,然后进行基于语义的查询和推理。,36,本体论与语义网络,语义Web的分层结构基于XML的语法层XML允许用户为文档添加结构信息,但并不能说明这些

20、结构的含义,语义Web 结构中使用XML 作为语法层,为语义Web 的建立提供语法基础。基于资源描述框架(RDF)的数据层RDF 是对结构化的元数据编码、交换和重用的基础。在语义Web 模型中,信息统一以RDF 句子的形式存储,便于机器理解。RDF 数据模型表示为一个有向标记图,该图独立于实现且可以用XML 来序列化。,37,本体论与语义网络,基于本体的语义层本体适合于描述互联网上各种不同的、分散的、半结构化的信息资源。通过定义共享的、通用的领域知识,本体帮助人和机器进行语义级的交换,而不仅是语法级的。逻辑层逻辑层提供了规则,从而便于进行推理。证据层在逻辑层基础上交换推理的结果,为了检查这些结

21、果,需要将内部推理机制转化为一种通用的证据表示语言。,38,本体论与语义网络,语义Web的应用研究Web services 是一系列用来促进跨平台的程序间通信的标准。语义Web 可以提高用户对Web services 进行定位、选择、运用、组合和监控的自动化程度。语义Web 用本体来描述各种网上资源,网络中的知识将用一种结构化、逻辑化、语义化的方式来表示。代理(Agent)可以在本体的指导下对网上知识进行读取和推理,并形成一个动态联系的Agent网络,传统的C/S计算模式将可能被一种基于Agent的分布式计算模式所取代。,39,本体论与语义网络,现有的搜索引擎是基于关键字,词语中的多义词和同义

22、词降低了查询的精确性。尽管研究者们提出许多算法来解决这个问题,但从网页的文本内容入手仅能得到有限的语义信息,而语义Web则可以较好的处理这个问题。近年来大量的数字化多媒体数据被加入互联网,传统的基于内容的多媒体数据检索技术,不能有效利用网上的多媒体数据。基于语义的查询能够利用多媒体资源的高级特征,从而使各种多媒体数据资源得到有效利用。,40,计算机软件技术,数据库技术数据仓库空间数据库、移动数据库实时数据库、数据流技术XML数据库、微型数据库商用数据库新进展数据库新技术在地矿行业的应用软件工程技术软件工程中的知识管理,41,数据库技术数据仓库,数据仓库数据仓库的定义面向主题的、集成的、相对稳定

23、的、反映历史变化的数据集合,用于支持管理决策。数据仓库的主要特点:数据仓库面向分析型数据处理,用于支持决策,不同于企业现有的操作型数据库;数据仓库是对多个异构数据源进行的有效集成,并按主题进行重组,数据一般也不再修改。,42,数据库技术数据仓库,数据仓库的体系结构图,43,数据库技术数据仓库,数据仓库与联机分析处理OLAPOLAP是使分析人员能够从多角度对信息进行快速、一致、交互地访问,从而获得对数据的更深入了解的一种软件技术,其目标是满足在多维环境下特定的查询和报表需求。OLAP的核心是将数据按照多维结构(即数据立方体)进行组织与处理,即将实体的重要属性定义为“维”,并且“维”可以包含复杂的

24、层次结构。根据“维”的结构层次不同,OLAP分析的常见操作包括下钻、上卷、切片、切块以及旋转等。,44,数据库技术数据仓库,数据立方体的实例,美国的电视机年度销售总额,45,数据库技术数据仓库,数据仓库与OLAP的实现方式MOLAP:使用多维数组存储数据。多维数据在存储中将形成“立方体”的结构。ROLAP:以关系数据库为核心,以关系表进行多维数据的表示和存储。ROLAP将多维结构划分为两类表,即事实表(存储数据和维关键字)和维表(用于存放维的层次、成员类别等描述信息)。常见的组织形式包括“星型模式”和“雪花模式”。HOLAP:基于混合形式的实现,例如低层是关系型的,高层是多维矩阵,该方式更具灵

25、活性。,46,数据库技术数据仓库,星型模式实例,47,数据库技术数据仓库,数据仓库实施的难点业务模型与数据模型的建立;相关主题领域的确定;元数据的设计和管理;数据的净化和集成;自下而上和自上而下实施策略的选择;,48,数据库技术空间数据库,空间数据库空间数据库的出现背景:GIS的普及使用。传统RDBMS管理地理信息数据的局限地理信息数据一般为连续数据,并具有较强的空间相关性;地理信息数据的实体类型多,空间关系复杂;地理信息数据的数据项复杂,变长记录居多;地理信息数据需要大量的空间操作和查询,如拓扑关系查询和相似性查询等;,49,数据库技术空间数据库,空间数据库的实现方式混合模式:将非空间数据存

26、储在RDBMS中,将空间数据存放在文件系统中。缺点:空间数据无法获得DBMS的有效管理,文件的通用性差。集成模式:将空间数据和属性数据全部存储在数据库中,这是目前空间数据库的发展方向。空间数据引擎:处于应用程序和RDBMS之间的中间件技术,客户通过引擎对RDBMS中的空间数据进行访问,如MapInfo提供的中间件产品SaptialWare。通用空间数据库:在DBMS中管理空间数据,如OracleSpatial。这类数据库一般采用对象-关系模型,使用R-tree等高效空间索引结构,并支持SQL语言查询。,50,数据库技术空间数据库,空间数据库未来的主要研究方向支持场实体的数据库必须具有高效的栅格

27、处理能力,如栅格的存储策略、索引形式等;更高效的高维空间索引结构,已出现的新的结构包括R*-tree、TV-tree、X-tree、M-tree等;如何高效地进行基于内容的查询,如“查找所有背景为海洋,前景为海滩的图像”;空间数据仓库中,空间数据的各种分析操作以及结果的可视化显示,都有待于进一步研究;各种空间数据挖掘技术。,51,数据库技术移动数据库,移动数据库移动数据库的定义移动数据库是传统的分布式数据库的延伸和扩展,是一个由无线网络和有线网络组成的复杂的、异构的分布式系统,各种移动用户可以通过移动设备访问固定网络中的信息。移动数据库的新特点移动性、频繁的断接性网络的多样性和非对称性资源的有

28、限性,52,数据库技术移动数据库,移动数据库系统结构,53,数据库技术移动数据库,RDBMS在管理移动对象方面的不足不支持移动对象的数据模型和查询语言;针对移动对象需要处理大量的位置信息,操作性能不高;移动数据库需要解决的关键问题移动对象的位置表示模型与数据存储方法;移动对象索引、位置更新策略与空间查询处理;新的事务管理策略和处理机制;数据的同步与一致性;数据的安全性。,54,数据库技术移动数据库,上述问题的解决方法设计新的移动对象模型,一般与GIS对象模型的国际标准兼容;使用对象关系数据库(ORDB),扩展SQL查询语言,设计新的存储和索引机制;新的事务处理机制(如新的两阶段提交模型),例如

29、根据连接速度决定事务优先级,移动事务的结果实时更新等;新的数据同步机制,如普遍采用的乐观复制法;对移动终端进行认证,对无线传输进行加密,保证数据的安全。,55,数据库技术实时数据库,实时数据库(RTDB)基本概念实时数据库就是其数据和事务都有显式定时限制 的数据库,系统的正确性不仅依赖于事务的逻辑 结果,而且依赖于该逻辑结果所产生的时间。实时数据库是实时系统和数据库技术相结合的产 物,用于处理不断更新、快速变化的数据,以及具有时间限制的事务处理。但是实时数据库并不是上述两种技术的简单结合,而是涉及到一系列的整合技术。,56,数据库技术实时数据库,实时数据库的基本特征数据特征:实时数据库中的数据

30、对象由当前值、采样时间和外部有效期 三个分量组成,数据必须满足内部一致性(传统数据库的完整性和一致性)、外部一致性(数据与外部对象在时间上一致)和相互一致性(导出数据的时间有效性)。事务特征:实时数据库中事务的执行有显式的时限,并且事务必须在指定的时间内被正确执行。此外,由于受到时间因素的影响,事务间存在多种语义相关性,如 结构相关、数据相关等。,57,数据库技术实时数据库,实时数据库的主要技术实时数据模型与语言;(传统模型引入时间维)实时事务模型与处理;(非原子型的复杂事务模型,与多个时间属性相关的新的优先级、调度机制和并发控制)数据存储与缓存管理;(使用内存数据库技术降低I/O对时间效率的

31、影响,不同优先级事务的缓存管理)恢复;(实时数据库的恢复可能影响到活动事务,有些事务从时间的角度是不可恢复的,需要用到补偿事务),58,数据库技术实时数据库,实时数据库的访问方式使用API访问;(效率高、简单)使用ODBC访问;(由于实时数据库与关系数据库差异较大,该方法效果有限)使用OPC(OLE for Process Control)方式访问;(OPC是为了给众多的API访问算法,提出一个统一标准的存储接口,超过200家产商已经加入OPC组织),59,数据库技术实时数据库,实时数据库的产品与应用Aspentech公司的Infoplus.21(石化行业)OSI公司的PI(Plant Inf

32、ormation System)(电力行业)(数据压缩效率极高,性能好)Honeywell公司的PHD(Process History Database)(内嵌Oracle数据为后台)Wonderware公司的Industrial SQL 国内公司的SuperInfo 和RealInfo,60,数据库技术数据流技术,数据流技术数据流的基本概念数据流由一系列按序到达的数据组成,也可以看作是信息传输过程中经编码处理的数字信号串。数据流的典型实例包括网络监测信号、Internet中的IP数据包、WEB服务器上的用户登录记录、电信公司的通话记录、股票交易信息等。,61,数据库技术数据流技术,数据流的特

33、点数据连续、实时地到达,并且在时间维度上严格有序;数据量巨大,有可能具有无限长度;数据流中的数据经常发生较大的变化,并且往往需要快速、实时地处理和响应;数据一经处理,除非特意保存,否则不能被再次取出处理(即一次性处理),或者再次提取数据的代价昂贵;大多数数据流都需要进行抽象化、层次化处理。,62,数据库技术数据流技术,数据流的基本模型滑动窗体:设置一个窗口,随着数据的不断到达,旧数据从窗口的一端移出,新数据从窗口另一端移入。界标模型:数据范围从某一个已知的初始时间点,一直到当前时间点为止的所有数据。快照模型:两个预定义时间戳之间的所有数据。滑动窗体模型和界标模型能够处理不断到来的新数据,更接近

34、于真实应用,因而得到更加广泛的研究和使用。,63,数据库技术数据流技术,数据流领域的主要研究内容数据流管理系统,64,数据库技术数据流技术,数据流查询数据流的查询与传统DBMS显著不同,如单调与非单调的连续查询、自适应查询(如数据流速率变化时)与分布式查询(从多个源查询数据时如何减少网络通信)。数据概要设计使用各种概要信息(或总结信息)代替无限的数据。常见的概要信息包括:直方图、小波系数以及各种统计量(如均值、方差、频率、回归系数等)。基于数据流的各种算法包括查询算法、分析与挖掘算法等,这些算法大多属于单遍扫描算法,并需要使用数据的概要信息。,65,数据库技术数据流技术,数据流管理系统的两大类

35、型在传统的DBMS中加入数据流管理的功能,这一方向进展不大,目前主流的商用数据库中都未实现该功能;专用的数据流管理系统斯坦福大学的STREAM:拓展SQL语言在数据流上的处理功能,开发新的查询语言,通过特殊的窗口操作将流数据转换为关系处理。伯克利大学的TelegraphCQ:一个连续查询处理系统,重点在于共享查询估算和自适应查询处理;,66,数据库技术XML数据库,XML数据库什么是XML数据库XML数据库是可以对XML文档进行存取、管理和查询的数据库。XML数据存储的问题目前大量的XML 数据以文本文档方式存储,这种方式难以支持复杂高效的查询应用;用传统关系数据库可以将 XML 文档分开放到

36、关系表中,或者直接将其看作一个大的二进制对象,主要问题在于模式映射带来的效率下降,以及数据语义的丢失。,67,数据库技术XML数据库,XML数据库的分类纯XML数据库管理系统(NXD)NXD是专门针对XML 格式的文档进行存取、管理和查询的数据库;Tamino XML数据库是全球第一个完全的XML DBMS,能够处理各种结构化和非结构化的数据,适合开发基于XML标准的商业应用。Tamino 能保存层次结构的XML文档,允许XML数据的直接存储、集成和交换,不需要将其转化为关系型的表格格式,因此在性能上优于附带XML转换器的关系型数据库,并且具有很好的扩展性。,68,数据库技术XML数据库,支持

37、XML的数据库(XEDB)XEDB是在传统数据库的基础上,通过增加对XML数据的管理功能,从而实现对XML数据的管理的数据库。XEDB的主要用途是实现数据关系不太复杂的XML文档与传统数据库之间的转换。微软公司的SQL Server 2005可以存储和处理XML数据,且无须将这些数据转换为关系列和行,更不需要将其存储为二进制大型对象。编程人员可以使用XQuery来检索XML数据。其他商业数据库,如DB2和Oracle等都加入了对XML的支持。,69,数据库技术XML数据库,XML数据库的一些关键技术如何定义完善的查询代数(半结构化数据的特点使得定义完善的查询代数很困难);如何将XML的复杂路径

38、转换为系统识别的查询路径;XML的树状结构使得查询代价计算和查询优化的实施很困难;XML的高效索引结构设计;XML底层数据的存储。,70,数据库技术微型数据库,微型数据库系统微型数据库系统的基本概念微型数据库系统是一个只需很小的内存来支持的数据库系统内核。内存限制是决定微小型数据库系统特征的重要因素。根据占用内存的大小又可以分为:超微:占用10-50K的内存,适用于智能卡等设备;微小:占用50-500K的内存,适用于手机等设备;嵌入式:占用1-2M的内存,适用于掌上电脑等设备;,71,数据库技术微型数据库,微型数据库的设计原则 移动设备大多计算能力弱、存储空间小、带宽有限,并且在闪存上进行读写

39、速度慢,因此设计微型数据库应遵循以下原则:压缩性原则:数据结构和代码都要精简;RAM 原则:最小化RAM 的使用;写原则:最小化写操作以减少写代价;读原则:充分利用快速读操作;存取原则:利用低粒度和稳定内存的直接访问能力进行读和写;,72,数据库技术微型数据库,微型数据库的主要产品智能卡数据库:主要包括Gnat-DB 和Pico-DBMS(精简高效,但数据格式不通用,资料交换困难)。手持设备数据库:Sybase SQL Anywhere、IBM DB2 Everyplace、Oracle 9i Lite、Informix Cloudscape(支持多平台、Java、手持设备与多种无线通讯协议,

40、高性能和高可伸缩性,易于使用和管理)以及 SQL Server CE。,73,数据库技术 商用数据库新进展,商用数据库新进展IBM以数据库为基础构建SOA(面向服务)架构,与WebSphere中间件更紧密地结合企业信息资源,屏蔽信息资源底层的复杂结构;数据库以XML为基础,全面增强对半结构化和非结构化数据的管理能力;进一步增强数据挖掘和商业智能功能;提供主数据(Master Data)管理,为企业提供统一的信息资源视图。,74,数据库技术 商用数据库新进展,Oracle在提供传统数据库产品和服务的基础上,近年来主要向嵌入式数据库、移动数据库领域发展,主要产品包括Oracle Lite和Orac

41、le TimeTen。Sybase ASE15设计新的查询处理引擎,提供新的并行查询功能,并通过一系列新特性(如Plan View、查询进程矩阵、自动更新统计信息等),从而充分利用系统资源,降低企业总拥有成本TCO。同时ASE15具有独特的消息发布功能,当系统中发生重要事件时,能自动通知用户。,75,数据库技术 商用数据库新进展,Microsoft SQL Server 2005支持XML、Webservice等新应用,并且在企业级支持、商业智能应用、管理开发效率等方面有了显著的增强。SQL Server 2005提供集成的数据管理和分析平台,帮助企业进行信息管理、运行复杂的商务应用和高级商务

42、智能。InterSystems公司的CacheCache突破了1NF,即属性值可以为非原子,关系可以由子关系组成,称为后关系数据库,根据相关研究报告,Cache比RDBMS节约空间2/3,速度快20倍左右。,76,数据库技术 地矿行业的应用,数据库新技术在地矿行业的应用(1)基于WebGIS技术,中国石化石油勘探开发研究院开发了“中国1:50万地质图数据库系统”。该系统基于ASP/COM技术,实现网络访问地质图数据,其中GIS应用服务器为中地公司的MapGIS IMS,系统使用 Oracle数据库存储地质图空间数据,通过空间数据引擎访问数据。该系统已经投入使用,能为科技人员进行油气勘探开发研究

43、提供全国各探区的地质空间数据,系统性能优越,Web结构也大大降低了系统的安装、部署和维护。,77,数据库技术 地矿行业的应用,数据库新技术在地矿行业的应用(2)兰州石化公司选用美国AspenTech公司的Infoplus.21实时数据库系统,建成了覆盖公司7000个主要装置的生产信息采集系统。在该系统的基础上,开发了流程图浏览、实时工艺数据查询、报警查询、事故追忆等应用系统。上述实时数据库系统和应用系统的建立,使得公司能够对生产装置中的关键设备进行在线监控,对实时变化的过程进行实际响应,迅速决策,从而为优化生产管理、提高产品质量提供支持。,78,软件工程技术 软件工程中的知识管理,软件工程中的

44、知识管理(KM)知识管理的基本概念定义1:知识管理是一种对知识的组织和再组织,从而在大量的信息中进行知识挖掘,以及对人的显性和隐性知识进行管理。定义2:知识管理是一个形成管理和均衡企业智力资源的业务过程,它使企业从合作式的、整合式的方法提升到信息财富的创造、获取、组织、传播和应用这样一个高度。,79,软件工程技术 软件工程中的知识管理,知识管理的主要研究内容组织中需要的知识是什么?现有的知识在哪里?从哪里可以获取?知识如何有效地传播?如何生成新的知识?知识如何存储、更新、保护以及如何表示?如何有效地利用知识?,80,软件工程技术 软件工程中的知识管理,知识管理技术知识管理技术是指能够协助人们实

45、现知识管理的基于计算机的现代信息技术,它是一个庞大的技术体系,覆盖了知识管理的各环节。IBM企业知识管理白皮书认为,知识管理技术分为商业智能技术、电子协作技术、知识传递技术、知识发现技术和知识地图技术。知识管理技术本身处于不断发展和不断成熟的过程中,下图给出了知识管理技术的体系结构和发展趋势。,81,软件工程技术 软件工程中的知识管理,知识管理技术体系结构与发展趋势图,82,软件工程技术 软件工程中的知识管理,知识系统 知识系统是为整个组织的知识管理服务的,一般具有以下功能:能够高效率的获取与组织知识;能够有效地保护和存储知识;能够及时有效地传播知识;能够高效的开发新的知识产品;能够创造有利于

46、知识生成、转移、使用的组织文化。,83,软件工程技术 软件工程中的知识管理,软件工程中的知识管理问题大型软件项目开发的成败,已经主要取决于概念设计与需求分析这两个阶段。软件企业竞争的焦点也越来越集中在客户需求的理解上。从知识管理的角度看,如何在这两个阶段实现软件企业、用户之间无障碍的知识共享和交流,就成为软件工程的关键问题。在系统设计、编程的过程中,如何有效地运用已有的知识提高软件开发的效率和质量,如何在软件工程的各阶段将隐性知识显性化,这些都是软件工程中的知识管理问题。,84,软件工程技术 软件工程中的知识管理,软件工程中知识管理的关键问题知识传递与共享:知识在人员间的有效传递和共享。对于软

47、件行业这种隐性知识占主导地位、经验丰富与否可以决定其成败的行业里,显得尤为重要。知识重用:软件复用是当前软件工程发展的一个趋势,如何采用各种技术手段(如规范化的文档管理、采用可复用的设计等),尽量提高软件复用的层次和范围,是一个重要问题。,85,软件工程技术 软件工程中的知识管理,如何在软件工程中有效地进行知识管理软件工程中人的管理是知识管理的核心知识管理的目的是希望保留团队中成员的经验,特别是过程的模式、流程、数据等,以实现知识的共享和重用。实现知识管理还要考虑企业的自身特色及其所处的文化氛围,使员工对知识共享和重用有认同感。在软件工程的知识管理中,必须建立强有力的激励制度,鼓励和刺激员工向

48、知识库中提交自己的观点与经验,营造知识共享和重用的氛围。,86,软件工程技术 软件工程中的知识管理,建立高效的知识管理系统(KMS)知识管理系统是实现知识管理的工具,能有效地促进知识共享与重用。知识管理系统中需要提供多种知识表达与存储方式,如文本、图像、视频等。系统也需要提供多种接口形式,能够让员工便捷的向知识库中录入相关知识。知识管理系统需要采用先进的知识分类方法,能够根据需求变化动态改变知识信息的分类,从而使用户更容易确定其提交知识的类别。知识管理系统可以将传统的检索方法与神经网络等技术相结合,从而增强知识检索的准确性和合理性。,87,智能信息处理技术,数据挖掘技术数据挖掘技术概述关联分析

49、、序列分析分类分析、聚类分析异常检测数据挖掘的应用领域时间序列挖掘数据流挖掘空间数据库挖掘,88,数据挖掘技术概述,数据挖掘技术概述什么是数据挖掘数据挖掘指的是从大量的数据中提取隐含的、未知的、并具有潜在的使用价值的信息的过程。数据挖掘是一种决策支持过程,它基于数据库、统计学、人工智能、机器学习、模式识别、数据可视化等多种技术,自动化地分析企业历史数据,从中挖掘出供决策使用的高层次的知识,帮助决策者提高决策质量和效率。,89,数据挖掘技术概述,数据挖掘的过程数据挖掘的一般过程可以分为三个阶段:数据准备、模式发现与结果表达,如图所示。,90,数据挖掘技术关联分析,关联分析什么是关联分析关联分析是

50、寻找给定数据记录集中数据项之间的相互关系的一种分析过,所发现的关系(或规则)称为关联规则。关联规则的形式:A1A2Am B1B2Bn 关联规则的度量支持度与置信度,91,数据挖掘技术关联分析,关联分析的算法步骤关联规则的概念由Agrawal等人提出,关联规则本身属于描述型的模式,发现关联规则的算法属于无监督的学习方法。一般分为两个步骤:在数据项集中找出所有频繁数据项集,即找出支持度超过指定阈值的数据项集;在频繁数据项集中生成候选关联规则,验证置信度后生成关联规则。在上述两步中,频繁数据项集的生成是最关键的。,92,数据挖掘技术关联分析,关联分析的典型算法Apriori算法Apriori算法是较

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号