毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc

上传人:laozhun 文档编号:3982782 上传时间:2023-03-30 格式:DOC 页数:35 大小:287.50KB
返回 下载 相关 举报
毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc_第1页
第1页 / 共35页
毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc_第2页
第2页 / 共35页
毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc_第3页
第3页 / 共35页
毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc_第4页
第4页 / 共35页
毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)数据挖掘技术在计算机犯罪取证中的应用与实现—.doc(35页珍藏版)》请在三一办公上搜索。

1、1 绪 论1.1 本课题研究的背景和意义起源于60年代末的互联网,经过30多年的发展,用户己达4.9亿,而且还在迅猛地增长。我国从1995年开始发展互联网业务,截至2004年1月15日,据中国互联网络信息中心(CNNIC)的调查报告,我国上网计算机总数约3089万台,上网用户数己达到7950万人。随着人们对接入网络的计算机系统的利用和依赖越来越多,网络和计算机系统的安全维护变得越来越重要,也越来越多的受到来自世界各地的攻击。据法新社1998年8月1日报道:美、英、加、中、法、日六国在网络安全方面受到威胁最大,中国列第四。美国每年因信息与网络安全问题所造成的经济损失高达75亿美元,企业电脑安全受

2、到侵犯的比例为50%,美国国防部全球计算机网络平均每天遭受两次袭击。美时代周刊报道:美国防部安全专家对其连接在互联网上的12000台计算机系统进行了一次安全测试,结果88%入侵成功。1998年我国公安部破获黑客案件近百起,其中以经济为目的的计算机犯罪约占70%。据青岛早报报道:在公安部指定的全国信息网络安全报警处置试点城市青岛,仅2003年,就查获和破获各类网络案件百余起,挽回经济损失上千万元。计算机犯罪能使一个企业倒闭,个人隐私泄漏,或是使一个国家经济的瘫痪,这些绝非危言耸听。人们在互联网上获得的资源和利益越多的同时,需要为各种计算机犯罪所付出的精力和代价也越来越多。计算机犯罪也给国家安全和

3、社会稳定造成了巨大的威胁,严重地危害了我国的政治安全、经济安全和社会安定。1.2 计算机犯罪如同任何科学技术一样,计算机技术也是一柄双刃剑,它的广泛应用和迅猛发展,一方面使社会生产力获得极大解放,另一方面又给人类社会带来前所未有的挑战,其中尤以计算机犯罪为甚。所谓计算机犯罪,是指使用计算机技术来进行的各种犯罪行为,它既包括针对计算机的犯罪,即把电子数据处理设备作为作案对象的犯罪,如非法侵入和破坏计算机信息系统等,也包括利用计算机的犯罪,即以电子数据处理设备作为作案工具的犯罪,如利用计算机进行非法入侵、盗窃、欺诈、贪污等。前者系因计算机而产生的新的犯罪类型,可称为纯粹意义的计算机犯罪,又称狭义的

4、计算机犯罪;后者系用计算机来实施的传统的犯罪类型,可称为与计算机相关的犯罪,又称广义的计算机犯罪。从1966年美国查处的第一起计算机犯罪案件算起,世界范围内发生的计算机犯罪事件以惊人的速度在增长。有资料表明,目前计算机犯罪的年增长率高达30%,其中发达国家和一些高技术地区的增长率远远超过这个比率,如法国的比率达到200%,美国的硅谷地区达400%。 与传统的犯罪相比,计算机犯罪所造成的损失要严重得多,据美国的资料统计:平均每起计算机犯罪造成的损失高达45万美元,而传统的银行欺诈与侵占案平均损失只有1.9万美元,银行抢劫案的平均损失不过4900美元,一般抢劫案的平均损失仅370美元。故此,对计算

5、机犯罪及其防治需予以高度重视,“无庸置疑,计算机犯罪是今天一个值得注意的重大问题。将来,这个问题还会更大、更加值得注意。”我国首次出现计算机犯罪案件是在1986年。进入21世纪,随着我国计算机应用和普及程度的提高,计算机犯罪呈迅猛增长态势,例如,光是2001年,全国的计算机犯罪发案数就达4500余例,比上年增长70%。据不完全统计,目前,我国己发现的计算机犯罪案件每年至少逾数千起,作案领域涉及银行、证券、保险、内外贸易、工业企业以及国防、科研等各个部门。有专家预测,“在今后5至10年左右,我国的计算机犯罪将会大量发生,成为社会危害性最大、也是最危险的一种犯罪。”1.2.1 计算机犯罪的种类计算

6、机犯罪是随着信息时代的到来而产生的一个刑法范畴,由于社会制度、刑事立法和法律文化背景的差异,形成带有国家或地区特色的计算机犯罪概念,因而产生了不同的划分根据和标准,各国对计算机犯罪的分类结果也不尽相同。我国学者对计算机犯罪的分类,受到一定的国外影响,最具代表性的是将计算机犯罪分为六类: 破坏计算机犯罪,是指利用各种手段,通过对计算机系统内部的数据进行破坏,从而导致计算机系统被破坏的行为。 非法侵入计算机系统犯罪,是指行为人以破解计算机安全系统为手段,非法进入自己无权进入的计算机系统的行为。 窃用计算机犯罪,是指无权使用计算机系统者擅自使用,或者计算机系统的合法用户在规定的时间以外以及超越服务权

7、限使用计算机系统的行为。 计算机财产犯罪,是指行为人通过对计算机系统所处理的数据信息进行篡改或破坏的方式来影响计算机系统的工作,从而实现非法取得和占有财产的行为。 盗窃计算机数据犯罪,是指秘密窃取计算机系统内部数据的犯罪。 滥用计算机犯罪,是指在计算机系统中输入或传播非法和虚假信息数据,造成严重后果的行为。1.2.2 计算机犯罪的特点尽管目前世界各国对计算机犯罪的定义、分类和量刑有着不同的看法,但计算机犯罪的表现却大致相同。与传统犯罪类型相比,计算机犯罪具有以下几个显著不同的特征: 犯罪人员的智能性。 犯罪手法的隐蔽性。 犯罪手段的多样性。 犯罪后果的严重性。 犯罪行为的复杂性。由于计算机犯罪

8、的以上特点,给打击计算机犯罪带来难度,尤其是在计算机取证这个环节,更是相当困难。1.3 计算机取证1.3.1 计算机取证的提出随着与计算机相关的案件的不断出现,一种新的证据形势存在于计算机及相关外围设备(包括网络介质)中的、在计算机或计算机系统运行过程中产生的、以其记录的内容来证明案件事实的电磁记录物,即计算机证据逐渐成为新的诉讼证据之一。计算机证据本身及其取证过程具有许多有别于传统证物及其取证过程的特点,对司法界和计算机安全科学领域提出了新的挑战。因此作为计算机领域和法学领域的一门交叉学科计算机取证(Computer Forensics)正逐渐成为人们研究与关注的焦点。计算机取证也称计算机法

9、医学,它是指运用计算机辨析技术,对计算机犯罪行为进行分析,以确认罪犯事实和获取计算机证据,并据此提起诉讼,也就是针对计算机入侵与犯罪,进行证据获取、保存、分析和出示。计算机证据指在计算机系统运行过程中产生的、以其记录的内容来证明案件事实的电磁记录物。从技术上讲,计算机取证是一个对受侵害计算机系统进行扫描和分析破解,从而对入侵事件进行重建的过程。据美国媒体报道,自1992年以来,向联邦检举法官提交的各种电脑犯罪案件数量增长了三倍,但实际起诉的案件数量却没有变化。因为取证棘手,很多案件由于证据缺乏而放弃起诉。在我国,许多涉及到计算机犯罪的卷宗由于无法举证,或者所举的证据不具备法律效力,加上国家在这

10、方面还没有做出相应的法律解释,这些案子就无法进行审理。但如果能够采取正确的措施,利用计算机辨析方法来调查犯罪,找到犯罪分子留下的蛛丝马迹,并且将其作为法律上有效的证据,很多损失是可以避免和挽回的,并且对犯罪分子也可以起到威慑和警示的作用。另据美国CSI/FBI 2002安全调查,信息盗窃、金融诈骗、内部人士网络滥用、病毒等电脑犯罪所造成的损失总计4.555亿美元,同2000年相比上升了58%。计算机取证对于起诉这类犯罪行为至关重要。因为在攻击事件中,如果没有证据证明所发生的情况及所造成破坏的细节,在选择通过法律途径起诉攻击者时就没有充实的法律追索权。在各种各样的计算机犯罪手段与网络安全防御技术

11、对垒的形势下,如果仅仅通过现有的网络安全技术打击计算机犯罪己经不能够适应了,因此需要发挥社会和法律的力量来对付计算机和网络犯罪,计算机取证的出现和应用是网络安全防御理论走向成熟的标志。1.3.2 计算机取证的定义关于计算机取证技术的定义多种多样,目前还没有一个权威机构给出一个明确、完整的标准定义。作为计算机取证研究领域的一位专家和资深人士,Judd Robbins给出这样的定义:计算机取证不过是简单地将计算机调查和分析技术应用于对潜在的、有法律效力的证据的确定和获取上。而专业的计算机紧急事件响应和计算机取证咨询公司New Technologies扩展了Judd Robbins的定义:计算机取证

12、包括了对以磁介质编码信息方式存储的计算机证据的保护、确证、提取和归档。SANS的一篇综述文章给出了如下定义:计算机取证是使用软件和工具,按照一些预先定义的程序全面地检查计算机系统,以提取和保护计算机犯罪的证据。因此,计算机取证可以认为是使用计算机软件和工具,对存在于计算机和相关外设中的电子证据确认、保护、提取和归档,并进行研究和分析,从中寻找和提取能够为法庭接受的、足够可靠和有说服力的法律证据的过程。1.3.3 计算机证据的特点 计算机取证主要是围绕计算机证据来展开工作的,目的是使储存在计算机及相关设备中的反映犯罪者犯罪的信息成为有效的诉讼证据提供给法庭。计算机证据是指在计算机或计算机系统运行

13、过程中产生的、以其内容来证明案件事实的电磁记录物,又称电子证据。伴随着计算机犯罪而出现的电子证据是对传统证据规则的一个挑战。与传统证据一样,电子证据必须是:可信的、准确的、完整的、符合法律法规的,即可为法庭所接受的。虽然我国民事诉讼法规定的七类证据中并未明确规定电子证据可以作为有效的诉公证据,但在学术界和司法实践时都将电子证据划归为刑事诉讼法第五章第42条规定的视听资料类中,把电子证据作为有效证据来处理有关计算机犯罪的案件。依照有关证据理论,电子证据当属于证据理论中的原始证据及间接证据范畴此外,电子证据还具有与传统证据有别的其他特点,例如,无时无刻不在改变;不是肉眼直接可见的,必须借助适当的工

14、具,具体体现在:1.容易被改变或删除,并且改变后不容易被发觉传统证据如书面文件可以长久保存,如有改动或添加,都会留有痕迹,通常不难察觉,如有疑问可由专家通过成熟的司法鉴定技术加以鉴别。而数字证据与传统证据不同,它们多以磁性介质为载体。由于磁性介质保存的数据内容可以被改动,并且不易留下痕迹。因此数字证据的真实性和安全性存在疑问,一旦发生争议,这种数字证据难以在诉讼或仲裁中被采纳为合法的证据。2.多种格式的存储方式数字证据以计算机为载体,其实质是以一定格式储存在硬盘、软盘或CDROM等储存介质上的二进制代码,它的形成和还原都要借助计算机设备。另外,随着多媒体技术的出现,数字证据综合了文本、图形、图

15、像、动画、音频及视频等多种媒体信息,这种以多媒体形式存在的电子证据几乎涵盖了所有传统证据类型。3.易损毁性计算机信息最终都是用二进制数字表示的,以数字信号的方式存在,而数字信号是非连续性的,因此对数字证据进行接收、监听、删节、剪接等操作,从直观上讲无法查清。或者由于操作人员的误操作或供电系统、通信网络的故障等环境和技术方面的原因都会造成数字证据的不完整性。4.高科技性计算机是现代化的计算、通信工具和信息处理工具,其证据的产生、储存和传输,都必须借助于计算机软硬技术、存储技术、网络技术等,离开了高科技含量的技术设备,电子证据无法保存和传输。如果没有外界的蓄意篡改或差错的影响,电子证据就能准确地储

16、存并反映有关案件的情况。正是以这种高技术为依托,使它很少受主观因素的影响,其精确性决定了电子证据具有较强的证明力。而电子证据的收集和审查判断,往往需要一定的科学技术,甚至是尖端的科学技术,并且伴随科技的发展进程会不断地更新、变化。5.传输过程中通常和其他无关信息共享信道电子证据实质是储存在计算机上、计算机系统运行所产生的电磁记录物中的一部分,它的传输过程,往往是与其他应用程序系统的信息流传输过程同时进行的。因此,在必要的时候,需要将电子证据与这些无关信息分离,并且要保证这个分离过程是无损电子证据本身的。1.3.4 计算机取证的研究现状及发展方向现在美国至少有70%的法律部门拥有自己的计算机取证

17、实验室,取证专家在实验室内分析从犯罪现场获取的计算机及其外设,试图找出是谁在什么时间、从哪里、怎样地进行了什么非法活动。按照取证时刻潜在证据的特性,计算机取证可分为静态取证和动态取证。静态取证指潜在的证据存储在未运行的计算机系统、未使用的手机、个人数字助理(PDA)等设备的存储器或独立的磁盘、光盘等媒介上;动态取证指潜在的证据存在于网络数据流和运行中的计算机系统中的证据。由于网络数据流和计算机系统里的证据特性上的差异,人们常使用基于主机的取证和基于网络的取证2种说法。对于静态取证,重要的是及时的现场保护,通过相关的文件、日志分析工具对入侵者在系统上的遗留信息进行分析和提取。动态取证是对计算机系

18、统或网络现场进行监视获取证据,动态分析入侵者的个人信息和攻击手段,或通过陷阱和智能追踪的方式提取实时数字证据。计算机取证学是相对较新的学科,经过这些年的发展,已经在理论和实践上取得了不少的成绩,但是现在的取证技术还存在着较大的局限性,难以适应社会的需求,并且随着计算机与网络技术的迅速发展,计算机取证还必须应对新的挑战。综合起来看,计算机取证领域将向以下几个方向发展。1. 计算机取证需求逐步融入系统的研究与设计。由于计算机证据的特性,以及网络攻击者(权利滥用者可能采取的反取证措施,预先采取准备性取证措施显得越来越重要。未来的系统在研究和设计之初:如网络体系结构$就应该把计算机取证当作安全的一个环

19、节,在设计安全管理设施与策略时就将计算机取证当作安全部署的一个要求事先做好,在一定的开发成本下实现证据量的最大化,使取证变得容易。2. 取证工具自动化与集成化。计算机的存储能力以超过莫尔定律的速度增长,几年以前个人计算机的硬盘往往是几百M字节,现在个人计算机的硬盘多数是几十G字节,上百G字节,更别说大型服务器系统。这使我们需要功能更强、自动化程度更高的取证工具的帮助。取证工具将不断利用新的信息处理技术(如海量数据处理,数据挖掘等人工智能技术)以增强应对大数据量的能力。现在,很多工作都依赖于人工实现,这样大大降低了取证的速度和取证结果的可靠性,无法满足实际需要。为了方便取证人员使用,使得应用场合

20、尽量多一些,需要对产品进行适度的集成。3. 计算机取证领域继续扩大,取证工具出现专门化趋势。除台式机外,大量的移动设备(如便携式计算机、掌上电脑、手机)都可能成为犯罪的目标或工具,而犯罪的证据也会以各种不同的形式分布在计算机、便携式设备、路由器、交换机等不同设备上。我们认为具有一定数据存储能力和通信能力的设备(例如未来的信息家电)都会逐渐纳入计算机取证人员的视野。要找到合适的证据就需要针对不同的场合设计专门化产品(包括硬件和信息格式),做出相应的取证工具。另外,计算机取证科学是一门综合性的学科,涉及到磁盘分析、加密、图形和音频文件的研究、日志信息发掘、数据库技术、媒介的物理性质等许多方面的知识

21、。4. 标准化工作将逐步展开,法律法规将逐步完善。标准化工作对于每个行业都具有重要意义,在取证工具评价标准与取证过程标准方面也是如此。与计算机取证相关的法律法规将逐步出台和完善,为计算机取证和计算机(电子)证据的使用提供法律上更明确的依据。5. 没有机构对计算机取证机构和工作人员的资质进行认证,使得取证结果的权威性受到质疑。 为了能让计算机取证工作向着更好的方向发展,制定从事计算机取证(计算机证据鉴定的机构和从业人员的资质审核办法也是十分必要的。计算机取证的教育、培训、认证的研究与实施将得到重视,并且会创造一个比较大的市场。同时这些活动需要得到规范。从研究的角度看,计算机取证需求在新研究与设计

22、的系统中的表示与实现的一般性理论与方法具有重要意义。计算机证据自动发现与潜在证据的智能发现方法的研究,对取证准备与取证工具自动化具有支撑作用。计算机取证结论的自动推理与证明领域值得特别重视。1.3.5 计算机取证研究存在的不足 由于计算机证据和传统证据之间有很大的不同,造成了计算机取证的特殊性和复杂性,因而对计算机取证的工具也有比较特殊的要求。目前在打击计算机犯罪的关键技术研究和应用主要集中在对犯罪现场的计算机证据进行复制和备份方面,己经出现的取证工具大部分也只是磁盘镜像、文件和密码恢复、网络流量分析和日志分析等工具,这些工具基本上只适合使用于某一个系统。取证研究领域存在的不足包括:缺乏能够应

23、用于多个操作系统、多个应用软件的业务平台来综合的提炼数据。缺乏超大网络数据量的网络侦控综合业务分析平台,无法处理诸如分布式拒绝服务攻击的网络犯罪案件。缺乏根据某一线索,如罪犯的IP地址、用户名等自动搜索与他有关的记录并进行统计分析的工具。缺乏有效的工具和手段根据证据链的逆向过程还原犯罪的原始状态。1.3.6 计算机取证分析技术的特殊性和难点所在因为计算机取证本身的特殊性和电子证据的特点,计算机取证分析技术有其自身的特殊之处和难点所在。1.电子证据与传统证据的区别我国刑事诉讼法第五章第42条明确规定:“ 证明案件真实情况的一切事实,都是证据”。同时规定证据有七种形式,即物证、书证、证人证言、被害

24、人陈述、犯罪嫌疑人、被告人供述和辩解、鉴定结论、勘验、检查笔录、视听资料。我国民事诉讼法第六章第63条规定,证据有书证、物证、视听资料、证人证言、当事人的陈述、鉴定结论、勘验笔录等七种形式。我国行政诉讼法第五章第31条规定证据有七种形式,即书证、物证、视听资料、证人证言、当事人的陈述、鉴定结论、勘验笔录及现场笔录。由此可见,我国的三部诉讼法基本上对证据的形式有着同样的规定。鉴于电子证据使用特定的二进制编码,存储以及信息呈现形式多样化,导致传统的证据收集手段很难保证其真实性、完整性、可靠性。电子证据的存储地点亦不易察觉,它可能存在于某台计算机或外围存储设备之中,也可能在网络上的某一台或数台服务器

25、中,数据可以被隐藏或加密,这就造成了电子证据提取方面的困难;即便发现电子证据,也不能贸然对数据进行复制和导出,电子证据的来源是否可靠往往成为大费脑筋的事。硬件损坏、误操作乃至病毒和黑客的袭扰甚至会造成电子证据的毁损灭失,传统的证据收集手段无法应对这样的情势。另外,计算机犯罪大部分是通过网络,犯罪分子甚至可以不需要到案发现场。由于网络的无国界性,不同国家在法律、道德和意识形态上是有差异的,可能会造成案件无法继续侦察的结果。根据上述特点,计算机取证的原则之一就是尽早地搜集整理证据,能够得到第一手的信息。尽可能地争取做到取证的过程公正和公开。取证的基本方法包括以下几点: 在不对原有证物进行任何改动或

26、损坏的前提下获取证据。 证明你所获取的证据和原有的数据是相同的。 在不改动数据的前提下对其进行分析。 必须确保“证据监督链(chain of custody)”的完整性,也称为证据保全。即在证据被正式提交给法庭时,必须能够说明在证据从最初的获取状态到在法庭上出现状态之间的任何变化。 证据监督链的目的不仅是要保护证物的完整性,更重要的是:它的存在使得在法庭上出示的证据能经得起法官和辩护人员的质询。2.电子证据来源繁杂、格式不一计算机犯罪的手段复杂多变,遗留的作案痕迹也各不相同,稍有经验的人都懂得大量删除系统日志和相关文件,因此取证工作不仅需要得到常见的日志文件、审计记录等数据,也要从隐蔽之处如未

27、分配的磁盘空间、空间、临时文件、交换文件中获得和重建数据。电子证据的主要来源有系统数据和网络数据。来自系统方面的电子证据包括:系统日志,系统的审计记录,操作系统和数据库的临时文件或隐藏文件,数据库的操作记录,硬盘驱动的交换(swap)分区、扇区间隙(slack)和空闲区,软件设置,完成特定功能的脚本文件,Web浏览器数据缓冲,书签、历史记录或会话日志、ARP缓存、内核统计、内存数据、物理配置、网络拓扑图以及由应用软件产生的记录和日志等。来自网络方面的证据有防火墙日志IDS日志.路由器日志FTP, WWW和邮件服务日志,Email原始数据,实时聊天记录,网络监控流量以及其他网络工具所产生的记录和

28、日志等。另外诸如防火墙日志等,其格式更是百花齐放,大部分开发商都是根据自己的需要和特点来规定格式,这些客观原因的存在,为计算机取证分析技术的研究和发展带来一定的难度。1.3.7 计算机取证的工具 1.用于电子数据证据获取的工具:如Higher Ground Software Inc. 的软件Hard Drive Mechanic 可用于从被删除的、被格式化的和已被重新分区的硬盘中获取数据。NTI公司的GetFree可从活动的Windows Swap分区中恢复数据,该公司的软件GetSlack可自动搜集系统中的文件碎片并将其写入一个统一的文件。2.用于电子数据证据保全的工具:Guidance S

29、oftware公司生产的硬件设备Fastbloc可用于Windows操作系统下计算机媒质内容的快速镜像,NTI的软件系统CRCMd5可用于在计算机犯罪调查过程中保护已搜集来的电子证据,保证其不被改变,也可以用于将系统从一台计算机迁移到另一台计算机时保障系统的完整性。该公司的软件SEIZED可用于保证用户无法对正在被调查的计算机或系统进行操作。3.用于电子数据证据分析的工具: 这类工具中最著名的是NTI公司的软件系统Net Threat Analyzer。该软件使用人工智能中的模式识别技术,分析Slack磁盘空间、未分配磁盘空间、自由空间中所包含的信息,研究交换文件、缓存文件、临时文件及网络流动

30、数据,从而发现系统中曾发生过的Email交流、Internet浏览及文件上传下载等活动,提取出与生物、化学、核武器等恐怖袭击、炸弹制造及性犯罪等相关的内容。该软件在美国9.11事件的调查中起到了很大的作用。4.用于电子数据证据归档的工具:如NTI公司的软件NTI-DOC可用于自动记录电子数据产生的时间、日期及文件属性。针对计算机取证的全部活动而言,美国的各研究机构与公司所开发的工具主要覆盖了电子数据证据的获取、保全、分析和归档的过程,各研究机构与公司也都在进一步优化现有的各种工具,提高利用工具进行电子证据搜集、保全、鉴定、分析的可靠性和准确度,进一步提高计算机取证的自动化和智能化。但目前还没有

31、能够全面鉴定电子数据证据设备来源、地址来源、软件来源的工具。我国的计算机普及与应用起步较晚,有关计算机取证的研究与实践工作也仅有10年的历史,相关的法律法规仍很不完善,学界对计算机犯罪的研究也主要集中于计算机犯罪的特点、预防对策及其给人类带来的影响。目前法庭案例中出现的计算机证据都比较简单,多是文档、电子邮件、程序源代码等不需特殊工具就可以取得的信息。但随着技术的进步,计算机犯罪的水平也在不断提高,目前的计算机取证技术己不能满足打击计算机犯罪、保护网络与信息安全的要求,自主开发适合我国国情的、能够全面检查计算机与网络系统的计算机取证的工具与软件已经迫在眉睫。2 数据挖掘简介数据挖掘是一种特定应

32、用的数据分析过程,可以从包含大量冗余信息的数据中提取出尽可能多的隐藏知识,从而为做出正确判断提供基础。因为具有高度自动化的特点,数据挖掘技术已经被频繁应用于与计算机取证领域相近的入侵检测领域的研究中,用于对海量的安全审计数据进行智能化处理,目的是抽象出利于进行判断和比较的特征模型。在计算机犯罪和取证分析领域:数据挖掘技术也开始越来越多地受到研究人员的关注,因为数据挖掘具有的特点恰好解决了计算机取证分析所面临的困难。当前数据挖掘技术在计算机犯罪及取证分析领域的研究主要分为两方面,一是对犯罪行为的分析、预测和防范;二是在计算机日志取证分析领域的研究,如利用关联规则挖掘对日志进行特征分析、属性概念分

33、层在取证日志中的应用等。2.1 数据挖掘概念数据挖掘的主要目的是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式,即知识。数据挖掘所能发现的知识有如下几种:1. 广义型知识根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、宏观的知识,以反映同类事物的共同性质,是对数据的概括、提炼和抽象。2. 分类型知识反映同类事物之间共同性质的特征型知识和不同事物之间差异性特征知识,用于反映数据的汇聚模式或根据对象的属性区分其所属类别。3. 关联型知识反映一个事件和其它事件之间依赖或关联的知识,又称依赖关系,这类知识可用于数据库中的归一化,

34、查询优化等。4. 预测型知识通过时间序列型数据,由历史的和当前的数据去预测未来的情况,其实质是一种以时为关键属性的关联知识。5. 离型知识通过分析标准类以外的特例,数据聚类以外的离群值,以实际观测值和系统预测值之间存在的显著差别,来对差异和极端特例进行描述的知识。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观,再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶 ”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。现有的数

35、据挖掘方法很多,按挖掘的知识类型分类,可以有以下几种: 关联规则分析:以规则的形式给出隐藏在数据间的相互关系。对于给定的数据项集和数据记录集,根据用户指定的置信度和支持度,关联分析可以推出数据项之间的相关性。 序列模式分析:挖掘相对时间或其他模式出现频率高的模式,属于统计时序分析中的趋势分析和预测范畴。 分类分析:分类分析首先考察分类数据的属性,通过训练数据集对系统进行训练,找出描述并区分数据类型或概念的模型(函数),以便将收集到的数据归类到某个预定义的类标记下,为了构造这样一个分类模型,需要一个样本数据库作为训练数据集,样本数据库中的每一个元组与大型数据库中的元组包含着同样的属性集,并且每一

36、个元组有一个己知的类标记。分类器的构造方法有决策树方法、统计方法、神经网络方法和粗糙集(roughset)方法等。 聚类分析:将具体的或者抽象的对象按照相似程度分类的过程称为聚类。聚类的原则是最大化类内的相似性,最小化类间的相似性。与分类分析方法不同,聚类分析的输入是一组未定标的记录,即此时每个训练样本的类标记是未知的。其目的是根据一定的规则,合理地划分记录集合,并用显式或隐式方法描述不同的类别,所依据的这些规则是由聚类分析工具定义的。由于聚类分析可以采用不同的算法,所以对于相同的记录集合,可能有不同的划分。 孤立点分析:孤立点是指数据集中与数据的一般行为或模型不一致的数据对象。大部分数据挖掘

37、方法将孤立点作为噪声去除,但在有些应用中,罕见的数据可能比正常出现的数据更加有趣。例如在入侵行为的检测中,孤立点可能预示着入侵行为的发生。基于计算机的孤立点探测有三类:统计学方法、基于距离的方法和基于偏差的方法。数据挖掘是一个工具,几乎所有的数据挖掘技术都是数据驱动的,而不是用户驱动的,也就是说用户在使用这些算法时,只要给出数据,不用告诉算法程序怎么做和期待得到什么结果,一切都是算法自身从给定的数据中自己找出来。本系统主要通过应用关联规则在计算机犯罪取证的应用,所以下节将详细介绍关联规则。2.2 关联规则挖掘关联规则是当前数据挖掘的主要模式之一,它用于寻找数据集中不同属性之间的联系,找出可信的

38、、有价值的多个属性域之间的依赖关系。关联规则挖掘的目标是从数据源中找出形如“由于某些事情的发生而引起另外一些事情的发生”这样的规则。在计算机取证中,我们挖掘电子证据数据项之间存在的规则,并在规则中查找、发现并分析计算机犯罪行为在不同位置、各个目标、行为意图方面的一些联系和规律,为进一步侦察分析和破案提供线索。2.2.1 关联规则的形式化定义定义2.1:关联规则:设I = i1,i2 ,. . , im为文字的集合,ij(1j Y (公式3.1)其中XI,Y7,并且XY=。为了对关联规则的价值进行评判,我们一般还需要使用两个参数,支持度(Support)和可信度(Confidence)。定义2.

39、2:关联规则的支持度:support(AB)=P(A U B) (公式3.2)定义2.3:关联规则的可信度:confidence(AB) = P(B|A) (公式3.3)定义2.4:最小支持度,记为min_sup,用户规定的关联规则必须满足最小支持度,即系统所发现的关联规则的支持度不小于最小支持度。定义2.5:最小可信度,记为min_conf,用户规定的关联规则必须满足最小可信度,即系统所发现的关联规则的可信度不小于最小可信度。从语义的角度来看,支持度表示用这条规则可以推出百分之几的目标,规则的可信度表示这条规则的正确程度,即这一原因对于这一结果的重要程度和可被接受理解的程度。对关联规则的挖掘

40、目的是发现知识,一般来说,我们仅仅对支持度和可信度特别显著的关联规则感兴趣,要求挖掘结果所产生的规则的支持度和可信度都不小于给定的阂值,即最小支持度和最小可信度,这样的关联规则称为强关联规则。关联规则的挖掘可以分为两个步骤:(1)找出所有频繁项集,这些项集的频繁度不低于预定义的最小支持度;(2)由频繁项集产生强关联规则,这些规则必须满足最小置信度的要求;在第一个步骤里,发现频繁项集的算法是对数据进行反复的搜索。在每次搜索中,都从频繁项集的种子集开始,用种子集产生新的可能的频繁项集,称之为候选集合。在搜索的同时计算这些候选集合的支持数(D对一个数据项集的支持数,即为D中包含这个数据项集的事件个数

41、),搜索一遍后确定哪些候选集合是频繁的,这些集合成为下一次搜索的种子集。这个过程不断重复,直到没有新的频繁项集产生为止。第二个步骤相对简单一些。首先我们用项集的支持数(support_count)来表示可信度:confidence(XY)=P(Y |X)= (公式2.4)将数据项集中数据项的个数为k的集合称为k-数据项集。对每个频繁项集k一数据项集l,计算其所有非空子集,对每个非空子集a,如果则输出规则“a= (l-a),c,s”。2.2.2 经典关联规则挖掘算法介绍 我们用Lk表示所有长度为k(1km)的频繁数据项集,Ck表示长度为k的候选项集,那么就有Lk Ck。Agrawal等人于199

42、4年提出的挖掘关联规则的快速算法,Apriori中有一个对于压缩搜索空间非常有用的重要性质,称为Apriori性质:频繁项集的所有非空子集也都必须是频繁的。这是因为,如果数据项集Xk不满足最小支持度min_conf,则Xk不是频繁的,那么即使将项item添加到Xk中,其结果项集XkU item也不可能比Xk更频繁地出现。因此XkU item也不是频繁数据项集。关联规则挖掘算法中频繁项集生成步骤描述如下:L1=频繁l-数据项集; /通过搜索数据库生成for(k=2;Lk-1;k+) do beginCK=apriori_gen(Lk-1); /产生新的候选集对每一事务TD do beginCT

43、= subset(Ck,T); /事件T中包含的候选集对每一个元素cCT doc.count +;endLK=cCK |c.count min_sup;rule_mine(LK);endprocedure apriori_gen(Lk-1) /由LK;生成候选集CK对每一数据项集11Lk-1 do begin对每一数据项12Lk-1 do beginif (11 1=12 1)( 112=122)(11k -2=12k -2)(11k-112k-1) then beginc=111,112,11k-1,12k-1对每一(k-1)-数据项子集sc do begin if (sLk-1,) the

44、n delete c;else add c to CK;endendendendreturn CK上述算法中,apriori_gen是候选集生成函数,其参数为一组频繁(k-1)-数据项集Lk-1,函数的返回结果为一组候选的频繁K-数据项集。函数的执行分为两步:连接和剪枝。1 连接连接是对两个数据项集进行交运算,交运算后的集合是两个特征集中所有子项的合取范式。对于Lk-1,中的数据项集11和12,记号lij表示li的第j项,数据项集中的项都预先按一定的次序排列。如果11和12的前k-2项相同,即111=12l,112=122, 11k-2=12k-2,11k-112 k-1,则将11和12连接,

45、连接的结果是111112. 11k-211k-112k-1o2 剪枝CK是LK的超集,因而必须将CK中不属于LK的数据项集去掉。通过扫描数据库,确定CK中每个候选集的支持数,就可以确定LK。然而,CK可能很大,这样扫描引入很大的计算量。这里可以运用apriori性质,如果一个候选k-数据项集的所有(k-1)数据项子集不全在LK-1中,那么该候选数据项集也不可能是频繁数据项集,从而可以将其从CK中删除。找出所有可能的频繁数据项集后,就可以根据给定的min_conf生成强规则了,过程描述如下:procedure rule_ mine(LK)while(LK) do begin对每一数据项集lKLK

46、 do begin对每一子集hmlk do beginconf =1k.sup/hm.sup; /计算规则的支持度if (confmin_conf) thenoutput_rule(hm(lk-hm),sup,conf /以(XY, s, c)的形式输出规则endendend3 系统分析可行性分析也称为可行性研究,是在系统调查的基础上,针对新系统的开发是否具备必要性和可能性,对新系统的开发从技术,经济,社会的方面进行分析和研究,以免投资失误,保证新系统的开发成功。可行性研究的目的就是用最小的代价在尽可能短的时间内确定问题是否能够解决。3.1 系统可行性分析3.1.1 可行性分析概念可行性分析也

47、称为可行性研究,是在系统调查的基础上,针对新系统的开发是否具备必要性和可能性,对新系统的开发从技术,经济,社会的方面进行分析和研究,以免投资失误,保证新系统的开发成功。可行性研究的目的就是用最小的代价在尽可能短的时间内确定问题是否能够解决。3.1.2 系统可行性 1经济可行性经济可行性分析是,从经济的角度分析网站系统的规划方案有无实现的可能和开发价值;分析网站系统所带来的是经济效益是否超过开发和维护网站所需要的费用.计算机技术发展异常迅速的根本原因在于计算机的应用促进了社会经济的发展,给社会带来了巨大的经济效益。因此基于计算机系统的成本效益分析是可行性研究的重要内容,它用于评估计算机系统的经济合理性。给出系统开发的成本论证,并将估算的成本与预期的利润进行对比。由于项目开发成本受项目的特性、规模等许多因素的制约,对软件设计的反复优化可以获得用户更为满意的质量等等,所以系统分析员很难直接估算基于计算机系统的成本和利润,得到完全精确的成本效益分析结果是十分困难的。 本系统方便快捷,节省人力、物力、财力等,其支出的费用:其中包括设备购置费、软件开发费用、管理和维护费等。因而它的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号