基于开源信息的情报分析系统.doc

上传人:文库蛋蛋多 文档编号:2388729 上传时间:2023-02-17 格式:DOC 页数:8 大小:26KB
返回 下载 相关 举报
基于开源信息的情报分析系统.doc_第1页
第1页 / 共8页
基于开源信息的情报分析系统.doc_第2页
第2页 / 共8页
基于开源信息的情报分析系统.doc_第3页
第3页 / 共8页
基于开源信息的情报分析系统.doc_第4页
第4页 / 共8页
基于开源信息的情报分析系统.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《基于开源信息的情报分析系统.doc》由会员分享,可在线阅读,更多相关《基于开源信息的情报分析系统.doc(8页珍藏版)》请在三一办公上搜索。

1、基于开源信息的情报分析系统信号与信息处理基于开源信息的情报分析系统陈勇,张佳骥,吴立德,刘海娟(1.中国电子科技集团公司第五十四研究所,河北石家庄050081;2.复旦大学,上海200433)摘要开源信息指的是能够从公开或半公开渠道获得的信息.随着信息技术和网络技术的不断普及,开源信息的数量有了爆炸性增长,开源信息的获取也变得方便快捷.描述了开源信息情报分析系统的概念,介绍了近年来美国研制和使用开源信息情报分析系统的情况,并详细论述了各个系统的应用情况.在分析开源系统构成的基础上,提出了一个开源信息情报分析系统的原理模型.关键词开源信息;情报处理;文本分析中图分类号TP391.1文献标识码A文

2、章编号10033106(2009)05002504IntelligenceAnalysisSystemBasedonOpenSourceInformationCHENYong,ZHANGJia.ji,wuI_j.de2,LIUHaljuan(1.The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China;2.FudanUniversity,Shanghai200433,China)AbstractOpensourceinformationistheinformationwhichisacquiredfromopenorpartial

3、lyopensources.Withthewideapplicationofinformationtechnologyandnetworktechnology,theamountofopensourceinformationhasincreasedexplosively.Inthispaper,theconceptofopensourceintelligenceanalysisisintroduced,someopensourceintelligencesystemsinAmericanarediscussed,thestatusofthosesystemsisdescribed.Finall

4、y,thearchitectureofopensourcesystemsisdiscussedandamodelofopensouieintelligenceanalysissystemisproposed.Keywordsopensourceinformation;intelligenceprocessing;textanalysis0引言1开源信息情报分析系统的重要意义在传统的情报分析工作中,情报的来源主要是秘密情报.但实际上,对开源情报的利用也早已开始,只不过由于规模小,不成系统,未能引起足够的重视.随着现代通信技术的发展,特别是互联网的出现和网络时代的来临,已彻底改变了开源情报的价值,

5、地位和影响.开源信息情报分析是指对公开或半公开渠道获得的资料加以综合分析研究,是情报研究的重要组成部分.美国作为信息技术的强国,在开源信息利用方面已走在了前列,已建立起许多开源情报系统.美国国土安全部建立了ADVISE(Analysis,Dissemination,Visualization,Insight,SemanticEnhancement)系统,美国国防部建立了整体情报感知系统(TotalInformationAwareness,TIA),美国中央情报局开展了开放(信息)源中心(OpenSourceCenter,osc)项目,美国国家情报局(NationalIntelligence)开

6、展了国家开放源事业计划(NationalOpenSourceEnterprise,NOSE)项目.公开信息情报研究由于其全面性,系统性,研究价值往往超过秘密情报研究.在全球化不断加快,信息网络迅猛发展的今天,公开情报研究13益受到各国的普遍重视.简氏防务周刊2000年8月载文认为,”在冷战时期,情报中约85%来自政府部门.如今,由于世界各国政府的进一步开放以及信息技术的不断发展,这个数字大约是90%95%”J.这些情报大部分来自公开的报纸,杂志和网络,小部分来自不保密的内部资料和政府报告及领导人的讲话.情报的时代已从一次世界大战前的人员情报(Humint),二次世界大战期间的信号情报(Sigi

7、nt),冷战前后的图像情报(Imint),进入当今的开源情报(OSint),并以网络情报(Nefint)为主要特征_2J.在开源情报时代,许多过去由国家垄断独有的机密信息已变为个人随手可得的公开资源.这一变化根本性地改变了个体与组织,特别是与国家组织的权力生收稿日期:2009.02.052009年无线电工程第39卷第5期25信号与信息处理态及其平衡,具有深远和广泛的影响,并将深刻地改变国家安全的概念,内涵和保障措施.2美国的开源信息情报分析系统美国不仅是开源情报利用概念的提出者也是积极的实践者,几乎与美国国家安全相关的每一个部门,都建立起了自己的开源信息情报分析系统.这些部门包括国防部,国土安

8、全部,美国中央情报局和美国国家情报局.2.1开放(信息)源中心开放(信息)源中心(OpenSourceCenter,OSC)机构隶属于美国中央情报局,成立于2005年11月.其目的是从各种公开信息源收集情报,比如互联网,印刷品和新闻广播等,对收集的情报信息加工,整理和分析.经过处理后的情报产品可以直接为用户提供服务,或交给情报分析专家做进一步人工分析.OSC不仅为美国国防,国土安全提供服务,也为民用部门提供服务.同时还可以为那些希望建立自己的OSC的机构提供技术支持和培训.2.2国家开放源事业计划国家开放源事业计划(NationalOpenSourceEnterprise,NOSE)开始于20

9、06年4月,是由美国情报局助理副主任EliotA.Jardines提出的.它的目的是把开源情报打造成一个面向各类情报需求的第一资源库;锻炼一支善于利用开源情报的专家队伍;实现一次获取,多家公用的情报服务架构.2.3ADSE系统ADVISE这一超级电脑数据分析处理系统由美国国土安全部(DepartmentofHomelandSecurity,DHS)下属研究机构全盘负责开发,这个项目仅在2006年就获得了500万美元的资金(项目总投资为4200万美元).ADVISE一词是由6个英语单词的首字母缩写而成,即分析(Analysis),分发(Dissemination),可视化(Visualizati

10、on),洞察(Insight)和语义增强(SemanticEnhancement)33.语义增强(SemanticEnhancement)技术以语义图技术为基础,帮助人们分析对象与对象之间潜在的,不易被人们觉察的关系.在语义图中一个实体(人物,机构或地点)用一个节点代表,节点之间的连线表示2个实体之间有关联.比如,代表人物A的节点A与代表人物B的节点B有连线;同时节点B与代表人物c的节点c也有连线,那282009RadioEngineeringVo1.39No.5么,就可以推断,人物A与人物C经人物B有可能发生关联.通过语义图把A与C之间潜在的关系挖掘出来.该系统意在对各类网络信息(新闻,网络

11、博客,互联网检索记录和商务活动)进行收集,提炼,筛选和分析,并从中找出某种活动规律来.以ADVISE作为基础,美国还将建立许多其他应用系统.比如,为信息分析(InformationAnalysis,IA)机构建立威胁弱点信息系统(ThreatVulnerabilityInformationSystem,rvIS);为边境与运输部门建立地区威胁分析系统(RegionalThreatAnBaysisSystem);为美国国家生物防御与对抗中心建立生物防御知识中心(BiodefenseKnowledgeCenter).ADVISE系统的储存空间之大令人震惊,据称其容量已超过了1X10byte,因此被

12、许多专家称为美国最大的”信息仓库”.其实,类似的数据分析系统已在美国超级市场和信用卡公司中得到广泛应用.很多商家都以此来掌握消费者的购物规律.不过,美国国土安全部推出的信息分析系统规模远远大于其他民用系统,且功能也变得更为强大.2.4整体情报感知系统整体情报感知系统(TotalInformationAwareness,try)曾经是美国的一个项目的名字,这个项目旨在通过公共或者私人的信息来源搜索大量的有关旅游,财政以及其他很多方面的数据,来侦查恐怖行动.这个计划是本土安全法案的一部分,它受美国国防部高级研究项目署(DARPA)的管理.由于该系统被怀疑触犯公民隐私,在2003年9月,美国国会取消

13、了这个计划,但为这个计划所开发的软件很可能已经转移到其他组织而得以继续存在和发展.2.5自适应安全分析与监视系统自适应安全分析与监视系统(AdaptiveSafetyAnalvsisandMonitoringSystem,ASAM)是由美国Connecticut大学电气与计算机工程系于2004年开发的利用信息技术进行反恐的试验系统.它通过综合分析开源信息来帮助情报分析人员识别出恐怖分子的活动迹象,预测恐怖分子下一步可能采取的行动,并提出相应的应对措施.ASAM系统采用分布式结构实现信息搜索,共享和理解等功能.从上述5个系统来看,OSC属于美国中央情报局(CIA),NOSE属于美国情报局(Nat

14、ionalIntelligence,NI),ADVISE属于美国国土安全局(DHS),TIA属于国防部(DoD),ASAM属于研究机信号与信息处理构.这充分说明开源情报受到了美国政府,军方和研究机构的广泛关注和重视.3开源信息情报分析系统的可行性基于开源信息进行情报分析有其坚实的现实基础.敌方的任何行动都是有组织按计划实施的.对敌方行动进行瓦解的最有效方法是获得敌方的行动实施计划,从而有的放矢地采用反制措施.但获取敌方的行动方案在大多数情况下是不现实的,当然,也不是只能坐以待毙.敌方幕后的行动方案必定会随着方案的实施以人员活动,物资流动,资金往来和信息交流等方式表现在台前.当然这些信息在呈现在

15、公众面前时,不会打上敌方行动计划的标签,而是混杂在其他信息之中.这就需要情报分析人员在浩如烟海的信息中发现这些潜在的重要信息,并据此产生有价值的情报.通过情报人员的分析和合理推测,能够对敌方的行动方案有所了解和掌握.面对浩如烟海的信息,仅依靠人工的处理方式显然是不够的.开源信息情报分析系统的作用就在于借助计算机强大的计算能力,借助统计学,数据挖据,图像处理和自然语言处理等技术提高情报分析人员的工作效率.比如,文档聚类和文档分类能够把大量的文档自动地按类别进行归类,这样就方便了情报分析人员的信息查找工作;文档摘要功能能够自动生成1篇或多篇文档的摘要,情报分析人员通过浏览摘要就能够了解文档的主要内

16、容,从而减少情报分析人员阅读工作量.情报分析工作的最终目的是依据各种来源的数据去推测隐藏在幕后的敌方行动意图,开源信息情报分析系统的作用是帮助情报分析人员更有效地达到这一目标.4开源信息情报分析系统的技术原理从公开或半公开渠道获得的电子信息主要包括以下格式:多媒体,图片,文本和数据库.把这些信息按照其复杂程度分为3个级别,如图1所示.级别包括多媒体,图片等文件,级别包括文本文件,级别I包括数据库格式文件.级别的数据格式最为复杂,表达的内容也最为丰富,有声音图像,但对于计算机来讲,也最难以理解和表达;级别包括各种格式的文本,主要以自然语言来表达数据内容.就目前技术而言,计算机对文本的处理技术要比

17、对话音和图像的处理技术成熟.级别工指的是可以用关系型数据库字段描述的数据,由于以若干字段方式描述数据非常简单,计算机对数据库的处理技术最为成熟.鉴于上述情况,采用逐步把数据从高级(复杂)格式向低级(简单)格式转换的策略,实现数据格式的统一.数据格式的统一过程也是把非结构化数据转变为结构化数据的过程.实现数据表示格式的统一是为了进行数据挖掘和数据融合.下面讨论进行数据格式转换所需的技术和方法.一数据格式级别至竺苎图中文字i,n,N/话音到文字转换人工生成文字概要/人T生成文字概要数据格式级别l图片Il多媒体Irr图1开源数据按格式的分析处理模式4.1将多媒体数据转换为文本数据的方法针对多媒体中的

18、话音,使用语音识别技术将其转换为文字.另外可以用人工的方式为多媒体文件创建一个反映其主要内容的文字摘要.把多媒体(复杂)格式的数据转换为文本(简单)格式的数据后,可供采用的处理技术更多,更成熟,可以从数据中获取更多的信息.4.2纯文本抽取技术在一些文本文档中除了与自然语言对应的字符外,还有一些为了实现显示格式的控制字符,比如,PDF,wo耐,Excel,Powerpoint,XML和HTML等格式文档中都含有控制字符.这给数据处理带来了不便,需要借助纯文本抽取技术把这些文档中的自然语言字符抽取出来.4.3将图像数据转换为文本数据的方法一方面可以从图中发现并抽取属于自然语言的字符,这些自然语言字

19、符通常与图所表达的含义紧密相关;另一方面,可以用人工的方式为图创建文字说明,描述图的含义.4.4信息抽取技术信息抽取技术可以实现从文本到数据库字段的转换.信息抽取技术能够发现文本中的重要信息点,并将其抽取出来,这些信息点通常与数据库的字段相对应.这样就实现了文本格式到数据库格式的转变.2009年无线电工程第39卷第5期27信号与信息处理4.5语义图技术当把级别和级别的数据都转换为级别工的数据后(即数据库格式数据),在级别工会存在大量的数据,通常会涉及成千上万的实体(人物,机构,地点)和描述实体间关系所需的关系定义(人物之间发生过怎样的联系,人物与机构之间的关系等).要想对这些海量数据进行融合和

20、挖掘,就必须对它们进行有效的组织.语义图是目前实现对数据进行有效组织和表示的主要技术之一.在一个语义图中,实体被表示为节点,实体之间的关系被表示为节点之间的连线.在图2的例子中,人物A曾经给人物B发送过电子邮件;人物B曾经打电话给人物C;人物B为公司Y工作.通过对语义图进行分析可以发现一些文本格式下不易被发现的知识.比如,人物A与人物C之间经由人物B存在间接联系.利用语义图还可以进行更为复杂的知识挖掘,比如,跟踪目标实体在时间,空间的变化情况,发现并跟踪实体之问的有意义的关联关系以及这种关系随时间的变化情况.图2语义图示例以上讨论了把所有数据统一为格式级别工的数据后,再借助语义图进行数据融合的

21、情报分析方式.通过上述介绍不难发现,设计的先做数据格式统一,再做数据挖掘的思路在现有技术条件下是可行的.另外,在级Nil和级别也可以有所作为,提供特有的情报分析服务.比如,在级别可以提供以下服务:关键词检索:事先由人工对图,视频和音频的内容进行文字描述,查询时通过关键词匹配找出相关档案;分类浏览:事先由人工按照分类体系对图,视频和音频档案进行归类处理,查询时用户按照分类体系逐步定位到相关文档;基于图像内容的检索:抽取图像,视频中的形状,纹理和颜色等特征作为图形的特征,查询时按照这些特征与用户提供的样本图像进行匹配.在级别可以提供下来服务:分类,聚类:分类是按照某一分类体系对文本进行分类,由于涉

22、及到分类算法的训练问题,需要以一定量的已知分类数据为训练样本;聚类是指计282009RadioEngineeringVo1.39No.5算机在无分类体系作为参照的情况下依据算法对文本进行归类,不涉及算法训练问题;文档摘要:在对文本进行分析的基础上,抽取出文本中最重要的几句话作为文档摘要.文档摘要可以使用户在短时问内对文档的主要内容有所了解;面向话题的检索:满足用户在针对某一事件进行查询时的信息检索要求,查询的目的是把有关该事件的相关文本搜索出来;话题跟踪:自动跟踪有关某一事件的后续报道.比较而言,先把所有数据归一化到简单格式,再进行数据分析的方法是数据融合度最高的,因为这种方式利用了各个层次的

23、数据,如图3所示.融合度高级别I级别级别图3数据融合度5结束语介绍了开源信息情报分析系统的概念和重要意义,论述了美国的开源情报分析系统的发展现状.另外,提出了一个实现开源数据分析的技术模型,根据开源数据格式复杂多样的特点,把开源数据格式分为3个级别.提出了利用开源数据的2种方法:把复杂格式的数据逐步转变为简单格式的数据,即转换到数据库格式,然后利用语义图技术对统一格式的数据进行融合和知识挖掘;不做数据格式转换,直接在原始数据上进行数据分析.通过这2种方法最大限度地挖掘利用开源数据中的潜在信息.1.参考文献1樊合成,陈树宁,王守宏.试论公开情报研究J.现代情报,2004(1):5254.2曹霖.网络环境下公开性军事情报搜集策略研究J.情报探索,2007(3):1517.3邹良群,周春雷.基于搜索引擎的公开情报自动化搜集模型J.电脑知识与技术.2008(26):16541656.作者简介陈勇男,(1968一),中国电子科技集团公司第五十四研究所高级工程师.主要研究方向:信息处理.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号