《《信息学概论》第2章信息资源与信息收集.ppt》由会员分享,可在线阅读,更多相关《《信息学概论》第2章信息资源与信息收集.ppt(71页珍藏版)》请在三一办公上搜索。
1、信息学概论第二章 信息资源与信息收集,周一:45(10:4512:25)/C103主讲:毛明志 本课程原始课件由蔡国扬老师提供,主要内容,本章内容提要信息资源概念信息资源建设信息资源管理信息收集信息评价,2.1 信息资源的概念,2.1.1 信息是重要的资源关于资源:联合国环境署在1972年给资源下的定义是“在一定的时间和技术条件下,能够产生经济价值、提高人类当前和未来福利的自然环境因素的总称”。美国著名经济学家 Alan Randall 指出:“资源是一个动态的概念”。他在 资源经济学(Resource Economics,1981)一书中给资源定义为,“资源是由人发现的有用途和有价值的东西”
2、。,2.1 信息资源的概念,关于信息与资源:维纳在控制论中指出:信息就是信息,不是物质也不是能量。可见,信息与物质、能量是有区别的。同时,信息与物质、能量之间也存在着密切的联系。美国哈佛大学的研究小组给出了著名的资源三角形。他们认为:没有材料,什么也不存在;没有能源,什么也不会发生;没有信息,任何事物都没有意义。,2.1 信息资源的概念,信息、物质和能源是人类社会资源的三大支柱。作为资源,物质为人们提供各式各样的材料,能源提供各式各样的动力,信息则提供大量的知识。如果说物质、能量是一种硬资源,那么信息则是一种软资源。在不同时期这三种资源有着不同的地位和作用。在农业社会,人类主要依赖物质资源;蒸
3、汽机的发明推动了工业革命,能源资源的作用显现出来,人类进入了依赖物质和能源资源的工业社会;以微电子技术为代表的现代新兴技术的出现,信息资源成为重要资源,人类开始进入依赖物质、能源和信息资源信息社会。经济增长方式的转变,人类对资源认识的演变,获取资源能力的提高,信息的积累和增长等等都促使信息成为重要的资源。,2.1 信息资源的概念,2.1.2 信息资源的定义信息是普遍存在的,但信息并非全都是资源,只有满足一定条件的信息才能称之为信息资源。信息作为资源,首先必须是“有用的”或“可以利用的”。同时,信息成为资源的必要条件是信息的加工、处理和序化活动。只有经过信息管理,信息才能真正成为信息资源。信息资
4、源是“作为资源的信息”,是有价值的信息的集合。它既具备信息对象的特征,又是一类重要的资源管理对象。然而信息的价值是体现在使用中的,对于不同的使用者,信息可以有不同的价值,而且信息的不同组合、不同关联也能使信息具有不同的价值。,2.1 信息资源的概念,美国信息管理专家霍顿(F.W.Horton)曾经提出了不同的信息资源的定义。1979:resource(信息资源为单数时)是指信息内容,而resources(信息资源为复数时)指支持工具,包括设备、资金、环境、人员等等。1986:马尔香(Donald A.Marchand)在1986年与霍顿合著的信息趋势:从你的信息资源中获利中提到,信息资源包括:
5、拥有信息的人、信息技术及其硬件和软件、信息设施以及信息操作和处理人员。,2.1 信息资源的概念,著名经济学家,我国数量经济学、信息经济学的创始人乌家培先生认为,对信息资源可以有两种理解:狭义的理解:指信息内容本身,即是经过加工处理的,对决策者有用的数据。广义的理解:指的是除信息内容本身外,还包括与其紧密相联的信息设备、信息人员、信息系统、信息网络等,是信息活动中各种要素的总称(包括信息、技术、设备、资金和人等要素)。这时信息资源被作为系统概念看待。,2.1 信息资源的概念,狭义的信息资源实际上还应该包括信息载体,因为信息内容不能离开信息载体而独立存在。狭义的观点虽然忽视了“系统”,但突出了信息
6、要素这一信息资源的核心和实质。广义的观点把信息活动的各种要素都纳入信息资源的范畴,但并非允许没有边际的无限扩张。信息资源三要素 信息生产者、信息和信息技术是信息资源的三个基本组成部分,可以称为信息资源的三要素。,2.1 信息资源的概念,信息资源三要素信息生产者。信息生产者是信息资源的关键,因为信息是人创造的,信息技术是由人类发明和使用的。信息。在信息资源三要素中,人们只有通过开发利用信息,才能表明信息资源的价值。信息是信息资源的核心。信息技术。是信息搜集、加工、存储和传递技术的集合,也体现为基本信息系统设施。信息资源是信息生产者、信息和信息技术的有机结合。概括起来,信息要素是信息资源中的核心部
7、分,而其他要素则是其支持部分。前者可以称之为核心资源,也是我们一般讨论的重点;后者可以称之为支持资源。,2.1 信息资源的概念,*比较:文献学的“七要素”说 知识和信息内容信息符号载体材料记录方式载体形态体裁体例,2.1 信息资源的概念,2.1.3 信息资源的特征信息资源特有的性质共享性。物质资源和能源资源的利用表现为占有和消耗,而信息资源的利用不存在竞争关系,各利用者可以同等程度地共享某一份信息资源。时效性。信息资源比其他任何资源都更具有时效性,一条及时的信息可能价值连城,一条过时的信息则可能分文不值,甚至有可能酿成不可知的后果。不同一性。对于既定的信息资源而言,它必定是不同内容的信息的集合
8、,集合中的每一信息都具有独特的性质。,2.1 信息资源的概念,不可分性。信息资源的不可分性表现在生产和使用两个方面:首先,作为资源的信息在生产中是不可分的,信息生产者为一个用户生产一组信息与为许多用户生产同一组信息,两者所花费的努力几乎没有差别;其次,作为一种资源的信息在使用中也具有不可分性,即信息资源不能像多少吨煤或者多少吨水泥那 样任意的计量,有时,即使信息在交换中是可分的,某一组信息的一部分具有市场价值,但对于特定的具体目标而言,如果整个信息集合都是必需的,不能任意缺少的,则只有整个的信息集合都付诸使用,其使用价值才能得到最直接的发挥。,2.1 信息资源的概念,驾驭性。信息资源具有开发和
9、驾驭其他资源的能力。不论是物质资源还是能源资源,其开发和利用都有赖于信息的支持。一般而言,人类利用信息资源开发和驾驭其他资源的能力受到科技发展水平和社会信息化程度的影响。动态性。信息资源是一种动态资源,它处于一个不断发展的过程中,呈现出不断丰富、增长的趋势。作为经济资源的一般特征需求性可选择性稀缺性。其他:有限性、人工性、积累性、有序性。,2.1 信息资源的概念,2.1.4 信息资源的重要作用信息资源作为一种具有特殊内涵和特殊配置形式的社会资源,其重要作用正在与日俱增。信息资源是现代社会生产力的基本要素,同时对社会生产方式的变革和人们生活方式的提升,有着不可估量的影响。信息资源具有的特别重要的
10、意义还在于,信息资源是人们借以对其他资源进行有效管理的工具。信息资源的内涵正在不断拓宽,不仅包括自然科学方面的信息资源,而且包括的社会科学方面的信息资源,也是一个国家现代化程度的重要标志。信息资源的充分开发、科学管理和有效利用,是国家信息化建设的主要内容。,2.1 信息资源的概念,信息资源对社会的发展具有战略性意义。与一般物质资源相比,信息资源首先对作为社会主体的人发生直接影 响作用,通过人对信息资源的理解、消化、运用,转化为现实生产力要素或变革生产方式及生活方式的动力。信息资源的这种特性,要求人们必须以战略眼光认识信息资源,自觉地运用信息资源,立足有利于经济社会战略性发展的高度积极促进信息资
11、源的开发与转化。信息传播已经成为社会文化的重要组成部分。信息资源借助于各类媒介如网络、电视、电话、印刷品、声像、电子信息、数据库等,广泛向社会传播,深入影响社会。正是在这种传播过程中,信息资源的价值得以实现。信息传播经济甚至可以成为国民经济的支柱产业,成为新经济的一个重要生长点。,2.1 信息资源的概念,信息资源是人的智慧与才能的结晶,在不断的开发利用过程中得到丰富和增长。在现代信息化社会,信息资源开发、管理、应用的能力,成为社会生产力发展的一个突出标志,甚至成为衡量社会进步的一个重要尺度。信息资源之间具有密切的共生关系。科技发展正在呈现出一种“大科学”趋势,自然科学各门类之间相互交融,自然科
12、学与人文科学、社会科学之间相互影响,相互渗透。,2.1 信息资源的概念,2.1.5 信息资源的类型从信息资源管理和开发角度划分 记录型信息资源。传统介质和现代介质记录和储存的知识信息。是收集、获取和整理信息资源的主要来源。是信息资源存在的基本形式,也是信息资源的主体。实物型信息资源。由实物本身来储存和表现的知识信息。通常出现在展览会等产所,具有直观、真实的特点。智力型信息资源。人脑存储的知识信息和经验。,包括人们掌握的诀窍、技能和经验,又称隐性知识。在人的交流活动中获得,不易保存。零次信息资源。通过口头传播的信息。,2.1 信息资源的概念,按照信息资源加工程度划分 一次信息资源 二次信息资源
13、三次信息资源 按信息资源传递的范围划分 公开信息资源。可以作为信息商品进入流通领域;半公开信息资源。内部信息资源(“灰色”出版物);非公开信息资源。不能作为商品进入流通领域的信息资源。,2.1 信息资源的概念,按信息资源的运营机制划分政府信息资源。由政府收集和生产的信息;商业性信息资源。由/为商业机构或其他机构以市场化方式收集和生产的,以赢利为目的的各种信息资源;公益性信息资源。进入公共流通领域,由公益性机构向公众提供的教育、科研、文化、娱乐等领域的信息资源。按信息存在的状态划分潜在信息资源。储存在个人大脑中的信息资源;(隐性知识)现实信息资源。包括各种载体信息资源、文献信息资源、实物信息资源
14、、网络信息资源。(显性知识),2.1 信息资源的概念,按信息储存的地域性划分本地信息资源。储存本地,可以直接管理、提供服务的信息资源;网络信息资源。分布广泛,内容交叉、重复,可信度低。按信息储存的载体划分传统载体信息资源。数字化信息资源。,2.2 信息资源建设,2.2.1 信息资源建设信息资源有别于自然资源 纯自然资源是天然的先于人类的客观存在,而信息资源则是经过人类开发与组织的信息的集合,人类的参与在信息资源形成过程中具有重要的作用。自然资源的丰富程度可用储备量来表示,而信息资源无法用储备量来衡量。自然资源多为一次效用的物质资源,在使用中或被消耗,或转变了存在方式,所以自然资源的紧缺性和其使
15、用过程的损耗性密切关联。而信息资源具有共享性,可以供无数人同时或先后重复使用。,2.2 信息资源建设,信息资源建设从上面的讨论可见,信息资源可以而且必须通过自觉的开发和建设使之形成并得到优化。信息资源建设是人类对处于无序状态的各种媒介信息进行选择、采集、组织和开发等活动,使之形成可资利用的信息资源体系的全过程。这一定义的内涵包括三个方面:信息资源建设所针对的是处于无序状态的各种媒介的信息,并非仅指数字信息。信息资源建设活动的内容是对信息进行选择、采集、组织和开发。信息资源建设的目的是形成可资利用的信息资源体系。,2.2 信息资源建设,2.2.2 信息资源建设的主要内容信息资源体系规划 信息资源
16、的选择与采集传统资源数字化与数据库建设网络信息资源的开发利用信息资源的组织管理信息资源共建与共享合规性问题,2.3 信息资源管理,信息资源管理的沿革与发展信息资源管理(Information Resource Management,IRM)指管理者为达到预定的目标,运用现代化的管理手段和管理方法来研究信息资源在经济活动和其他活动中利用的规律,并依据这些规律对信息资源进行组织、规划、协调、配置和控制的活动。,人类社会信息过程,2.3 信息资源管理,人类信息管理经历的三个阶段传统管理阶段。以信息源管理为核心,以图书馆为象征,也包含档案管理和其他文献资料管理。信息管理阶段。以信息流控制为中心,以计算
17、机为工具,自动化信息处理和信息建造为主要工作内容。信息资源管理阶段。纯粹技术手段不能实现对信息的有效控制和利用,需要结合管理科学的基本理论和工具进行信息资源管理;信息成为重要的资源,需要从经济科学的角度对其进行优化配置和管理。,2.3 信息资源管理,信息资源管理概念的提出(80年代开始)英国信息管理学家 Williem.J.Martin 指出:“信息管理的范围广及数据处理、文字处理、电子通信、文档记录管理、图书馆和情报中心、办公系统、外向型信息服务、所有与信息有关的经费控制活动”。美国信息学家 Allen N.Smith 和 DonaldB.Medley 也认为:“信息资源管理将传统意义上的信
18、息服务包括信息传播、办公系统、记录管理、图书馆功能,技术规划等统一起来”。Marchand 和 J.C.Kresslein 进一步将信息资源管理分为7个模块,即数据处理、电子通讯、文书和记录管理、图书馆和技术情报中心、办公系统研究和统计信息管理、信息服务和公共信息机构。,2.3 信息资源管理,2.3.2 信息资源管理的目标与任务目标保证信息资源的开发利用在统一规划和管理下进行,使各类信息资源以更高的效率效能和更低的成本在国家社会进步、经济发展、人民物质文化生活水平的提高中充分发挥作用。过程涉及开发、利用和管理机制的细节。任务制定开发战略、规划、方针和政策;制定法律、规章和条例,建立监督和保障体
19、系;综合运用经济、法律和必要的行政手段协调各部门、地区和企业之间的关系,最大限度实现资源共享;加强国家信息基础设施和信息资源管理网络的建设。,2.3 信息资源管理,2.3.3 信息资源管理的层次与内容层次宏观层:战略管理国家信息资源管理部门组织协调。中观层:各地区、各行业的信息资源管理。微观层:各级政府部门、信息机构和企业等组织的管理。手段和方法技术手段:合理使用计算机、网络、通信技术。经济手段:运用各种经济杠杆进行利益诱导,促进信息资源的有效开发利用和配置。法律手段:采用法律、法规进行调节和约束。行政手段:采用国家政权形式的管理和控制。,2.3 信息资源管理,2.3.4 信息资源的优化配置信
20、息资源配置 信息资源作为经济增长中的投入要素,被视为生产函数的变量。信息资源配置在整个社会资源有效配置条件下对信息产业投入与产出的安排。包括:横向配置:产业配置和行业配置。纵向配置:信息生产、扩散、组织、交换、利用的全过程。(1)市场配置机制市场通过价格杠杆自动组织信息的生产和消费。一般认为,市场自组织过程可以减少生产的不确定性,为生产提供动力,通过价格信号引导生产。市场竞争迫使企业不断创新,市场机制有助于培育富有创新精神的企业家。,2.3 信息资源管理,市场配置机制,价格体系,买 方.,卖 方.(相互竞争),市 场,均衡状态,隐含有市场参加者进行经济决策所需要的市场信号和经济信息,2.3 信
21、息资源管理,(2)政府配置机制政府利用政策、法律、税收工具,或直接通过政府投资和财政补贴来调整信息的产出。,市场不充分信息不对称,信息资源配置失灵(低效、无效),政府干预(非市场机制),2.3 信息资源管理,(3)产权配置机制通过调整和明晰产权,优化信息资源配置,产权不明确,外部效应,市场失灵资源配置低效,产权配置,明晰产权,优化资源配置,2.3 信息资源管理,2.3.5 信息资源的共享信息资源的共享模式随着信息处理技术的发展而发生重大变化,经历了从典型图书馆管理模式下的馆际互借,到半自动化的联机检索系统,发展到结合网络通信、大型数据库和安全认证体系等技术的网络共享模式。*进一步的阅读:各种共
22、享模式下的成本分析。,2.3 信息资源管理,2.3.6 网络信息资源网络信息资源的分类:图书馆目录(OPLC,公用图书馆联机目录)参考工具书(网络版辞典、指南等)全文资料(商情、股市行情、电子书刊等)其他(电子邮件、计算机软件、联网数据库等)网络信息资源的特点:数量庞大,内容丰富,增长迅速时效高,传输速度快共享程度高,使用成本低质量难以监控,2.3 信息资源管理,网络信息资源的技术管理网络信息组织技术。数据管理主要采用数据库,处理技术上需要解决数据仓库(Data Warehouse)、联机分析处理(On-Line Analytical Processing)、数据挖掘(Data Mining)
23、、面向对象的数据模型等问题。在信息检索上,需要解决主题分类体系、语义关联网络等问题。网络信息安全技术。需要采用的技术包括密钥技术,安全控制技术(包括访问控制、数字签名、鉴别等),安全防范技术(包括防火墙技术、病毒防治技术、信息泄露防护技术等)。,2.3 信息资源管理,网络信息资源的经济管理网络信息产业管理。需要解决的问题包括网络信息产业的结构划分;构成网络信息产业的各行业之间以及这些行业之间与国民经济其他信息行业和非信息业之间的经济关系;网络信息活动的产业化和规模化机制。网络信息市场管理。网络信息市场的特点是辐射面广、服务商与信息用户数目庞大、交易直接迅速、市场具有非对称性、市场容易失灵。需要
24、解决的问题包括成本控制体系、定价体系、市场监管系统、介入机制等。,2.3 信息资源管理,网络信息资源的人文管理网络信息政策。包括网络信息系统建设和发展政策;信息网络资源政策;网络信息产业政策。网络信息法律。知识产权保护互联网著作权行政保护办法、信息网络传播权保护条例等;信息安全保护。网络信息伦理。1986年,梅森提出信息时代有4个主要伦理议题:信息隐私权、信息准确性、信息产权、信息资源存取权,通常被称为PAPA(Privacy,Accuracy,Property,Accessibility)议题。网络信息的个体拥有性与信息共享性之间产生激烈冲突,产生了各种新的矛盾,表现为侵犯个人隐私权、侵犯知
25、识产权、非法信息授权、信息技术的非法使用等。,2.4 信息收集,2.4.1 信息收集概念信息收集。信息的接收或汇集。它是根据特定的目标和要求,将分散蕴含在不同时空域的相关信息,利用特定的手段和措施进行采掘和汇集的过程。信息收集是信息处理过程的起点,并贯穿信息处理过程的始终。它也是信息资源能够得以充分开发和有效利用的基础。“选择”是信息采集的核心。在信息采集时首先要明确收集什么信息,也就是要对各种信息加以选择。信息选择的目的就是从采集到的信息中甄别出有用的信息,剔除无用的信息。选择什么信息并不取决于采集人员的主观意志,而是取决于用户信息需求的分析结果和实际信息资源的状况。,2.4 信息收集,信息
26、收集的过程。信息收集的过程一般包括以下步骤:制订收集计划。只有制订出周密、切实可行的信息收集计划,才能指导整个信息收集过程正常开展。设计收集提纲和表格。为了便于以后的加工、储存和传递,在进行信息收集之前,就要按照信息收集的目的和要求设计出合理的收集提纲和表格。明确信息收集的方式和方法。提供信息收集的成果。要以调查报告、资历摘编、数据图表等形式报获得的信息整理出来,并将这些信息资料与收集计划进行对比分析,如不符合要求,还要进行补充收集。,2.4 信息收集,广义和狭义的信息收集。从信息收集的手段和过程看,信息收集的概念有广义和狭义两个层次。狭义的信息收集。指无需经过感觉器官和物理手段来完成信息的直
27、接收集,主要是通过调查、情报检索和网络搜索等手段从已有的信息中获取。广义的信息收集。包括了信息感知、传感和收集(狭义的信息收集)阶段和信息识别阶段。第1阶段是有意识的信息获取活动,通过人类自己的感官感知,或通过一定的传感技术,也可通过调查、情报检索和网络搜索的手段来完成。第2阶段对获得的信息中可能包含的噪声(杂乱无章的信息)进行初步的过滤、整理和鉴别,识别出有用的信息。信息识别是信息的初步加工。,2.4 信息收集,可见,广义的信息收集包含了狭义的信息收集,而广义的信息识别一般要求充分发挥人的感觉器官的功能,利用人工传感系统、数据采集系统、机器识别算法和模式识别算法等工具和手段来完成。与狭义的信
28、息收集相比,广义信息收集是具有较深层次,比较复杂的信息收集方式。,2.4 信息收集,2.4.2 信息收集的来源和范围1信息收集的来源联合国教科文组织(UNESCO)在官方出版物“文献术语”中将信息源定义为:“组织或个人为满足其信息需要而获得信息的来源,称为信息源。”(1)个人信息源(口头信息源)参与社会信息交流活动的每一个人都是一个独立的信息源。特别是那些处于关键位置的专业人士,他们在工作中积累了大量的经验,占有着大量的信息,而且又在不断地创造信息。个人信息源的特点是:及时性。通过与个人直接接触和交谈,获取信息的速度最为迅捷,而且可以及时得到信息反馈。,2.4 信息收集,新颖性。人们交谈的信息
29、内容多为对方不知道或不清楚的事物,其内容往往具有较强的新颖性,有时甚至可得到一些不宜公开的内部信息。强化感知性。面对面地获取信息,除接收到语言信息外,还可根据信息发出者的声调、语气、体语以及环境气氛等感受其“言外之意”,进行推理和判断,加深理解。主观随意性。人们在口头信息交流过程中,往往按照自己的好恶对信息进行加工取舍,或根据个人意志对客观事物进行曲解和割裂。这种主观随意评价易导致信息失真。瞬时性。口头信息生存时间短,更新速度快,因其极易流变,必须记录转化在其他信息载体上方可长期保存。,2.4 信息收集,(2)实物信息源无论是自然物,还是人工制品,抑或事物发生的现场,均可视为实物信息源。这类信
30、息源的特点是:直观性。其最大优势就是直观、生动、全面、形象,能提供全方位的信息,供人们根据需要进行分析研究。真实性。其客观存在性使人们可从中获取第一手的完整可靠的信息,因而具有较高的真实性和可信度。隐蔽性。其包含的信息往往是潜在的、隐蔽的,需要有强烈的信息意识、敏锐的洞察能力和一定的分析研究水平,必要时要通过实地考察和反求工程等方法才能剖析出来。零散性。其时空分布广泛、散乱、混杂,无一定规律可循,因此很难对其进行加工整理。,2.4 信息收集,(3)文献信息源我国国家标准将文献定义为“记录有知识的一切载体”。按文献的物质载体形式,可以划分为印刷型文献、缩微型文献、声象型文献和机读型文献。它具有以
31、下特点:系统性。文献所记载的信息内容往往是经过人脑加工的知识型信息,是人类在认识世界改造世界的过程中所形成的认知成果,经过选择、比较、评价、分析、归纳、概括等一 系列思维的信息加工活动,并以人类特有的符号系统表述出来的。因此大多比较系统深入,易于表达抽象的概念和理论,更能反映事物的本质和规律。,2.4 信息收集,稳定性。文献信息是通过文字、图形、音像或其他代码符号固化在纸张、化学材料或磁性材料等物质载体上的,在传播使用过程中具有较强的稳定性,不易变形,不失真。易用性。文献信息源的利用不受时空的局限,利用过程也比较从容。用户可根据个人需要选择自己感兴趣的内容,决定自己利用文献的时间、地点和方式,
32、遇到问题可以有充分的时间反复思考,并可对照其他文献进行补充印证。可控性。文献信息的管理和控制比较方便。信息内容一旦被编辑出版成各种文献,就很容易对其进行加工整理,控制其数量和质量、流速和流向,达到文献信息有序流动的目的。,2.4 信息收集,时滞性。由于文献生产需要花费一定的时间,因而出现了文献时滞问题。文献时滞过长将导致文献内容老化过时,丧失其作为信息源的使用价值。(4)数据库信息源(网络信息源)数据库是在一定的计算机软、硬件技术支持下,按照一定方式和结构组织起来的,具有最小冗余度和较高独立性的大量相关数据的集合,是计算机信息管理的基本资源。按数据形式可分为文字数据库、数值数据库、声象数据库和
33、多媒体数据库。目前世界上有将近8000个数据库,总记录数达40亿条。数据库信息源的特点是:,2.4 信息收集,多用性。数据库是从整体观点来组织数据的,内容可靠,存储量大。它充分考虑了多种应用的需求,能够为用户提供尽可能多的检索途径。动态管理性。数据库系统便于扩充修改,更新速度快,且能根据需要随时进行建库、检索、统计、备份和恢复等多种数据管理。技术依赖性。数据库的实现是以计算机的高速运算能力和大容量存储能力为基础的,它的发展又与数据库系统开发与管理技术的进步紧密相连。虽然数据库信息源内容新颖,效率高,且不受距离限制,但如果没有发达的信息技术基础,数据库信息源就不可能产生和发展,也不可能得到广泛普
34、及和运用。,2.4 信息收集,(5)组织机构信息源组织机构是社会信息的大规模集散地,也是发布各种专业信息的主要源泉。其主要特点是:权威性。各种组织机构或从事研究开发,或从事生产经营,或从事监督管理,往往是专门开展某一方面的业务工作,因此它们所产生发布的信息相对集中有序,也比较准确可靠,具有一定的权威性,值得高度重视。垄断性。有些组织机构出于保守或者是竞争等方面的原因,常常把本部门所拥有的信息资源看成是自己的私有财产而不愿对外公开。如果没有完善的信息公开制度作保证,就很难进行信息采集工作。,2.4 信息收集,2信息收集的范围信息收集的范围可以从三个角度来进行划分:内容范围。指根据信息内容与收集目
35、标和需求的相关性特征所确定的范围,包括本体范围和环境范围。本体范围是由事物本身信息相关内容特征组成的范围;环境范围是由事物周边与事物相关的信息的内容特征组成的范围。时间范围。指在信息发生的时间上,根据与信息收集的目标和需求具有一定相关性的特征所确定的范围。这是由信息的历史性和时效性所决定的。地域范围。指在信息发生的地点上,根据与信息收集的目标和需求具有一定相关性的特征所确定的范围。这是由信息的地域分布特征和信息收集的相关性所决定的。,2.4 信息收集,2.4.3 信息收集的基本原则目的性原则。信息的收集必须有明确的目的,要根据具体任务和实际需要,制定计划,有的放矢地收集。可靠性原则。收集的信息
36、必须是真实对象或环境所产生的,信息来源是可靠的,收集的信息能反映真实的状况。可靠性原则保证信息是有效的。准确性原则。收集的信息与应用需求密切相关且表达无误。准确性原则保证信息的价值。完整性原则。收集的信息在内容上必须完整无缺,必须按照一定的标准,反映事物全貌,必要时还要反映事物的相关环境。完整性原则保证信息是全面的。,2.4 信息收集,系统性原则。收集到的信息应该是结构上有系统性,时间上有连续性。一般来讲,信息的产生和传播,有零散、断续的特点,它不是一次性地集中发出,而是在时间上有间隔,内容上不完善。因此,多方拓展信息来源,注意信息的积累,加强信息的系统性,是提高信息质量的一个重要因素。实时性
37、原则。能够及时获取所需的信息,信息要新,获取信息所花的时间要短。实时性原则保证信息的时效。有效的方法之一,就是积极做好信息预测工作,走在时间的前面。易用性原则。收集到的信息应当具备适当的表示形式,方便使用。经济性原则。要考虑信息的成本效益,如单位信息的耗费。,2.4 信息收集,2.4.4 信息收集的基本方法这里主要讨论狭义的信息收集采用的一些常用的方法1调查法普查和抽样调查。调查法一般分为普查和抽样调查两大类。普查是调查有限总体中每个个体的有关指标值;抽样调查是按照一定的科学原理和方法,从事物的总体中抽取部分样本进行调查,用从样本得到的调查数据推断总体。抽样调查是常用的调查方法,也是统计学研究
38、的主要内容。,2.4 信息收集,访问调查和问卷调查。对于涉及到人的个体调查,主要采用两种调查方式:访问调查法和问卷调查法。访问法包括座谈、会议、电话、信函等采访方式,优点是可以就问题进行深入的讨论,获得高质量的信息;缺点是单体成本高、对象的敏感度(典型性)影响极大。显然访问法对采访者的语言和交际能力有较高的要求(接近技巧,沟通技巧,提问技巧,引导技巧,追问技巧,记录技巧)。问卷法是一种包括统计调查和定量分析的信息收集方法,需要考虑的问题包括问卷内容范围和数量、答卷对象的敏感度和数量、问卷设计、问卷发放策略、回收率控制等。优点是单体成本低,调查面广;缺点是答卷者的随意性和低回收率对结果可能造成影
39、响。,2.4 信息收集,2观察法通过召开会议、深入现场、参加生产经营活动、实地采样等现场观察并准确记录调研情况(测绘、录音、录像、笔录等)。包括对人的行为的观察和对客观事物的观察。,2.4 信息收集,3实验法实验者通过实验过程可以获取其它手段难以得到的信息或结论。实验者通过主动控制实验条件,包括对参与者类型和信息产生条件加以适当限定,合理设计信息产生过程,从而获得在真实状况下用调查法或观察法无法获得的某些重要的、能客观反映事物运动表征的有效信息,还可以在一定程度上直接观察研究某些参量之间的相互关系,有利于对事物本质的研究。实验法有多种形式,如实验室实验、现场实验、计算机模拟实验、现代管理科学的
40、管理实验、现代经济学的实验经济学的经济实验等。,2.4 信息收集,4.文献检索文献检索就是从浩瀚的文献中检索出所需信息的过程。分为手工检索和计算机检索。5网络信息收集网络信息是指通过计算机网络发布、传递和存储的各种信息。收集网络信息的最终目标是给广大用户提供网络信息资源服务。网络信息收集基于网络信息搜索系统自动完成,整个过程主要包括搜集、整合、保存、服务四个步骤:,2.4 信息收集,搜集:网络信息搜索系统首先按照用户指定的信息需求或主题,调用各种搜索引擎进行网页搜索和数据挖掘,将得到的信息经过滤处理过程剔除无关信息;整合:重排并剔除重复信息,按信息的类别或主题进行分类,形成存储的元数据;保存:
41、进行索引编目,采用数据压缩、传递等技术实现海量数据存储;服务:已经完善保存的信息可以通过检索系统界面为用户提供服务。,2.4 信息收集,网络信息收集系统的主要技术包括网页收集技术、网络信息挖掘技术和网络信息过滤技术三大部分。网页收集技术。网络信息的收集通常借助各种搜索引擎完成。搜索引擎由搜索器、索引器、检索器和用户界面构成。搜索器。在互联网漫游,发现和搜集信息。它通常是一个计算机程序,从某一个初始页面开始,尽可能地遍历互联网。在分析超文本结构,提取当前页面信息的同时,获得指向其他超文本的URL链接,并通过一定的算法选择下一个要访问的地址。,2.4 信息收集,索引器。理解搜索器所提取的数据信息,
42、从中抽取索引项,建立由索引项和相关页面数据信息构成的索引数据库。检索器。根据用户界面模块的查询请求在索引数据库中快速检出符合要求的页面数据信息,依据相关度评价对检出结果进行排序并返回给用户界面模块。用户界面。接受用户的查询请求,并显示检索器的检出结果。网页收集技术与搜索引擎的不同之处在于,前者通常被要求给出主题相关信息的搜索结果,而后者仅仅需要给出网页的链接。,2.4 信息收集,网络信息挖掘技术。网络信息挖掘(Web Mining)是数据挖掘技术在网络信息处理中的应用。它综合了人工智能、模式识别、神经网络等领域的技术,根据目标特征在网络上或信息库中进行有目的的信息寻找,并在大量训练样本的基础上
43、,得到数据对象间的内在特征,以此为依据进行信息提取。根据挖掘对象的不同,又可分为网络内容挖掘、网络结构挖掘和网络访问模式挖掘。动态网页的信息收集也是网络信息挖掘的发展方向。,2.4 信息收集,网络信息过滤技术。收集率和精度是评价网络信息收集系统性能的重要指标。收集率反映的是网页查全率,而精度反映的是网页查准率。从目前的状况看,查准率具有更大的意义。正在发展的智能代理技术尝试自动建立具有学习能力的用户搜索动态特征模型,包括领域特征描述、兴趣特征描述、不良信息过滤等技术细节。,2.5 信息评价,1.信息源评价信息源评价的目的是确定信息的载体来源,并确定信息的意图和可靠性。方法可分为直接评价法和间接
44、评价法。直接评价法(主观法)。根据对信息源的一般要求(提供有价值信息的一般条件或标准),从不同角度(如及时性、准确性、易获得性、经济性等)对信息源的价值给出评分。不同信息源按照评分的结果进行排序。间接评价法(客观法)。通过发放和回收调查表,由信息用户对信息源做出。,2.5 信息评价,2.信息收集的效率评价对于信息收集的过程,可以用收全率、收准率、及时率、费用率和劳动耗费五个指标对收集效率进行评价。收全率。衡量切题信息收集的完整程度。针对某类问题计算:,收准率。衡量收集信息的针对性。针对系统全体用户计算:,2.5 信息评价,及时率。衡量信息收集的速度,即在最短时间内完成信息收集过程的能力。费用率
45、。用于信息库中单位信息的最低费用能力。劳动耗费。用于信息库中单位信息的平均劳动耗费。,2.5 信息评价,3.信息准确度的比较评价系统检验法交叉检验:从不同的信息源获得同一主题(切题)信息,对他们进行比较;周期检验:对同一信息源定期收集同一主题信息,进行历史比较;要素检验法对六要素:内容(What)、原因(Why)、时间(When)、地点(Where)、人(Who)、状况(How),将不同来源的信息分解成要素进行分组比较。,2.5 信息评价,4.信息的经济性评价信息的获得与所付出的费用的比较。5.网络信息评价第三方评价(指标体系法)。由中立的第三方(独立于发布者和用户)组织领域专家根据质量指标体
46、系对网站进行分析评价。指标法评价在特定领域有较好的参考价值。指标体系的完整性和合理性对评价效果有直接影响。网络用户定性评价法。由评价机构面向用户设计一套调查问卷,然后对结果进行分析处理。通过用户对网站的认知、感知和态度,评测网站服务能力和经营效果。如在“信息收集”一节所述,用户填写问卷的有效性和客观性对结果有直接影响。,2.5 信息评价,定量分析方法。定量分析方法是一类比较科学、规范、客观的系统评价方法,用可靠的数字对问题进行说明和分析。对网络信息的定量分析评价从初期简单的统计链接数、访问次数、登录等开始,发展为系统的定量评价方法。网络信息计量法(链接分析方法)。一般认为,一个网站被其他网站的
47、链接越多,就说明这个网站的质量越好。同时研究还发现,网页链接的关系与对发表文章的引文研究相似,可以引用有关的信息分布定律加以研究。层次分析法。将一个复杂问题分解成若干个小问题,并充分利用人们分析、判断和综合问题的能力,对复杂问题进行量化。,2.5 信息评价,关联分析法。最初由法国科学家提出用于企业决策定位。英国的 Pierre Berthon 教授在2001年运用关联分析法,采用六个定量的指标一一访问量、流量排名、被链接数、速度、更新时间、页面浏览数对世界范围内的十五家电信公司网站进行评价,取得了新的突破。他指出关联分析法能够较好地评估网站的定位问题,能够较准确的评价出网站之间的区分度。网站的
48、定量评价方法均采用传统的原理和方法,这些方法对实施网站评价提供了一个很好的思路和参考,但是忽略了对网站本身的特点和用户进行深入的研究,缺乏对评价目标的科学准确的界定,没有取得实质性进展,仅在学术研究上具备参考价值。,2.5 信息评价,基于IA理论的网站评价法。从信息构建(IA)的分类、导航、搜索和标引系统的四个方面对网站进行考察分析。这种分析方法通常是从用户体验的角度进行,通过用户确定使用目标、检验用户实践的效果来对网站进行评价。较之上述的定性评价方法而言更加系统和科学,属于实证性的分析方法。自动工具评价方法。从网站本身的属性和特点入手,开发相关的自动测试软件或网站,自动采集测评数据,并根据建立的网站评价模型,对采集评价数据自动地进行统计、分析 和计算,给出评价结果。目前不具备实用性。,