网络数据存档的存在问题-Pitt.ppt

上传人:牧羊曲112 文档编号:6600040 上传时间:2023-11-16 格式:PPT 页数:31 大小:324.64KB
返回 下载 相关 举报
网络数据存档的存在问题-Pitt.ppt_第1页
第1页 / 共31页
网络数据存档的存在问题-Pitt.ppt_第2页
第2页 / 共31页
网络数据存档的存在问题-Pitt.ppt_第3页
第3页 / 共31页
网络数据存档的存在问题-Pitt.ppt_第4页
第4页 / 共31页
网络数据存档的存在问题-Pitt.ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《网络数据存档的存在问题-Pitt.ppt》由会员分享,可在线阅读,更多相关《网络数据存档的存在问题-Pitt.ppt(31页珍藏版)》请在三一办公上搜索。

1、网络数据存档的存在问题,B.Kahle2000.3原始出处:,bluerye(DXY)译,网络数据存档的存在问题,“网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”(JISC 2002.4)“许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。”(Brewster Kahle 2002.3),网络存档的存在问题,澳大利亚美国北欧国家:丹麦 芬兰 瑞典其他国家:英国 法国 日本国际网络数据的存档库 例如:“wayback Machine”,三个会议,数据储存图书馆的未来 达姆施塔特德国 2001.9国际数据网络存档大会 东京 20

2、02.1DPC论坛:网络数据存档 伦敦 2002.3,会议网站,存在问题,储存数字化信息的合法性?版权?是否允许访问和对公众开放?选择一部分还是全部储存?多长时间更新介质?何时更新?如何在多变的网络中获得信息?,技术上面临的挑战,嵌入的外部链接和可执行程序不变的名称和数据标识复制控制内容随时间的变化表层网页和深层网页,澳大利亚(潘多拉档案库),NLA:仍没有合法地位储存公有的出版物选择性储存(澳大利亚电子刊物,组织化站点,政府出版物,短期资源)允许公众访问 NDB条款,澳大利亚(潘多拉档案库),1700个标题(2001.11)增长率:每月40站点 重新整理:每月35站点ADRI(澳大利亚数字资

3、源确认)独特的确认方法 自身处理系统,美国(雅典娜议档案库)议会图书馆,将互联网资源制图,可视化档案库可通过网页访问资源版权的合法性正在论证阶段选择性收录对公众公开,LC/IA 领航计划-“Election 2000”,将网上和议会资源库共享目标:图书馆:选择收集和分类站点;建造原型访问站点网络档案库:在整理和归档站点的过程中学习经验800多个站点(在这些站点中包括150多个选择后的站点和主要)数据量有2-3万亿字节每日归档(2000.82001.1),丹麦,皇家图书馆,哥本哈根出版物的储存有一定法律权限 非动态的静态出版物有限的站点只允许皇家图书馆,国立图书馆和大学图书馆访问只归档静态站点(

4、专论和过刊)奥尔胡斯会在每天夜里为国立和大学图书馆提供镜像站点,丹麦(统计数字),9000 网络出版物(2001.6)31为专论,69为过刊67.5来自公共部门和图书馆,32.5来自私立部门 工作人员中有0.5是技术人员,0.8是图书管理员,瑞典皇家图书馆,每年若干次对本国站点进行扫描不选择,收录一切包括所有网页,所有电子刊物,所有新闻包括.se-,.com,.org,.net在内的所有使用瑞典地址和电话号码的网站。只归档但不允许访问。,瑞典 软件,使用Whois软件鉴定本国的站点使用COMBINE Robot软件收录站点自动从超链接中收集文章同时收录图片和声音文件全自动化无需人为帮助,瑞典档

5、案库(Kulturarw3),所有资源都作为一个多部分的MIME一个元数据储存在一个文件里面文件命名:33个字符以及记录时间截至到2001.9:从97000个网络服务器中活得110,000,000文件,总计3000G字节的数据量储存在磁盘和碟片中,用分等储存管理(HSM)管理文件,瑞典档案库(Kulturarw3),直到2002.7,只有部分法定权限(一些固定的网络文件)2001.12,数据核查联合会的确认计划被认为违法。于是改计划被叫停了。2002.7,修改后的瑞典版权法,给予了瑞典皇家图书馆以收集本国网站和公开档案库的合法地位,芬兰 国际图书馆,使用了和瑞典类似的方案,最初只是负责本国范围

6、之内。具有收集数据资源的合法性和版权使用芬兰的来自NEDLIB的软件收集数据。档案元数据使用MD5校验和的方法控制复制,这种方法较为权威而且具有唯一的认证码配合时间标识作为一种挽救措施,芬兰现行的数据收集情况,2001-2002年度的数据采集始于2001.8止于2002.4从29,000,000个URL中收集了9,400,000个文件压缩后的文件总计340G字节储存在国际超级计算中心提供的介质上硬件:SunE450服务器,芬兰现行的数据收集情况,项目的经验:“NEDLIB数据收集系统可以除了任何网络空间(美国除外),配合完备的硬件,提供了足够的储存空间”(Juha Haleka,“Finish

7、 Team”项目的主持人),北欧网络档案库,北欧国际图书馆联合计划不取决于数据是用哪个软件收集的NEDLIB(芬兰 挪威 丹麦)COMBINE(瑞典)选择挪威的搜索引擎(FAST)软件:从100种不同MIME转换称HTML格式识别大部分欧洲语言预算:260,000欧元(AUS 475,000),相同的网页(表层),英国,英国图书馆“Domain.uk”计划(始于2002)选择了100个英国站点给备选的站点发现以活得批准每3个星期重新访问使用“Bluesquirrel Web whacker”软件定期检查链接、变化和丢失有意图提高规模(2004 竞标),英国,UKOLN 研究计划“uk.doma

8、in”估计大小应该有3,000,000个站点,24,000,000左右的网页。Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。医学网站2002.3提供咨询,2002.10 完成数据2002.8 初步报告,最后报告会散布在整体里。,德国,档案库(德国藏书)收集目标资料的经验两次不完全的快速扫描(2000.12,2000.2),法国,档案库(法国藏书)2001:进行了两次小规模尝试,收集了16,000左右的音乐、视频等多媒体站点。结果并不是令人满意一些非预期的特点过大的站点正计划用两种不同的机器进行一次新的更为可行的研究。2001.6修改了允许储存的法律,但是扔未获得

9、国会通过。,日本,国家议会图书馆WARP(Web Archiving Program)初步是实行选择性获得数据日本版权法有了一些大的变化,有可能获准进行一些更加深入的数据收集工作。,国际档案库,1996年由Brewster Kahle以卖出WAIS获得的15,000,000美元建立国际档案库。非营利组织发起者包括:AT&T实验室,Compaq,Xerox PARC,Quantum DLT,国家科学基金 1996年后开始归档网页,包括19031973的电影资料,国际档案库,每两个月完全扫描一次机器排除,一些新闻、个人、照片。完全拷贝了亚历山大港的档案库在不同的洲复制。“复制是最好的保存方法”版权?“也许这严重的侵害了合法的版权”(Lawrence Lessig,斯坦福的IP法和互联网空间专家),国际档案库(“wayback machine”),以收集和归档国际互联网公共网页为目标包括大部分的图像数据2001.10发部对公众完全开放每天2万用户,每秒200人不提供文本搜索,只由URL搜索资金支持情况?未知,结论,“我们在这里不是为了触探法律。我们要创造一个我们想要生活的世界。一个没有图书馆的世界就是一个没有记忆的世界,这是将是一场悲剧。”(B.Kahle,2001.10)“在互联网上,谁都可以成为一个出版者,现在我们这个图书馆就可以做这样的事情。”(B.Kahle,2002.5),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号