设为首页收藏本页资料仓库证券大数据English Data
资料仓库 > 维基百科镜像 >  互联网档案馆

互联网档案馆

2021-02-26 12:10:57

资料专题:互联网档案馆基本信息汇总表

互联网档案馆(英语:Internet Archive)是美国的一个由Alexa创始人布鲁斯特·卡利创办于1996年的非营利性的、提供互联网多媒体资料文件阅览服务的数字图书馆,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(英语:universal access to all knowledge.)。该“档案馆”提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 迄至2012年10月,其信息储量达到10PB。除此之外,该档案馆也是网络开放与自由化的倡议者之一。

数据来源

该档案馆的数据是由自带的网络爬虫自动搜集的,网站存档英语Web archiving档案馆“网站时光机”抓取了超过1500亿的网页。

资金情况

年度预算约为1000万美元,来源则是其网页爬虫服务、合作关系、赞助以及卡利-奥斯丁基金会。总部雇员只有数十人,大部分雇员工作于书籍扫描中心,在红木城也有数据中心。

数据库

档案馆的数据库是国际互联网保存联盟英语International Internet Preservation Consortium成员,2007年被加利福尼亚州选为官方指定图书馆。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏。

历史

1996年,卡利(Brewster Kahle)在创建盈利性的Alexa Internet时同时也创立了互联网档案馆;同年10月开始收集存储数据。不过,直到2001年开发了“时光机”前,这些数据都无法访问。1999年末扩展收集范围。

2012年8月,宣布将在其现存的130万文件的下载选项中加入BitTorrent。因为通过两个文件数据中心协调,这成为从该档案馆下载数据的最快方法。

2013年11月6日,档案馆在里奇蒙德区的总部失火,损坏了许多设备和一些附近的公寓,预计损失达到60万美元。


1996年至2009年时档案馆的总部,位于美国旧金山
2009年以来的总部,原旧金山基督教科学派第四教会
互联网档案馆在亚历山大图书馆的宣传标板
总部内的大厅

网页存档

时光机

网站时光机是互联网档案馆最重要的服务之一。其名取自一部名为The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show的美国卡通片,时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。

年份2005200620072008200920102011201220132014
存档页面的数量

(亿)

400850850850150015001500150037304000

Archive-It

Archive-it是一款帮助机构和个人创建存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的Robots.txt访问,该网页将会成为时光机的一部分。截至2014年3月(2014-03),Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。

收集书目

互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个图书扫描中心,其活动受图书馆和基金会的财政支持。截至2013年7月(2013-07),档案馆共收集了440万本书,每月的下载量超过1500万。截至2008年11月(2008-11),档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。

各语言的文本数

1语言英语法语德语西班牙语汉语阿拉伯语
文本数(2015年11月27日)6,553,945358,721344,810134,17084,14766,786
2语言荷兰语葡萄牙语俄语乌尔都语日语合计(2016年10月30日)
文本数(2015年11月27日)30,23725,93822,73114,97814,79510,612,003

各个年代的文本数

1年代1800年代1810年代1820年代1830年代1840年代1850年代
文本数

(2015年11月27日)

39,84251,15179,476105,021127,649180,950
2年代1860年代1870年代1880年代1890年代1900年代1910年代
文本数

(2015年11月27日)

210,574214,505285,984370,726504,000455,539
3年代1920年代1930年代1940年代1950年代1960年代1970年代
文本数

(2015年11月27日)

185,87670,19085,06281,192125,977206,870
4年代1980年代1990年代2000年代2010年代
文本数

(2015年11月27日)

181,129272,848579,905855,253

影像资料

除了上述内容之外,互联网文件库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域或CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都会艺术博物馆提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。

音频收藏

音频档案包括音乐,有声读物,新闻广播,旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌,播客,非英语音频等。

Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音。Zevon系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。

布鲁克林博物馆

此系列包含大约3,000件布鲁克林博物馆的物品。

镜像网站

死机或数据库出错时,可于新亚历山大图书馆镜像网站查询1996至2007年的备份数据。

参见

资料专题:互联网档案馆参见

参考文献

资料专题:互联网档案馆参考文献

延伸阅读

外部链接