Webarchivering

Van Wikipedia, de gratis encyclopedie
Spring naar navigatie Spring naar zoeken

Webarchivering verwijst naar het verzamelen en permanent archiveren van online publicaties met als doel het publiek en de wetenschap in de toekomst een kijkje in het verleden te kunnen bieden. Het resultaat van het proces is een webarchief .

De grootste internationale faciliteit voor webarchivering is het Internet Archive in San Francisco (VS), dat zichzelf ziet als het archief van het hele World Wide Web. Staatsarchieven en bibliotheken in veel landen spannen zich in om netwerkrecords in hun gebied te beveiligen.

Vanaf 1987 definieerden de Duitse archiefwetten het archiveren van digitale documenten als een verplichte taak van het staatsarchief, maar de implementatie van dit mandaat is nog maar net begonnen. In 2006 werd de DNBG (Wet op de Duitse Nationale Bibliotheek) aangenomen, die het mandaat van de Duitse Nationale Bibliotheek uitbreidt met het archiveren van websites. De deelstaten zijn van plan hun wettelijk depot te veranderen -Gesetze in die zin, of de verandering heeft al plaatsgevonden.

Doelen archiveren

Het doel van webarchivering is het systematisch in kaart brengen van een bepaald deel van de webpresences die op internet beschikbaar zijn. Hiervoor moet vooraf duidelijkheid zijn over een overkoepelend collectiebeleid, een selectieprocedure en de frequentie van archivering.

Een gearchiveerde website met alle multimediafuncties ( HTML-code , stylesheets , JavaScript , afbeeldingen en video) moet op lange termijn behouden blijven. Metadata zoals herkomst , tijdstip van verwerving, MIME-type en omvang van de gegevens worden gebruikt voor latere beschrijving, gebruik en bewaring. De metadata waarborgen de authenticiteit en integriteit van het digitale archiefmateriaal.

Na de overname moeten technische en juridische voorzorgsmaatregelen worden genomen om een ​​constante publieke toegankelijkheid te garanderen en om latere wijzigingen in het archiefmateriaal te voorkomen. [1]

Terminologie

Oorspronkelijke bron
Een originele bron die momenteel beschikbaar is of zou moeten zijn op internet en waarvoor toegang tot een eerdere staat vereist is. [2] [3]
aandenken
Een aandenken aan een originele bron is een bron die de oorspronkelijke staat van een bron op een bepaald tijdstip inkapselt. [2] [3]
Tijdpoort
Een TimeGate is een hulpmiddel dat op basis van een bepaalde datum en tijd het aandenken vindt dat het beste bij deze tijdslimiet past. [2] [3]
Tijdkaart
Een TimeMap is een bron die een lijst weergeeft van alle herinneringen die ooit voor de oorspronkelijke bron zijn gemaakt. [2] [3]

Selectie proces

niet-specifiek
In dit selectieproces wordt stapsgewijs een heel domein weggeschreven naar een archief. Vanwege de grote geheugenbehoefte werkt de procedure alleen voor kleinere domeinen (netarkivet.dk).
keuzelijst
Er wordt vooraf een lijst met instellingen vastgesteld. De stabiliteit van de URL's die aan de instellingen zijn gekoppeld, moet regelmatig worden gecontroleerd.
Gebruik van toegangsstatistieken
In de toekomst is 'intelligente' oogst denkbaar waarbij op basis van toegangstellingen die delen van het web (of een selectie) worden gearchiveerd die bijzonder hoge toegangspercentages hebben.

Adoptiemethoden:

Oogsten op afstand

De meest gebruikelijke archiveringsmethode is het gebruik van een webcrawler . Een webcrawler haalt de inhoud van een website op zoals een menselijke gebruiker en schrijft de resultaten naar een archiefobject. Meer bepaald betekent dit een recursief zoeken van websites op basis van de links die erop worden gevonden, beginnend bij een bepaald startgebied, dat een website kan zijn of een lijst met te doorzoeken websites. Vanwege kwantitatieve beperkingen, bijvoorbeeld door duur of opslagruimte, zijn verschillende beperkingen (beëindigingsvoorwaarden) met betrekking tot diepte, domein en de soorten bestanden die moeten worden gearchiveerd mogelijk.

Bij grotere projecten is de evaluatie van websites voor URL-ranking van bijzonder belang. Tijdens een crawlproces kan zich een groot aantal webadressen ophopen, die vervolgens ofwel in een lijst worden verwerkt met behulp van de FIFO- methode of als een prioriteitswachtrij . In het laatste geval kunnen de websites in een heapstructuur worden voorgesteld. Elke website vormt zelf zijn eigen heap en elke link naar een andere website die erin wordt gevonden, vormt een subheap die een element vertegenwoordigt in de heap van de vorige website. Dit heeft ook als voordeel dat in het geval van een overvolle URL-lijst, die met de laagste prioriteit eerst worden vervangen door nieuwe vermeldingen.

De oorspronkelijke structuur op de server kan echter zelden exact in het archief worden gereproduceerd. Om eventuele technische problemen in de aanloop naar mirroring uit te kunnen sluiten, is het raadzaam om vooraf een analyse van de website uit te voeren. Hoewel dit in de meeste gevallen het dataverkeer verdubbelt, verkort het de werktijd aanzienlijk in het geval van een fout. [4]

Voorbeelden van webcrawlers zijn:

Het verborgen web archiveren

Het verborgen web of deep web verwijst naar databases die vaak de daadwerkelijke inhoud van een website vertegenwoordigen en alleen op verzoek van een gebruiker worden uitgevoerd. Als gevolg hiervan verandert het web voortdurend en lijkt het alsof het oneindig groot is. Om deze databases over te nemen is een veelal op XML gebaseerde interface nodig. De tools DeepArc ( Bibliothèque nationale de France ) en Xinq ( National Library of Australia ) zijn ontwikkeld voor dergelijke toegang.

Transactionele archivering

Deze procedure wordt gebruikt om de resultaten van een websitegebruiksproces te archiveren. Het is van belang voor voorzieningen die om juridische redenen het gebruik ervan moeten aantonen. Voorwaarde is de installatie van een extra programma op de webserver.

Webarchivering in Duitsland

Op federaal niveau heeft de Duitse Nationale Bibliotheek (DNB) sinds 2006 het wettelijk mandaat voor webarchivering. Sinds 2012 worden websites thematisch en voor bepaalde evenementen gearchiveerd, d.w.z. selectief en niet volledig. DNB werkt samen met een externe dienstverlener. Bovendien zijn alle DE-domeinen in 2014 eenmaal gecrawld . Het webarchief is voornamelijk toegankelijk in de leeszalen. [5]

Naast de webarchivering van DNB zijn er initiatieven in verschillende deelstaten:

Er zijn ook andere webarchiveringsinitiatieven in Duitsland, bijvoorbeeld van partijgebonden stichtingen , van SWR , van Deutsche Post of van het biotechnologie/farmaceutische bedrijf AbbVie .

Zie ook

Implementaties

web links

Individueel bewijs

  1. ^ Steffen Fritz: geschiedenis herschrijven. (PDF) met WARC-bestanden. Januari 2016, gearchiveerd van het origineel op 9 november 2017 ; geraadpleegd op 9 november 2017 .
  2. a b c d RfC 7089 HTTP-framework voor op tijd gebaseerde toegang tot bronstatussen - aandenken
  3. a b c d Memento Gids: Inleiding. Ontvangen 5 oktober 2018 .
  4. Steffen Fritz: Praktijkrapport: Procedure voor het evalueren van de archiveerbaarheid van webobjecten In: ABI Technik No. 2, 2015, pp. 117-120. doi: 10.1515 / abitech-2015-0015
  5. Tobias Steinke: het Duitse internet archiveren ? Tussen een selectieve aanpak en .de domeincrawl . Duitse Nationale Bibliotheek, 26 juni 2014 ( dnb.de [PDF]).
  6. ^ Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Over de status van webarchivering in Baden-Württemberg . In: Bibliotheekdienst . plakband   51 , nee.   6 , 1 juni 2017, ISSN 2194-9646 , p.   481-489, doi : 10.1515 / bd-van 2017 tot 0051 ( degruyter.com [ bezocht op 24 maart 2020]).
  7. Tobias Beinert: webarchivering bij de Bayerische Staatsbibliothek . In: Bibliotheekdienst . plakband   51 , nee.   6 , 1 juni 2017, ISSN 2194-9646 , p.   490-499, doi : 10.1515 / bd-2017-0052 ( degruyter.com [ bezocht op 24 maart 2020]).
  8. Workflow webarchivering in langetermijnarchivering bij de Bayerische Staatsbibliothek | BABS. Ontvangen 24 maart 2020 .
  9. Edoweb: Rijnland-Palts archiefserver voor elektronische documenten en websites. Ontvangen 24 maart 2020 .