Apa itu Web Archiving
Proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang. Organisasi pengarsip web terbesar yang menggunakan ancangan perangkat web ini adalah Internet Archive yang berupaya memelihara arsip dari seluruh Web. Perangkat lunak dan layanan komersial juga tersedia bagi organisasi yang ingin mengarsipkan konten web mereka untuk berbagai keperluan. Arsiparis web umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Juga menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam menjaga keaslian dan asal dari koleksi arsip.
Cara Kerja Web Archiving
- Remote Harvesting = Metode yang digunakan web crawler secara otomatis melakukan proses pengumpulan halaman web. Contohnya seperti : Heritrix, HTTrack, Wget.
- On-Demand = Menggunakan teknik web crawling. Contohnya seperti : Aleph Archives, archive.is, Archive-It, Archivethe.net, Compliance WatchDog by SiteQuest Technologies, freezePAGE snapshots, Hanzo Archives, Iterasi, Nextpoint, Patrina, PageFreezer, Reed Archives, Smarsh Web Archiving, The Web Archiving Service, webEchoFS, WebCite, Website-Archive.com
- Database Archiving = Metode arsip konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan dapat tersedia untuk diakses menggunakan single access system. Motode ini digunakan pada DeepArc dan Xinq yang dikembangkan oleh Bibliothèque nationale de France dan National Library of Australia.
- Transactional archiving = Mengumpulkan transaksi yang berlangsung antar web server dan web browser. Hal ini digunakan untuk menjamin keaslian dari isi suatu website. Sistem yang digunakan biasanya beroperasi dengan memeriksa setiap permintaan HTTP dan respon dari web server, menyaring setiap aktifitas untuk menghilangkan konten yang duplikat, secara permanen disimpan sebagai bitstreams. Sistem tersebut membutuhkan instalasi perangkat lunak pada web server, karena hal itu, metode ini tidak dapat mengumpulkan konten dari remote website.
Tidak ada komentar:
Posting Komentar