Pengertian Web Crawler
Pernahkah kamu bertanya-tanya, mengapa sebuah situs bisa muncul di search engine? Nah, web crawling adalah salah satu tools yang membantu agar situs tersebut mudah ditemukan oleh search engine. Lalu, sebenarnya apa itu web crawling?
Web crawler atau sering juga disebut spiders adalah sebuah program atau bot yang digunakan oleh search engine untuk menelusuri, mengumpulkan data yang ada di internet. Crawler mengumpulkan, menganalisis konten website dan menyimpan informasi yang didapatkan di dalam database search engine tersebut. Proses selama crawler menelusuri konten disebut crawling, sedangkan proses penyimpanan informasinya disebut indexing.
Contoh Web Crawler
Jika Anda melakukan pencarian dengan keyword yang sama di mesin pencari lain, tampil hasil yang berbeda karena Setiap mesin pencari memiliki web crawler sendiri. Contoh Web Crawler terpopuler saat ini :
- GoogleBot = Menyimpan konten website di database google.
- Bingbot = Menyimpan data di database search engine Bing.
- Slurp Bot = Menampilkan konten website di Yahoo search engine.
- DuckDuckBot (DuckDuckGO) = Menelusuri dan menyimpan data.
- Baiduspider dari Baidu (mesin pencari terkenal di China).
- Yandex Bot dari Yandex (mesin pencari terbesar di Rusia).
- Sogou Spider dari Sogou (mesin pencari dari China).
- Exabot dari Exalead (Search Engine Prancis).
- Alexa Crawler (Amazon) = Menentukan ranking internet Alexa.
- Webhose = Konten tidak terstruktur menjadi data feeds, yang dapat dibaca oleh mesin.
Bagaimana Cara Kerja Crawler ?
Karena banyaknya website dan data yang ada di internet, sangat tidak mungkin untuk search engine bisa mengetahui informasi mana yang relevan tanpa web crawler. Maka dari itulah web crawler ini memulai pekerjaannya berdasarkan daftar link halaman yang sudah ia kenal sebelumnya dari sitemap yang merupakankumpulan halaman website yang sudah terpublish dan bisa di akses oleh user dan search engine.
Nah, dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, akan melakukan crawling (mengumpulkan berbagai informasi, seperti tulisan dan meta tag) ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti. Informasi tersebut akan tersimpan dalam indeks search engine sehingga dapat muncul ketika pengguna mencari konten dengan keyword yang serupa. Namun, web crawler tidak sembarangan melakukan crawling. Ada 3 aturan yang harus dipertimbangkan yaitu :
- Seberapa Penting dan Relevan Suatu Konten Website.
- Kunjungan Rutin = Memastikan versi terakhir halaman tersebut yang ada di indeks.
- Menuruti Keinginan Robots.txt = File di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.
Fungsi Web Crawler
Fungsi utama dari web crawler yaitu mengindeks konten di internet. Namun ada beberapa fungsi lain yang juga tak kalah penting :
- Membandingkan Harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.
- Data untuk Tools Analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.
- Data Untuk Statistik = Misalnya, hasil pencarian berita yang akan muncul di Google News. Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan di-crawl oleh web crawler nantinya.
Memblokir Web Crawler
Anda bisa memblokir atau melarang web crawler untuk melakukan crawling menggunakan file robots.txt. Kenapa diblokir? karena, pada kondisi tertentu, ada konten yang tidak perlu masuk indeks, Misalnya konten duplikat yang justru bisa membuat website Anda dihapus dari indeks. Selain itu, melarang web crawler melakukan crawling pada halaman yang tak penting bisa mengurangi beban website dan mempercepat proses indexing.
Keterangan gambar diatas ialah :
- User-agents: googlebot tidak diizinkan merayapi folder A
- User-agents: blekokbot tidak diizinkan merayapi folder B
- User-agents: bingbot tidak diizinkan merayapi folder A dan file balapkarug.html
Membuat file robots.txt dan memasangnya, dengan cara sebagai berikut :- Buat file robots.txt di direktori website Anda.
- Masukan rule User-agents sesuai yang Anda butuhkan, kemudian simpan
- Akses http://namawebsite/robots.txt jika sudah tampil, berarti pemasangan berhasil.
Sumber :