Contoh file robots.txt untuk Situs Web Anda

File robots.txt yang disimpan di root situs web Anda akan memberi tahu robot web seperti spider mesin telusur, direktori dan file apa yang diizinkan untuk dirayapi. Sangat mudah untuk menggunakan file robots.txt, tetapi ada beberapa hal yang harus Anda ingat:

  1. Robot web topi hitam akan mengabaikan file robots.txt Anda. Jenis yang paling umum adalah bot perangkat lunak perusak dan robot yang mencari alamat email untuk dipanen.
  2. Beberapa programmer baru akan menulis robot yang mengabaikan file robots.txt. Ini biasanya dilakukan oleh kesalahan.
  1. Siapa pun dapat melihat file robots.txt Anda. Mereka selalu disebut robots.txt dan selalu disimpan di root situs web.
  2. Terakhir, jika seseorang menautkan ke file atau direktori yang dikecualikan oleh file robots.txt Anda dari laman yang tidak dikecualikan oleh file robots.txt mereka, mesin telusur mungkin menemukannya.

Jangan gunakan file robots.txt untuk menyembunyikan sesuatu yang penting. Sebagai gantinya, Anda harus meletakkan informasi penting di balik kata sandi aman atau membiarkannya keluar dari web sepenuhnya.

Cara Menggunakan File Contoh Ini

Salin teks dari sampel yang paling dekat dengan apa yang ingin Anda lakukan, dan tempelkan ke file robots.txt Anda. Ubah robot, direktori, dan nama file agar sesuai dengan konfigurasi pilihan Anda.

Dua File Robots.txt Dasar

Agen pengguna: *
Disallow: /

File ini mengatakan bahwa setiap robot (User-agent: *) yang mengaksesnya harus mengabaikan setiap halaman di situs (Disallow: /).

Agen pengguna: *
Melarang:

File ini mengatakan bahwa setiap robot (User-agent: *) yang mengaksesnya diperbolehkan untuk melihat setiap halaman di situs (Disallow:).

Anda juga dapat melakukan ini dengan membiarkan file robots.txt Anda kosong atau tidak memiliki satu pun di situs Anda sama sekali.

Lindungi Direktori Khusus Dari Robot

Agen pengguna: *
Larang: / cgi-bin /
Disallow: / temp /

File ini mengatakan bahwa setiap robot (User-agent: *) yang mengaksesnya harus mengabaikan direktori / cgi-bin / dan / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Lindungi Halaman Tertentu Dari Robot

Agen pengguna: *
Disallow: /jenns-stuff.htm
Disallow: /private.php

File ini mengatakan bahwa setiap robot (User-agent: *) yang mengaksesnya harus mengabaikan file /jenns-stuff.htm dan /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Mencegah Robot Khusus dari Mengakses Situs Anda

Agen pengguna: Lycos / xx
Disallow: /

File ini mengatakan bahwa bot Lycos (User-agent: Lycos / xx) tidak diizinkan mengakses di mana saja di situs (Disallow: /).

Izinkan Hanya Satu Akses Robot Tertentu

Agen pengguna: *
Disallow: /
Agen pengguna: Googlebot
Melarang:

File ini pertama kali melarang semua robot seperti yang kami lakukan di atas, dan kemudian secara eksplisit memungkinkan Googlebot (User-agent: Googlebot) memiliki akses ke semua (Disallow:).

Gabungkan Beberapa Baris untuk Mendapatkan Pengecualian yang Anda Inginkan

Meskipun lebih baik menggunakan jalur User-agent yang sangat inklusif, seperti User-agent: *, Anda dapat sespesifik yang Anda suka. Ingat bahwa robot membaca file secara berurutan. Jadi jika baris pertama mengatakan bahwa semua robot diblokir dari semuanya, dan kemudian di file itu dikatakan bahwa semua robot diizinkan mengakses semuanya, robot akan memiliki akses ke semuanya.

Jika Anda tidak yakin apakah Anda telah menulis file robots.txt dengan benar, Anda dapat menggunakan Alat Webmaster Google untuk memeriksa file robots.txt Anda atau menulis yang baru.