Kebanyakan blogger berpengalaman pasti tahu apa itu robots.txt dan mengapa anda memerlukan fail ini. Tetapi sebilangan kecil pengarang segera membuat fail robots.txt setelah memasang blog di WordPress.
Robots.txt adalah fail teks yang dimuat ke direktori root laman web anda dan mengandungi arahan untuk perayap. Tujuan utama penggunaannya adalah untuk melarang pengindeksan halaman dan bahagian individu di laman web ini. Walau bagaimanapun, menggunakan robots.txt, anda juga dapat menentukan cermin domain yang betul, menetapkan jalan ke peta laman, dan sejenisnya.
Sebilangan besar mesin carian moden telah belajar menavigasi CMS yang popular dan biasanya tidak cuba mengindeks kandungan yang tidak dimaksudkan untuk ini. Sebagai contoh, Google tidak akan mengindeks kawasan pentadbir blog WordPress anda walaupun anda tidak menentukannya secara langsung di robots.txt. Walau bagaimanapun, dalam beberapa kes, penggunaan larangan langsung tetap berguna. Dan kami bercakap terutamanya mengenai larangan kandungan pendua.
Sebilangan webmaster melarang pengindeksan halaman kategori dan tag, kerana kandungannya sebahagiannya menggandakan kandungan halaman utama. Tetapi kebanyakannya terbatas pada melarang trackback dan halaman feed, yang sama sekali mendua kandungan artikel dan sama sekali tidak dimaksudkan untuk mesin pencari. Langkah berjaga-jaga seperti itu bukan sahaja menjadikan hasil laman web "lebih bersih", tetapi juga dapat menyelamatkan anda dari kemungkinan penapis carian, terutama setelah pengenalan algoritma Google Panda yang baru.
Berikut adalah arahan yang disyorkan untuk fail robots.txt (ia akan berfungsi untuk hampir mana-mana blog WordPress):
Pengguna-Ejen: * Larang: /wp-login.php Larang: /wp-register.php Larang: /xmlrpc.php Larang: / wp-admin Larang: / wp-termasuk Tidak dibenarkan: / wp-content / plugin Tidak dibenarkan: / wp-content / cache Larang: / wp-content / tema Larang: / trackback / Larang: / feed / Larang: * / trackback / Larang: * / feed /
Harap maklum bahawa dalam robots.txt folder pentadbiran wp-admin dan wp-include ditutup sepenuhnya untuk pengindeksan. Folder kandungan wp hanya ditutup sebagian, karena berisi direktori muat naik, yang berisi semua gambar dari blog Anda yang harus diindeks.
Yang perlu anda buat hanyalah menyalin arahan dari kod di atas (perhatikan bahawa setiap arahan mesti ditulis pada baris baru), simpannya ke fail teks yang disebut robots.txt, dan muat naik ke direktori root laman web anda.
Anda sentiasa dapat memeriksa sama ada robots.txt berfungsi dengan betul melalui antara muka Alat Webmaster Google dan antara muka Webmaster Yandex.