Salah satu alat untuk mengurus pengindeksan laman web oleh mesin pencari adalah fail robots.txt. Ia digunakan terutamanya untuk mengelakkan semua atau hanya robot tertentu memuat turun kandungan kumpulan halaman tertentu. Ini membolehkan anda membuang "sampah" dalam hasil mesin pencari dan, dalam beberapa kes, meningkatkan kedudukan sumber dengan ketara. Penting untuk mempunyai fail robots.txt yang betul untuk aplikasi yang berjaya.
Perlu
penyunting teks
Arahan
Langkah 1
Buat senarai robot yang akan ditetapkan peraturan pengecualian khas atau arahan dari standard robots.txt yang diperluas, serta arahan tidak standard dan khusus (peluasan enjin carian tertentu) akan digunakan. Masukkan ke dalam senarai ini nilai bidang User-Agent dari tajuk permintaan HTTP yang dihantar oleh robot yang dipilih ke pelayan laman web. Nama robot juga boleh didapati di bahagian rujukan laman web enjin carian.
Langkah 2
Pilih kumpulan URL sumber laman web yang mana aksesnya harus ditolak ke setiap robot dalam senarai yang disusun pada langkah pertama. Lakukan operasi yang sama untuk semua robot lain (satu set bot pengindeksan yang tidak ditentukan). Dengan kata lain, hasilnya mestilah beberapa senarai yang mengandungi pautan ke bahagian laman web, kumpulan halaman atau sumber kandungan media yang dilarang mengindeks. Setiap senarai mesti sesuai dengan robot yang berbeza. Terdapat juga senarai URL yang dilarang untuk semua bot lain. Buat senarai berdasarkan perbandingan struktur logik laman web dengan lokasi fizikal data di pelayan, dan juga dengan mengelompokkan URL halaman mengikut ciri-ciri fungsinya. Sebagai contoh, anda boleh memasukkan dalam senarai penolakan kandungan katalog perkhidmatan apa pun (dikelompokkan mengikut lokasi) atau semua halaman profil pengguna (dikelompokkan berdasarkan tujuan).
Langkah 3
Pilih tanda URL untuk setiap sumber yang terdapat dalam senarai yang disusun pada langkah kedua. Semasa memproses senarai pengecualian untuk robot yang hanya menggunakan arahan robots.txt standard dan robot yang tidak ditentukan, sorot bahagian URL unik dengan panjang maksimum. Untuk set alamat yang tinggal, anda dapat membuat templat sesuai dengan spesifikasi mesin pencari tertentu.
Langkah 4
Buat fail robots.txt. Tambahkan kumpulan arahan ke dalamnya, yang masing-masing sesuai dengan sekumpulan peraturan larangan untuk robot tertentu, daftarnya disusun pada langkah pertama. Yang terakhir harus diikuti oleh sekumpulan arahan untuk semua robot lain. Pisahkan kumpulan peraturan dengan satu baris kosong. Setiap peraturan mesti dimulakan dengan arahan ejen Pengguna yang mengenal pasti robot, diikuti dengan arahan Larangan, yang melarang pengindeksan kumpulan URL. Buat garis yang diperoleh pada langkah ketiga dengan nilai arahan Larangan. Pisahkan arahan dan maknanya dengan titik dua. Pertimbangkan contoh berikut: Ejen pengguna: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Set arahan ini mengarahkan robot utama Mesin pencari Yandex tidak mengindeks URL. Yang mengandungi substring / temp / data / gambar /. Ini juga mencegah semua robot lain mengindeks URL yang mengandungi / temp / data /.
Langkah 5
Lengkapkan robots.txt dengan arahan standard yang diperluas atau arahan mesin carian tertentu. Contoh arahan tersebut adalah: Host, Peta Laman, Kadar permintaan, Masa lawatan, Kelewatan merangkak.