Kerja pengoptimum SEO adalah berskala besar. Pemula dinasihatkan untuk menulis algoritma pengoptimuman supaya tidak terlepas sebarang langkah. Jika tidak, promosi hampir tidak akan dipanggil berjaya, kerana tapak akan sentiasa mengalami kegagalan dan ralat yang perlu diperbetulkan untuk masa yang lama.
Salah satu langkah pengoptimuman adalah berfungsi dengan fail robots.txt. Setiap sumber harus mempunyai dokumen ini, kerana tanpanya ia akan menjadi lebih sukar untuk mengatasi pengoptimuman. Ia melaksanakan banyak fungsi yang perlu anda fahami.
Pembantu Robot
Fail robots.txt ialah dokumen teks biasa yang boleh dilihat dalam Notepad standard sistem. Apabila menciptanya, anda mesti menetapkan pengekodan kepada UTF-8 supaya ia boleh dibaca dengan betul. Fail berfungsi dengan protokol http, https dan FTP.
Dokumen ini ialah pembantu untuk mencari robot. Sekiranya anda tidak tahu, setiap sistem menggunakan "labah-labah" yang merangkak dengan pantas World Wide Web untuk mengembalikan tapak yang berkaitan untuk pertanyaan.pengguna. Robot ini mesti mempunyai akses kepada data sumber, robots.txt berfungsi untuk ini.
Untuk membolehkan labah-labah mencari jalan, anda perlu menghantar dokumen robots.txt ke direktori akar. Untuk menyemak sama ada tapak mempunyai fail ini, masukkan “https://site.com.ua/robots.txt” ke dalam bar alamat penyemak imbas. Daripada "site.com.ua" anda perlu memasukkan sumber yang anda perlukan.
Fungsi dokumen
Fail robots.txt menyediakan perangkak dengan beberapa jenis maklumat. Ia boleh memberikan akses separa supaya "labah-labah" mengimbas elemen tertentu sumber. Akses penuh membolehkan anda menyemak semua halaman yang tersedia. Larangan sepenuhnya menghalang robot daripada mula menyemak dan mereka meninggalkan tapak.
Selepas melawat sumber, "labah-labah" menerima respons yang sesuai untuk permintaan itu. Mungkin terdapat beberapa daripadanya, semuanya bergantung pada maklumat dalam robots.txt. Contohnya, jika imbasan berjaya, robot akan menerima kod 2xx.
Mungkin tapak itu telah diubah hala dari satu halaman ke halaman yang lain. Dalam kes ini, robot menerima kod 3xx. Jika kod ini berlaku beberapa kali, maka labah-labah akan mengikutinya sehingga ia menerima respons lain. Walaupun, sebagai peraturan, dia hanya menggunakan 5 percubaan. Jika tidak, ralat 404 yang popular akan muncul.
Jika jawapannya ialah 4xx, maka robot dibenarkan merangkak keseluruhan kandungan tapak. Tetapi dalam kes kod 5xx, semakan mungkin berhenti sepenuhnya, kerana ini selalunya menunjukkan ralat pelayan sementara.
Untuk apaperlukan robots.txt?
Seperti yang anda mungkin telah meneka, fail ini adalah panduan robot kepada akar tapak. Kini ia digunakan untuk menyekat sebahagian akses kepada kandungan yang tidak sesuai:
- halaman dengan maklumat peribadi pengguna;
- tapak cermin;
- hasil carian;
- borang penyerahan data, dsb.
Jika tiada fail robots.txt dalam akar tapak, robot akan merangkak sepenuhnya semua kandungan. Sehubungan itu, data yang tidak diingini mungkin muncul dalam hasil carian, yang bermaksud bahawa anda dan tapak akan menderita. Jika terdapat arahan khas dalam dokumen robots.txt, maka "labah-labah" akan mengikutinya dan memberikan maklumat yang dikehendaki oleh pemilik sumber.
Bekerja dengan fail
Untuk menggunakan robots.txt untuk menyekat tapak daripada pengindeksan, anda perlu memikirkan cara membuat fail ini. Untuk melakukan ini, ikut arahan:
- Buat dokumen dalam Notepad atau Notepad++.
- Tetapkan sambungan fail ".txt".
- Masukkan data dan arahan yang diperlukan.
- Simpan dokumen dan muat naik ke akar tapak.
Seperti yang anda lihat, pada salah satu peringkat adalah perlu untuk menetapkan arahan untuk robot. Ia terdiri daripada dua jenis: membenarkan (Membenarkan) dan melarang (Tidak membenarkan). Selain itu, sesetengah pengoptimum mungkin menentukan kelajuan rangkak, hos dan pautan ke peta halaman sumber.
Untuk mula bekerja dengan robots.txt dan menyekat sepenuhnya tapak daripada pengindeksan, anda juga mesti memahami simbol yang digunakan. Sebagai contoh, dalam dokumengunakan "/", yang menunjukkan bahawa keseluruhan tapak dipilih. Jika "" digunakan, maka urutan aksara diperlukan. Dengan cara ini, anda boleh menentukan folder tertentu yang sama ada boleh diimbas atau tidak.
Ciri bot
"Labah-labah" untuk enjin carian adalah berbeza, jadi jika anda bekerja untuk beberapa enjin carian serentak, maka anda perlu mengambil kira detik ini. Nama mereka berbeza, yang bermaksud bahawa jika anda ingin menghubungi robot tertentu, anda perlu menyatakan namanya: "Ejen Pengguna: Yandex" (tanpa petikan).
Jika anda ingin menetapkan arahan untuk semua enjin carian, maka anda perlu menggunakan arahan: "Ejen Pengguna: " (tanpa petikan). Untuk menyekat tapak dengan betul daripada mengindeks menggunakan robots.txt, anda perlu mengetahui spesifikasi enjin carian popular.
Faktanya ialah enjin carian paling popular Yandex dan Google mempunyai beberapa bot. Setiap daripada mereka mempunyai tugas sendiri. Sebagai contoh, Yandex Bot dan Googlebot ialah "labah-labah" utama yang merangkak tapak. Mengetahui semua bot, adalah lebih mudah untuk memperhalusi pengindeksan sumber anda.
Contoh
Jadi, dengan bantuan robots.txt, anda boleh menutup tapak daripada pengindeksan dengan arahan mudah, perkara utama ialah memahami perkara yang anda perlukan secara khusus. Sebagai contoh, jika anda mahu Googlebot tidak mendekati sumber anda, anda perlu memberikan arahan yang sesuai. Ia akan kelihatan seperti: "Ejen pengguna: Googlebot Disallow: /" (tanpa petikan).
Kini kita perlu memahami apa yang terkandung dalam perintah ini dan cara ia berfungsi. Jadi "Ejen pengguna"digunakan untuk menggunakan panggilan terus ke salah satu bot. Seterusnya, kami menunjukkan yang mana satu, dalam kes kami ia adalah Google. Arahan "Disallow" mesti bermula pada baris baharu dan melarang robot daripada memasuki tapak. Simbol slash dalam kes ini menunjukkan bahawa semua halaman sumber dipilih untuk pelaksanaan perintah.
Dalam robots.txt, anda boleh melumpuhkan pengindeksan untuk semua enjin carian dengan arahan mudah: "User-agent:Disallow: /" (tanpa petikan). Watak asterisk dalam kes ini menandakan semua robot carian. Biasanya, arahan sedemikian diperlukan untuk menjeda pengindeksan tapak dan memulakan kerja utama padanya, yang sebaliknya boleh menjejaskan pengoptimuman.
Jika sumber itu besar dan mempunyai banyak halaman, ia selalunya mengandungi maklumat proprietari yang sama ada tidak diingini untuk didedahkan atau ia boleh menjejaskan promosi secara negatif. Dalam kes ini, anda perlu memahami cara menutup halaman daripada pengindeksan dalam robots.txt.
Anda boleh menyembunyikan sama ada folder atau fail. Dalam kes pertama, anda perlu bermula semula dengan menghubungi bot tertentu atau semua orang, jadi kami menggunakan arahan "Ejen pengguna", dan di bawah kami menentukan arahan "Larang" untuk folder tertentu. Ia akan kelihatan seperti ini: "Larang: / folder /" (tanpa petikan). Dengan cara ini anda menyembunyikan keseluruhan folder. Jika ia mengandungi beberapa fail penting yang anda ingin tunjukkan, maka anda perlu menulis arahan di bawah: “Allow: /folder/file.php” (tanpa petikan).
Semak fail
Jika menggunakan robots.txt untuk menutup tapakAnda berjaya mengindeks, tetapi anda tidak tahu sama ada semua arahan anda berfungsi dengan betul, anda boleh menyemak ketepatan kerja itu.
Pertama, anda perlu menyemak peletakan dokumen sekali lagi. Ingat bahawa ia mestilah secara eksklusif dalam folder akar. Jika ia berada dalam folder root, maka ia tidak akan berfungsi. Seterusnya, buka penyemak imbas dan masukkan alamat berikut di sana: “https://yoursite. com/robots.txt (tanpa petikan). Jika anda mendapat ralat dalam penyemak imbas web anda, maka fail itu tidak berada di tempat yang sepatutnya.
Arahan boleh disemak dalam alatan khas yang digunakan oleh hampir semua juruweb. Kami bercakap tentang produk Google dan Yandex. Sebagai contoh, dalam Konsol Carian Google terdapat bar alat di mana anda perlu membuka "Merangkak", dan kemudian jalankan "Alat Pemeriksaan Fail Robots.txt". Anda perlu menyalin semua data daripada dokumen ke dalam tetingkap dan mula mengimbas. Semakan yang sama boleh dilakukan dalam Yandex. Webmaster.