Bagaimana untuk menyediakan Robots.txt dengan betul?

Isi kandungan:

Bagaimana untuk menyediakan Robots.txt dengan betul?
Bagaimana untuk menyediakan Robots.txt dengan betul?
Anonim

txt Robots yang betul untuk tapak html mencipta mockup tindakan untuk bot enjin carian, memberitahu mereka perkara yang boleh mereka semak. Fail ini sering dirujuk sebagai Protokol Pengecualian Robot. Perkara pertama yang bot cari sebelum merangkak tapak web ialah robots.txt. Ia boleh menunjuk atau memberitahu Peta Laman untuk tidak menyemak subdomain tertentu. Apabila anda mahu enjin carian mencari perkara yang paling kerap ditemui, maka robots.txt tidak diperlukan. Adalah sangat penting dalam proses ini bahawa fail diformat dengan betul dan tidak mengindeks halaman pengguna dengan data peribadi pengguna.

Prinsip pengimbasan robot

Prinsip pengimbasan robot
Prinsip pengimbasan robot

Apabila enjin carian menemui fail dan melihat URL yang dilarang, ia tidak merangkaknya, tetapi ia boleh mengindeksnya. Ini kerana walaupun robot tidak dibenarkan melihat kandungan, mereka boleh mengingati pautan balik yang menunjuk ke URL terlarang. Disebabkan akses yang disekat kepada pautan, URL akan muncul dalam enjin carian, tetapi tanpa serpihan. Sekiranyauntuk strategi pemasaran yang akan datang, Robots txt untuk bitrix (Bitrix) yang betul diperlukan, mereka menyediakan pengesahan tapak atas permintaan pengguna melalui pengimbas.

Sebaliknya, jika fail tidak diformat dengan betul, ini boleh menyebabkan tapak tidak muncul dalam hasil carian dan tidak ditemui. Enjin carian tidak boleh memintas fail ini. Seorang pengaturcara boleh melihat robots.txt mana-mana tapak dengan pergi ke domainnya dan mengikutinya dengan robots.txt, contohnya, www.domain.com/robots.txt. Menggunakan alat seperti bahagian pengoptimuman SEO Unamo, di mana anda boleh memasukkan mana-mana domain dan perkhidmatan akan menunjukkan maklumat tentang kewujudan fail.

Sekatan untuk mengimbas:

  1. Pengguna mempunyai kandungan lapuk atau sensitif.
  2. Imej di tapak tidak akan disertakan dalam hasil carian imej.
  3. Tapak ini belum bersedia untuk demo diindeks oleh robot.

Perlu diingat bahawa maklumat yang pengguna ingin terima daripada enjin carian tersedia kepada sesiapa sahaja yang memasukkan URL. Jangan gunakan fail teks ini untuk menyembunyikan data sensitif. Jika domain mempunyai ralat 404 (tidak dijumpai) atau 410 (lulus), enjin carian menyemak tapak walaupun terdapat robots.txt, dalam hal ini ia menganggap bahawa fail itu hilang. Ralat lain seperti 500 (Ralat Pelayan Dalaman), 403 (Dilarang), tamat masa atau "tidak tersedia" menghormati arahan robots.txt, namun pintasan boleh ditangguhkan sehingga fail tersedia.

Membuat fail carian

Mencipta fail carian
Mencipta fail carian

BanyakProgram CMS seperti WordPress sudah mempunyai fail robots.txt. Sebelum mengkonfigurasi Robots txt WordPress dengan betul, pengguna perlu membiasakan diri dengan keupayaannya untuk mengetahui cara mengaksesnya. Jika pengaturcara mencipta fail itu sendiri, ia mesti memenuhi syarat berikut:

  1. Mesti dalam huruf kecil.
  2. Gunakan pengekodan UTF-8.
  3. Simpan dalam editor teks sebagai fail (.txt).

Apabila pengguna tidak tahu di mana hendak meletakkannya, mereka menghubungi vendor perisian pelayan web untuk mengetahui cara mengakses akar domain atau pergi ke konsol Google dan memuat turunnya. Dengan fungsi ini, Google juga boleh menyemak sama ada bot berfungsi dengan betul dan senarai tapak yang telah disekat menggunakan fail tersebut.

Format utama txt Robots yang betul untuk bitrix (Bitrix):

  1. Legend robots.txt.
  2. , menambah ulasan yang digunakan sebagai nota sahaja.
  3. Komen ini akan diabaikan oleh pengimbas bersama-sama dengan sebarang kesilapan menaip pengguna.
  4. Ejen-pengguna - menunjukkan enjin carian yang mana arahan untuk fail disenaraikan.
  5. Menambah asterisk () memberitahu pengimbas bahawa arahannya adalah untuk semua orang.

Menunjukkan bot tertentu, contohnya, Googlebot, Baiduspider, Applebot. Disallow memberitahu perangkak bahagian mana tapak web yang tidak boleh dirangkak. Ia kelihatan seperti ini: Ejen pengguna:. Asterisk bermaksud "semua bot". Walau bagaimanapun, anda boleh menentukan halaman untuk tertentubot. Untuk melakukan ini, anda perlu mengetahui nama bot yang pengesyorannya ditetapkan.

txt robot yang betul untuk Yandex mungkin kelihatan seperti ini:

Robot txt yang betul untuk Yandex
Robot txt yang betul untuk Yandex

Jika bot tidak sepatutnya merangkak tapak, anda boleh menentukannya dan untuk mencari nama ejen pengguna, adalah disyorkan untuk membiasakan diri dengan keupayaan dalam talian useragentstring.com.

Pengoptimuman halaman

Pengoptimuman halaman
Pengoptimuman halaman

Dua baris berikut dianggap sebagai fail robots.txt yang lengkap dan satu fail robot boleh mengandungi berbilang baris ejen pengguna dan arahan yang melumpuhkan atau mendayakan rangkak. Format utama txt Robot yang betul:

  1. Ejen pengguna: [nama pengguna ejen].
  2. Tidak Benarkan: [rentetan URL yang tidak dirangkak].

Dalam fail, setiap blok arahan dipaparkan sebagai diskret, dipisahkan dengan garisan. Dalam fail di sebelah direktori pengguna ejen, setiap peraturan digunakan pada set baris yang dipisahkan bahagian tertentu. Jika fail mempunyai peraturan berbilang ejen, robot hanya akan mempertimbangkan kumpulan arahan yang paling khusus.

Sintaks teknikal

Sintaks Teknikal
Sintaks Teknikal

Ia boleh dianggap sebagai "bahasa" fail robots.txt. Terdapat lima istilah yang boleh wujud dalam format ini, yang utama termasuk:

  1. Ejen pengguna - Perangkak web dengan arahan rangkak, biasanya enjin carian.
  2. Disallow ialah perintah yang digunakan untuk memberitahu ejen pengguna untuk memintas(peninggalan) URL tertentu. Hanya ada satu syarat terlarang untuk setiap satu.
  3. Benarkan. Untuk Googlebot yang mendapat akses, halaman pengguna pun dinafikan.
  4. Crawl-delay - menentukan berapa saat yang diperlukan oleh perangkak sebelum merangkak. Apabila bot tidak mengesahkannya, kelajuan ditetapkan dalam konsol Google.
  5. Peta Laman - Digunakan untuk mencari mana-mana peta XML yang dikaitkan dengan URL.

Padanan Corak

Apabila ia datang untuk menyekat URL atau membenarkan txt Robot yang sah, operasi boleh menjadi agak rumit kerana ia membolehkan anda menggunakan padanan corak untuk merangkumi beberapa kemungkinan parameter URL. Google dan Bing kedua-duanya menggunakan dua aksara yang mengenal pasti halaman atau subfolder yang ingin dikecualikan oleh SEO. Dua aksara tersebut ialah asterisk () dan tanda dolar ($), dengan:ialah kad bebas yang mewakili sebarang jujukan aksara. $ - sepadan dengan penghujung URL.

Google menawarkan senarai besar kemungkinan sintaks templat yang menerangkan kepada pengguna cara menyediakan fail txt Robots dengan betul. Beberapa kes penggunaan biasa termasuk:

  1. Halang kandungan pendua daripada dipaparkan dalam hasil carian.
  2. Pastikan semua bahagian tapak web peribadi.
  3. Simpan halaman dalaman hasil carian berdasarkan pernyataan terbuka.
  4. Nyatakan lokasi.
  5. Halang enjin carian daripada mengindeks tertentufail.
  6. Menentukan kelewatan merangkak untuk berhenti memuat semula apabila mengimbas berbilang kawasan kandungan pada masa yang sama.

Menyemak kehadiran fail robot

Jika tiada kawasan di tapak yang perlu dirangkak, maka robots.txt tidak diperlukan sama sekali. Jika pengguna tidak pasti bahawa fail ini wujud, dia perlu memasukkan domain akar dan menaipnya di hujung URL, seperti ini: moz.com/robots.txt. Sebilangan bot carian mengabaikan fail ini. Walau bagaimanapun, sebagai peraturan, perangkak ini bukan milik enjin carian yang bereputasi. Mereka ialah jenis spammer, pengagregat mel dan jenis bot automatik lain yang banyak ditemui di Internet.

Adalah sangat penting untuk diingat bahawa menggunakan standard pengecualian robot bukanlah langkah keselamatan yang berkesan. Malah, sesetengah bot mungkin bermula dengan halaman tempat pengguna menetapkannya kepada mod imbasan. Terdapat beberapa bahagian yang masuk ke dalam fail pengecualian standard. Sebelum anda memberitahu robot halaman yang tidak sepatutnya berfungsi, anda perlu menentukan robot yang hendak dibincangkan. Dalam kebanyakan kes, pengguna akan menggunakan pengisytiharan ringkas yang bermaksud "semua bot".

pengoptimuman SEO

pengoptimuman SEO
pengoptimuman SEO

Sebelum mengoptimumkan, pengguna mesti memastikan bahawa dia tidak menyekat mana-mana kandungan atau bahagian tapak yang perlu dipintas. Pautan ke halaman yang disekat oleh txt Robots yang betul tidak akan dihormati. Ini bermakna:

  1. Jika ia tidak dipautkan ke halaman lain yang tersedia untuk enjin carian iaitu. muka surat,tidak disekat oleh robots.txt atau robot meta, dan sumber yang berkaitan tidak akan dirangkak dan oleh itu tidak boleh diindeks.
  2. Tiada pautan boleh dihantar dari halaman yang disekat ke destinasi pautan. Jika terdapat halaman sedemikian, lebih baik menggunakan mekanisme penyekatan yang berbeza daripada robots.txt.

Oleh kerana halaman lain mungkin memaut terus ke halaman yang mengandungi maklumat peribadi dan anda ingin menyekat halaman ini daripada hasil carian, gunakan kaedah lain, seperti perlindungan kata laluan atau data meta noindex. Sesetengah enjin carian mempunyai berbilang ejen pengguna. Contohnya, Google menggunakan Googlebot untuk carian organik dan Googlebot-Image untuk carian imej.

Kebanyakan ejen pengguna daripada enjin carian yang sama mengikut peraturan yang sama, jadi tidak perlu menentukan arahan untuk setiap beberapa perangkak, tetapi dapat berbuat demikian boleh memperhalusi rangkakan kandungan tapak. Enjin carian menyimpan cache kandungan fail, dan biasanya mengemas kini kandungan cache sekurang-kurangnya sekali sehari. Jika pengguna menukar fail dan ingin mengemas kini lebih cepat daripada biasa, mereka boleh menyerahkan URL robots.txt kepada Google.

Enjin carian

Menyemak kewujudan fail robot
Menyemak kewujudan fail robot

Untuk memahami cara Robots txt berfungsi dengan betul, anda perlu mengetahui tentang keupayaan enjin carian. Pendek kata, keupayaan mereka terletak pada hakikat bahawa mereka menghantar "pengimbas", iaitu program yangmelayari Internet untuk mendapatkan maklumat. Mereka kemudian menyimpan beberapa maklumat ini untuk menyampaikannya kemudian kepada pengguna.

Bagi ramai orang, Google sudah pun menjadi Internet. Malah, mereka betul, kerana ini mungkin ciptaannya yang paling penting. Dan walaupun enjin carian telah banyak berubah sejak penubuhannya, prinsip asasnya masih sama. Perayap, juga dikenali sebagai "bot" atau "labah-labah", mencari halaman daripada berbilion tapak web. Enjin carian memberi mereka arah ke mana hendak pergi, manakala tapak individu juga boleh berkomunikasi dengan bot dan memberitahu mereka halaman tertentu yang patut mereka lihat.

Secara amnya, pemilik tapak tidak mahu muncul dalam enjin carian: halaman pentadbir, portal hujung belakang, kategori dan teg serta halaman maklumat lain. Fail robots.txt juga boleh digunakan untuk menghalang enjin carian daripada menyemak halaman. Ringkasnya, robots.txt memberitahu perangkak web perkara yang perlu dilakukan.

Laman Halaman

Ini ialah bahagian utama fail pengecualian robot. Dengan pengisytiharan mudah, pengguna memberitahu bot atau kumpulan bot supaya tidak merangkak halaman tertentu. Sintaksnya mudah, sebagai contoh, untuk menafikan akses kepada semua dalam direktori "admin" tapak, tulis: Disallow: /admin. Baris ini akan menghalang bot daripada merangkak yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html dan apa-apa lagi di bawah direktori pentadbir.

Untuk tidak membenarkan satu halaman, nyatakan ia dalam baris tidak benar: Disallow: /public/exception.html. Kini halaman "pengecualian".tidak akan berhijrah, tetapi semua yang lain dalam folder "awam" akan berhijrah.

Untuk memasukkan berbilang halaman, cuma senaraikan:

Direktori dan halaman
Direktori dan halaman

Empat baris txt Robot yang betul untuk simfoni ini akan digunakan pada mana-mana ejen pengguna yang disenaraikan di bahagian atasrobots.txt untuk

Larang halaman
Larang halaman

Peta laman:

Perintah lain:langsung - jangan benarkan perangkak web mengindeks cpresources/ atau provider/.

Ejen Pengguna:Tidak Benarkan: /cpresources/.

Nafi: / vendor / Tolak: /.env.

Menetapkan standard

Pengguna boleh menentukan halaman tertentu untuk bot yang berbeza dengan menggabungkan dua elemen sebelumnya, beginilah rupanya. Contoh txt Robot yang betul untuk semua enjin carian dibentangkan di bawah.

Menetapkan Piawaian
Menetapkan Piawaian

Bahagian "admin" dan "peribadi" tidak akan kelihatan kepada Google dan Bing, tetapi Google masih akan melihat direktori "rahsia", manakala Bing tidak akan kelihatan. Anda boleh menentukan peraturan am untuk semua bot menggunakan ejen pengguna asterisk, dan kemudian memberikan arahan khusus kepada bot dalam bahagian berikut. Dengan pengetahuan di atas, pengguna boleh menulis contoh txt Robot yang betul untuk semua enjin carian. Hanya hidupkan editor teks kegemaran anda dan beritahu bot mereka tidak dialu-alukan di bahagian tertentu tapak.

Petua untuk meningkatkan prestasi pelayan

SublimeTeks ialaheditor teks serba boleh dan standard emas untuk banyak pengaturcara. Petua pengaturcaraannya adalah berdasarkan pengekodan yang cekap, lebih-lebih lagi. pengguna menghargai kehadiran pintasan dalam program ini. Jika pengguna ingin melihat contoh fail robots.txt, mereka harus pergi ke mana-mana tapak dan menambah "/robots.txt" pada penghujung. Berikut ialah sebahagian daripada fail robots.txt GiantBicycles.

Program ini menyediakan penciptaan halaman yang pengguna tidak mahu tunjukkan dalam enjin carian. Dan juga mempunyai beberapa perkara eksklusif yang jarang diketahui orang. Contohnya, semasa fail robots.txt memberitahu bot tempat yang tidak boleh dituju, fail peta laman melakukan sebaliknya dan membantu mereka mencari perkara yang mereka cari, dan walaupun enjin carian mungkin sudah tahu di mana peta laman itu berada, ia tidak mendapat dalam perjalanan.

Terdapat dua jenis fail: halaman HTML atau fail XML. Halaman HTML ialah halaman yang menunjukkan kepada pelawat semua halaman yang tersedia pada tapak web. Dalam robots.txtnya sendiri, ia kelihatan seperti ini: Sitemap://www.makeuseof.com/sitemap_index.xml. Jika tapak tersebut tidak diindeks oleh enjin carian, walaupun ia telah dirangkak beberapa kali oleh robot web, anda perlu memastikan bahawa fail itu ada dan kebenarannya ditetapkan dengan betul.

Secara lalai, ini akan berlaku kepada semua pemasangan SeoToaster, tetapi jika perlu, anda boleh menetapkannya semula seperti ini: Fail robots.txt - 644. Bergantung pada pelayan PHP, jika ini tidak berfungsi untuk pengguna, ia disyorkan untuk mencuba yang berikut: File robots.txt - 666.

Menetapkan kelewatan imbasan

Arahan kelewatan pintasan memaklumkan perkara tertentuenjin carian seberapa kerap mereka boleh mengindeks halaman di tapak. Ia diukur dalam beberapa saat, walaupun sesetengah enjin carian mentafsirnya sedikit berbeza. Sesetengah orang melihat kelewatan merangkak 5 apabila mereka diberitahu untuk menunggu lima saat selepas setiap imbasan untuk memulakan yang seterusnya.

Orang lain mentafsirkan ini sebagai arahan untuk mengimbas satu halaman sahaja setiap lima saat. Robot tidak boleh mengimbas lebih pantas untuk menjimatkan lebar jalur pelayan. Jika pelayan perlu memadankan trafik, ia boleh menetapkan kelewatan pintasan. Secara umum, dalam kebanyakan kes, pengguna tidak perlu risau tentang perkara ini. Beginilah cara kelewatan merangkak selama lapan saat ditetapkan - Lengah-rangkak: 8.

Tetapi tidak semua enjin carian akan mematuhi arahan ini, jadi apabila tidak membenarkan halaman, anda boleh menetapkan kelewatan rangkak yang berbeza untuk enjin carian tertentu. Selepas semua arahan dalam fail disediakan, anda boleh memuat naiknya ke tapak, mula-mula pastikan ia adalah fail teks ringkas dan mempunyai nama robots.txt dan boleh didapati di yoursite.com/robots.txt.

Bot WordPress terbaik

Bot WordPress Terbaik
Bot WordPress Terbaik

Terdapat beberapa fail dan direktori pada tapak WordPress yang perlu dikunci setiap kali. Direktori yang tidak dibenarkan oleh pengguna ialah direktori cgi-bin dan direktori WP standard. Sesetengah pelayan tidak membenarkan akses kepada direktori cgi-bin, tetapi pengguna mesti memasukkannya ke dalam arahan yang tidak dibenarkan sebelum mengkonfigurasi Robots txt WordPress dengan betul

Direktori WordPress standard,yang harus disekat ialah wp-admin, wp-content, wp-includes. Direktori ini tidak mengandungi data yang pada mulanya berguna untuk enjin carian, tetapi terdapat pengecualian, iaitu terdapat subdirektori bernama muat naik dalam direktori wp-content. Subdirektori ini mesti dibenarkan dalam fail robot.txt kerana ia termasuk semua yang dimuatkan menggunakan ciri muat naik media WP. WordPress menggunakan teg atau kategori untuk menstruktur kandungan.

Jika kategori digunakan, maka untuk membuat Robots txt yang betul untuk Wordpress, seperti yang ditentukan oleh pengeluar program, adalah perlu untuk menyekat arkib teg daripada carian. Mula-mula, mereka menyemak pangkalan data dengan pergi ke panel "Pentadbiran"> "Tetapan"> "Pautan kekal".

Secara lalai, asas ialah teg, jika medan kosong: Disallow: / tag /. Jika kategori digunakan, maka anda mesti melumpuhkan kategori dalam fail robot.txt: Disallow: /category/. Secara lalai, asas ialah tag, jika medan kosong: Disallow: / tag /. Jika kategori digunakan, maka anda mesti melumpuhkan kategori dalam fail robot.txt: Disallow: / category /.

Fail yang digunakan terutamanya untuk memaparkan kandungan, ia akan disekat oleh fail txt Robots yang betul untuk Wordpress:

Robot txt untuk wordpress
Robot txt untuk wordpress

persediaan asas Joomla

Setelah pengguna memasang Joomla, anda perlu melihat tetapan txt Joomla Robots yang betul dalam konfigurasi global, yang terletak dalam panel kawalan. Beberapa tetapan di sini sangat penting untuk SEO. Mula-mula cari nama tapak dan pastikan itunama pendek tapak digunakan. Kemudian mereka menemui sekumpulan tetapan di sebelah kanan skrin yang sama, yang dipanggil tetapan SEO. Yang pastinya perlu diubah ialah yang kedua: gunakan URL tulis semula.

Ini kedengaran rumit, tetapi pada asasnya ia membantu Joomla mencipta URL yang lebih bersih. Paling ketara jika anda mengalih keluar baris index.php daripada URL. Jika anda menukarnya kemudian, URL akan berubah dan Google tidak akan menyukainya. Walau bagaimanapun, apabila menukar tetapan ini, beberapa langkah mesti diambil pada masa yang sama untuk mencipta robot txt yang betul untuk Joomla:

  1. Cari fail htaccess.txt dalam folder akar Joomla.
  2. Tandai sebagai.htaccess (tiada sambungan).
  3. Sertakan nama tapak dalam tajuk halaman.
  4. Cari tetapan metadata di bahagian bawah skrin konfigurasi global.

Robot dalam awan MODX

Robot dalam Awan MODX
Robot dalam Awan MODX

Sebelum ini, MODX Cloud menyediakan pengguna dengan keupayaan untuk mengawal tingkah laku membenarkan fail robots.txt disampaikan berdasarkan togol dalam papan pemuka. Walaupun ini berguna, adalah mungkin untuk membenarkan pengindeksan pada tapak pementasan/pembangunan secara tidak sengaja dengan menogol pilihan dalam Papan Pemuka. Begitu juga, adalah mudah untuk melumpuhkan pengindeksan di tapak pengeluaran.

Hari ini perkhidmatan menganggap kehadiran fail robots.txt dalam sistem fail dengan pengecualian berikut: mana-mana domain yang berakhir dengan modxcloud.com akan berfungsi sebagai Disallow: /directive untuk semua ejen pengguna, tanpa mengira kehadiran atau ketiadaan fail. Tapak pengeluaran yang menerima trafik pelawat sebenar perlu menggunakan domain mereka sendiri jika pengguna ingin mengindeks tapak mereka.

Sesetengah organisasi menggunakan txt Robots yang betul untuk modx untuk menjalankan berbilang tapak web daripada satu pemasangan menggunakan Konteks. Kes yang boleh digunakan ialah tapak pemasaran awam yang digabungkan dengan tapak mikro halaman pendaratan dan mungkin intranet bukan awam.

Secara tradisinya, ini sukar dilakukan untuk pemasangan berbilang pengguna kerana ia berkongsi akar rangkaian yang sama. Dengan MODX Cloud, ini mudah. Cuma muat naik fail tambahan ke tapak web yang dipanggil robots-intranet.example.com.txt dengan kandungan berikut dan ia akan menyekat pengindeksan dengan robot yang berfungsi dengan baik dan semua nama hos lain akan kembali ke fail standard melainkan terdapat nod nama khusus yang lain.

Robots.txt ialah fail penting yang membantu pengguna memaut ke tapak di Google, enjin carian utama dan tapak web lain. Terletak di akar pelayan web, fail tersebut mengarahkan robot web untuk merangkak tapak, menetapkan folder mana yang patut atau tidak patut diindeks, menggunakan set arahan yang dipanggil Bot Exclusion Protocol. Contoh txt Robot yang betul untuk semua enjin carian obots.txt amat mudah dilakukan dengan SeoToaster. Menu khas telah dibuat untuknya dalam panel kawalan, jadi bot tidak perlu bekerja terlalu keras untuk mendapatkan akses.

Disyorkan: