Ένα αρχείο robots.txt που είναι αποθηκευμένο στη ρίζα του ιστότοπού σας θα αναφέρει σε ρομπότ ιστού, όπως αράχνες μηχανών αναζήτησης, σε ποιους καταλόγους και αρχεία επιτρέπεται να ανιχνεύσουν. Είναι εύκολο να χρησιμοποιήσετε ένα αρχείο robots.txt, αλλά υπάρχουν μερικά πράγματα που πρέπει να θυμάστε:
- Τα ρομπότ web blackhat θα αγνοήσουν το αρχείο robots.txt. Οι πιο συνηθισμένοι τύποι είναι τα bots malware και τα ρομπότ που αναζητούν διευθύνσεις ηλεκτρονικού ταχυδρομείου για τη συγκομιδή.
- Μερικοί νέοι προγραμματιστές θα γράψουν ρομπότ που αγνοούν το αρχείο robots.txt. Αυτό συνήθως γίνεται κατά λάθος.
- Οποιοσδήποτε μπορεί να δει το αρχείο robots.txt. Ονομάζονται πάντα robots.txt και αποθηκεύονται πάντα στη ρίζα του ιστότοπου.
- Τέλος, εάν κάποιος συνδέεται με ένα αρχείο ή κατάλογο που εξαιρείται από το αρχείο robots.txt από μια σελίδα που δεν αποκλείεται από το αρχείο robots.txt, οι μηχανές αναζήτησης ίσως το βρουν ούτως ή άλλως.
Μην χρησιμοποιείτε αρχεία robots.txt για να αποκρύψετε κάτι σημαντικό. Αντ 'αυτού, θα πρέπει να θέσετε σημαντικές πληροφορίες πίσω από ασφαλή κωδικούς πρόσβασης ή να το αφήσετε εντελώς από το διαδίκτυο.
Τρόπος χρήσης αυτών των αρχείων δείγματος
Αντιγράψτε το κείμενο από το δείγμα που είναι πιο κοντά σε αυτό που θέλετε να κάνετε και επικολλήστε το στο αρχείο robots.txt. Αλλάξτε το όνομα του ρομπότ, του καταλόγου και των αρχείων, ώστε να ταιριάζει με την προτιμώμενη διαμόρφωση.
Δύο βασικά αρχεία Robots.txt
Χρήστης-πράκτορας: *Disallow: / Αυτό το αρχείο λέει ότι κάθε ρομπότ ( Χρήστης-πράκτορας: *) που θα έχει πρόσβαση θα πρέπει να αγνοεί κάθε σελίδα του ιστότοπου ( Disallow: /). Χρήστης-πράκτορας: *Απαγορεύω: Αυτό το αρχείο λέει ότι κάθε ρομπότ ( Χρήστης-πράκτορας: *) που έχουν πρόσβαση επιτρέπεται να προβάλλουν κάθε σελίδα του ιστότοπου ( Απαγορεύω:). Μπορείτε επίσης να το κάνετε αυτό αφήνοντας το αρχείο robots.txt κενό ή δεν έχετε καθόλου στον ιστότοπό σας. Χρήστης-πράκτορας: *Disallow: / cgi-bin /Disallow: / temp / Αυτό το αρχείο λέει ότι κάθε ρομπότ ( Χρήστης-πράκτορας: *) που έχει πρόσβαση θα πρέπει να αγνοεί τους καταλόγους / cgi-bin / και / temp / ( Απενεργοποίηση: / cgi-bin / Disallow: / temp /). Χρήστης-πράκτορας: *Disallow: /jenns-stuff.htmDisallow: /private.php Αυτό το αρχείο λέει ότι κάθε ρομπότ ( Χρήστης-πράκτορας: *) που έχει πρόσβαση θα πρέπει να αγνοεί τα αρχεία /jenns-stuff.htm και /private.php ( Disallow: /jenns-stuff.htm Disallow: /private.php). User-agent: Lycos / x.xDisallow: / Αυτό το αρχείο λέει ότι το bot Lycos ( User-agent: Lycos / x.x) δεν επιτρέπεται η πρόσβαση οπουδήποτε στον ιστότοπο ( Χρήστης-πράκτορας: *Disallow: /User-agent: GooglebotΑπαγορεύω: Αυτό το αρχείο πρώτα απενεργοποιεί όλα τα ρομπότ όπως κάναμε παραπάνω και στη συνέχεια αφήνει ρητά το Googlebot ( User-agent: Googlebot) έχουν πρόσβαση σε όλα ( Παρόλο που είναι καλύτερο να χρησιμοποιήσετε μια γραμμή αποκλειστικής χρήσης χρηστών, όπως το User-agent: *, μπορείτε να είστε όσο πιο συγκεκριμένοι θέλετε. Θυμηθείτε ότι τα ρομπότ διαβάζουν το αρχείο με σειρά. Έτσι, αν οι πρώτες γραμμές λένε ότι όλα τα ρομπότ έχουν αποκλειστεί από τα πάντα, και αργότερα στο αρχείο λέει ότι όλα τα ρομπότ έχουν πρόσβαση σε όλα, τα ρομπότ θα έχουν πρόσβαση σε όλα. Αν δεν είστε σίγουροι αν έχετε γράψει σωστά το αρχείο robots.txt, μπορείτε να χρησιμοποιήσετε τα Εργαλεία για Webmasters της Google για να ελέγξετε το αρχείο robots.txt ή να γράψετε ένα νέο. Προστατέψτε συγκεκριμένους καταλόγους από ρομπότ
Προστατέψτε συγκεκριμένες σελίδες από ρομπότ
Αποτρέψτε την πρόσβαση ενός συγκεκριμένου ρομπότ στον ιστότοπό σας
Επιτρέψτε μόνο μία συγκεκριμένη πρόσβαση ρομπότ
Συνδυάστε πολλαπλές γραμμές για να λάβετε ακριβώς τις εξαιρέσεις που θέλετε