Tutorial Robots.txt
-prima parte-
Motoarele de cautare sunt ‘o comoara de aur’, atat pentru cei care doresc sa gaseasca o informatie pe Internet, cat si pentru realizatorii de pagini web, numerosi vizitatori fiind referiti de SE-uri precum Google, Altavista sau Lycos.
Deseori insa dorim ca anumite cuvinte cheie sau chiar pagini ori directoare din cadrul site-ului pe care il administram sa nu fie inregistrate de spiderii motoarelor de cautare (spider=programul principal utilizat de motoarele de cautare pentru a include pagini web in baza lor de date; este intalnit si termenul de robot, un program care, asemenea unui browser, descarca pagini de pe Internet). Pentru a limita accesul spider-ilor este folosit un fisier, intitulat Robots.txt; spider-ii vor cauta in directorul principal al site-ului acest fisier, urmand standardul de excludere prezentat.
Din ce se compune acest fisier special ? Din inregistrari, fiecare cuprinzand doua campuri : User-agent=numele spider-ului (spre exemplu, in cazul Google=googlebot si Googlebot-Image pentru Google-imagini, Altavista=scooter, Lycos=t-rex, Northern-Light=Gulliver, AllTheWeb=Fast si una sau mai multe informatii de restrictie (Disallow).
User-agent este descris sub forma : ‘User-agent : googlebot’, pentru Google. In general, termenul rezervat User-agent este urmat de numele spider-ului. Pentru a include toate motoarele de cautare se utilizeaza caracterul *.
Pentru a indica restrictiile se foloseste termenul rezervat Disallow, urmat de directivele de restrictie. Astfel, pentru a limita accesul la fisierul ‘world.xhtml’ pentru spider-ul Google scriem urmatoarele doua linii in fisierul Robots.txt :
User-agent : googlebot
Disallow: world.xhtml
Pentru a restrictiona un intreg director, se foloseste urmatoarea sintaxa: Disallow: /folder/, unde ‘folder’ reprezinta numele directorului care urmeaza sa fie restrictionat. O sintaxa de genul Dissalow: /folder, limiteaza accesul atat la directorul folder cat si la toate fisierele intitulate astfel. Sintaxa ‘Dissalow : ‘ nu are nici un efect asupra spider-ului, lasandu-i acestuia libertatea sa indexeze intreg site-ul, pe cand sintaxa ‘Dissalow : /’ restrictioneaza accesul spider-ului in intreg site-ul.
Comentariile in cadrul fiserului Robots.txt sunt precedate de caracterul ‘#’ ; este recomandabil ca fiecare comentariu sa fie scris pe o linie noua (spre exemplu, o sintaxa de genul
QUOTE |
Dissalow : world.htm #acest cod limiteaza accesul la fisierul world.htm este permisa, dar este recomndata o expresie de genul : Dissalow :world.htm #acest cod limiteaza accesul la fisierul world.htm, deorece in primul caz unii spider-i inregistreaza comentariul ca fiind parte a sintaxei propriu-zise, aparand erori. |
QUOTE |
User-agent: * Disallow: / # User-agent: {nume_spider} Disallow: |
O noua facilitate introdusa de Google permite excluderea unor fisiere dupa extensii; astfel, o directiva de genul:
CODE |
User-agent: Googlebot Disallow: *.shtml |
CODE |
User-agent: * Disallow: /search Disallow: /groups Disallow: /images Disallow: /catalogs Disallow: /catalog_list Disallow: /news Disallow: /imgres Disallow: /keyword/ Disallow: /u/ Disallow: /univ/ Disallow: /cobrand Disallow: /custom Disallow: /advanced_group_search Disallow: /advanced_search Disallow: /googlesite Disallow: /preferences Disallow: /setprefs Disallow: /swr Disallow: /url Disallow: /wml Disallow: /bsd? Disallow: /linux? Disallow: /mac? Disallow: /microsoft? Disallow: /unclesam? |
CODE |
User-agent: * Disallow: /cgi-bin/ Disallow: /forum/admin/ Disallow: /snadm/ Disallow: /cgi-bin/ Disallow: /include/ Disallow: /js/ Disallow: /mail/ Disallow: /cgi-bin/ Disallow: /prodadm/ Disallow: /Imag/ Disallow: /stats/ |
CODE |
# hello robotz sayz webmaster@kappa.ro User-Agent: * Disallow: /include/ |
CODE |
<html> <head> <Meta Name="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> //alte meta-tag-uri si titlul paginii </head> <body> //Sectiunea body a paginii </body> <html> |
Mersi Mihai, desi stiam de chestia asta cate ceva, informatiile tale imi sunt de real folos. 10x man.
Mersi pentru informatie.
Intrebare
De unde se poate lua toata lista cu spider?
Si daca ii pui pe toti in robots.txt marimea fisierului nu influenteaza negativ?
Bine scriu eu 10 spideri in robots.txt dar sunt sigur ca mai sunt atunci care e rezolvarea?
Eu cred ca e mai bine de dat acees la toti siderii si pentru cei care vrei sa inchizi accesul sai mai scrii odata cu restrictii asa ceva va merge?
Si ce se poate de facut cu .htaccess ?
O lista de User-Agents poate fi gasita la http://www.psychedelix.com/agents.html
QUOTE |
Si daca ii pui pe toti in robots.txt marimea fisierului nu influenteaza negativ? |
QUOTE |
Bine scriu eu 10 spideri in robots.txt dar sunt sigur ca mai sunt atunci care e rezolvarea? |
QUOTE |
Eu cred ca e mai bine de dat acees la toti siderii si pentru cei care vrei sa inchizi accesul sai mai scrii odata cu restrictii asa ceva va merge? |
QUOTE |
Si ce se poate de facut cu .htaccess ? |
Microsoft a introdus pentru motorul sau de cautare o noua sintaxa pentru fisierul Robots.txt
Astfel, spider-ul msnbot recunoaste comanda Crawl-Delay - aceasta reprezentand timpul (in secunde) pe care trebuie sa-l astepte spider-ul inainte de a citi o alta pagina de pe server.
Exemplu:
CODE |
User-Agent: msnbot Crawl-Delay: 10 |
Tehnic:Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)