HanuAncutei.com - ARTA de a conversa!
Haine Dama designer roman

Bine ati venit ca musafir! ( Logare | Inregistrare )

> [Tutorial] Fisierul Robots.txt
Mihai
mesaj 17 Sep 2003, 07:51 PM
Mesaj #1


Gazda Hanului
******

Grup: Admin
Mesaje: 8.578
Inscris: 22 February 03
Din: Hanu Ancutei
Forumist Nr.: 1



Tutorial Robots.txt
-prima parte-


Motoarele de cautare sunt ‘o comoara de aur’, atat pentru cei care doresc sa gaseasca o informatie pe Internet, cat si pentru realizatorii de pagini web, numerosi vizitatori fiind referiti de SE-uri precum Google, Altavista sau Lycos.
Deseori insa dorim ca anumite cuvinte cheie sau chiar pagini ori directoare din cadrul site-ului pe care il administram sa nu fie inregistrate de spiderii motoarelor de cautare (spider=programul principal utilizat de motoarele de cautare pentru a include pagini web in baza lor de date; este intalnit si termenul de robot, un program care, asemenea unui browser, descarca pagini de pe Internet). Pentru a limita accesul spider-ilor este folosit un fisier, intitulat Robots.txt; spider-ii vor cauta in directorul principal al site-ului acest fisier, urmand standardul de excludere prezentat.
Din ce se compune acest fisier special ? Din inregistrari, fiecare cuprinzand doua campuri : User-agent=numele spider-ului (spre exemplu, in cazul Google=googlebot si Googlebot-Image pentru Google-imagini, Altavista=scooter, Lycos=t-rex, Northern-Light=Gulliver, AllTheWeb=Fast wink.gif si una sau mai multe informatii de restrictie (Disallow).
User-agent este descris sub forma : ‘User-agent : googlebot’, pentru Google. In general, termenul rezervat User-agent este urmat de numele spider-ului. Pentru a include toate motoarele de cautare se utilizeaza caracterul *.
Pentru a indica restrictiile se foloseste termenul rezervat Disallow, urmat de directivele de restrictie. Astfel, pentru a limita accesul la fisierul ‘world.xhtml’ pentru spider-ul Google scriem urmatoarele doua linii in fisierul Robots.txt :
User-agent : googlebot
Disallow: world.xhtml

Pentru a restrictiona un intreg director, se foloseste urmatoarea sintaxa: Disallow: /folder/, unde ‘folder’ reprezinta numele directorului care urmeaza sa fie restrictionat. O sintaxa de genul Dissalow: /folder, limiteaza accesul atat la directorul folder cat si la toate fisierele intitulate astfel. Sintaxa ‘Dissalow : ‘ nu are nici un efect asupra spider-ului, lasandu-i acestuia libertatea sa indexeze intreg site-ul, pe cand sintaxa ‘Dissalow : /’ restrictioneaza accesul spider-ului in intreg site-ul.
Comentariile in cadrul fiserului Robots.txt sunt precedate de caracterul ‘#’ ; este recomandabil ca fiecare comentariu sa fie scris pe o linie noua (spre exemplu, o sintaxa de genul

QUOTE
Dissalow : world.htm #acest cod limiteaza accesul la fisierul world.htm este permisa, dar este recomndata o expresie de genul :
Dissalow :world.htm
#acest cod limiteaza accesul la fisierul world.htm, deorece in primul caz unii spider-i inregistreaza comentariul ca fiind parte a sintaxei propriu-zise, aparand erori.


Exista deasemenea cazuri in care spider-ii analizeaza in mod diferit un fisier Robots.txt. Spre exemplu, in cazul urmatorului cod:
QUOTE
User-agent: *
Disallow: /
#
User-agent: {nume_spider}
Disallow:

spider-ul altavista, Scooter, nu va indexa nici o pagina a site-ului, pe cand Slurp va indexa intreg site-ul. Un alt exemplu:
Disallow: /folder1/ /folder2/ /folder3/
Unii spider-i vor ignora spatiile si se vor referi la adresa /folder1/folder2/folder3/, altii vor incerca doar /folder1, iar altii doar /folder3/. Asadar, mare atentie!
Totodata, atentie la locatia fisierului in discutie: acesta trebuie sa se afle la o adresa de genul: www.nume-domeniu.ro/robots.txt
In cadrul realizarii Robots.txt sunt intalnite numeroase greseli, precum: listarea tuturor fisierelor dintr-un director, cand poate fi restrictionat intreg directorul; antepunerea directivei ‚disallow’ in locul directivei ‚user-agent’, confuzie intre numele spider-ului si directivele de restrictie, folosirea unei directive inexistente ‚Allow’ (desi, la un moment dat, s-a discutat si despre o posibila aparitie a acestei directve, majoritatea spider-ilor nu o iau in considerare).


Va urma...


--------------------
Go to the top of the page
 
+Quote Post

Mesaje in acest topic


Closed TopicStart new topic

 



RSS Versiune Text-Only Data este acum: 19 April 2024 - 03:17 PM
Ceaiuri Medicinale Haine Dama Designer Roman