[Tutorial] Fisierul Robots.txt |
Bine ati venit ca musafir! ( Logare | Inregistrare )
[Tutorial] Fisierul Robots.txt |
17 Sep 2003, 07:51 PM
Mesaj
#1
|
|||||
Gazda Hanului Grup: Admin Mesaje: 8.578 Inscris: 22 February 03 Din: Hanu Ancutei Forumist Nr.: 1 |
Tutorial Robots.txt -prima parte- Motoarele de cautare sunt ‘o comoara de aur’, atat pentru cei care doresc sa gaseasca o informatie pe Internet, cat si pentru realizatorii de pagini web, numerosi vizitatori fiind referiti de SE-uri precum Google, Altavista sau Lycos. Deseori insa dorim ca anumite cuvinte cheie sau chiar pagini ori directoare din cadrul site-ului pe care il administram sa nu fie inregistrate de spiderii motoarelor de cautare (spider=programul principal utilizat de motoarele de cautare pentru a include pagini web in baza lor de date; este intalnit si termenul de robot, un program care, asemenea unui browser, descarca pagini de pe Internet). Pentru a limita accesul spider-ilor este folosit un fisier, intitulat Robots.txt; spider-ii vor cauta in directorul principal al site-ului acest fisier, urmand standardul de excludere prezentat. Din ce se compune acest fisier special ? Din inregistrari, fiecare cuprinzand doua campuri : User-agent=numele spider-ului (spre exemplu, in cazul Google=googlebot si Googlebot-Image pentru Google-imagini, Altavista=scooter, Lycos=t-rex, Northern-Light=Gulliver, AllTheWeb=Fast si una sau mai multe informatii de restrictie (Disallow). User-agent este descris sub forma : ‘User-agent : googlebot’, pentru Google. In general, termenul rezervat User-agent este urmat de numele spider-ului. Pentru a include toate motoarele de cautare se utilizeaza caracterul *. Pentru a indica restrictiile se foloseste termenul rezervat Disallow, urmat de directivele de restrictie. Astfel, pentru a limita accesul la fisierul ‘world.xhtml’ pentru spider-ul Google scriem urmatoarele doua linii in fisierul Robots.txt : User-agent : googlebot Disallow: world.xhtml Pentru a restrictiona un intreg director, se foloseste urmatoarea sintaxa: Disallow: /folder/, unde ‘folder’ reprezinta numele directorului care urmeaza sa fie restrictionat. O sintaxa de genul Dissalow: /folder, limiteaza accesul atat la directorul folder cat si la toate fisierele intitulate astfel. Sintaxa ‘Dissalow : ‘ nu are nici un efect asupra spider-ului, lasandu-i acestuia libertatea sa indexeze intreg site-ul, pe cand sintaxa ‘Dissalow : /’ restrictioneaza accesul spider-ului in intreg site-ul. Comentariile in cadrul fiserului Robots.txt sunt precedate de caracterul ‘#’ ; este recomandabil ca fiecare comentariu sa fie scris pe o linie noua (spre exemplu, o sintaxa de genul
Exista deasemenea cazuri in care spider-ii analizeaza in mod diferit un fisier Robots.txt. Spre exemplu, in cazul urmatorului cod:
spider-ul altavista, Scooter, nu va indexa nici o pagina a site-ului, pe cand Slurp va indexa intreg site-ul. Un alt exemplu: Disallow: /folder1/ /folder2/ /folder3/ Unii spider-i vor ignora spatiile si se vor referi la adresa /folder1/folder2/folder3/, altii vor incerca doar /folder1, iar altii doar /folder3/. Asadar, mare atentie! Totodata, atentie la locatia fisierului in discutie: acesta trebuie sa se afle la o adresa de genul: www.nume-domeniu.ro/robots.txt In cadrul realizarii Robots.txt sunt intalnite numeroase greseli, precum: listarea tuturor fisierelor dintr-un director, cand poate fi restrictionat intreg directorul; antepunerea directivei ‚disallow’ in locul directivei ‚user-agent’, confuzie intre numele spider-ului si directivele de restrictie, folosirea unei directive inexistente ‚Allow’ (desi, la un moment dat, s-a discutat si despre o posibila aparitie a acestei directve, majoritatea spider-ilor nu o iau in considerare). Va urma... -------------------- |
||||
|
|||||
Versiune Text-Only | Data este acum: 19 April 2024 - 03:17 PM |