[Tutorial] Fisierul Robots.txt - HanuAncutei.com

LocuriFaine: Hoteluri si Pensiuni de Lux | Ferma Club

Regulament

Bine ati venit ca musafir! ( Logare | Inregistrare )

HanuAncutei.com - ARTA de a conversa > Odaia IT > Internet - Siteuri Utile, SEO, Promovare, Hosting > Motoare de cautare si optimizare

[Tutorial] Fisierul Robots.txt

Optiuni

Mihai

17 Sep 2003, 07:51 PM

Mesaj #1

Gazda Hanului

Grup: Admin
Mesaje: 8.578
Inscris: 22 February 03
Din: Hanu Ancutei
Forumist Nr.: 1

Tutorial Robots.txt
-prima parte-

Motoarele de cautare sunt ‘o comoara de aur’, atat pentru cei care doresc sa gaseasca o informatie pe Internet, cat si pentru realizatorii de pagini web, numerosi vizitatori fiind referiti de SE-uri precum Google, Altavista sau Lycos.
Deseori insa dorim ca anumite cuvinte cheie sau chiar pagini ori directoare din cadrul site-ului pe care il administram sa nu fie inregistrate de spiderii motoarelor de cautare (spider=programul principal utilizat de motoarele de cautare pentru a include pagini web in baza lor de date; este intalnit si termenul de robot, un program care, asemenea unui browser, descarca pagini de pe Internet). Pentru a limita accesul spider-ilor este folosit un fisier, intitulat Robots.txt; spider-ii vor cauta in directorul principal al site-ului acest fisier, urmand standardul de excludere prezentat.
Din ce se compune acest fisier special ? Din inregistrari, fiecare cuprinzand doua campuri : User-agent=numele spider-ului (spre exemplu, in cazul Google=googlebot si Googlebot-Image pentru Google-imagini, Altavista=scooter, Lycos=t-rex, Northern-Light=Gulliver, AllTheWeb=Fast

si una sau mai multe informatii de restrictie (Disallow).
User-agent este descris sub forma : ‘User-agent : googlebot’, pentru Google. In general, termenul rezervat User-agent este urmat de numele spider-ului. Pentru a include toate motoarele de cautare se utilizeaza caracterul *.
Pentru a indica restrictiile se foloseste termenul rezervat Disallow, urmat de directivele de restrictie. Astfel, pentru a limita accesul la fisierul ‘world.xhtml’ pentru spider-ul Google scriem urmatoarele doua linii in fisierul Robots.txt :
User-agent : googlebot
Disallow: world.xhtml
Pentru a restrictiona un intreg director, se foloseste urmatoarea sintaxa: Disallow: /folder/, unde ‘folder’ reprezinta numele directorului care urmeaza sa fie restrictionat. O sintaxa de genul Dissalow: /folder, limiteaza accesul atat la directorul folder cat si la toate fisierele intitulate astfel. Sintaxa ‘Dissalow : ‘ nu are nici un efect asupra spider-ului, lasandu-i acestuia libertatea sa indexeze intreg site-ul, pe cand sintaxa ‘Dissalow : /’ restrictioneaza accesul spider-ului in intreg site-ul.
Comentariile in cadrul fiserului Robots.txt sunt precedate de caracterul ‘#’ ; este recomandabil ca fiecare comentariu sa fie scris pe o linie noua (spre exemplu, o sintaxa de genul

QUOTE

Dissalow : world.htm #acest cod limiteaza accesul la fisierul world.htm este permisa, dar este recomndata o expresie de genul :
Dissalow :world.htm
#acest cod limiteaza accesul la fisierul world.htm, deorece in primul caz unii spider-i inregistreaza comentariul ca fiind parte a sintaxei propriu-zise, aparand erori.

Exista deasemenea cazuri in care spider-ii analizeaza in mod diferit un fisier Robots.txt. Spre exemplu, in cazul urmatorului cod:

QUOTE

User-agent: *
Disallow: /
#
User-agent: {nume_spider}
Disallow:

spider-ul altavista, Scooter, nu va indexa nici o pagina a site-ului, pe cand Slurp va indexa intreg site-ul. Un alt exemplu:
Disallow: /folder1/ /folder2/ /folder3/
Unii spider-i vor ignora spatiile si se vor referi la adresa /folder1/folder2/folder3/, altii vor incerca doar /folder1, iar altii doar /folder3/. Asadar, mare atentie!
Totodata, atentie la locatia fisierului in discutie: acesta trebuie sa se afle la o adresa de genul: www.nume-domeniu.ro/robots.txt
In cadrul realizarii Robots.txt sunt intalnite numeroase greseli, precum: listarea tuturor fisierelor dintr-un director, cand poate fi restrictionat intreg directorul; antepunerea directivei ‚disallow’ in locul directivei ‚user-agent’, confuzie intre numele spider-ului si directivele de restrictie, folosirea unei directive inexistente ‚Allow’ (desi, la un moment dat, s-a discutat si despre o posibila aparitie a acestei directve, majoritatea spider-ilor nu o iau in considerare).

Va urma...

--------------------

Mesaje in acest topic

Mihai [Tutorial] Fisierul Robots.txt 17 Sep 2003, 07:51 PM

Mihai O noua facilitate introdusa de Google permite excl... 20 Jan 2004, 07:28 PM

menthoru' Mersi Mihai, desi stiam de chestia asta cate ceva,... 21 Jan 2004, 06:33 PM

sus Mersi pentru informatie. Intrebare De unde se po... 3 Mar 2004, 05:03 PM

Mihai O lista de User-Agents poate fi gasita la http://w... 3 Mar 2004, 10:18 PM

Mihai Microsoft a introdus pentru motorul sau de cautare... 13 Jun 2004, 09:16 PM

« Cele mai vechi · Motoare de cautare si optimizare · Cele mai noi »

Mod Afisare: Comuta la: Standard · Comuta la: Liniar+ · Outline

Abonare topic · Trimite unui prieten · Tiparire topic · Abonare forum

Versiune Text-Only

Data este acum: 19 April 2024 - 03:17 PM

Ceaiuri Medicinale Haine Dama Designer Roman