✅ Robots.txt eller roboter ekskluderingsstandard og søkemotor gjennomsøking

Innholdsfortegnelse

Hei alle sammen, jeg starter med denne opplæringen om robots.txt, jeg håper du liker den

Tillat alle roboter å besøke alle filer som er lagret i rotkatalogen på nettet:

 User-agent: * Disallow:

Forhindre tilgang til alle roboter og alle filer som er lagret i rotkatalogen:

 User-agent: * Disallow: /

Tillat bare én robot å få tilgang. I dette eksempelet er det bare Google som kan gjennomgå

 User-agent: googlebot Disallow: User-agent: * Disallow: /

De mest populære robotene har et navn som skal brukes i user-agent
googlebot => for Google
msnbot => MSN Søk
yahoo-slurp => Yahoo!
scrubby => Scrub The Web
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Det er også de mer spesifikke robotene som de i bilder
googlebot-image => Google Image
googlebot-mobile => Google Mobile
Et annet eksempel, slik at alle undermapper som inneholder jokertegnet (/) må blokkeres, bare disse, bortsett fra alle andre filer og kataloger som ikke inneholder et jokertegn, er system- eller backend -katalogene nominelt blokkert:

 User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Forhindre at en bestemt fil spores

 User-agent: * Disallow: /page.htm

Dette brukes mye når vi ønsker å eliminere en side som gir en 404 -feil eller for å fjerne en side fra søkeresultatene, og dermed forhindre at den blir gjennomsøkt.
Administrer frekvensen av robotsøkeprogrammer
Fra Google Analytics og fra webmastertools du kan se statistikken du kan også se at noen ganger tar noen roboter lang tid å gjennomgå nettstedet vårt og sende forespørsler til serveren, robotene bruker båndbredde og ressurser som om de bare var en annen besøkende.
Det er en måte at roboter ikke kommer ut av kontroll, vi kan fortelle hver enkelt
User-agent: googlebot Crawl-delay: 30
Med dette informerer vi Google -roboten om å vente 30 sekunder mellom hver gjennomgang. Vær forsiktig, siden Crawl-delay muligens ikke støttes av alle søkemotorer, Bing og Google gjør.
Det offisielle nettstedet til robots.txt Det er http://www.robotstxt.org/ hvor vi finner navnene på alle robotene, spesifikasjoner om koden. Her avsløres det at roboter tjener til å standardisere de som må spores og brukes på andre plattformer for å spore og validere html, validere lenker, indeksere informasjon, oppdatere innhold i søkemotorer, beskytte nettsteder.Likte og hjalp du denne opplæringen?Du kan belønne forfatteren ved å trykke på denne knappen for å gi ham et positivt poeng