Wat is robot.txt

Inhoudsopgave

Robots.txt is een zogeheten standaard die gebruikt wordt op websites voor het geven van informatie aan webcrawlers en bots. Deze informatie gaat over de webpagina’s op het domein die niet geïndexeerd hoeven te worden. Robots.txt heeft overigens nog andere namen, dit bestand kan namelijk ook Robots Exclusion Protocol en Robots Exclusion Standard genoemd worden. Onderstaand kun je meer lezen over Robots.txt en hoe gebruikt kan worden door de crawlers van zoekmachines.  

Wat is de definitie van Robots.txt?

Oorspronkelijk stamt Robots.txt uit 1994. Martijn Koster kwam destijds met het concept nadat een webcrawler die niet goed functioneerde zorgde voor DOS aanvallen. Al snel werd de Robots.txt sitemap overgenomen en groeide het uit tot de standaard over de gehele wereld. Populaire zoekmachines van dat moment namen het over en kozen ervoor om uitgesloten pagina’s niet te indexeren. In de root van het domein wordt het bestand geplaatst inclusief instructies voor de geautomatiseerde crawler. Robots.txt zal dan ook eerst gelezen worden door de bots voordat de pagina’s geïndexeerd worden. Is het bestand niet aanwezig? De volledige website zal dan gescand worden door de webcrawler.

Waarom pagina’s uitsluiten met Robots.txt?

Een pagina niet zichtbaar maken voor zoekmachines kan gedaan worden vanwege verschillende redenen. Dit kan bijvoorbeeld gedaan worden omdat je bepaalde webpagina’s niet wilt tonen aan een groot publiek of omdat je de webserver niet onnodig wilt belasten. Bovendien kan dit een strategisch voordeel bieden bij het optimaliseren van een website doordat de pagina’s op een domein niet met elkaar te laten concurreren. Desondanks kan het wel gebeuren dat de webpagina’s via links op andere pagina’s alsnog zichtbaar worden, zelfs als je Robots.txt hebt gebruikt.

Recente blog posts