« Vissza a bejegyzésekhez

Keresőrobotok kizárása az oldal bizonyos tartalmaiból

2019. október 06.

A Googlebot és a Bingbot is követ egy szabványt, amivel a weboldal megmondja nekik, hogy milyen tartalmakhoz férhetnek hozzá, és miket hagyjanak figyelmen kívül. Erre akkor van szükség, ha például nem szeretnéd, hogy a weboldaladra feltöltött profilképed ott virítson a Google kép találati listájában, vagy egy letölthető PDF fájl ne legyen beindexelve (általában elég csúnyán is néz ki a találati listában), másrészt pedig a honlapodra szeretnél látogatókat, és nem PDF letöltőket vársz a Googletól.

Ilyen esetekben lehetőséged van rá, hogy a robot.txt fájl létrehozásával utasításokat (szabályokat) adj az éppen a weboldaladat indexelő keresőrobotnak.

A robot.txt fájlt a domain-ed alá közvetlenül kell feltöltened, tehát így: https://valami.hu/robot.txt

A robot.txt fájl tartalma

Szabványos tartalma van, ami minimum két sorból tevődik össze.

Az első sor meghatározza, hogy milyen keresőrobotra szeretnéd vonatkoztatni az utasítást, a második sor pedig meghatározza a kizárandó URL-eket. Mindkét sorból többet is megadhatsz, tehát több bot meghatározást, és több engedélyezést vagy tiltást. 

Fontos, hogy a kizárandó URL csak azon a domain-en lehet, ahonnan a robot.txt fájl elérhető.

Két speciális karaktert lehet használni az URL-ben. Az egyik a *, aminek bármennyi karaktert helyettesít, illetve a $, aminek az URL végét jelenti.

Nézzünk példákat

User-agent: *
Disallow: /

Jelentése: minden botnak megtiltjuk az oldal összes URL-jének indexelését.

User-agent: *
Allow: /abc
Disallow: /

Jelentése: minden botnak megtiltjuk az oldal összes URL-jének indexelésé, kivéve a /abc -vel kezdődő URL-eket.

User-agent: *
Disallow: /abc

Jelentése: minden botnak megtiltjuk az összes /abc aloldal indexelését. Tehát MINDEN oldal tiltva lesz, aminél a "domainod.hu/abc" -t tartalmazza. Tehát ha van egy aloldalad, aminek a neve "domainod.hu/abcde", az is tiltva lesz.

User-agent: *
Disallow: /abc$

Jelentése: minden botnak tiltjuk a /abc oldalt. Ugyanakkor nem tiltja azokat az oldalakat, amiknek hosszabb URL-jük van és tartalmazza a /abc-t, így a "domainod.hu/abcde" oldalad nem kerül tiltás alá. Hiszen a $ karakterrel megmondtuk, hogy csak azokat az URL-eket tiltsa, amiknek a /abc után véget ér az URL-jük.

User-agent: *
Disallow: *.jpg

Jelentése: minden botnak megtiltjuk az összes olyan URL indexelését, ami ".jpg"-t tartalmaz. Ezzel tehát az oldalad összes jpeg típusú képfájlának indexelését tiltod, az összes bot számára.

User-agent: Googlebot-Image
Disallow: /

Ez a praktikusabb eszköz, hogyha nem szeretnénk, hogy a Googlebot bármely képet indexeljen a weboldalunkon. 

És természetesen ezeket kombinálhatod is.

User-agent: *
Disallow: /kepek
Disallow: *.jpg$
Disallow: *.gif$
Disallow: *.png$

Itt minden robot számára megtiltottunk minden URL-t, ami /kepek-kel kezdődik, és az összes .jpg, .gif és .png -vel végződő URL-t.

 

 

Keress meg az elérhetőségeimen:
Simon Gábor
webfejlesztő

Írj e-mailt az elérhetőségeddel, és visszahívlak!

Vagy küldj üzenetet az alábbi űrlapon keresztül!