ADR-0002: robots.txt-beleid voor root-site

Status

Accepted

Context

De root site (aim-ene.github.io) bevat een landingspagina met links naar onder andere Teams en GitHub Classroom.

Deze links zijn bedoeld voor studenten/docenten en hoeven niet via publieke zoekmachines gevonden te worden. Volgens Google Search Central (z.d.) interpreteren crawlers robots.txt op padniveau; dat maakt gerichte blokkade van alleen de root mogelijk.

Decision

Voor de root site gebruiken we gericht robotsbeleid:

User-agent: *
Disallow: /$ (alleen de landingpagina)
Allow: /doex/
Allow: /teex/
Allow: /soex/
Allow: /pexe/
Sitemap: verwijzingen naar root en course sitemaps

Dit blokkeert de landingpagina, maar laat de course-subpaden toe voor indexatie.

Consequences

Positief:

Root landingpagina met gevoelige links wordt niet via zoekmachine-indexatie verspreid.
Course-subpaden blijven indexeerbaar.

Negatief:

Niet alle crawlers behandelen /$ identiek. Grote crawlers doen dit doorgaans wel.
Root landing blijft beperkt vindbaar.

Options

Alles blokkeren (Disallow: /)
Alles toelaten (Allow: /)
Selectieve blokkade (gekozen)
Meta noindex op de landing

Revisit Criteria

Herzie deze beslissing wanneer:

de root site geen gevoelige links meer bevat, of
er een expliciete wens komt om rootcontent weer publiek vindbaar te maken.

Bronnen

Google Search Central. (z.d.). How Google interprets the robots.txt specification. Geraadpleegd op 22 februari 2026, van https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt

Status​

Context​

Decision​

Consequences​

Options​

Revisit Criteria​

Bronnen​