SEO und SEM

Web-Indexierung: Was sie ist, wie sie funktioniert und wie du Google dazu bringst, deine Website 2026 zu indexieren

21. Februar 2026

20 min Lesezeit

Visualization of web indexing and Google crawling process with connected nodes

Wenn deine Seite nicht indexiert ist, existiert sie für Google nicht. Es spielt keine Rolle, wie viel du in Design, Inhalte oder Werbung investiert hast: Ohne Indexierung erscheint deine URL in keinem Suchergebnis, konkurriert um kein Keyword und generiert keinen einzigen organischen Klick.

Die Web-Indexierung ist der Prozess, bei dem Suchmaschinen die Seiten deiner Website entdecken, analysieren und in ihrer Datenbank speichern. Sie ist der unverzichtbare Schritt vor dem Ranking. Und im Jahr 2026, in dem Google täglich Milliarden von Seiten verarbeitet, gleichzeitig Crawler für generative KI verwaltet, die Crawl-Budgets immer knapper werden und die technischen Anforderungen steigen, ist das Verständnis der Indexierung keine Option mehr — es ist die Grundlage jeder SEO-Strategie, die Ergebnisse liefern soll.

In diesem Leitfaden erklären wir den gesamten Indexierungsprozess, vom Crawling bis zur Aufnahme in den Google-Index, mit konkreten Schritten, um den Status deiner Website zu überprüfen, die häufigsten Probleme zu lösen und sicherzustellen, dass jede relevante Seite korrekt indexiert ist.

Was ist Web-Indexierung

Die Web-Indexierung ist der Prozess, bei dem eine Suchmaschine den Inhalt einer URL analysiert und in ihrem Index speichert: einer riesigen Datenbank, die Google bei jeder Suchanfrage konsultiert.

Stelle dir den Google-Index wie den Katalog einer Bibliothek vor. Wenn ein Buch nicht katalogisiert ist, kann der Bibliothekar es nicht finden, obwohl es physisch im Regal steht. Genauso kann deine Seite nicht in den Suchergebnissen erscheinen, wenn sie nicht im Google-Index ist — egal wie genau sie dem entspricht, was der Nutzer sucht.

Es ist wichtig, drei Konzepte zu unterscheiden, die oft verwechselt werden:

Crawling (Rastreo): Der Googlebot besucht deine URL und lädt ihren HTML-Inhalt herunter.
Rendering (Rendern): Google führt das JavaScript der Seite aus, um den endgültigen Inhalt zu erhalten, wie ihn ein echter Nutzer sehen würde.
Indexierung (Indexing): Google analysiert den gerenderten Inhalt, verarbeitet ihn und entscheidet, ob er im Index gespeichert wird.

Eine Seite kann gecrawlt, aber nicht indexiert werden. Und eine Seite, die nie gecrawlt wird, wird auch nie indexiert. Jede Phase hat ihre eigenen Regeln und mögliche Fehlerquellen.

Wie der Indexierungsprozess Schritt für Schritt funktioniert

Google indexiert Seiten nicht zufällig. Es folgt einem systematischen Prozess mit drei unterschiedlichen Phasen. Jede einzelne zu verstehen ist grundlegend für die Diagnose und Lösung von Indexierungsproblemen.

Phase 1: Crawling

Alles beginnt mit dem Googlebot, dem Crawler von Google. Der Googlebot entdeckt URLs auf drei Hauptwegen:

XML-Sitemaps: Die Datei sitemap.xml teilt ihm explizit mit, welche URLs auf deiner Website existieren.
Interne und externe Links: Jeder Link, den der Googlebot beim Crawlen einer Seite findet, wird seiner Crawl-Warteschlange hinzugefügt.
Direkte Anfragen: Wenn du eine URL manuell über die Google Search Console einreichst.

Sobald der Googlebot eine URL in seiner Warteschlange hat, sendet er eine HTTP-GET-Anfrage an den Server. Gibt der Server einen 200-Statuscode (Erfolg) zurück, lädt der Googlebot das HTML herunter und leitet es an die nächste Phase weiter. Bei einem 404 (nicht gefunden), 500 (Serverfehler) oder einer Weiterleitung handelt er entsprechend.

Das Schlüsselkonzept hier ist das Crawl-Budget: die Menge an Ressourcen, die Google dem Crawling deiner Website in einem bestimmten Zeitraum widmet. Das Crawl-Budget hängt von zwei Faktoren ab:

Crawl-Kapazität: Wie viele Anfragen gestellt werden können, ohne deinen Server zu überlasten. Wenn deine Website langsam antwortet, reduziert Google die Crawl-Frequenz, um sie nicht zum Absturz zu bringen.
Crawl-Nachfrage: Wie viel Interesse Google an deinen Seiten hat. Eine Website mit häufig aktualisierten Inhalten und guten Nutzersignalen wird öfter gecrawlt als eine statische.

Im Jahr 2026 beeinflussen die Core Web Vitals die Crawl-Kapazität direkt. Eine Website mit einer Time to First Byte (TTFB) unter 200 ms ermöglicht dem Googlebot, in der gleichen Zeit mehr Seiten zu crawlen als eine, die in 2 Sekunden antwortet. Jede Millisekunde zählt, wenn Google entscheiden muss, wie es sein Crawl-Budget auf Milliarden von Websites verteilt.

Phase 2: Rendering

Hier verlieren viele Websites das Spiel, ohne es zu wissen. Nach dem Herunterladen des ursprünglichen HTML sendet Google es an seinen Web Rendering Service (WRS), der JavaScript genau wie ein Chrome-Browser ausführt.

Das ist kritisch, weil ein großer Teil moderner Webinhalte mit JavaScript generiert wird. Wenn dein Framework (React, Vue, Angular) Inhalte ausschließlich clientseitig rendert (Client-Side Rendering), muss Google dein JavaScript ausführen, um diese Inhalte zu sehen. Und die Rendering-Warteschlange ist nicht instantan: Es kann Stunden oder sogar Tage dauern, bis deine Seite verarbeitet wird.

Das Problem mit JavaScript und Indexierung:

Wenn das Rendering fehlschlägt (JavaScript-Fehler, Timeouts, externe Abhängigkeiten, die nicht laden), indexiert Google das leere HTML. In der Praxis bedeutet das, dass deine Seite im Index erscheint, aber ohne den relevanten Inhalt, oder gar nicht indexiert wird, weil sie als leer gilt.

Die technische Lösung, die wir immer empfehlen, ist serverseitiges Rendering (SSR) oder statische Seitengenerierung (SSG). Frameworks wie Astro, Next.js oder Nuxt ermöglichen es, dass das HTML den Crawler bereits mit dem Inhalt erreicht, ohne auf JavaScript angewiesen zu sein, um wesentliche Informationen anzuzeigen. Bei Kiwop liefert unsere eigene Website Inhalte in 7 Sprachen mit SSR auf Astro und stellt sicher, dass der Googlebot bei jeder Anfrage vollständigen Inhalt erhält.

Phase 3: die eigentliche Indexierung

Sobald Google den gerenderten Inhalt hat, verarbeitet es ihn, um zu entscheiden, ob und wie er in den Index aufgenommen wird. Diese Phase umfasst:

Inhaltsanalyse: Google extrahiert den Text, identifiziert die Überschriften, analysiert die semantische Struktur und bestimmt, worum es auf der Seite geht.
Qualitätsbewertung: Ist der Inhalt original? Bietet er Mehrwert? Unterscheidet er sich wesentlich von anderen bereits indexierten Seiten?
Kanonisierung: Wenn Google doppelten oder sehr ähnlichen Inhalt über mehrere URLs hinweg erkennt, wählt es eine als kanonisch (die bevorzugte Version) aus und kann die anderen verwerfen.
Technische Signale: Meta-Tags (robots, canonical, hreflang), strukturierte Daten und die Seitenarchitektur beeinflussen, wie Google die Seite kategorisiert und speichert.

Google indexiert nicht alles, was es crawlt. Wenn eine Seite Thin Content hat (wenig oder ohne Mehrwert), ein Duplikat einer anderen bereits im Index befindlichen Seite ist oder Direktiven hat, die die Indexierung verhindern, verwirft Google sie. Laut internen Daten von Google landet nur ein Bruchteil der gecrawlten URLs im endgültigen Index.

Wie du prüfst, ob deine Website indexiert ist

Bevor du Probleme löst, brauchst du eine klare Diagnose. Dies sind die drei Möglichkeiten, den Indexierungsstatus deiner Website zu überprüfen.

Der site:-Operator in Google

Der schnellste Weg (wenn auch nicht der genaueste) ist die direkte Suche bei Google:

Die Anzahl der Ergebnisse gibt dir eine ungefähre Schätzung, wie viele Seiten Google von deiner Website indexiert hat. Wenn du eine bestimmte URL suchst:

Erscheint kein Ergebnis, ist diese Seite nicht indexiert. Es ist eine schnelle, aber begrenzte Diagnose: Google zeigt mit diesem Operator nicht immer alle indexierten Seiten an.

Google Search Console (die definitive Methode)

Die Google Search Console ist das offizielle und zuverlässigste Tool zur Überprüfung der Indexierung. Sie bietet zwei Schlüsselfunktionen:

Seitenindexierungsbericht (Indexierung > Seiten): Zeigt den Gesamtstatus deiner Website. Du siehst, wie viele Seiten indexiert sind, wie viele nicht, und den genauen Grund für den Ausschluss jeder Gruppe. Die häufigsten Gründe sind:

Gecrawlt — derzeit nicht indexiert: Google hat sie besucht, aber entschieden, sie nicht zu indexieren.
Entdeckt — derzeit nicht indexiert: Google weiß, dass sie existiert, hat sie aber noch nicht gecrawlt.
Durch noindex-Tag ausgeschlossen: Die Seite selbst weist Google an, sie nicht zu indexieren.
Duplikat, Google hat eine andere kanonische URL gewählt: Der Inhalt ist einer anderen URL zu ähnlich.
Alternative Seite mit korrektem Canonical-Tag: Es handelt sich um eine korrekt konfigurierte Variante (Sprache, mobile Version).

URL-Inspektionstool (URL-Prüfung): Gib eine beliebige URL ein, und die Google Search Console zeigt dir ihren genauen Status: ob sie indexiert ist, wann sie zuletzt gecrawlt wurde, ob Rendering-Fehler vorliegen, welche kanonische URL Google erkannt hat und wie sie in Bezug auf mobiles Crawling klassifiziert wird.

Sitemaps und Serverprotokolle

Der Vergleich der URLs in deiner Sitemap mit den indexierten Seiten offenbart Diskrepanzen. Wenn du 500 URLs in der Sitemap hast, aber nur 300 indexiert sind, gibt es 200 Seiten, die Google beschlossen hat zu ignorieren. Die Kombination dieser Informationen mit den Serverprotokollen (um zu sehen, ob der Googlebot sie tatsächlich besucht) vervollständigt die Diagnose. Der Webanalyse-Service ist entscheidend, um diese Nachverfolgbarkeit korrekt einzurichten.

Wie du Google dazu bringst, deine Website zu indexieren

Sobald du den Prozess verstanden und den aktuellen Status diagnostiziert hast, sind dies die konkreten Schritte, um die Indexierung sicherzustellen.

Richte eine korrekte XML-Sitemap ein

Die XML-Sitemap ist dein direkter Kommunikationskanal zu Google. Sie teilt Google explizit mit, welche URLs du crawlen und indexieren lassen möchtest.

Eine gut konfigurierte Sitemap für eine mehrsprachige Website:

Wichtige Sitemap-Regeln:

Nimm nur kanonische URLs auf, die den Statuscode 200 zurückgeben. Keine Weiterleitungen, 404er oder Seiten mit noindex.
Aktualisiere das Datum <lastmod> nur, wenn sich der Inhalt tatsächlich ändert. Google bestraft künstlich aufgeblähte lastmod-Daten.
Verwende für große Websites (mehr als 50.000 URLs) einen Sitemap-Index, der die Dateien nach Bereich oder Sprache gruppiert.
Reiche die Sitemap bei der Google Search Console ein und überprüfe, ob sie fehlerfrei verarbeitet wird.

Optimiere deine robots.txt-Datei

Die robots.txt-Datei steuert, was Bots crawlen dürfen und was nicht. Ein Fehler hier kann die Indexierung ganzer Bereiche blockieren, ohne dass du es merkst.

Häufige Fehler in der robots.txt:

CSS- oder JavaScript-Dateien mit Disallow blockieren. Google braucht Zugang zu diesen Ressourcen, um die Seite zu rendern. Wenn du sie blockierst, kann es deinen Inhalt nicht sehen.
Die Sitemap nicht deklarieren. Es ist eine verpasste Gelegenheit, Google mitzuteilen, wo sich deine URLs befinden.
Disallow mit noindex verwechseln. Robots.txt verhindert das Crawling, aber wenn eine blockierte Seite externe Links hat, kann Google die URL trotzdem indexieren (ohne Inhalt). Um die Indexierung zu verhindern, verwende das Meta-Tag noindex.

Verwalte die KI-Crawler

Im Jahr 2026 ist deine robots.txt nicht mehr nur für Google da. GPTBot (OpenAI), ClaudeBot (Anthropic) und PerplexityBot sind aktive Crawler, die deine Website durchsuchen, um KI-Antwortmaschinen zu füttern. Die Entscheidung, sie zuzulassen oder zu blockieren, hat direkte Auswirkungen:

Wenn du sie zulässt: Dein Inhalt kann in Antworten von ChatGPT, Claude und Perplexity zitiert werden, was Sichtbarkeit und Verweisverkehr generiert.
Wenn du sie blockierst: Du wirst für generative Suchmaschinen unsichtbar, die monatlich einen wachsenden Anteil an der Inhaltsentdeckung ausmachen.

Unsere Empfehlung ist, KI-Crawling in öffentlichen Bereichen (Blog, Dienstleistungen, Fallstudien) zu erlauben und es in privaten Bereichen oder solchen ohne öffentlichen Wert (Admin, Checkout, Benutzerkonten) zu blockieren.

Verwende das robots-Meta-Tag korrekt

Das robots-Meta-Tag im <head> jeder Seite steuert die Indexierung auf individueller Ebene:

Verwende noindex auf Seiten, die nicht in der Suche erscheinen sollen: Dankesseiten, interne Suchergebnisse, tiefe Paginierungsseiten, rechtliche Inhalte ohne SEO-Wert oder Staging-Seiten, die nicht öffentlich sein sollten.

Ein häufiger Fall, den wir bei Audits sehen: Websites, die von einer Entwicklungsumgebung in die Produktion migrieren und vergessen, das globale noindex-Meta-Tag zu entfernen, das sie während der Entwicklung hatten. Das Ergebnis ist eine komplette Website, die für Google wochenlang unsichtbar ist, bis jemand es bemerkt.

Baue eine solide interne Verlinkungsarchitektur auf

Google entdeckt Seiten, indem es Links folgt. Wenn eine URL keine internen Links hat, die auf sie verweisen (eine verwaiste Seite), hat der Googlebot sehr wenige Möglichkeiten, sie zu finden, selbst wenn sie in der Sitemap steht.

Best Practices für die interne Verlinkung zur Indexierung:

Jede wichtige Seite sollte maximal 3 Klicks von der Startseite entfernt sein.
Verwende beschreibenden Ankertext, keine generischen Phrasen wie „hier klicken".
Navigationsmenüs, Breadcrumbs und Blöcke mit verwandten Artikeln sind natürliche interne Verlinkungswerkzeuge.
Bei mehrsprachigen Websites sollte jede Sprachversion ihr eigenes internes Linknetzwerk haben. Hreflangs zeigen die Äquivalenz zwischen Sprachen an, ersetzen aber nicht die interne Verlinkung innerhalb jeder Sprache.

Fordere die Indexierung manuell an, wenn nötig

Für neue oder aktualisierte Seiten, die du schnell indexieren lassen musst, bietet die Google Search Console die Möglichkeit, die Indexierung einer bestimmten URL anzufordern:

Öffne die Google Search Console.
Gib die URL in die Inspektionsleiste ein.
Wenn sie nicht indexiert ist, klicke auf „Indexierung beantragen".

Google garantiert keine Fristen, aber in der Praxis werden manuell eingereichte URLs meist innerhalb von Stunden oder wenigen Tagen indexiert, im Vergleich zu den Tagen oder Wochen, die das natürliche Crawling dauern kann. Es ist besonders nützlich für Inhalte, die schnell erscheinen müssen, wie Trendbeiträge oder Produkteinführungen.

Häufige Indexierungsprobleme und wie man sie löst

Dies sind die Probleme, die wir in unseren technischen SEO-Audits am häufigsten antreffen.

Doppelter Inhalt und Kannibalisierung

Wenn Google mehrere Seiten mit sehr ähnlichem Inhalt findet, wählt es eine als kanonisch aus und kann den Rest ignorieren. Dies ist ein besonders schwerwiegendes Problem bei:

E-Commerce: Produkte mit identischen Beschreibungen, Farb-/Größenvarianten mit separaten URLs.
Mehrsprachige Websites: Nicht übersetzter Inhalt, der in mehreren Sprachen mit derselben Basis serviert wird.
Blogs: Artikel, die sehr ähnliche Themen ohne klare Differenzierung abdecken.

Lösung: Verwende das Tag <link rel="canonical">, um Google die bevorzugte Version mitzuteilen. Bei mehrsprachigen Websites kombiniere canonical mit hreflang, damit Google versteht, dass jede Version die kanonische für ihre Sprache ist:

JavaScript blockiert Inhalte

Wenn deine Website auf JavaScript angewiesen ist, um Hauptinhalte anzuzeigen, und das Rendering fehlschlägt, indexiert Google eine leere oder unvollständige Seite.

Wie du es diagnostizierst: Verwende das URL-Inspektionstool in der Google Search Console und vergleiche den Tab „Gerendertes HTML" mit dem, was du erwartest. Wenn Inhalt fehlt, liegt das Problem beim Rendering.

Lösungen nach Priorität:

SSR oder SSG (definitive Lösung): Liefere das HTML mit dem Inhalt bereits inklusive. Frameworks wie Astro, Next.js oder Nuxt tun dies nativ.
Dynamic Rendering: Liefere eine vorgerenderte Version an Bots und die JavaScript-Version an Nutzer. Es ist eine temporäre Lösung, die Google akzeptiert, aber langfristig nicht empfiehlt.
Abhängigkeiten prüfen: Wenn dein JavaScript Inhalte von externen APIs lädt, kann ein Timeout oder Fehler in dieser API dazu führen, dass der Inhalt nicht verfügbar ist, wenn der Googlebot rendert.

Geschwindigkeitsprobleme und Crawl-Budget

Ein langsamer Server reduziert drastisch die Anzahl der Seiten, die Google crawlen kann. Wenn der Googlebot 3 Sekunden benötigt, um jede Antwort zu erhalten, crawlt er in der gleichen Zeit, in der er 100 Seiten einer schnellen Website crawlen könnte, nur 30 deiner Seiten.

Indikatoren für Crawl-Budget-Probleme (sichtbar in Google Search Console > Einstellungen > Crawling):

Durchschnittliche Antwortzeit über 500 ms.
Abrupte Einbrüche bei den Crawl-Anfragen.
Zunahme von Serverfehlern (5xx).

Lösungen:

Serverebenen-Caching implementieren (nginx, CDN wie Cloudflare).
Datenbankabfragen optimieren, die die meistgecrawlten Seiten versorgen.
Sicherstellen, dass die Core Web Vitals die Schwellenwerte einhalten: LCP unter 2,5 Sekunden, INP unter 200 ms, CLS unter 0,1.
URLs mit niedrigem Wert eliminieren oder konsolidieren, die Crawl-Budget verbrauchen, ohne Traffic zu generieren (tiefe Paginierungsseiten, indexierbare Facettenfilter, doppelte URL-Parameter).

Entdeckte, aber nicht indexierte Seiten

Dies ist einer der frustrierendsten Status in der Google Search Console. Google weiß, dass deine URL existiert, hat sie aber nicht gecrawlt. Häufige Ursachen:

Niedrige Domain-Autorität: Wenn deine Website neu ist oder wenige externe Links hat, weist Google wenig Crawl-Budget zu.
Zu viele minderwertige URLs: Wenn das Verhältnis von nützlichen Seiten zu Junk-Seiten niedrig ist, reduziert Google das gesamte Crawling.
Serverüberlastung: Google hat festgestellt, dass dein Server langsam antwortet, und die Crawl-Frequenz reduziert.

Lösung: Verbessere die Gesamtqualität der Website (entferne Thin Content oder Duplikate), stärke die interne Verlinkung zu den ausstehenden Seiten und fordere die Indexierung der wichtigsten manuell an.

Hreflang-Fehler auf mehrsprachigen Websites

Auf Websites mit mehreren Sprachversionen sind Hreflang-Fehler eine ständige Quelle von Indexierungsproblemen. Google kann am Ende die falsche Version einer Seite für eine bestimmte Sprache indexieren oder gar keine alternative Version indexieren.

Die häufigsten Fehler, die wir bei der Verwaltung von Websites mit 7 Sprachversionen finden:

Nicht-reziproke Hreflangs: Die spanische Seite verweist auf die englische Version, aber die englische Version verweist nicht zurück auf die spanische. Google erfordert bidirektionale Referenzen.
Inkonsistenter Trailing Slash in URLs: Wenn deine kanonische URL ohne Trailing Slash ist, aber der Hreflang auf eine URL mit Trailing Slash verweist, behandelt Google sie als unterschiedliche URLs.
Sprachen ohne eigenen Inhalt: Denselben spanischen Inhalt unter der /de/-URL (Deutsch) zu servieren ist schlimmer, als keine deutsche Version zu haben. Google erkennt doppelten Inhalt zwischen Sprachen und kann beide Versionen deindexieren.

Indexierung und die neuen generativen KI-Suchmaschinen

Die Landschaft 2026 umfasst einen Faktor, den es vor zwei Jahren nicht gab: generative KI-Crawler. GPTBot, ClaudeBot und PerplexityBot crawlen das Web aktiv, um ihre Modelle zu füttern und Antworten zu generieren.

Diese Bots respektieren robots.txt, verhalten sich aber anders als der Googlebot:

Crawl-Frequenz: Sie können aggressiver sein als der Googlebot, wenn du die Rate nicht über crawl-delay oder deine Infrastruktur begrenzt.
Inhalt, den sie priorisieren: Sie suchen faktischen Inhalt, verifizierbare Daten, strukturierte Listen und direkte Antworten auf Fragen. Generischer Inhalt ohne konkrete Daten hat eine geringere Chance, zitiert zu werden.
Sie indexieren nicht wie Google: Sie unterhalten keinen öffentlichen Index, den du abfragen kannst. Dein Inhalt kann in ihren Systemen sein, aber du hast keine direkte Möglichkeit, dies zu überprüfen.

Die Strategie, die wir bei Kiwop anwenden, ist klar: Hauptinhalte für alle Crawler zugänglich halten (Google und KI-Bots), mit sauberen semantischen Strukturen (hierarchische Überschriften, Schema-Markup, strukturierte JSON-LD-Daten), die sowohl die traditionelle Indexierung als auch die Zitation in Antwortmaschinen erleichtern.

Die AI Overviews von Google, die 2026 in fast der Hälfte der überwachten Suchanfragen erscheinen, hängen ebenfalls von der Indexierung ab. Wenn deine Seite nicht von Google indexiert ist, kann sie nicht in einem AI Overview erscheinen. Die Indexierung bleibt das Tor zu jeder organischen Sichtbarkeit, einschließlich der durch KI generierten.

Indexierungs-Checkliste für 2026

Bevor wir ein Indexierungs-Audit abschließen, überprüfen wir diese Punkte:

robots.txt: Blockiert kein CSS, JS oder wichtige Seiten. Deklariert die Sitemap. Verwaltet KI-Crawler explizit.
XML-Sitemap: Enthält nur kanonische URLs mit Statuscode 200. Bei der Google Search Console eingereicht und fehlerfrei verarbeitet.
Meta robots: Seiten, die indexiert werden sollen, haben index, follow (oder kein Meta-robots-Tag, was gleichwertig ist). Die, die nicht indexiert werden sollen, haben noindex.
Canonical-Tags: Jede Seite hat ein korrektes Canonical, das auf sich selbst oder die bevorzugte Version verweist.
Hreflang: Korrekt konfiguriert auf mehrsprachigen Websites, mit Reziprozität zwischen allen Versionen.
Rendering: Der Hauptinhalt ist im ausgelieferten HTML sichtbar (SSR/SSG), ohne ausschließlich auf JavaScript angewiesen zu sein.
Servergeschwindigkeit: TTFB unter 500 ms, idealerweise unter 200 ms.
Core Web Vitals: LCP, INP und CLS innerhalb der „guten" Schwellenwerte.
Interne Verlinkung: Keine wichtige Seite ist verwaist. Alle sind innerhalb von 3 Klicks oder weniger von der Startseite erreichbar.
Qualitätsinhalte: Keine dünnen, doppelten oder wertlosen Seiten, die Crawl-Budget verbrauchen.

Häufig gestellte Fragen

Wie lange dauert es, bis Google eine neue Seite indexiert?

Das hängt von mehreren Faktoren ab: der Domain-Autorität, der zugewiesenen Crawl-Frequenz, der Inhaltsqualität und davon, ob du die URL manuell eingereicht hast. Auf Websites mit guter Autorität kann eine neue Seite innerhalb von Stunden indexiert werden, wenn du sie über die Google Search Console einreichst. Auf neuen oder Websites mit geringer Autorität kann es Tage bis Wochen dauern. Der Durchschnitt für eine etablierte Website liegt meist bei 1 bis 4 Tagen.

Sind Indexierung und Ranking dasselbe?

Nein. Die Indexierung ist die Voraussetzung: Sie bedeutet, dass Google deine Seite in seiner Datenbank gespeichert hat. Das Ranking ist das Ergebnis davon, wie Google diese Seite im Vergleich zur Konkurrenz für jede Suchanfrage bewertet. Eine Seite kann indexiert sein und auf Position 80 erscheinen, wo sie niemand sieht. Das Ziel von SEO ist es, dieses Ranking zu verbessern, sobald die Seite indexiert ist.

Sollte ich jede Seite meiner Website indexieren?

Nein. Das Indexieren von Seiten ohne SEO-Wert (interne Suchergebnisse, Login-Seiten, Dankesseiten, Facettenfilter, tiefe Paginierung) verwässert die wahrgenommene Qualität deiner Website. Google bewertet die Qualität auf Website-Ebene, nicht nur auf Seitenebene. Eine Website mit 10.000 indexierten Seiten, von denen 7.000 Müll sind, schneidet schlechter ab als eine mit 3.000 Qualitätsseiten. Sei selektiv: Indexiere nur das, was dem Nutzer Mehrwert bietet und organisches Traffic-Potenzial hat.

Was ist der Unterschied zwischen dem Blockieren mit robots.txt und der Verwendung von noindex?

robots.txt verhindert das Crawling: Der Googlebot wird die URL nicht besuchen. Aber wenn diese URL externe Links hat, die auf sie verweisen, kann Google sie trotzdem indexieren — nur die URL ohne Inhalt. Das Meta-Tag noindex erlaubt das Crawling, weist Google aber an, sie nicht in den Index aufzunehmen. Um die Indexierung zuverlässig zu verhindern, ist die sicherste Kombination, das Crawling zu erlauben (damit Google das noindex liest) und die noindex-Direktive im robots-Meta-Tag zu verwenden. Gleichzeitig mit robots.txt blockieren und noindex setzen ist widersprüchlich: Google kann das noindex nicht lesen, wenn es die Seite nicht crawlen kann.

Beeinflussen KI-Crawler mein Google-Crawl-Budget?

Nicht direkt. Das Crawl-Budget von Google ist unabhängig von der Aktivität von GPTBot, ClaudeBot oder PerplexityBot. Wenn dein Server jedoch begrenzte Ressourcen hat und KI-Crawler viele gleichzeitige Anfragen generieren, kann sich die Antwortgeschwindigkeit des Servers verschlechtern, was indirekt dazu führt, dass Google seine Crawl-Frequenz reduziert. Die Lösung ist, die Serverprotokolle zu überwachen, um Bot-Traffic-Spitzen zu identifizieren, und Rate Limiting zu konfigurieren, wenn nötig — ohne die Crawler, die du aktiv halten möchtest, komplett zu blockieren.

Artikel verfasst vom [SEO-Team bei Kiwop](/seo) — einer digitalen Agentur, spezialisiert auf Softwareentwicklung und Growth Marketing. Wir betreuen mehrsprachige Websites mit 7 Sprachversionen und über 1.600 indexierten Seiten und wenden die in diesem Leitfaden beschriebenen Indexierungspraktiken täglich an.