SEO i SEM

Indexació web: què és, com funciona i com aconseguir que Google indexi el teu lloc el 2026

21 de febrer del 2026

20 min de lectura

Visualizacion del proceso de indexacion web y rastreo de Google con nodos conectados

Si la teva pàgina no està indexada, no existeix per a Google. No importa quant hagis invertit en disseny, contingut o publicitat: sense indexació, la teva URL no apareix en cap resultat de cerca, no competeix per cap paraula clau i no genera ni un sol clic orgànic.

La indexació web és el procés pel qual els motors de cerca descobreixen, analitzen i emmagatzemen les pàgines del teu lloc a la seva base de dades. És el pas previ i imprescindible al posicionament. I el 2026, amb Google processant milers de milions de pàgines al dia mentre gestiona crawlers d'IA generativa, crawl budgets cada vegada més ajustats i exigències tècniques creixents, entendre com funciona la indexació no és opcional: és la base de qualsevol estratègia de SEO que pretengui generar resultats.

En aquesta guia expliquem el procés complet d'indexació, des del rastreig fins a la inclusió a l'índex de Google, amb els passos concrets per verificar l'estat del teu web, solucionar els problemes més comuns i assegurar que cada pàgina rellevant estigui correctament indexada.

Què és la indexació web

La indexació web és el procés mitjançant el qual un motor de cerca analitza el contingut d'una URL i l'emmagatzema al seu índex: una base de dades massiva que Google consulta cada vegada que algú realitza una cerca.

Pensa en l'índex de Google com el catàleg d'una biblioteca. Si un llibre no està catalogat, el bibliotecari no pot trobar-lo encara que estigui físicament a la prestatgeria. De la mateixa manera, si la teva pàgina no està a l'índex de Google, no pot aparèixer als resultats per molt que contingui exactament el que l'usuari busca.

És important distingir tres conceptes que sovint es confonen:

Rastreig (crawling): Googlebot visita la teva URL i descarrega el seu contingut HTML.
Renderitzat (rendering): Google executa el JavaScript de la pàgina per obtenir el contingut final que veu un usuari real.
Indexació (indexing): Google analitza el contingut renderitzat, el processa i decideix si l'emmagatzema al seu índex.

Una pàgina pot ser rastrejada però no indexada. I una pàgina que no és rastrejada mai arribarà a indexar-se. Cada fase té les seves pròpies regles i punts de fallada.

Com funciona el procés d'indexació pas a pas

Google no indexa pàgines a l'atzar. Segueix un procés sistemàtic amb tres fases diferenciades. Entendre cadascuna és fonamental per diagnosticar i resoldre problemes d'indexació.

Fase 1: rastreig (crawling)

Tot comença amb Googlebot, el crawler de Google. Googlebot descobreix URLs de tres maneres principals:

Sitemaps XML: l'arxiu sitemap.xml li indica explícitament quines URLs existeixen al teu lloc.
Enllaços interns i externs: cada enllaç que Googlebot troba en rastrejar una pàgina s'afegeix a la seva cua de rastreig.
Sol·licituds directes: quan envies una URL manualment a través de Google Search Console.

Un cop Googlebot té una URL a la seva cua, realitza una petició HTTP GET al servidor. Si el servidor retorna un codi 200 (èxit), Googlebot descarrega l'HTML i el passa a la fase següent. Si rep un 404 (no trobada), 500 (error del servidor) o una redirecció, actua en conseqüència.

El concepte clau aquí és el crawl budget: la quantitat de recursos que Google dedica a rastrejar el teu lloc en un període determinat. El crawl budget depèn de dos factors:

Capacitat de rastreig: quantes peticions pot fer sense sobrecarregar el teu servidor. Si el teu lloc respon lentament, Google redueix la freqüència de rastreig per no tombar-lo.
Demanda de rastreig: quant interès té Google en les teves pàgines. Un lloc amb contingut actualitzat freqüentment i bones mètriques d'usuari rep més rastreig que un d'estàtic.

El 2026, els Core Web Vitals influeixen directament en la capacitat de rastreig. Un lloc amb un Time to First Byte (TTFB) per sota de 200 ms permet a Googlebot rastrejar més pàgines en el mateix temps que un que respon en 2 segons. Cada mil·lisegon compta quan Google ha de decidir com repartir el seu crawl budget entre milers de milions de llocs.

Fase 2: renderitzat (rendering)

Aquí és on molts llocs perden la partida sense saber-ho. Després de descarregar l'HTML inicial, Google l'envia al seu servei de renderitzat web (WRS, Web Rendering Service), que executa JavaScript igual que un navegador Chrome.

Això és crític perquè gran part del contingut web modern es genera amb JavaScript. Si el teu framework (React, Vue, Angular) renderitza el contingut exclusivament al client (client-side rendering), Google necessita executar el teu JavaScript per veure aquest contingut. I la cua de renderitzat no és instantània: pot trigar hores o fins i tot dies a processar la teva pàgina.

El problema de JavaScript i la indexació:

Si el renderitzat falla (JavaScript amb errors, timeouts, dependències externes que no carreguen), Google indexa l'HTML buit. A la pràctica, això significa que la teva pàgina apareix a l'índex però sense el contingut rellevant, o directament no s'indexa per ser considerada buida.

La solució tècnica que recomanem sempre és el renderitzat al servidor (SSR) o la generació estàtica (SSG). Frameworks com Astro, Next.js o Nuxt permeten que l'HTML arribi al crawler amb el contingut ja inclòs, sense dependre de JavaScript per mostrar informació essencial. A Kiwop, el nostre propi lloc serveix contingut en 7 idiomes amb SSR en Astro, garantint que Googlebot rep contingut complet a cada petició.

Fase 3: indexació pròpiament dita

Un cop Google té el contingut renderitzat, el processa per decidir si l'inclou a l'índex i com. Aquesta fase inclou:

Anàlisi del contingut: Google extreu el text, identifica els encapçalaments, analitza l'estructura semàntica i determina de què tracta la pàgina.
Avaluació de qualitat: el contingut és original? Aporta valor? És substancialment diferent d'altres pàgines ja indexades?
Canonicalització: si Google detecta contingut duplicat o molt similar entre diverses URLs, escull una com a canònica (la versió preferida) i pot descartar les altres.
Senyals tècnics: les meta tags (robots, canonical, hreflang), les dades estructurades i l'arquitectura del lloc influeixen en com Google categoritza i emmagatzema la pàgina.

Google no indexa tot el que rastreja. Si una pàgina té contingut thin (escàs o sense valor), és una duplicació d'una altra que ja està a l'índex, o té directives que impedeixen la indexació, Google la descarta. Segons dades internes de Google, només una fracció de les URLs rastrejades acaben a l'índex final.

Com verificar si el teu web està indexat

Abans de solucionar problemes, necessites un diagnòstic clar. Aquestes són les tres formes de comprovar l'estat d'indexació del teu lloc.

Operador site: a Google

La forma més ràpida (encara que no la més precisa) és buscar directament a Google:

El nombre de resultats et dona una estimació aproximada de quantes pàgines té Google indexades del teu lloc. Si busques una URL específica:

Si no apareix cap resultat, aquesta pàgina no està indexada. És un diagnòstic ràpid, però limitat: Google no sempre mostra totes les pàgines indexades amb aquest operador.

Google Search Console (mètode definitiu)

Google Search Console és l'eina oficial i la més fiable per verificar la indexació. Ofereix dues funcions clau:

Informe d'indexació de pàgines (Indexing > Pages): mostra l'estat global del teu lloc. Veuràs quantes pàgines estan indexades, quantes no, i el motiu exacte d'exclusió per a cada grup. Els motius més comuns són:

Rastrejada, actualment no indexada: Google la va visitar però va decidir no indexar-la.
Descoberta, actualment no indexada: Google sap que existeix però encara no l'ha rastrejada.
Exclosa per l'etiqueta noindex: la pròpia pàgina indica a Google que no la indexi.
Duplicada, Google va escollir una canònica diferent: el contingut és massa similar a una altra URL.
URL alternativa amb etiqueta canònica adequada: és una variant (idioma, versió mòbil) correctament configurada.

Eina d'inspecció d'URLs (URL Inspection): introdueix qualsevol URL i Google Search Console et mostra el seu estat exacte: si està indexada, quan va ser l'últim rastreig, si té errors de renderitzat, quina canònica va detectar Google i com la classifica en termes de rastreig mòbil.

Sitemaps i registres del servidor

Comparar les URLs del teu sitemap amb les pàgines indexades revela discrepàncies. Si tens 500 URLs al sitemap però només 300 indexades, hi ha 200 pàgines que Google ha decidit ignorar. Creuar aquesta informació amb els logs del servidor (per veure si Googlebot realment les visita) completa el diagnòstic. El servei d'analítica web és fonamental per muntar aquesta traçabilitat de forma correcta.

Com aconseguir que Google indexi el teu web

Un cop entès el procés i diagnosticat l'estat actual, aquests són els passos concrets per garantir la indexació.

Configura un sitemap XML correcte

El sitemap XML és el teu canal directe de comunicació amb Google. Li diu explícitament quines URLs vols que rastreja i indexi.

Un sitemap ben configurat per a un lloc multiidioma:

Regles clau del sitemap:

Inclou només URLs canòniques que retornin codi 200. No hi posis redireccions, 404s ni pàgines amb noindex.
Actualitza la data <lastmod> només quan el contingut canviï realment. Google penalitza els lastmod inflats artificialment.
Per a llocs grans (més de 50.000 URLs), utilitza un índex de sitemaps que agrupi els arxius per secció o idioma.
Envia el sitemap a Google Search Console i verifica que el processi sense errors.

Optimitza el teu arxiu robots.txt

L'arxiu robots.txt controla què poden rastrejar els bots i què no. Un error aquí pot bloquejar la indexació de seccions senceres sense que te n'adonis.

Errors freqüents en robots.txt:

Bloquejar arxius CSS o JavaScript amb Disallow. Google necessita accedir a aquests recursos per renderitzar la pàgina. Si els bloqueges, no pot veure el teu contingut.
No declarar el sitemap. És una oportunitat perduda d'indicar a Google on són les teves URLs.
Confondre Disallow amb noindex. Robots.txt impedeix el rastreig, però si una pàgina bloquejada té enllaços externs, Google pot indexar la URL (sense contingut) igualment. Per evitar la indexació, utilitza la meta tag noindex.

Gestiona els crawlers d'IA

El 2026, el teu robots.txt ja no és només per a Google. GPTBot (OpenAI), ClaudeBot (Anthropic) i PerplexityBot són crawlers actius que rastregen el teu lloc per alimentar motors de resposta d'IA. La decisió de permetre'ls o bloquejar-los té implicacions directes:

Si els permets: el teu contingut pot aparèixer citat en respostes de ChatGPT, Claude i Perplexity, generant visibilitat i trànsit referit.
Si els bloqueges: et tornes invisible per als motors de cerca generativa, que cada mes representen un percentatge més gran del descobriment de contingut.

La nostra recomanació és permetre el rastreig d'IA en seccions públiques (blog, serveis, casos d'èxit) i bloquejar-lo en àrees privades o sense valor públic (admin, checkout, comptes d'usuari).

Utilitza la meta tag robots correctament

La meta tag robots dins del <head> de cada pàgina controla la indexació a nivell individual:

Utilitza noindex en pàgines que no han d'aparèixer en cerques: pàgines d'agraïment, resultats de cerca interna, pàgines de paginació profunda, contingut legal sense valor SEO o pàgines de staging que no haurien de ser públiques.

Un cas habitual que veiem en auditories: llocs que migren d'un entorn de desenvolupament a producció i obliden treure la meta tag noindex global que tenien durant el desenvolupament. El resultat és un lloc complet invisible per a Google durant setmanes fins que algú ho detecta.

Construeix una arquitectura d'enllaços interns sòlida

Google descobreix pàgines seguint enllaços. Si una URL no té cap enllaç intern apuntant-hi (una pàgina òrfena), Googlebot té molt poques formes de trobar-la fins i tot si està al sitemap.

Les millors pràctiques d'enllaçat intern per a la indexació:

Tota pàgina important ha d'estar a un màxim de 3 clics des de la home.
Utilitza text àncora descriptiu, no genèrics com "fes clic aquí".
Els menús de navegació, les molles de pa (breadcrumbs) i els blocs d'articles relacionats són eines naturals d'enllaçat intern.
Per a llocs multiidioma, cada versió lingüística ha de tenir la seva pròpia xarxa d'enllaços interns. Els hreflangs indiquen l'equivalència entre idiomes, però no substitueixen l'enllaçat intern dins de cada idioma.

Sol·licita la indexació manualment quan sigui necessari

Per a pàgines noves o actualitzades que necessites indexar ràpidament, Google Search Console ofereix l'opció de sol·licitar la indexació d'una URL concreta:

Obre Google Search Console.
Introdueix la URL a la barra d'inspecció.
Si no està indexada, fes clic a "Sol·licitar indexació".

Google no garanteix terminis, però a la pràctica, les URLs enviades manualment solen indexar-se en hores o pocs dies, enfront dels dies o setmanes que pot trigar el rastreig natural. És especialment útil per a contingut que necessita aparèixer ràpidament, com articles sobre tendències o llançaments de producte.

Problemes comuns d'indexació i com solucionar-los

Aquests són els problemes que trobem amb més freqüència a les auditories tècniques de SEO que realitzem.

Contingut duplicat i canibalització

Quan Google troba diverses pàgines amb contingut molt similar, escull una com a canònica i pot ignorar la resta. És un problema especialment greu en:

E-commerce: productes amb descripcions idèntiques, variants de color/talla amb URLs separades.
Llocs multiidioma: contingut no traduït que es serveix en diversos idiomes amb la mateixa base.
Blog: articles que cobreixen temes molt similars sense diferenciació clara.

Solució: utilitza l'etiqueta <link rel="canonical"> per indicar a Google la versió preferida. En llocs multiidioma, combina canonical amb hreflang perquè Google entengui que cada versió és la canònica del seu idioma:

JavaScript que bloqueja el contingut

Si el teu lloc depèn de JavaScript per mostrar contingut principal i el renderitzat falla, Google indexa una pàgina buida o parcial.

Com diagnosticar-ho: utilitza l'eina d'inspecció d'URLs a Google Search Console i compara la pestanya "HTML renderitzat" amb el que esperes veure. Si falta contingut, el problema és al renderitzat.

Solucions per prioritat:

SSR o SSG (solució definitiva): serveix l'HTML amb el contingut ja inclòs. Frameworks com Astro, Next.js o Nuxt ho fan de forma nativa.
Dynamic rendering: serveix una versió prerenderitzada als bots i la versió JavaScript als usuaris. És una solució temporal que Google accepta però no recomana a llarg termini.
Auditar dependències: si el teu JavaScript carrega contingut d'APIs externes, un timeout o error en aquesta API pot fer que el contingut no estigui disponible quan Googlebot renderitza.

Problemes de velocitat i crawl budget

Un servidor lent redueix dràsticament la quantitat de pàgines que Google pot rastrejar. Si Googlebot triga 3 segons a rebre cada resposta, en el mateix temps que podria rastrejar 100 pàgines d'un lloc ràpid, només en rastreja 30 del teu.

Indicadors de problemes de crawl budget (visibles a Google Search Console > Configuració > Rastreig):

Temps mitjà de resposta superior a 500 ms.
Caigudes abruptes en les sol·licituds de rastreig.
Augment d'errors de servidor (5xx).

Solucions:

Implementar memòria cau a nivell de servidor (nginx, CDN com Cloudflare).
Optimitzar les consultes a base de dades que alimenten les pàgines més rastrejades.
Assegurar que les Core Web Vitals passen els llindars: LCP inferior a 2,5 segons, INP inferior a 200 ms, CLS inferior a 0,1.
Eliminar o consolidar URLs de baix valor que consumeixen crawl budget sense aportar trànsit (pàgines de paginació profunda, filtres de facetes indexables, paràmetres d'URL duplicats).

Pàgines descobertes però no indexades

Aquest és un dels estats més frustrants a Google Search Console. Google sap que la teva URL existeix, però no l'ha rastrejada. Les causes habituals:

Baixa autoritat del domini: si el teu lloc és nou o té pocs enllaços externs, Google assigna poc crawl budget.
Massa URLs de baixa qualitat: si la proporció de pàgines útils enfront de pàgines brossa és baixa, Google redueix el rastreig general.
Sobrecàrrega del servidor: Google va detectar que el teu servidor responia lentament i va reduir la freqüència de rastreig.

Solució: millora la qualitat global del lloc (elimina contingut thin o duplicat), reforça l'enllaçat intern cap a les pàgines pendents i sol·licita la indexació manualment de les més importants.

Errors de hreflang en llocs multiidioma

En llocs amb múltiples versions lingüístiques, els errors de hreflang són una font constant de problemes d'indexació. Google pot acabar indexant la versió incorrecta d'una pàgina per a un idioma determinat, o no indexar cap versió alternativa.

Els errors més comuns que trobem en gestionar llocs amb 7 versions lingüístiques:

Hreflangs no recíprocs: la pàgina en espanyol apunta a la versió en anglès, però la versió en anglès no apunta de tornada a l'espanyola. Google necessita que les referències siguin bidireccionals.
URLs amb trailing slash inconsistent: si la teva canònica és sense trailing slash però l'hreflang apunta a una URL amb trailing slash, Google les tracta com URLs diferents.
Idiomes sense contingut propi: servir el mateix contingut en espanyol sota la URL /de/ (alemany) és pitjor que no tenir versió en alemany. Google detecta el contingut duplicat entre idiomes i pot desindexar ambdues versions.

Indexació i els nous motors d'IA generativa

El panorama del 2026 inclou un factor que no existia fa dos anys: els crawlers d'IA generativa. GPTBot, ClaudeBot i PerplexityBot rastregen la web de forma activa per alimentar els seus models i generar respostes.

Aquests bots respecten robots.txt, però tenen comportaments diferents a Googlebot:

Freqüència de rastreig: poden ser més agressius que Googlebot si no limites la taxa mitjançant crawl-delay o la teva infraestructura.
Contingut que prioritzen: busquen contingut factual, dades verificables, llistes estructurades i respostes directes a preguntes. El contingut genèric sense dades concretes té menys probabilitat de ser citat.
No indexen com Google: no mantenen un índex públic que puguis consultar. El teu contingut pot estar als seus sistemes però no tens forma directa de verificar-ho.

L'estratègia que apliquem a Kiwop és clara: mantenir el contingut principal accessible per a tots els crawlers (Google i bots d'IA), amb estructures semàntiques netes (headings jeràrquics, schema markup, dades estructurades JSON-LD) que facilitin tant la indexació tradicional com la citació en motors de resposta.

Els AI Overviews de Google, que el 2026 apareixen en gairebé la meitat de les cerques monitoritzades, també depenen de la indexació. Si la teva pàgina no està indexada per Google, no pot aparèixer en un AI Overview. La indexació segueix sent la porta d'entrada a tota la visibilitat orgànica, inclosa la generada per IA.

Checklist d'indexació per al 2026

Abans de donar per acabada una auditoria d'indexació, verifiquem aquests punts:

robots.txt: no bloqueja CSS, JS ni pàgines importants. Declara el sitemap. Gestiona els crawlers d'IA explícitament.
Sitemap XML: conté només URLs canòniques amb codi 200. Està enviat i processat a Google Search Console sense errors.
Meta robots: les pàgines que han de ser indexades tenen index, follow (o no tenen meta robots, que equival al mateix). Les que no han de ser indexades tenen noindex.
Canonical tags: cada pàgina té un canonical correcte apuntant a si mateixa o a la versió preferida.
Hreflang: configurat correctament en llocs multiidioma, amb reciprocitat entre totes les versions.
Renderitzat: el contingut principal és visible a l'HTML servit (SSR/SSG), sense dependre exclusivament de JavaScript.
Velocitat del servidor: TTFB per sota de 500 ms, idealment per sota de 200 ms.
Core Web Vitals: LCP, INP i CLS dins dels llindars "bons".
Enllaçat intern: cap pàgina important és òrfena. Totes estan a 3 clics o menys de la home.
Contingut de qualitat: no hi ha pàgines thin, duplicades o sense valor que consumeixin crawl budget.

Preguntes freqüents

Quant triga Google a indexar una pàgina nova?

Depèn de múltiples factors: l'autoritat del domini, la freqüència de rastreig assignada, la qualitat del contingut i si has enviat la URL manualment. En llocs amb bona autoritat, una pàgina nova pot indexar-se en hores si l'envies a través de Google Search Console. En llocs nous o amb poca autoritat, pot trigar entre dies i setmanes. La mitjana per a un lloc establert sol ser d'1 a 4 dies.

Indexació i posicionament són el mateix?

No. La indexació és el requisit previ: significa que Google ha emmagatzemat la teva pàgina a la seva base de dades. El posicionament (ranking) és el resultat de com Google avalua aquesta pàgina enfront de la competència per a cada consulta. Una pàgina pot estar indexada i aparèixer a la posició 80, on ningú la veu. L'objectiu del SEO és millorar aquest posicionament un cop la pàgina està indexada.

He d'indexar totes les pàgines del meu lloc?

No. Indexar pàgines sense valor SEO (resultats de cerca interna, pàgines de login, pàgines d'agraïment, filtres de facetes, paginació profunda) dilueix la qualitat percebuda del teu lloc. Google avalua la qualitat a nivell de lloc, no només de pàgina individual. Un lloc amb 10.000 pàgines indexades de les quals 7.000 són brossa tindrà pitjor rendiment que un amb 3.000 pàgines de qualitat. Sigues selectiu: indexa només el que aporta valor a l'usuari i té potencial de trànsit orgànic.

Quina diferència hi ha entre bloquejar amb robots.txt i usar noindex?

robots.txt impedeix el rastreig: Googlebot no visitarà la URL. Però si aquesta URL té enllaços externs apuntant-hi, Google pot indexar-la igualment mostrant només la URL sense contingut. La meta tag noindex permet el rastreig però indica a Google que no la inclogui a l'índex. Per impedir la indexació de forma fiable, la combinació més segura és permetre el rastreig (perquè Google llegeixi el noindex) i usar la directiva noindex a la meta tag robots. Bloquejar amb robots.txt i al mateix temps posar noindex és contradictori: Google no pot llegir el noindex si no pot rastrejar la pàgina.

Els crawlers d'IA afecten el meu crawl budget de Google?

No directament. El crawl budget de Google és independent de l'activitat de GPTBot, ClaudeBot o PerplexityBot. No obstant això, si el teu servidor té recursos limitats i els crawlers d'IA generen moltes peticions simultànies, la velocitat de resposta del servidor pot degradar-se, cosa que indirectament fa que Google redueixi la seva freqüència de rastreig. La solució és monitoritzar els logs del servidor per identificar pics de trànsit de bots i configurar límits de taxa (rate limiting) si cal, sense bloquejar completament els crawlers que vulguis mantenir actius.

Article redactat per l'equip de [SEO de Kiwop](/seo) — agència digital especialitzada en desenvolupament de software i growth marketing. Gestionem llocs multiidioma amb 7 versions lingüístiques i més de 1.600 pàgines indexades, aplicant les pràctiques d'indexació descrites en aquesta guia cada dia.