- Cómo realizar una Auditoría SEO Avanzada paso a paso - julio 17, 2025
- Los 10 hooks más efectivos para TikTok (con ejemplos y cómo aplicarlos) - julio 8, 2025
- 7 Ejemplos de Expresiones Regulares para usar en SEO - julio 3, 2025
Las expresiones regulares (o Regex, por su nombre en inglés: Regular Expressions) son una herramienta potentísima en el SEO técnico. Gracias a ellas, puedes identificar, filtrar y manipular grandes volúmenes de datos con patrones específicos de forma rápida y precisa. Desde auditar URLs hasta limpiar parámetros, las Regex se han convertido en un recurso esencial para cualquier profesional del SEO que quiera llevar su análisis al siguiente nivel.
Además de Regex, otra tecnología que a menudo se utiliza en SEO es XPath. Aunque ambas permiten localizar información, su enfoque y sintaxis son diferentes. Mientras que Regex trabaja sobre el contenido textual en general (por ejemplo, URLs o etiquetas completas), XPath se centra en navegar por la estructura de un documento HTML o XML para localizar nodos concretos.
¿Qué son las Expresiones Regulares o «Regex» y cómo puede ayudarte en SEO?
Definición sencilla de Regex
Regex es un lenguaje de patrones que permite buscar y extraer secuencias de texto que cumplan una determinada estructura. En otras palabras, te permite decir: «Muéstrame todas las cadenas que empiecen por esto, contengan aquello y acaben de esta forma».
Casos de uso más comunes de Expresiones Regulares en proyectos SEO
Filtrar URLs con parámetros o estructuras específicas
En sitios grandes, muchas URLs incluyen parámetros que pueden generar contenido duplicado o inflar el rastreo. Por ejemplo, imagina que quieres identificar todas las URLs que contienen el parámetro, evitar las paginaciones o rastrear solo producots por ejemplo, muy util en proyectos Prestashop por ejemplo. Puedes usar esta expresión regular en Screaming Frog o en Search Console:
Descripción de uso | Regex a aplicar | Tipo de filtro | Notas |
---|---|---|---|
Filtrar las URLs que contienen parámetros UTM | \?utm_ |
Exclusión | Evita rastrear duplicados con parámetros de tracking. |
Omitir las URLs con paginaciones que contienen «page=» | \?page=\d+ |
Exclusión | Ideal para no rastrear paginados que no aportan valor SEO. |
Filtrar únicamente los productos en Prestashop que terminan en .html | \.html$ |
Inclusión | Restringe el rastreo solo a páginas de producto. |
Filtrar únicamente las categorías de Shopify con /collections/ | /collections/ |
Inclusión | Permite centrarte en las colecciones principales. |
Localizar enlaces que mencionan una palabra clave específica en su texto ancla | <a[^>]*>[^<]*descargar[^<]*</a> |
Inclusión | Permite buscar anchor text específicos |
Limpiar datos en hojas de cálculo (por ejemplo, eliminar parámetros dinámicos)
En Google Sheets, puedes usar REGEXREPLACE
para quitar parámetros de seguimiento. Por ejemplo, si tienes esta URL:
Descripción de uso | Fórmula Regex | Resultado esperado |
---|---|---|
Quitar parámetros dinámicos de las URLs (por ejemplo, utm_source) | =REGEXREPLACE(A2;»(\?.*)»;»») | https://www.ejemplo.com/producto |
Eliminar el dominio y dejar solo el path de la URL | =REGEXEXTRACT(C8;»\w{2,}(\/.*)») | /categoria/producto |
Limpiar los IDs de las URLs de Prestashop y obtener solo el nombre | =REGEXEXTRACT(A2;»/[0-9]+-(.*)») | /nombre-categoria |
Borrar todas las etiquetas html <h2>Encabezado h2</h2> | <[^>]+> | Encabezado h2 |
Eliminar todos los saltos de linea con la función Buscar y reemplazar | \n | Elimina saltos de linea |
Crear segmentos avanzados en Google Analytics o Search Console con Regex
Descripción de uso | Regex a usar | Dónde aplicarlo |
---|---|---|
Filtrar tráfico de marca incluyendo varias variantes del nombre | nombre1|variante2|variante3|variante4 | Google Analytics, Search Console |
Filtrar tráfico que accede al blog (URLs que contienen /blog/) | /blog/ | Google Analytics, Search Console |
Excluir tráfico de campañas de pago en GA4 (medios de sesión Cross-network, Paid Search o Paid Social) | Cross-network|Paid Search|Paid Social | Google Analytics 4 |
Filtrar tráfico hacia productos en Prestashop (URLs que terminan en .html) | \.html$ | Google Analytics, Search Console |
Filtrar consultas de búsqueda que empiecen por “cómo” | ^cómo | Search Console |
Filtrar tráfico solo de la home (URL exacta /) | ^/$ | Google Analytics, Search Console |
Filtrar URLs que pertenecen a la sección de categorías (primer nivel) | ^/categoria/ | Search Console |
Filtrar consultas con números (por ejemplo, modelos de producto) | \d+ | Search Console |
Excluir tráfico con URLs que terminan en /gracias (páginas de confirmación) | /gracias$ | Google Analytics |
Ejemplos de extracción de contenido con Screaming Frog
Screaming Frog permite configurar extracciones personalizadas utilizando XPath o Regex. Esta funcionalidad es muy potente si necesitas scrapeos masivos para análisis, migraciones o auditorías de contenido. A continuación, tienes algunos ejemplos prácticos:
Descripción de uso | Selector (XPath o Regex) | Notas |
---|---|---|
Extraer la ruta de las imágenes de los productos | //*[@class=»clase de la imagen»]/@src | Devuelve la URL de cada imagen principal del producto. |
Extraer todos los encabezados de una página (h1, h2, h3…) | //h1|//h2|//h3|//h4|//h5|//h6 | Captura todos los encabezados independientemente de su nivel. |
Extraer todas las descripciones de una ficha de producto | //*[@class=»product-description»] | Devuelve el bloque de texto de la descripción principal. |
Extraer las migas de pan | //span[@itemprop=»name»] | Captura cada elemento de la ruta de navegación. |
Principios básicos: Cómo funcionan las expresiones regulares en HTML y URLs
Anatomía de una expresión regular
Una expresión regular (Regex) es como un patrón que le dice a la herramienta qué texto debe buscar o extraer. Se compone de una combinación de caracteres literales (los que escribes tal cual) y caracteres especiales (metacaracteres que representan posiciones, repeticiones o rangos). Algunos de los más utilizados son:
^
: indica el inicio de la cadena. Por ejemplo,^/blog
encuentra todas las URLs que empiezan por/blog
.$
: indica el final de la cadena. Por ejemplo,\.html$
localiza todas las que terminan en.html
..
: representa cualquier carácter individual, salvo el salto de línea.*
: indica que el elemento anterior puede repetirse cero o más veces. Por ejemplo,a*
coincide con «», «a», «aa», etc.+
: igual que el asterisco, pero al menos una repetición.[ ]
: define un conjunto de caracteres permitidos. Por ejemplo,[0-9]
cualquier dígito.( )
: crea un grupo de captura que puedes usar para extraer o referenciar subpatrones.
Combinar estos elementos te permite construir patrones tan simples o complejos como necesites.
Ejemplos prácticos con expresiones regulares HTML
Para entenderlo mejor, aquí tienes ejemplos pensados para SEO técnico:
1. Encontrar enlaces que contengan la palabra «oferta»:
<a[^>]*>[^<]*oferta[^<]*</a>
Esta Regex hace lo siguiente:
<a[^>]*>
: detecta el inicio de un enlace <a> con cualquier atributo.[^<]*
: cualquier texto dentro del enlace.oferta
: contiene la palabra clave.[^<]*</a>
: termina el enlace.
2. Localizar imágenes con extensión .jpg:
<img[^>]+src="[^"]+\.jpg"
Desglose del patrón:
<img[^>]+
: etiqueta de imagen con atributos.src="
: atributo src que indica la ruta.[^"]+\.jpg
: cualquier ruta que termine en .jpg.
3. Extraer URLs con parámetros UTM:
\?utm_[^=]+=.*
Esto identifica cualquier URL que empiece un parámetro utm (utm_source, utm_medium…).
7 Regex imprescindibles que todo SEO debería dominar
A continuación, te mostramos siete expresiones regulares que te facilitarán tareas comunes en cualquier proyecto SEO. Incluimos ejemplos de uso y consejos sobre cómo aplicarlas en tus herramientas favoritas.
1. Filtrar Tráfico de marca en Search Console y GA4
Regex:
palabra1|palabra2|variante3|variante4
Ejemplo: Encontrar todas las URLs que contienen el nombre de la amrca o su variante
Aplicaciones:
- Screaming Frog: Filtrar solo las URLs del blog en la pestaña de Internal.
- Google Analytics: Crear un segmento con las páginas que contengan /blog/.
- Google Sheets: Usar
=REGEXMATCH(A2,"/blog/")
para marcar qué URLs pertenecen al blog.
2. Identificar parámetros de seguimiento en URLs
Regex:
\?.*(utm_|fbclid|gclid)[^=]*=
Ejemplo: Detectar cualquier parámetro UTM o de tracking:
\?.*(utm_|fbclid|gclid)[^=]*=
Aplicaciones:
- Screaming Frog: Configurar un filtro de inclusión o exclusión.
- Search Console: Filtrar rendimiento de URLs con parámetros de seguimiento.
- Sheets: Eliminar estos parámetros con
=REGEXREPLACE()
.
3. Filtrar páginas con o sin barra final (/)
Regex:
/$
Ejemplo: Encontrar URLs que terminen con una barra:
/$
Aplicaciones:
- Screaming Frog: Revisar consistencia de URLs con o sin trailing slash.
- Google Sheets: Añadir o quitar barras finales.
4. Localizar rutas de categorías o subcategorías
Regex:
^/categoria/[^/]+/
Ejemplo: Todas las URLs que comienzan con /categoria/ y contienen una subcarpeta:
^/categoria/[^/]+/
Aplicaciones:
- Screaming Frog: Filtrar URLs de categorías.
- Search Console: Analizar tráfico solo de secciones específicas.
5. Detectar URLs con extensiones específicas (.html, .php)
Regex:
\.(html|php)$
Ejemplo: Localizar URLs que terminan en .html o .php:
\.(html|php)$
Aplicaciones:
- Screaming Frog: Auditar contenidos con extensiones antiguas.
- Sheets: Marcar URLs según su tipo de archivo.
6. Encontrar títulos que empiezan o acaban con una palabra
Regex:
^(Palabra|OtraPalabra).*|.*(Palabra|OtraPalabra)$
Ejemplo: Identificar títulos que empiezan o terminan con «Oferta» o «Promoción»:
^(Oferta|Promoción).*|.*(Oferta|Promoción)$
Aplicaciones:
- Screaming Frog: Personalizar filtros en la pestaña Titles.
- Sheets: Detectar patrones de naming inconsistente.
7. Validar formatos de canonicals o hreflang
Regex:
^https:\/\/www\.tudominio\.com\/[a-z0-9\-\/]+$
Ejemplo: Verificar que los canonicals son absolutos y pertenecen al dominio principal:
^https:\/\/www\.midominio\.com\/[a-z0-9\-\/]+$
Aplicaciones:
- Screaming Frog: Validar canonicals en la pestaña Directives.
- Sheets: Marcar canonicals externos o con errores de sintaxis.
Estas expresiones cubren la mayoría de casos prácticos que encontrarás al auditar proyectos SEO, tanto en rastreos como en hojas de datos o configuraciones de analítica.