Regex mediante ejemplos

Las expresiones regulares, regex o regexp siempre me han parecido algo especialmente críptico. La realidad es que nunca les dediqué un mínimo de tiempo ya que en el trabajo todo es para ayer y siempre acabo acudiendo a soluciones ‘stackoverfloweras’ donde los super expertos siempre están ahí (gracias chicos). Pero se acabó, aprovechando que estoy en un avión y tengo unas horas y que me he planificado y descargado varios recursos previamente para poder trabajar ‘offline’ voy a aprovechar para intentar que lo aprendamos o, al menos, nos introduzcamos en ello mediante ejemplos y, así, nos acerquemos más a ser unos expertos mineros de datos y podamos extraer la correcta información a analizar.

Aunque en python se puedan buscar patrones de otras formas diferentes vamos a usar el módulo re de la librería estándar.

Vamos al lío. Imaginad que tenéis una cadena de e-mails en texto plano formateados de la forma que figura a continuación.

Imaginad que nuestro problema es que queremos saber cuantas direcciones de correo diferentes aparecen en toda la cadena de correos anterior (almacenada en la variable ‘texto’. Para la cadena anterior sería sencillo hacerlo a mano, pero imaginad que hay miles de correos.

Una forma sería usar el siguiente patrón: 'S+@S+'

donde

  • 'S' encuentra cualquier caracter que no sea un espacio en blanco (en las direcciones de correo no está permitido usar espacios en blanco). Sería equivalente a usar r'[^ tnrfv]’ (mirad aquí para ver qué es esto último entre corchetes)
  • '+' indica que hay que encontrar al menos un caracter que no sea un espacio en blanco
  • '@' indica la arroba 🙂

No voy a hablar de ninguna de las funciones del módulo re ya que para eso tenéis la documentación oficial de python. Empezaré usando la función findall para los primeros ejemplos.

La salida del anterior código mostrará:

Vaya, entre los resultados se nos han colado cosas que no serían direcciones de correo (los tres últimos elementos de la lista). Vamos a intentar solucionarlo usando un patrón un poco más complejo.

El patrón propuesto ahora sería algo como lo siguiente: 'w+@w+'

donde

  • 'w' encuentra cualquier caracter que sea alfanumérico (todas las letras mayúsculas y minúsculas, los números y el símbolo '_'). Esto sería equivalente a usar r'[a-zA-Z0-9_]'
  • '+' indica que hay que encontrar al menos un caracter que no sea un espacio en blanco
  • '@' indica la arroba

La salida del anterior código mostrará:

Ups, vaya, como hemos usado ‘w’ se han perdido las terminaciones de las direcciones de correo a continuación del símbolo ‘.’ (‘.net’, ‘.com’, ‘.co.uk’) ya que no está incluido en la búsqueda. También vemos que hemos extraído incorrectamente una de las direcciones de correo que usa ‘.’ antes de la ‘@’ (‘Monete.que.no.habla@lostresmonetes.net’)

Vamos a volver a probar con un patrón diferente: r'w+[.]*@w+[.]*w+'

donde:

  • 'w' encuentra cualquier caracter que sea alfanumérico (todas las letras mayúsculas y minúsculas, los números y el símbolo '_'). Esto sería equivalente a usar [a-zA-Z0-9]
  • '[.]' incluye el símbolo '.' dentro del patrón a buscar. Sería equivalente a usar r'[a-zA-Z0-9_.]'
  • '+' indica que hay que encontrar al menos un caracter que no sea un espacio en blanco
  • '@' indica la arroba

La salida del anterior código mostrará:

Vaya. Hemos recuperados las terminaciones del host (‘.net’, ‘.com’) pero no hemos recuperado correctamente la dirección de correo errónea ni la dirección del correo con terminación ‘.co.uk’… ¿Qué podemos hacer? Pues probar con otro patrón que haga lo que necesitamos.

El patrón propuesto ahora sería: r'[w.]*@[w.]*'

donde

  • ‘[w.]*’ busca cualquier cosa que contenga una letra (desde la a la z en mayúsculas o minúsculas), un número, el símbolo '_' y/o el símbolo '.'
  • '@' indica la arroba

La salida del anterior código mostrará:

Maldición, se nos ha seguido colando una cosa que no es una dirección de correo. Podría eliminarla pidiéndo que después de la arroba deba figurar al menos un símbolo '.'.

Nuevo patrón: r'[w.]*@w*.[w.]*'

donde

  • '[w.]*' busca cualquier cosa que contenga una letra (desde la a la z en mayúsculas o minúsculas), un número, el símbolo '_' y/o el símbolo '.'
  • '@' indica la arroba
  • 'w+.[w.]*' primero busca cualquier cosa que contenga al menos una letra (desde la a la z en mayúsculas o minúsculas), un número y/o el símbolo '_', segundo, exige que haya un punto y, por último, vuelve a buscar cualquier cosa que contenga una letra (desde la a la z en mayúsculas o minúsculas), un número, el símbolo '_' y/o el símbolo '.'. Es decir, este último subpatrón encontraría cosas como por ejemplo ‘hola.com’, ‘hola.co.uk’, ‘hola_.com’, ‘hola.co_m’,…, que no tienen que ser correctas como dominio o ‘host’ pero que permiten filtrar a ‘w@pa’

La salida del anterior código mostrará:

Qué pasa si, por la razón que sea, queremos obtener el usuario del correo y el dominio por separado para ¡lo que sea que se te ocurra! Ha llegado el momento de introducir los grupos. Los grupos son patrones o subpatrones encerrados entre paréntesis.

Podemos proponer el siguiente patrón y ver qué pasa: r'([w.]*)@(w+.[w.]*)'

Este patrón es el mismo que el de antes pero encerrando lo que queremos que sea un grupo entre paréntesis.

Para el siguiente ejemplo vamos a usar la función finditer en lugar de la función findall, ambas del módulo re.

La salida del anterior código mostrará:

El iterador devuelve un objeto Match, que es una clase con sus métodos y sus cosicas. El método group nos devolverá el elemento del grupo que le pidamos. En este caso se usaría el índice 1 para el primer grupo, 2 para el segundo y 0 o nada para que nos devuelva todo lo encontrado con el patrón usado, es decir, lo mismo que si no hubiéramos usado grupos.

En este caso solo se usan dos grupos en el patrón pero podría darse el caso de que el patrón se volviese más complejo y nos interesase incluir más grupos. Para evitar liarnos podríamos usar nombres para los grupos de la siguiente manera:

Patrón: r'(?P<users>[w.]*)@(?P<hosts>w+.[w.]*)'

donde

  • '?P<nombre_del_grupo>' es la forma de identificar el grupo con nombre_del_grupo siendo el valor que quieras usar para nombrar a ese determinado grupo.
  • En la pieza de código siguiente deberéis reemplazar en la primera línea patron por r'(?P<users>[w.]*)@(?P<hosts>w+.[w.]*)'. Disculpad las molestias pero wordpress.com ‘escapa’ algunas cosas del código.

La salida del anterior código mostrará:

Ahora queremos sustituir la dirección del usuario por otro patrón para así ocultar sus direcciones. Eso lo podemos hacer mediante las funciones sub o subn de la siguiente forma.

En la pieza de código siguiente deberéis reemplazar en la primera línea patron por r'(?P<users>[w.]*)@(?P<hosts>w+.[w.]*)' y patron2 por r'----------@g<hosts>'. Disculpad las molestias pero wordpress.com ‘escapa’ algunas cosas del código.

La salida del anterior código mostrará:

Y, de momento, ya vale. Solo hemos rascado un poco pero espero que os haya valido de algo. Si encuentro tiempo habrá un capítulo II con más ejemplos para que este tutorial o lo que sea que haya salido se amplíe con cosas más complejas (a medida que tenga más soltura con ello).

Si queréis seguir por vuestra cuenta podéis usar:

This post has been published on wordpress.com from an

Saludos.

P.D.: Como siempre, se aceptan todo tipo de críticas constructivas y se agradecen todo tipo de correcciones a cosas incorrectas que haya dicho.

2 pensamientos sobre “Regex mediante ejemplos”

  1. Pingback: Formateando números | Pybonacci

  2. Pingback: Hackers & Developers : Javier Moreno .: Rango Finito

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

sixty two + = sixty eight