Esta entrada apareció en inglés en mi blog.
Desde hace tiempo quería aprender Pandas. Por fin llegó la oportunidad: Brexit = datos.
Como siempre empecé con un ejercicio / objetivo práctico, en este caso procesar los datos del referéndum. Usé Pandas para analizar los datos (CSV) publicados por electoralcommission.org.uk.
Aunque quería responder a más preguntas este CSV era suficiente para estrenarme con Pandas (¡es inmenso!). Además aprendí a usar Jupyter notebook para documentar todo. El notebook lo puedes ver / bajar desde Github.
Consegui mi objetivo de representar los datos mostrados aquí. Aquí algunos pantallazos del notebook:




Añadiendo datos demográficos
Vinculé los datos del voto con los datos de censo públicamente disponibles (como sugirió Pybonacci, gracias). Encontré unas correlaciones interesantes (y aprendí algunas cosas de matplotlib usándolo), puedes ver el notebook aquí:
¿Cómo influye la edad en el voto por salir / quedar?

¿Cómo influye el porcentaje de paro?

¿Cómo influye un nivel más alto de estudios (educación)?

Y, ¿cómo influye el porcentaje de gente nacida fuera de Inglaterra?

Claramente, áreas con una población mayor y una tasa de paro más alta votan por salir. Por otro lado, áreas con un alto porcentaje de estudios superiores, y regiones donde más gente nacieron fuera de Inglaterra prefieren (por lo general) que Inglaterra se quede en la unión.
Lo dicho, para ver como llegué a estos resultados con Pandas el notebook está aquí.
Y por último: datos de ingresos por región

Los datos de ingresos (sueldo) eran más dificiles de obtener en los datos del censo entonces usé este enlace para comprobar la relación entre la mediana de ingresos y el voto. Encontré un patrón interesante:
(el parsing de los datos está documentado en el mismo notebook)
Se ve claramente que regiones con una mediana de ingresos más baja prefieren salir de la unión, aunque no es 100% consistente: Irlanda tiene una mediana relativamente baja pero vota por quedarse, y South East tiene un sueldo mediano más alto y, no obstante, vota por salir. Es interesante como se ve este tipo de tendencias combinando varias fuentes de datos.
Enlaces de referencia para aprender Pandas
* Pandas home y docs
* Python’s pandas make data analysis easy and powerful with a few lines of code – tutorial breve y fácil para empezar.
* Python for Data Analysis – libro del creador de Pandas Wes McKinney.
* Introduction to Pandas for Developers / Data Wrangling and Analysis with Python – ya he visto algunos videos, son buenos.
Gracias por la información, es una gran herramienta para analisis de datos con Python