/images/android-chrome-192x192.png

Analítica en AWS - Redshift Spectrum vs Athena

1. Introducción Durante el desarrollo de proyectos de analítica de grandes volúmenes de información, es habitual que se presente un escenario en el que se necesita proveer la capacidad de realizar consultas estructuradas (generalmente SQL) sobre un conjunto de datos estructurados, generalmente almacenados de manera distribuida. Existen diversas herramientas para proporcionar esta funcionalidad, dependiendo del stack tecnológico o el proveedor de servicios cloud. Dentro de la oferta de AWS, existen dos servicios especialmente adecuados para abordar este escenario: Amazon Redshift Spectrum y Amazon Athena.

Regex ¿Es lo que necesitas o es lo que conoces?

Introducción Muchos data scientists nos hemos visto en la situación de tener que procesar texto crudo para extraer información útil: parsear una fecha, un número de teléfono o una url. La herramienta más usada y conocida para esto son las expresiones regulares. Si bien las regex tienen la accesibilidad y potencia necesaria para cualquier trabajo de este tipo, su uso acaece de 3 problemas: No son mantenibles, sobre todo en el largo plazo.

Clase para conexión con PostgresSQL

Introducción El módulo pandas.io.sql es muy útil y potente a la hora de trabajar con bases de datos relacionales. No obstante, las funciones read_sql y to_sql no cubren todas los posibles escenarios de uso. Por ejemplo, a la hora de escribir dataframes a tablas de una base de datos SQL, la última versión de pandas (1.1.3) no tiene implementado una forma de inserción que actualice valores ya existentes de la tabla.

Contaminación del aire

Introducción En la actualidad, el impacto en nuestras vidas causado por la contaminación del aire y el cambio climático se puede notar de forma directa. Esto aumenta la necesidad de conocer la calidad del aire de nuestra ciudad. Las comunidades autónomas y los ayuntamientos permiten el acceso en abierto a los datos de calidad del aire, tanto en tiempo real como a datos históricos. Vamos a ver cómo acceder a los datos de contaminación del aire de las diferentes ciudades españolas y analizar estos datos.

Cómo dibujar mapas de alta calidad en R usando sf y ggplot2

Introducción El uso de mapas para representar información geográfica proporciona un contexto muy valioso para comprender mejor los datos. Los mapas son relativamente fáciles de entender por la mayoría de la gente, lo cual facilita que un mensaje clave pueda llegar a una mayor audiencia. Sin embargo, trabajar con mapas no es sencillo. Un mapa representa la proyección 2D en un plano de un territorio que en realidad está sobre la superficie 3D de una esfera.