Curso de Python: Datos en CSV

¿Qué es un archivo CSV?

Un archivo CSV es un tipo de archivo de texto que utiliza comas para separar valores. Este formato es ampliamente utilizado debido a su simplicidad y capacidad para almacenar datos tabulares. La mayoría de las aplicaciones permiten importar y exportar datos en este formato, lo que lo convierte en una opción ideal para la transferencia de datos entre sistemas.

Instalación de pandas

Para comenzar a trabajar con archivos CSV en Python, primero necesitamos instalar la biblioteca pandas. Si no la tienes instalada, puedes hacerlo fácilmente usando pip:

pip install pandas

Lectura de archivos CSV

Una vez que hayas instalado pandas, podrás leer archivos CSV con gran facilidad. Aquí te muestro un ejemplo de cómo hacerlo:

import pandas as pd

# Cargar el archivo CSV
data = pd.read_csv('ruta/al/archivo.csv')

# Mostrar las primeras filas del DataFrame
print(data.head())

En este código, pd.read_csv() se utiliza para leer el archivo CSV y cargarlo en un DataFrame, que es la estructura de datos principal en pandas. Luego, data.head() te permite ver las primeras cinco filas del conjunto de datos.

Escritura de archivos CSV

Aparte de leer, también es posible escribir datos en archivos CSV. Aquí tienes un ejemplo de cómo crear un archivo CSV a partir de un DataFrame:

# Supongamos que tenemos un DataFrame llamado 'data'
data.to_csv('ruta/al/nuevo_archivo.csv', index=False)

En este caso, data.to_csv() crea un nuevo archivo CSV. El parámetro index=False se utiliza para evitar que pandas escriba los índices del DataFrame en el archivo CSV.

Manipulación de datos en DataFrames

Pandas proporciona numerosas funciones para manipular los datos de un DataFrame. Puedes filtrar, agrupar y transformar datos fácilmente. A continuación, se muestran algunos ejemplos comunes:

Filtrar datos: filtered_data = data[data['columna'] > 10] para filtrar filas donde el valor de ‘columna’ es mayor a 10.
Agrupar datos: grouped_data = data.groupby('columna').mean() para calcular la media de las columnas agrupadas por ‘columna’.
Añadir una nueva columna: data['nueva_columna'] = data['columna_a'] + data['columna_b'] para sumar dos columnas existentes.

Conclusión

Trabajar con archivos CSV en Python es una habilidad esencial para cualquiera que maneje datos. La biblioteca pandas no solo hace que la lectura y escritura de archivos CSV sea fácil, sino que también proporciona herramientas poderosas para la manipulación de datos. Al dominar estas técnicas, estarás mejor preparado para realizar análisis de datos eficientes y efectivos.

blog.vermiip.es