Python

Importar tablas desde webs con Pandas

En muchas páginas web es habitual encontrase con datos en formato de tablas. Datos que pueden ser de interés en nuestros estudios, por lo que disponer de una función que permita importarlos de forma fácil y sencilla es algo que nos puede ahorrar mucho tiempo. Por eso en Pandas existe el método read_html() con el que se pueden importar tablas desde webs.

Tablas en páginas web

Las páginas web están pobladas de datos en formato de tablas, ya que es uno de los mejores métodos para presentar información estructurada. La etiqueta HTML con la que se identifica estos datos es <table>, de modo que la posición de los datos es fácil de identificar. Por ejemplo, en la siguiente página de datosmacro.com podemos encontrar los datos actualizados de casos de coronavirus.

Datos de la crisis del coronavirus en datosmacro.com

Ahora, si deseamos importar este conjunto de datos en Python solo tenemos que usar el método read_html() de Pandas indicando la URL de la página web, además de unas opciones con el formato.

import pandas as pd

data = pd.read_html('https://datosmacro.expansion.com/otros/coronavirus',
                    decimal=',', thousands='.')
data[0].head()
            Países  Activos  Recuperados  Incremento Muertos  Muertos  \
0       España [+]    57941     144783.0               102.0  27563.0   
1     Alemania [+]    15739     151597.0                13.0   7897.0   
2  Reino Unido [+]   202879       1047.0               385.0  34078.0   
3      Francia [+]    91536      60562.0               104.0  27532.0   
4       Italia [+]    72070     120205.0               242.0  31610.0   

   Muertos / millón  Incremento Confirmados  Confirmados  \
0            585.20                     539       230698   
1             95.12                     755       175233   
2            511.32                    3564       238004   
3            410.85                     636       179630   
4            523.70                     789       223885   

   Confirmados / 100.000  
0                 489.80  
1                 211.08  
2                 357.11  
3                 268.05  
4                 370.92  

Con lo que se obtiene una lista, en la que el primer registro en un DataFrame con los datos.

Opciones de formato

En el ejemplo anterior se ha utilizado dos opciones (decimal y thousands) que son especialmente importantes si las webs con las que trabajamos no están en inglés. En español el separador de decimales es la coma y el de miles es el punto, al contrario de lo que sucede en inglés. Pandas por defecto espera que el formato de las tablas sea el inglés, por lo que es necesario cambiar los valores por defecto de estas dos opciones para garantizar que los datos se importan correctamente. Ya que, en caso contrario, el primer valor de la tabla de ejemplo se importaría como 54,941 en lugar de 54.914. Algo que no es correcto. En el caso de trabajar con páginas en inglés, o simplemente usen la cultura inglesa para representar los datos, no es necesario indicar ninguna de estas dos opciones.

Múltiples tablas en una página web

Una duda que puede surgir es qué pasaría si existiesen más de una tabla en alguna página web. Por ejemplo, en el mismo sitio se puede ver los datos de IPC en el que se puede ver tablas de IPC por países, IPC Armonizado por países e IPC por comunidad autónoma.

Datos del IPC en datosmacro.com

En esta situación se obtendrá una lista con tres DataFrames, uno para cada uno de los elementos. Este es el motivo por el que en el caso anterior fue necesario extraer la única tabla de una lista. La función read_html devuelve una lista no un DataFrame para que en caso de existir más de una tabla se puedan extraer todas. Algo que se puede comprobar simplemente viendo la longitud de este otra página.

Conclusiones

Hoy hemos visto cómo con la función read_html se puede importar tablas desde webs de una forma rápida y sencilla. Permitiendo utilizar los datos disponibles en nuestros análisis, sin que sea necesario el mínimo procesado por nuestra parte.

En algunas webs puede que esta función no identifique correctamente las tablas debido a cómo son creadas. En estos caso una solución es copiar las tablas en el portapapeles y utilizar el método read_clipboard() para importar los datos. Un proceso que requiere más pasos, pero puede ser de utilidad en estos casos.

Imagen de Photo Mix en Pixabay

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Pandas

Recent Posts

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…

3 días ago

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

En la serie Creación de una API REST con Express y TypeScript construimos una API…

5 días ago

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…

1 semana ago

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…

2 semanas ago

La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento

Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…

2 semanas ago

Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)

En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…

3 semanas ago

This website uses cookies.