• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Calculadora XIRR con Flujos Irregulares
      • Simulador FIRE (Financial Independence, Retire Early)
    • Negocios
      • CLV
      • Scoring
    • Herramientas
      • Formateador / Minificador de JSON
      • Conversor CSV ↔ JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Importar tablas desde webs con Pandas

mayo 18, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

En muchas páginas web es habitual encontrase con datos en formato de tablas. Datos que pueden ser de interés en nuestros estudios, por lo que disponer de una función que permita importarlos de forma fácil y sencilla es algo que nos puede ahorrar mucho tiempo. Por eso en Pandas existe el método read_html() con el que se pueden importar tablas desde webs.

Tablas en páginas web

Las páginas web están pobladas de datos en formato de tablas, ya que es uno de los mejores métodos para presentar información estructurada. La etiqueta HTML con la que se identifica estos datos es <table>, de modo que la posición de los datos es fácil de identificar. Por ejemplo, en la siguiente página de datosmacro.com podemos encontrar los datos actualizados de casos de coronavirus.

Datos de la crisis del coronavirus en datosmacro.com
Datos de la crisis del coronavirus en datosmacro.com

Ahora, si deseamos importar este conjunto de datos en Python solo tenemos que usar el método read_html() de Pandas indicando la URL de la página web, además de unas opciones con el formato.

import pandas as pd

data = pd.read_html('https://datosmacro.expansion.com/otros/coronavirus',
                    decimal=',', thousands='.')
data[0].head()
            Países  Activos  Recuperados  Incremento Muertos  Muertos  \
0       España [+]    57941     144783.0               102.0  27563.0   
1     Alemania [+]    15739     151597.0                13.0   7897.0   
2  Reino Unido [+]   202879       1047.0               385.0  34078.0   
3      Francia [+]    91536      60562.0               104.0  27532.0   
4       Italia [+]    72070     120205.0               242.0  31610.0   

   Muertos / millón  Incremento Confirmados  Confirmados  \
0            585.20                     539       230698   
1             95.12                     755       175233   
2            511.32                    3564       238004   
3            410.85                     636       179630   
4            523.70                     789       223885   

   Confirmados / 100.000  
0                 489.80  
1                 211.08  
2                 357.11  
3                 268.05  
4                 370.92  

Con lo que se obtiene una lista, en la que el primer registro en un DataFrame con los datos.

Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
En Analytics Lane
Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane

Opciones de formato

En el ejemplo anterior se ha utilizado dos opciones (decimal y thousands) que son especialmente importantes si las webs con las que trabajamos no están en inglés. En español el separador de decimales es la coma y el de miles es el punto, al contrario de lo que sucede en inglés. Pandas por defecto espera que el formato de las tablas sea el inglés, por lo que es necesario cambiar los valores por defecto de estas dos opciones para garantizar que los datos se importan correctamente. Ya que, en caso contrario, el primer valor de la tabla de ejemplo se importaría como 54,941 en lugar de 54.914. Algo que no es correcto. En el caso de trabajar con páginas en inglés, o simplemente usen la cultura inglesa para representar los datos, no es necesario indicar ninguna de estas dos opciones.

Publicidad


Múltiples tablas en una página web

Una duda que puede surgir es qué pasaría si existiesen más de una tabla en alguna página web. Por ejemplo, en el mismo sitio se puede ver los datos de IPC en el que se puede ver tablas de IPC por países, IPC Armonizado por países e IPC por comunidad autónoma.

Datos del IPC en datosmacro.com
Datos del IPC en datosmacro.com

En esta situación se obtendrá una lista con tres DataFrames, uno para cada uno de los elementos. Este es el motivo por el que en el caso anterior fue necesario extraer la única tabla de una lista. La función read_html devuelve una lista no un DataFrame para que en caso de existir más de una tabla se puedan extraer todas. Algo que se puede comprobar simplemente viendo la longitud de este otra página.

Conclusiones

Hoy hemos visto cómo con la función read_html se puede importar tablas desde webs de una forma rápida y sencilla. Permitiendo utilizar los datos disponibles en nuestros análisis, sin que sea necesario el mínimo procesado por nuestra parte.

En algunas webs puede que esta función no identifique correctamente las tablas debido a cómo son creadas. En estos caso una solución es copiar las tablas en el portapapeles y utilizar el método read_clipboard() para importar los datos. Un proceso que requiere más pasos, pero puede ser de utilidad en estos casos.

Imagen de Photo Mix en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
  • Nuevo conversor de timestamp Unix en el laboratorio de Analytics Lane
  • Calculadora de Contrastes de Hipótesis: interpreta correctamente el p-valor y toma decisiones estadísticas con confianza
  • Calculadora de Tamaño del Efecto: la herramienta clave para entender cuánto importa realmente una diferencia
  • Simulador de DBSCAN: descubre cómo encontrar clusters reales (y ruido) sin fijar K
  • Conversor de Colores: convierte, compara y valida cualquier color en tiempo real
  • Analytics Lane lanza su Generador de UUIDs: identificadores únicos, seguros y listos para producción en segundos
  • 1200 publicaciones en Analytics Lane
  • Analytics Lane lanza su Conversor TIN ↔ TAE: la herramienta definitiva para entender el coste real de depósitos, préstamos e hipotecas

Publicado en: Python Etiquetado como: Pandas

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

De la Regresión Logística al Scorecard: La Transformación Matemática

mayo 19, 2026 Por Daniel Rodríguez

Noticias

Analytics Lane lanza la versión 1.1 del laboratorio con nuevas suites de CLV y Scoring

mayo 18, 2026 Por Daniel Rodríguez

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

mayo 14, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Gráficos de correlación en Seaborn: Mapas de calor y gráficos de pares publicado el julio 27, 2023 | en Python
  • Números calientes en Bonoloto: mismos resultados que el azar publicado el octubre 9, 2020 | en Opinión
  • Copiar y pegar Activar copiar y pegar en VirtualBox publicado el mayo 1, 2019 | en Herramientas
  • Hoja de cálculo para repartir los escaños en base al método D’Hont Aplicar el método D’Hondt en Excel publicado el abril 14, 2021 | en Herramientas
  • 7 extensiones de Visual Studio Code para ciencia de datos publicado el enero 27, 2023 | en Herramientas

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.1 (11)

Aplicar el método D’Hondt en Excel

Comentarios recientes

  • bif en JSON en bases de datos: cuándo es buena idea y cuándo no
  • bif en Cómo desinstalar Oracle Database 19c en Windows
  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto