• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • JavaScript
  • Excel

¿Cómo eliminar columnas y filas en un dataframe pandas?

marzo 25, 2019 Por Daniel Rodríguez 17 comentarios
Tiempo de lectura: 3 minutos

Al trabajar con grandes conjuntos de datos es habitual tener que eliminar registros para eliminar su tamaño. Por ejemplo, al importar los datos se un archivo CSV puede ser que los registros de algunas columnas no sean necesarios. En esta entrada vamos a explicar cómo eliminar columnas y filas en un dataframe pandas.

Para poder eliminar datos de un dataframe es necesario disponer antes de uno. Para ello se puede crear un listado de facturas con seis registros y cinco características. Esto es lo que se hace en el siguiente código.

import pandas as pd

invoices = {'invoice': [1, 2, 3, 4, 5, 6],
            'client': [4, 1, 3, 1, 2, 6],
            'units': [3, 2, 1, 2, 1, 1],
            'price': [27.76, 21.13, 29.82, 29.96, 21.11, 23.97],
            'total': [83.28, 42.26, 29.82, 59.92, 21.11, 23.97]}
invoices = pd.DataFrame(invoices)
   invoice  client  units  price  total
0        1       4      3  27.76  83.28
1        2       1      2  21.13  42.26
2        3       3      1  29.82  29.82
3        4       1      2  29.96  59.92
4        5       2      1  21.11  21.11
5        6       6      1  23.97  23.97

Cómo eliminar una sola columna de un dataframe

Para eliminar una columna de un dataframe de pandas se puede utilizar el método drop. Este método requiere como argumento el nombre de la columna en una lista. Además, como el método puede eliminar tanto filas como columnas, es necesario especificar el eje. En el caso de las columnas el valor de esta propiedad es 1. Ahora, para eliminar el identificador de clientes del conjunto de ejemplo se puede utilizar el siguiente código.

invoices.drop(['client'], axis=1)
   invoice  units  price  total
0        1      3  27.76  83.28
1        2      2  21.13  42.26
2        3      1  29.82  29.82
3        4      2  29.96  59.92
4        5      1  21.11  21.11
5        6      1  23.97  23.97

El resultado es un nuevo dataframe sin la columna indicada en la lista.

Cómo eliminar múltiples columnas de un dataframe

El método drop también se puede utilizar para eliminar más de una columna. Lo que se puede conseguir indicar como argumento una lista con más de un nombre. Así, en el caso se eliminar el identificador de factura, de cliente y el número de unidades se puede utilizar el siguiente código.

Publicidad


invoices.drop(['invoice', 'client', 'units'], axis=1)
   price  total
0  27.76  83.28
1  21.13  42.26
2  29.82  29.82
3  29.96  59.92
4  21.11  21.11
5  23.97  23.97

Puede observarse que sigue siendo necesario indicar el eje como en el caso anterior. El resultado es el esperado, un nuevo dataframe sin las columnas indicadas.

Cómo eliminar filas de un dataframe

Tal como se ha comentado anteriormente el método drop puede eliminar tanto filas como columnas. Para eliminar filas es necesario indicar como argumento del método una lista el índice de estas. Además, en este caso el valor que se ha de asignar a la propiedad axis es cero. Por ejemplo, para eliminar los registros 1 y 2 se puede emplear el siguiente código.

invoices.drop([1, 2],axis=0)
   invoice  client  units  price  total
0        1       4      3  27.76  83.28
3        4       1      2  29.96  59.92
4        5       2      1  21.11  21.11
5        6       6      1  23.97  23.97

Obteniéndose como resultado un nuevo dataframe sin las filas seleccionadas en la lista. Otra forma de seleccionar las filas a eliminar es mediante range. Lo que permite seleccionar rápidamente cualquier subconjunto. Por ejemplo, para eliminar las filas impares se puede utilizar range desde 1 hasta 6 en pasos de dos. Siendo esto lo que se hace en siguiente ejemplo.

invoices.drop(range(1, 6, 2),axis=0)
   invoice  client  units  price  total
0        1       4      3  27.76  83.28
2        3       3      1  29.82  29.82
4        5       2      1  21.11  21.11

En donde el resultado es un nuevo dataframe sin las filas 1, 3 y 5.

Conclusiones

En esta entrada se ha visto cómo eliminar columnas y filas en un dataframe pandas. Para lo que se ha visto el método drop de estos objetos. Saber utilizar este método es básico para limpiar correctamente los conjuntos de datos antes de realizar cualquier análisis.

Publicidad


Imágenes: Pixabay (Free-Photos)

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 3.5 / 5. Votos emitidos: 15

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Archivos
    Guardar y leer archivos CSV con Python
  • Unir múltiples archivos CSV en uno con Pandas
    Unir múltiples archivos CSV en uno con Pandas
  • Análisis de sentimientos con NLTK en Python
    Análisis de sentimientos con NLTK en Python
  • Eliminar características colineales con la matriz de correlación
    Eliminar características colineales con la matriz de…
  • pandas
    Pandas: Omitir filas de un archivo CSV
  • Seleccionar filas y columnas en Pandas con iloc y loc
    Seleccionar filas y columnas en Pandas con iloc y loc

Publicado en: Python Etiquetado como: Pandas

Interacciones con los lectores

Comentarios

  1. Facundo dice

    agosto 7, 2019 a las 4:49 am

    Muchisimas gracias!

    Responder
  2. sadalzuud dice

    mayo 3, 2020 a las 11:35 pm

    gracias

    Responder
  3. Carolina dice

    enero 27, 2021 a las 4:13 pm

    Hola, me gustaría saber como puedo borrar filas con una variable específica. Partiendo de tu ejemplo, quisiera borrar la fila en la cual el precio es == 27.76

    Responder
    • Daniel Rodríguez dice

      enero 27, 2021 a las 8:27 pm

      Usando drop una solución podría ser:

      invoices.drop(invoices.index[invoices.price == 27.76], axis=0)

      Aunque para ese problema yo prefiero loc, como explico en detalle en la entrada: https://www.analyticslane.com/2019/06/21/seleccionar-filas-y-columnas-en-pandas-con-iloc-y-loc/.

      invoices.loc[invoices.price != 27.76, :]

      Responder
      • Claudio dice

        noviembre 2, 2021 a las 9:51 pm

        Hola Daniel, perdón pero aprovecho para consultarte. ¿Como puedo eliminar una columna de una matriz en caso de que en una de sus filas tenga por ejemplo un valor 0

        Responder
        • Daniel Rodríguez dice

          noviembre 3, 2021 a las 9:13 am

          Hola Claudio,

          Para eliminar columnas que solamente tiene 0 se puede usar:

          df.loc[:, (df != 0).any()]

          pero si es para eliminar columnas con algún 0 se puede emplear:

          df.loc[:, (df != 0).all()]

          Responder
      • LILIANA dice

        marzo 25, 2023 a las 8:13 pm

        gracias

        Responder
  4. Sergio dice

    marzo 3, 2021 a las 1:46 pm

    Sencillo y claro. Gracias por tu tiempo

    Sergio

    Responder
  5. Leonardo dice

    marzo 8, 2021 a las 11:57 pm

    Hola, existe una forma de almacenar el contenido del excel sin que imprima la cabecera? y tampoco coloque columna 0,1,2…etc.

    Responder
    • Daniel Rodríguez dice

      marzo 9, 2021 a las 9:57 am

      Si, para eso existen los parámetros header y index del método to_excel que evitan que se guarde la cabecera y los índices respectivamente. Mas detalles de este método los puede ver en la entrada Guardar y leer archivos Excel en Python

      Responder
  6. Paulo Niño dice

    septiembre 3, 2021 a las 10:08 pm

    Hola Daniel, buenas tardes.

    cómo puedo hacer para eliminar una columna que tiene varios niveles en su nombre:

    Valores Valores

    Ganancia Perdida

    0

    1

    y por ejemplo deseo eliminar la columna [Valores ,Ganancia], el método Drop no funciona en su forma estándar,

    Agradezco si me puede ayudar con esto.

    Responder
    • Daniel Rodríguez dice

      septiembre 4, 2021 a las 12:28 pm

      En el caso propuesto es necesario indicar también el nivel que se desea borrar, algo que se puede hacer con:

      df.drop('Ganancia', axis=1, level=1)

      Responder
      • Paulo Niño dice

        septiembre 16, 2021 a las 3:51 pm

        Muchas gracias por la respuesta Daniel, por quebrantos de salud no había podido responder antes.

        Responder
  7. Santiago dice

    octubre 18, 2021 a las 3:54 pm

    Buenas estoy convirtiendo un Dataframe a excel usando la función to_excel, mi problema es que cuando se crea toma la numeración como una columna extra ¿alguno sabe como podría evitar que se cree dicha columna?

    Responder
    • Daniel Rodríguez dice

      octubre 19, 2021 a las 1:28 pm

      Entiendo que lo que se desea evitar es que aparezcan los incides, para ello hay que cambiar el valor de la propiedad index de la función a falso, esto es, usar algo como

      df.to_excel("File.xlsx", index=False)

      Responder
  8. Miguel dice

    agosto 29, 2023 a las 7:30 pm

    Hola Daniel buen día:
    Una duda como podría eliminar o excluir aquellas filas que contengan una parte de un texto, es decir lo contrario a “contains”.
    De antemano Gracias.

    Responder
    • Daniel Rodríguez dice

      agosto 29, 2023 a las 10:34 pm

      Una opción sería usa el método contains para filtrar los registros que cumple la condición

      df = df[df['column'].str.contains('string')]

      Mientras que para los que no la cumple se puede usar algo como

      df = df[df['column'].str.contains('string')==False]

      En donde 'column' es el nombre de la columna y 'string' la cadena que se desea buscar.

      Responder

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad




Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Facebook
  • GitHub
  • Instagram
  • Pinterest
  • RSS
  • Twitter
  • Tumblr
  • YouTube

Publicidad

Entradas recientes

El método de Hare-Niemeyer y su implementación en Python

septiembre 29, 2023 Por Daniel Rodríguez

Redimensionar una partición de disco LVM con espacio no asignado en Linux

septiembre 27, 2023 Por Daniel Rodríguez

¿Cómo saber la versión de Pandas o cualquier otra librería en Python?

septiembre 25, 2023 Por Daniel Rodríguez

Publicidad

Es tendencia

  • ¿Cómo cambiar el nombre de las columnas en Pandas? publicado el mayo 6, 2019 | en Python
  • Seleccionar filas y columnas en Pandas con iloc y loc publicado el junio 21, 2019 | en Python
  • pandas Pandas: Cambiar los tipos de datos en los DataFrames publicado el julio 15, 2021 | en Python
  • Numpy básico: valores mínimos y máximos en arrays Numpy publicado el octubre 23, 2019 | en Python
  • Unir y combinar dataframes con pandas en Python publicado el septiembre 10, 2018 | en Python

Publicidad

Lo mejor valorado

4.9 (22)

Seleccionar filas y columnas en Pandas con iloc y loc

4.7 (12)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.6 (15)

Archivos JSON con Python: lectura y escritura

4.5 (10)

Diferencias entre var y let en JavaScript

4.3 (12)

Ordenación de diccionarios en Python mediante clave o valor

Publicidad

Comentarios recientes

  • Daniel Rodríguez en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • Miguel en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • alberto en Resolver problema de credenciales en Bitbucket
  • Pablo en Aplicar el método D’Hondt en Excel
  • Agapito en Creación de un EXE desde un archivo Python en Windows

Publicidad

Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2023 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto