• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • JavaScript
  • Excel

Pandas: Conversion de texto a fecha

julio 22, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

pandas

La librería NumPy de Python define el tipo de dato datetime64 para trabajar con fechas y diferencias entre fechas. Un tipo con el que es realmente fácil trabajar con este tipo de información tan complejo, haciendo fáciles operaciones que de otra manera serían complicadas. Por lo que es el tipo de dato que se suele usar en los DataFrames de Pandas. A la hora de importar fechas es habitual que estas se encuentren como cadenas de texto, por lo que en Pandas existe la función to_datetime() mediante la cual se pueden realizar la conversión de estos datos de texto a fecha. Veamos el uso básico de esta función.

La función to_datetime() de Pandas

En Pandas tenemos la función to_datetime() que básicamente tiene la siguiente forma

pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)

siendo los parámetros más importantes:

  • arg: El elemento que se convierte al tipo de dato fecha, el cual puede ser una serie o un registro único.
  • format: Una cadena de texto mediante la que se indica el formato en el que se encuentra originalmente la fecha.
  • dayfirst: Valor lógico mediante el que se indica si el primer valor de la fecha es el día, el valor por defecto de la opción es falso.
  • yearfirst: Valor lógico mediante el que se indica si el primer valor de la fecha es el año, el valor por defecto de la opción es falso.

Conversión básica de cadenas de texto a fecha

Para convertir una cadena de texto en fecha simplemente se tiene que llamar al método to_datetime() pasando como parámetro la cadena de texto. Así una cadena de texto se puede interpretar solamente con

import pandas as pd

pd.to_datetime('10/11/12')
Timestamp('2012-10-11 00:00:00')

En el ejemplo se ha usado un valor que puede ser ambiguo (“10/11/12”) donde los tres valores se pueden interpretar como el día, el mes o el año de la fecha. La función ha interpretado la fecha como el 11 de octubre de 2012, por lo que ha tomado el primer valor como el mes, el segundo como el día y el tercero como el año. Algo que se puede modificar mediante las propiedades dayfirst o yearfirst. En el primero de los casos los valores de la cadena de texto serán interpretados como día, mes y año, mientras que en el segundo como año, mes y día.

pd.to_datetime('10/11/12')                 # 2012-10-11
pd.to_datetime('10/11/12', dayfirst=True)  # 2012-11-10
pd.to_datetime('10/11/12', yearfirst=True) # 2010-11-12

Formato de fecha personalizado con format

Aunque estas opciones pueden ser más que suficiente en muchas ocasiones, es posible tener una mayor presión indicado en formato mediante una cadena de texto con la propiedad format. Por ejemplo, se podría llegar a indicar una combinación poco habitual donde en primer lugar este el día, en segundo lugar, el año y en tercer lugar el mes.

Publicidad


pd.to_datetime('10/11/12', format='%d/%y/%m')
Timestamp('2011-12-10 00:00:00')

El año se indica con mediante %y cuando este tiene dos valores y con %Y cuando tiene cuatro. Es importante usar el valor correcto ya que en caso contrario la función lanzará una excepción.

Interpretación de las horas

En el caso de que la cadena de texto tenga horas, estas también se interpretarán, para lo que habitualmente se interpretará con el formato de hora, minutos y segundos.

pd.to_datetime('10/11/12 12:22:11')
Timestamp('2012-10-11 12:22:11')

Conversión Series en DataFrames

La función to_datetime() también se puede utilizar directamente sobre la series de los DataFrames. Para ver esto se puede crear en primer lugar un objeto y comprobar el tipo de cada una de las series.

users = {'first_name': ['Montgomery', 'Dagmar', 'Reeba', 'Shalom', 'Broddy', 'Aurelia'],
         'last_name': ['Humes', 'Elstow', 'Wattisham', 'Alen', 'Keningham', 'Brechin'],
         'age': [27, 41, 29, 29, 21, 33],
         'gender': ['Male', 'Female', 'Female', 'Male', 'Male', 'Female'], 
         'date': ['21/10/2021', '12/8/2021', '1/7/2020', '2/6/2021', '12/3/2021', '11/2/2021']}

df = pd.DataFrame(users)
df.dtypes
first_name    object
last_name     object
age            int64
gender        object
date          object
dtype: object

En esta ocasión, como es de esperar, todos los valores menos age son de tipo object. Indicando de este modo que son cadenas de texto. Ahora se puede convertir la columna date en serie de tipo datetime64.

df['date'] = pd.to_datetime(df['date'])
df.dtypes
first_name            object
last_name             object
age                    int64
gender                object
date          datetime64[ns]
dtype: object

Un punto importante es que no se le ha pasado una opción de formato a la función. Así la función interpretará por defecto el primer valor como el mes y el segundo como el año. En los casos en los que esto no es posible, cuando el primer valor es mayor de 12, se interpretará el primer valor como el día y el segundo como el mes. Algo que, como en este caso, puede llevar a que unas filas se interprete de una manera y otras de otra, por lo que es importante indicar el formato si no es el formato por defecto.

Publicidad


   first_name  last_name  age  gender       date
0  Montgomery      Humes   27    Male 2021-10-21
1      Dagmar     Elstow   41  Female 2021-12-08
2       Reeba  Wattisham   29  Female 2020-01-07
3      Shalom       Alen   29    Male 2021-02-06
4      Broddy  Keningham   21    Male 2021-12-03
5     Aurelia    Brechin   33  Female 2021-11-02

Conclusiones

En esta ocasión hemos visto la función to_datetime() para convertir cadenas de texto en fechas, un proceso que posiblemente tengamos que hacer de forma habitual.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 3

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Manipulación básica de series temporales con pandas
    Manipulación básica de series temporales con pandas
  • Numpy básico
    Numpy básico
  • Convertir números en cadenas y cadenas en números en Python
    Convertir números en cadenas y cadenas en números en Python
  • Fechas
    Agrupación de datos por fecha en pandas
  • Concatenar cadenas de texto en Python de forma óptima
    Concatenar cadenas de texto en Python de forma óptima
  • NumPy
    NumPy: ¿Qué es una matriz estructurada de NumPy y cómo…

Publicado en: Python Etiquetado como: NumPy, Pandas

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad




Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Facebook
  • GitHub
  • Instagram
  • Pinterest
  • RSS
  • Twitter
  • Tumblr
  • YouTube

Publicidad

Entradas recientes

El método de Hare-Niemeyer y su implementación en Python

septiembre 29, 2023 Por Daniel Rodríguez

Redimensionar una partición de disco LVM con espacio no asignado en Linux

septiembre 27, 2023 Por Daniel Rodríguez

¿Cómo saber la versión de Pandas o cualquier otra librería en Python?

septiembre 25, 2023 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Unir y combinar dataframes con pandas en Python publicado el septiembre 10, 2018 | en Python
  • Duplicado Eliminar registros duplicados en pandas publicado el junio 20, 2018 | en Python
  • Enviar mensajes de WhatsApp con Python publicado el marzo 7, 2022 | en Python
  • Ecuaciones multilínea en Markdown publicado el septiembre 14, 2022 | en Herramientas
  • ¿Cómo eliminar columnas y filas en un dataframe pandas? publicado el marzo 25, 2019 | en Python

Publicidad

Lo mejor valorado

4.9 (22)

Seleccionar filas y columnas en Pandas con iloc y loc

4.7 (12)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.6 (15)

Archivos JSON con Python: lectura y escritura

4.5 (10)

Diferencias entre var y let en JavaScript

4.3 (12)

Ordenación de diccionarios en Python mediante clave o valor

Publicidad

Comentarios recientes

  • Daniel Rodríguez en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • Miguel en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • alberto en Resolver problema de credenciales en Bitbucket
  • Pablo en Aplicar el método D’Hondt en Excel
  • Agapito en Creación de un EXE desde un archivo Python en Windows

Publicidad

Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2023 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto