La librería NumPy de Python define el tipo de dato datetime64
para trabajar con fechas y diferencias entre fechas. Un tipo con el que es realmente fácil trabajar con este tipo de información tan complejo, haciendo fáciles operaciones que de otra manera serían complicadas. Por lo que es el tipo de dato que se suele usar en los DataFrames de Pandas. A la hora de importar fechas es habitual que estas se encuentren como cadenas de texto, por lo que en Pandas existe la función to_datetime()
mediante la cual se pueden realizar la conversión de estos datos de texto a fecha. Veamos el uso básico de esta función.
La función to_datetime()
de Pandas
En Pandas tenemos la función to_datetime()
que básicamente tiene la siguiente forma
pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)
siendo los parámetros más importantes:
arg
: El elemento que se convierte al tipo de dato fecha, el cual puede ser una serie o un registro único.format
: Una cadena de texto mediante la que se indica el formato en el que se encuentra originalmente la fecha.dayfirst
: Valor lógico mediante el que se indica si el primer valor de la fecha es el día, el valor por defecto de la opción es falso.yearfirst
: Valor lógico mediante el que se indica si el primer valor de la fecha es el año, el valor por defecto de la opción es falso.
Conversión básica de cadenas de texto a fecha
Para convertir una cadena de texto en fecha simplemente se tiene que llamar al método to_datetime()
pasando como parámetro la cadena de texto. Así una cadena de texto se puede interpretar solamente con
import pandas as pd pd.to_datetime('10/11/12')
Timestamp('2012-10-11 00:00:00')
En el ejemplo se ha usado un valor que puede ser ambiguo (“10/11/12”) donde los tres valores se pueden interpretar como el día, el mes o el año de la fecha. La función ha interpretado la fecha como el 11 de octubre de 2012, por lo que ha tomado el primer valor como el mes, el segundo como el día y el tercero como el año. Algo que se puede modificar mediante las propiedades dayfirst
o yearfirst
. En el primero de los casos los valores de la cadena de texto serán interpretados como día, mes y año, mientras que en el segundo como año, mes y día.
pd.to_datetime('10/11/12') # 2012-10-11 pd.to_datetime('10/11/12', dayfirst=True) # 2012-11-10 pd.to_datetime('10/11/12', yearfirst=True) # 2010-11-12
Formato de fecha personalizado con format
Aunque estas opciones pueden ser más que suficiente en muchas ocasiones, es posible tener una mayor presión indicado en formato mediante una cadena de texto con la propiedad format
. Por ejemplo, se podría llegar a indicar una combinación poco habitual donde en primer lugar este el día, en segundo lugar, el año y en tercer lugar el mes.
pd.to_datetime('10/11/12', format='%d/%y/%m')
Timestamp('2011-12-10 00:00:00')
El año se indica con mediante %y
cuando este tiene dos valores y con %Y
cuando tiene cuatro. Es importante usar el valor correcto ya que en caso contrario la función lanzará una excepción.
Interpretación de las horas
En el caso de que la cadena de texto tenga horas, estas también se interpretarán, para lo que habitualmente se interpretará con el formato de hora, minutos y segundos.
pd.to_datetime('10/11/12 12:22:11')
Timestamp('2012-10-11 12:22:11')
Conversión Series en DataFrames
La función to_datetime()
también se puede utilizar directamente sobre la series de los DataFrames. Para ver esto se puede crear en primer lugar un objeto y comprobar el tipo de cada una de las series.
users = {'first_name': ['Montgomery', 'Dagmar', 'Reeba', 'Shalom', 'Broddy', 'Aurelia'], 'last_name': ['Humes', 'Elstow', 'Wattisham', 'Alen', 'Keningham', 'Brechin'], 'age': [27, 41, 29, 29, 21, 33], 'gender': ['Male', 'Female', 'Female', 'Male', 'Male', 'Female'], 'date': ['21/10/2021', '12/8/2021', '1/7/2020', '2/6/2021', '12/3/2021', '11/2/2021']} df = pd.DataFrame(users) df.dtypes
first_name object last_name object age int64 gender object date object dtype: object
En esta ocasión, como es de esperar, todos los valores menos age
son de tipo object
. Indicando de este modo que son cadenas de texto. Ahora se puede convertir la columna date
en serie de tipo datetime64
.
df['date'] = pd.to_datetime(df['date']) df.dtypes
first_name object last_name object age int64 gender object date datetime64[ns] dtype: object
Un punto importante es que no se le ha pasado una opción de formato a la función. Así la función interpretará por defecto el primer valor como el mes y el segundo como el año. En los casos en los que esto no es posible, cuando el primer valor es mayor de 12, se interpretará el primer valor como el día y el segundo como el mes. Algo que, como en este caso, puede llevar a que unas filas se interprete de una manera y otras de otra, por lo que es importante indicar el formato si no es el formato por defecto.
first_name last_name age gender date 0 Montgomery Humes 27 Male 2021-10-21 1 Dagmar Elstow 41 Female 2021-12-08 2 Reeba Wattisham 29 Female 2020-01-07 3 Shalom Alen 29 Male 2021-02-06 4 Broddy Keningham 21 Male 2021-12-03 5 Aurelia Brechin 33 Female 2021-11-02
Conclusiones
En esta ocasión hemos visto la función to_datetime()
para convertir cadenas de texto en fechas, un proceso que posiblemente tengamos que hacer de forma habitual.
Deja una respuesta