Julia

Introducción a los DataFrames en Julia (11ª parte – ¡Hola Julia!)

Hasta ahora hemos visto las bases del lenguaje con las que se puede realizar muchas tareas. Pero tanto en R como en Python un elemento básico para el tratamiento de los datos es el DataFrame. Algo que no es diferente en Julia. Por lo que en esta entrada vamos a realizar una introducción a los DataFrames en Julia.

Tabla de contenidos

1 Importación de DataFrames
2 Creación de un DataFrame básico en Julia
3 Copia de DataFrames y columnas
4 Los DataFrames en Julia
5 Publicaciones de la serie ¡Hola Julia!

Importación de DataFrames

Para trabajar con los DataFrames es necesario importar el paquete del mismo nombre. Un paquete que viene en la distribución estándar de Julia, por lo que no es necesario instalarlo para poder trabajar con este. Así para crear un DataFrames solo tenemos que usar using DataFrames y posteriormente llamar al constructor.

using DataFrames

DataFrame()

Creación de un DataFrame básico en Julia

Ahora que se ha importado la librería se podemos crear un DataFrame básico para posteriormente trabajar con ellos. Así la sintaxis básica para crear un DataFrame en Julia es

using Random

A = 1:3
B = rand(3)
C = randstring.([4,4,4])
D = 12

DataFrame("A" => A, "B" => B, "C" => C, "D" => D)

3×4 DataFrame
│ Row │ A     │ B        │ C      │ D     │
│     │ Int64 │ Float64  │ String │ Int64 │
├─────┼───────┼──────────┼────────┼───────┤
│ 1   │ 1     │ 0.761577 │ a3Cl   │ 12    │
│ 2   │ 2     │ 0.631399 │ 0Hhf   │ 12    │
│ 3   │ 3     │ 0.987393 │ YKRH   │ 12    │

Vemos que hemos que en ese código se han creado tres vectores de diferente tipo y un escalar. Asignando cada uno de estos objetos a una columna con un nombre, que se indica mediante una cadena de texto, mediante el uso del operador =>. Obteniendo un DataFrame que tiene cuatro columnas de diferente tipo. Nótese que para en el caso del escalar se ha asignado el mismo valor a todas las filas.

Métodos alternativos para crear un DataFrame

El mismo DataFrame que hemos visto en el ejemplo anterior se puede crear de diferentes maneras. Por ejemplo, asignado los valores a símbolos con el operador = o creado un diccionario para construir el DataFrame a partir con este.

DataFrame(A = A, B = B, C = C, D = D)

dict = Dict("A" => A, "B" => B, "C" => C, "D" => D)
DataFrame(dict)

Creación del DataFrame en Julia a partir de matrices

Los DataFrames también se pueden construir a partir de una matriz, en este caso solo se tiene que inyectar la matriz en el constructor.

DataFrame(rand(3 ,3))

3×3 DataFrame
│ Row │ x1       │ x2       │ x3       │
│     │ Float64  │ Float64  │ Float64  │
├─────┼──────────┼──────────┼──────────┤
│ 1   │ 0.347456 │ 0.751013 │ 0.840584 │
│ 2   │ 0.531412 │ 0.2913   │ 0.858707 │
│ 3   │ 0.863199 │ 0.702161 │ 0.228352 │

A las columnas se les asignará el nombre x seguido de su ordinal comenzado por 1. Si se desea dar un nombre a las columnas se pueden pasar como segundo parámetro en un vector de símbolos.

DataFrame(rand(3, 3), Symbol.(["A", "B", "C"]))

3×3 DataFrame
│ Row │ A         │ B        │ C        │
│     │ Float64   │ Float64  │ Float64  │
├─────┼───────────┼──────────┼──────────┤
│ 1   │ 0.424402  │ 0.321412 │ 0.590043 │
│ 2   │ 0.731513  │ 0.808899 │ 0.825533 │
│ 3   │ 0.0507963 │ 0.511899 │ 0.447414 │

O, en otros casos como el anterior, utilizandO, en otros casos como el anterior donde se usan letras ordenadas para asignar los nombres a las columnas, se puede emplear el operador :.

DataFrame(rand(3,4), Symbol.('a':'d'))

3×4 DataFrame
│ Row │ a        │ b         │ c        │ d        │
│     │ Float64  │ Float64   │ Float64  │ Float64  │
├─────┼──────────┼───────────┼──────────┼──────────┤
│ 1   │ 0.297471 │ 0.0628647 │ 0.208568 │ 0.986928 │
│ 2   │ 0.112225 │ 0.861527  │ 0.513009 │ 0.235994 │
│ 3   │ 0.365246 │ 0.402313  │ 0.28596  │ 0.79416  │

Es importante que le primer dato sea una matriz, ya que el constructor no funciona si lo que se pasa es un vector. Así el siguiente código dará un error.

DataFrame(rand(3))

ArgumentError: 'Array{Float64,1}' iterates 'Float64' values, which doesn't satisfy the Tables.jl `AbstractRow` interface

Construcción de DataFrames vacíos

También se puede crear DataFrames vacíos, solamente con el nombre de la columna y tipo de dato. Para ello es necesario pasar un vector con los tipos de dato como primer parámetro y los nombres como segundo parámetro. Por ejemplo

DataFrame([Int, Float64, String], [:A, :B, :C])

0 rows × 3 columns
 A B C
 Int64 Float64 String

Copia de DataFrames y columnas

Si se quiere copiar un DataFrame se puede usar el método copy. Este generará un nuevo DataFrame igual al original copiando también su contenido, es decir, creando una copia profunda del objeto original.

df1 = DataFrame(a=1:2)
df2 = copy(df1)

df1 == df2 # true
df1 === df2 # false
df1.a == df2.a # true
df1.a === df2.a # false

En el caso de que no se desee realizar una copia profunda, evitando así duplicar el contenido del DataFrame en memoria, se puede modificar el valor de la opción copycols a falso. De este modo se creará un nuevo DataFrame, pero apuntando a los mismos vectores que el original.

df1 = DataFrame(a=1:2)
df2 = copy(df1, copycols=false)

df1 == df2 # true
df1 === df2 # false
df1.a == df2.a #true
df1.a === df2.a # true

Algo que se puede conseguir de forma más compacta utilizando el constructor DataFrame y con ! al final del nombres, esto es:

x = DataFrame(a=1:2)
y = DataFrame!(x)

df1 == df2 # true
df1 === df2 # false
df1.a == df2.a #true
df1.a === df2.a # true

El modificador copycols también se puede usar en el constructor, evitando de esta manera que realice una copia de los vectores.

a = [1, 2, 3]

df1 = DataFrame(a=a)
df2 = DataFrame(a=a, copycols=false)

df1.a === a # false
df2.a === a # true

Nótese que, con este modificador, usado tanto en copy como en DataFrame evita que se duplicar los vectores en memoria cuando puede ser innecesario. Algo que puede ser muy útil cuando se trabaja con conjuntos de datos grandes.

Los DataFrames en Julia

Hoy hemos visto el uso básico de los DataFrames en Julia. Una herramienta que como bien saben los usuarios de R y Python es básica para poder procesar de forma eficaz los datos de datos utilizados en nuestros análisis. Esto ha sido una primera toma de contacto, en la próxima entrega veremos cómo obtener información básica de estos objetos.

Publicaciones de la serie ¡Hola Julia!

Daniel Rodríguez

Next Obtener información básica de los DataFrames de Julia (12ª parte – ¡Hola Julia!) »

Previous « Tipos y funciones paramétricos en Julia (10ª parte – ¡Hola Julia!)

Published by

Daniel Rodríguez

6 años ago

Eliminar filas en DataFrame Julia en base a sus valores
Una de las tareas más repetidas cuando se procesa un conjunto de datos es el…
Archivos Parquet en Julia
En una publicación reciente se ha visto las ventajas que ofrece el uso de archivos…
Diferencias entre Apache Arrow y Parquet
Apache Arrow y Parquet son dos formatos modernos para con los que es posible conseguir…

PSI: Cómo Saber Cuándo tu Modelo de Credit Scoring se ha Degradado

Un modelo de credit scoring no es un artefacto estático. Se construye en un momento…

10 horas ago

Opinión

Los indicadores que se autocumplen, o cuando medir es modificar – El bestiario de los indicadores económicos absurdos (parte 7)

En las seis entregas anteriores hemos paseado por casi todos los géneros del disparate económico:…

5 días ago

Ciencia de datos

Customer Lifetime Value: la fórmula clásica que todo analista debería dominar

El Customer Lifetime Value (CLV) es, probablemente, la métrica más importante que puede calcular una…

1 semana ago

Noticias

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.4, que…

2 semanas ago

Opinión

La liga internacional, o cuando Harvard y Johns Hopkins suman peras con manzanas – El bestiario de los indicadores económicos absurdos (parte 6)

Hemos llegado a la sexta entrega de la serie. Si las cuatro primeras fueron las…

2 semanas ago

Noticias

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

En Analytics Lane seguimos apostando por desarrollar herramientas que simplifiquen el trabajo de analistas y…

2 semanas ago

This website uses cookies.

Introducción a los DataFrames en Julia (11ª parte – ¡Hola Julia!)

Importación de DataFrames

Creación de un DataFrame básico en Julia

Métodos alternativos para crear un DataFrame

Creación del DataFrame en Julia a partir de matrices

Construcción de DataFrames vacíos

Copia de DataFrames y columnas

Los DataFrames en Julia

Publicaciones de la serie ¡Hola Julia!

Publicaciones relacionadas

Related Post

Recent Posts

PSI: Cómo Saber Cuándo tu Modelo de Credit Scoring se ha Degradado

Los indicadores que se autocumplen, o cuando medir es modificar – El bestiario de los indicadores económicos absurdos (parte 7)

Customer Lifetime Value: la fórmula clásica que todo analista debería dominar

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

La liga internacional, o cuando Harvard y Johns Hopkins suman peras con manzanas – El bestiario de los indicadores económicos absurdos (parte 6)

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT