Como científicos de datos es habitual trabajar con conjuntos de datos en los que existen campos confidenciales, a los que solamente deberían poder acceder un conjunto limitado de personas. Una de las mejores opciones en estas situaciones es protegerlos mediante cifrado. Al trabajar en R, en el CRAN se puede encontrar el paquete encryptr
con el que se puede cifrar datos en R.
Instalación del paquete
El paquete encryptr
está disponible en el CRAN, por lo que mejor manera para instalarlo mediante el comando:
install.packages("encryptr")
Alternativamente también se puede instalar la utlima vesrión desde el repositorio de GitHub del proyecto mediante:
devtools::install_github("SurgicalInformatics/encryptr")
Generación de las claves
El paquete encryptr
utiliza cifrado RSA que está basado en un par de claves públicas y privadas. La clave pública se puede compartir, siendo la que se utiliza para cifrar la información. Por otro lado, la clave privada es la que se utiliza para recuperar los datos, por lo que no se ha de compartir. Solamente los usuarios que tengan acceso a la clave privada podrán recuperar la información.
Por esto la primera tarea antes de poder utilizar encryptr
para cifrar cualquier dato es crear un par de claves. La función para ello es genkeys()
. Por defecto guardará la clave privada en el archivo id_rsa
y la clave publica en id_rsa.pub
, aunque se pueden cambiar los nombres. Al ejecutar esta función nos pedirá una contraseña para proteger la clave privada que es necesario recordar. Si todo funciona correctamente aparecerán los dos archivos en la carpeta de trabajo.
> genkeys()
Private key written with name 'id_rsa'
Public key written with name 'id_rsa.pub'
Cifrar en R una cadena de texto
La tarea más fácil es cifrar una cadena de texto, para lo que se tiene que utilizar la función encrypt_vec
. Está solamente requiere la cadena de texto a cifrar. Por defecto busca la clave publica en el archivo id_rsa.pub
, por lo que solamente es necesario indicar el nombre si este es diferente. Así se puede ver cómo queda la cadena de texto “Hola Mundo” una vez cifrada.
> msg <- encrypt_vec('Hola mundo')
> msg
[1] "4398f4c3e6b47cf86d20f8ff916d1024bbed8bf53761b31c4cd5ebd13e4ead1d1ba32965c3f058f4e6cf82784a4557cc60d3a25cc9135e7de94432221a0cad919ff6c6aea767591aef99340f3b0205d994022ed82a2c6725d4df9b1bd4cd0e2f307470d8120ae697fea8669c8d7434c3e4dff9bc611ec9dd740005d5931d34bfc4e78f0863c89278aa74ae4ec57a5e2c1b8a12565a50d493c9be79428b932ab358d6d51b84f0821c8f7a0dce5a6fd98d3096fae37305fb7661c0043fb134e2f190918509acdfffdfe6d329fb9369673ef866d2067e80f572b36e216f3f5e29430c38a5a1067267587d463dcfd7e33ceb11f620fd1d59c3c5b7c1d0f57f55623c"
Como es de espera a partir de la cadena msg
es completamente diferente a la original. Para recuperar el texto original se tiene que utilizar la función decrypt_vec
, la que solamente necesita la cadena cifrada. Esta función utiliza la clave privada, por lo que va a pedir la contraseña de acceso a la misma que se introdujo al crearla. En el caso de que la contraseña se introduzca correctamente, se recupera el mensaje original.
> decrypt_vec(msg)
[1] "Hola mundo"
Cifrar columnas de un DataFrame
Algo que puede ser de más interés es cifrar diferentes columnas en un DataFrame. El paquete incluye un conjunto de datos de ejemplo que contiene las direcciones de médicos en Escocia. El conjunto se llama gp
y tiene la siguiente forma:
> gp
A tibble: 1,212 x 12
organisation_co… name address1 address2 address3 city county postcode opendate
1 S10002 MUIR… LIFF RO… MUIRHEAD NA DUND… ANGUS DD2 5NH 1995-05-01
2 S10017 THE … CRIEFF … KING ST… NA CRIE… PERTH… PH7 3SA 1996-04-06
3 S10036 ABER… TAYBRID… NA NA ABER… PERTH… PH15 2BL 2008-04-01
4 S10060 ABER… TAYBRID… NA NA ABER… PERTH… PH15 2BH 1975-04-01
5 S10106 GROV… 129 DUN… BROUGHT… NA DUND… ANGUS DD5 1DU 1996-07-08
6 S10125 ALYT… NEW ALY… ALYTH NA BLAI… PERTH… PH11 8EQ 1979-10-01
7 S10182 ARBR… 7 HILL … NA NA ARBR… ANGUS DD11 1AD 1977-10-01
8 S10233 ABBE… EAST AB… NA NA ARBR… ANGUS DD11 1EN 1986-08-01
9 S10286 EAST… 30 POND… NA NA ARBR… ANGUS DD11 1ES 1975-08-01
10 S10322 WEST… 30 POND… NA NA ARBR… ANGUS DD11 1ES 1971-10-01
En este caso es interesante cifrar los datos privados de los médicos, es decir, se puede proteger el nombre, la dirección, el código postal y el teléfono. Siendo necesario utilizar la función encrypt
para ello.
gp_encrypt <- gp %>% encrypt(name, address1, address2, address3, postcode, telephone) gp_encrypt
A tibble: 1,212 x 12
organisation_co… name address1 address2 address3 city county postcode opendate
1 S10002 9aa8… 35fcb65… 2e1d88e… adda131… DUND… ANGUS 24fcaf8… 1995-05-01
2 S10017 10bb… ad2b27d… 64f2ff0… 8297dea… CRIE… PERTH… 3faf78f… 1996-04-06
3 S10036 1dee… 5530bc4… 7b547c9… b19955f… ABER… PERTH… 9df00a8… 2008-04-01
4 S10060 72f1… 61acbd6… 195a3ac… b915d7a… ABER… PERTH… 411a9cd… 1975-04-01
5 S10106 1b39… 529faa2… 1c0cbae… 7978ff2… DUND… ANGUS 5df8f46… 1996-07-08
6 S10125 220a… 84723c5… 3ecb87b… 99e139e… BLAI… PERTH… a682f65… 1979-10-01
7 S10182 0fbd… 831b723… 5754ecf… 2269581… ARBR… ANGUS 2e48c41… 1977-10-01
8 S10233 b75e… 419cd93… 60dd2f9… b5bff17… ARBR… ANGUS 3a15e73… 1986-08-01
9 S10286 1705… 0627464… b37e777… 2a57ff9… ARBR… ANGUS 3845f61… 1975-08-01
10 S10322 0275… 3411362… 0203d6d… a6458e7… ARBR… ANGUS a91944a… 1971-10-01
Como se puede ver en el ejemplo, se le ha de pasar el conjunto de datos u los nombres de las columnas que se desea cifrar. Posteriormente la función para recuperar los datos es decrypt
.
gp_encrypt %>% decrypt(name, address1, address2, address3, postcode, telephone)
Cifrar archivos en R
Finalmente, el paquete encryptr
también permite cifrar directamente activos. Para lo que existen dos funciones encrypt_file
para cifrar y decrypt_file
para descifrar. La primera, encrypt_file
, solamente necesita en nombre del archivo. Al lanzar esta función se crea un nuevo archivo con los datos cifrados y al que se le agrega la extensión encryptr.bin
.
encrypt_file("file.txt")
Por otro lado, para recuperar el archivo original se utiliza decrypt_file
. En este caso se puede indicar un nombre para el archivo de destino.
decrypt_file("file.txt.encryptr.bin", file_name = "file2.txt")
Conclusiones
En la entrada se ha visto cómo utilizar el paquete encryptr
para cifrar datos en R. Un paquete que puede ser útil cuando se trabaja con datos confidenciales y no se desea que todos los usuarios puedan verlos. Así es posible trabajar con los datos al mismo tiempo que se conserva la confidencialidad de los datos.
Imágenes: Pixabay (Markus Spiske)
Deja una respuesta