• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • Excel
  • IA Generativa

Cifrar datos en R con encryptr

agosto 12, 2019 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Como científicos de datos es habitual trabajar con conjuntos de datos en los que existen campos confidenciales, a los que solamente deberían poder acceder un conjunto limitado de personas. Una de las mejores opciones en estas situaciones es protegerlos mediante cifrado. Al trabajar en R, en el CRAN se puede encontrar el paquete encryptr con el que se puede cifrar datos en R.

Instalación del paquete

El paquete encryptr está disponible en el CRAN, por lo que mejor manera para instalarlo mediante el comando:

install.packages("encryptr")

Alternativamente también se puede instalar la utlima vesrión desde el repositorio de GitHub del proyecto mediante:

devtools::install_github("SurgicalInformatics/encryptr")  

Publicidad


Generación de las claves

El paquete encryptr utiliza cifrado RSA que está basado en un par de claves públicas y privadas. La clave pública se puede compartir, siendo la que se utiliza para cifrar la información. Por otro lado, la clave privada es la que se utiliza para recuperar los datos, por lo que no se ha de compartir. Solamente los usuarios que tengan acceso a la clave privada podrán recuperar la información.

Por esto la primera tarea antes de poder utilizar encryptr para cifrar cualquier dato es crear un par de claves. La función para ello es genkeys(). Por defecto guardará la clave privada en el archivo id_rsa y la clave publica en id_rsa.pub, aunque se pueden cambiar los nombres. Al ejecutar esta función nos pedirá una contraseña para proteger la clave privada que es necesario recordar. Si todo funciona correctamente aparecerán los dos archivos en la carpeta de trabajo.

Tutorial de Mypy para Principiantes
En Analytics Lane
Tutorial de Mypy para Principiantes

> genkeys()
Private key written with name 'id_rsa'
Public key written with name 'id_rsa.pub'

Cifrar en R una cadena de texto

La tarea más fácil es cifrar una cadena de texto, para lo que se tiene que utilizar la función encrypt_vec. Está solamente requiere la cadena de texto a cifrar. Por defecto busca la clave publica en el archivo id_rsa.pub, por lo que solamente es necesario indicar el nombre si este es diferente. Así se puede ver cómo queda la cadena de texto “Hola Mundo” una vez cifrada.

> msg <- encrypt_vec('Hola mundo')
> msg
[1] "4398f4c3e6b47cf86d20f8ff916d1024bbed8bf53761b31c4cd5ebd13e4ead1d1ba32965c3f058f4e6cf82784a4557cc60d3a25cc9135e7de94432221a0cad919ff6c6aea767591aef99340f3b0205d994022ed82a2c6725d4df9b1bd4cd0e2f307470d8120ae697fea8669c8d7434c3e4dff9bc611ec9dd740005d5931d34bfc4e78f0863c89278aa74ae4ec57a5e2c1b8a12565a50d493c9be79428b932ab358d6d51b84f0821c8f7a0dce5a6fd98d3096fae37305fb7661c0043fb134e2f190918509acdfffdfe6d329fb9369673ef866d2067e80f572b36e216f3f5e29430c38a5a1067267587d463dcfd7e33ceb11f620fd1d59c3c5b7c1d0f57f55623c"

Como es de espera a partir de la cadena msg es completamente diferente a la original. Para recuperar el texto original se tiene que utilizar la función decrypt_vec, la que solamente necesita la cadena cifrada. Esta función utiliza la clave privada, por lo que va a pedir la contraseña de acceso a la misma que se introdujo al crearla. En el caso de que la contraseña se introduzca correctamente, se recupera el mensaje original.

> decrypt_vec(msg)
[1] "Hola mundo"

Publicidad


Cifrar columnas de un DataFrame

Algo que puede ser de más interés es cifrar diferentes columnas en un DataFrame. El paquete incluye un conjunto de datos de ejemplo que contiene las direcciones de médicos en Escocia. El conjunto se llama gp y tiene la siguiente forma:

> gp
A tibble: 1,212 x 12
organisation_co… name address1 address2 address3 city county postcode opendate

1 S10002 MUIR… LIFF RO… MUIRHEAD NA DUND… ANGUS DD2 5NH 1995-05-01
2 S10017 THE … CRIEFF … KING ST… NA CRIE… PERTH… PH7 3SA 1996-04-06
3 S10036 ABER… TAYBRID… NA NA ABER… PERTH… PH15 2BL 2008-04-01
4 S10060 ABER… TAYBRID… NA NA ABER… PERTH… PH15 2BH 1975-04-01
5 S10106 GROV… 129 DUN… BROUGHT… NA DUND… ANGUS DD5 1DU 1996-07-08
6 S10125 ALYT… NEW ALY… ALYTH NA BLAI… PERTH… PH11 8EQ 1979-10-01
7 S10182 ARBR… 7 HILL … NA NA ARBR… ANGUS DD11 1AD 1977-10-01
8 S10233 ABBE… EAST AB… NA NA ARBR… ANGUS DD11 1EN 1986-08-01
9 S10286 EAST… 30 POND… NA NA ARBR… ANGUS DD11 1ES 1975-08-01
10 S10322 WEST… 30 POND… NA NA ARBR… ANGUS DD11 1ES 1971-10-01

En este caso es interesante cifrar los datos privados de los médicos, es decir, se puede proteger el nombre, la dirección, el código postal y el teléfono. Siendo necesario utilizar la función encrypt para ello.

gp_encrypt <- gp %>% encrypt(name, address1, address2, address3, postcode, telephone)
gp_encrypt
A tibble: 1,212 x 12
organisation_co… name address1 address2 address3 city county postcode opendate

1 S10002 9aa8… 35fcb65… 2e1d88e… adda131… DUND… ANGUS 24fcaf8… 1995-05-01
2 S10017 10bb… ad2b27d… 64f2ff0… 8297dea… CRIE… PERTH… 3faf78f… 1996-04-06
3 S10036 1dee… 5530bc4… 7b547c9… b19955f… ABER… PERTH… 9df00a8… 2008-04-01
4 S10060 72f1… 61acbd6… 195a3ac… b915d7a… ABER… PERTH… 411a9cd… 1975-04-01
5 S10106 1b39… 529faa2… 1c0cbae… 7978ff2… DUND… ANGUS 5df8f46… 1996-07-08
6 S10125 220a… 84723c5… 3ecb87b… 99e139e… BLAI… PERTH… a682f65… 1979-10-01
7 S10182 0fbd… 831b723… 5754ecf… 2269581… ARBR… ANGUS 2e48c41… 1977-10-01
8 S10233 b75e… 419cd93… 60dd2f9… b5bff17… ARBR… ANGUS 3a15e73… 1986-08-01
9 S10286 1705… 0627464… b37e777… 2a57ff9… ARBR… ANGUS 3845f61… 1975-08-01
10 S10322 0275… 3411362… 0203d6d… a6458e7… ARBR… ANGUS a91944a… 1971-10-01

Como se puede ver en el ejemplo, se le ha de pasar el conjunto de datos u los nombres de las columnas que se desea cifrar. Posteriormente la función para recuperar los datos es decrypt.

gp_encrypt %>% decrypt(name, address1, address2, address3, postcode, telephone)

Cifrar archivos en R

Finalmente, el paquete encryptr también permite cifrar directamente activos. Para lo que existen dos funciones encrypt_file para cifrar y decrypt_file para descifrar. La primera, encrypt_file, solamente necesita en nombre del archivo. Al lanzar esta función se crea un nuevo archivo con los datos cifrados y al que se le agrega la extensión encryptr.bin.

encrypt_file("file.txt")

Por otro lado, para recuperar el archivo original se utiliza decrypt_file. En este caso se puede indicar un nombre para el archivo de destino.

decrypt_file("file.txt.encryptr.bin", file_name = "file2.txt")

Publicidad


Conclusiones

En la entrada se ha visto cómo utilizar el paquete encryptr para cifrar datos en R. Un paquete que puede ser útil cuando se trabaja con datos confidenciales y no se desea que todos los usuarios puedan verlos. Así es posible trabajar con los datos al mismo tiempo que se conserva la confidencialidad de los datos.

Imágenes: Pixabay (Markus Spiske)

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Tutorial de Mypy para Principiantes
  • Semana sin nuevas publicaciones
  • Combinar gráficos con FacetGrid: Cómo analizar tendencias complejas en múltiples paneles con Seaborn
  • Introducción a igraph en R (Parte 6): Centralidad de Katz en grafos
  • Cómo modificar los mensajes de commit en Git
  • Optimización de memoria en Pandas: Usar tipos de datos personalizados para manejar grandes conjuntos de datos
  • Introducción a igraph en R (Parte 7): Centralidad de Bonacich
  • ¡Analytics Lane cumple siete años!
  • Sincronizar múltiples ejes con twinx(): Comparación de datos con diferentes escalas en un solo gráfico con Matplotlib

Publicado en: Criptografía, R

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Variables globales en Python: Problemas y cómo evitarlos

mayo 12, 2025 Por Daniel Rodríguez

Los valores numéricos en los ordenadores: Entendiendo enteros, flotantes y más

mayo 9, 2025 Por Daniel Rodríguez

Introducción a igraph en R (Parte 8): PageRank

mayo 7, 2025 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas publicado el mayo 10, 2019 | en Python
  • Copiar y pegar Activar copiar y pegar en VirtualBox publicado el mayo 1, 2019 | en Herramientas
  • Seleccionar filas y columnas en Pandas con iloc y loc publicado el junio 21, 2019 | en Python
  • Creación de documentos Word con Python publicado el septiembre 7, 2020 | en Python
  • pandas Pandas: Cómo iterar sobre las filas de un DataFrame en Pandas publicado el septiembre 13, 2021 | en Python

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Tutorial de Mypy para Principiantes
  • Javier en Tutorial de Mypy para Principiantes
  • javier en Problemas con listas mutables en Python: Cómo evitar efectos inesperados
  • soldado en Numpy básico: encontrar la posición de un elemento en un Array de Numpy
  • plataformas AéReas en Numpy básico: encontrar la posición de un elemento en un Array de Numpy

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2025 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto