• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Simulador FIRE (Financial Independence, Retire Early)
    • Herramientas
      • Formateador / Minificador de JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

El proceso de la minería de datos

julio 25, 2018 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Data mining

La minería de datos hace referencia a los análisis utilizados para la identificación de patrones desconocidos en grandes conjuntos de datos. Pudiendo ser los análisis tanto automáticos como semiautomáticos. Para poder implementar los análisis de la minería de datos es necesario conocer diferentes técnicas procedentes de áreas tales como la gestión de bases de datos, la estadística, la inteligencia artificial y el aprendizaje automático.

¿Qué es la minería de datos?

La minería de datos es el proceso mediante el cual se busca identificar patrones en grandes conjuntos de datos. Siendo la palabra clave para hablar de minería de datos la identificación de patrones. El tipo de patrones que se pueden estudiar son múltiples, entre los que se pueden enumerar la identificación de:

  • relaciones entre conjuntos de variables (análisis de regresión),
  • grupos semejantes o detección de anomalías (análisis de clúster) o
  • hechos que suceden de forma conjunta (reglas de asociación).

Al ser un termino que esta de moda, el termino minería de datos se utiliza en muchas ocasiones incorrectamente para hacer referencia al manejo de datos. Especialmente cuando se habla de grandes volúmenes. Esto es, se emplea para situaciones en las que simplemente gestionan bases de datos, sin realizar un descubrimiento de patrones en el mismo. Por ejemplo, en la entrada de la Wikipedia sobre la minería de datos se hace referencia a esto:

Nueva calculadora de préstamos e hipotecas en el laboratorio de aplicaciones de Analytics Lane
En Analytics Lane
Nueva calculadora de préstamos e hipotecas en el laboratorio de aplicaciones de Analytics Lane

La minería de datos o exploración de datos (es la etapa de análisis de “Knowledge Discovery in Databases” o KDD) es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

Minería de datos, En Wikipedia. Recuperado el 1 de julio 2018 .

El proceso de minería de datos se enmarca en el proceso que se conocen como KDD (“Knowlege Discovery in Databases”, o Descubrimiento de Conocimiento en Bases de Datos). En la siguiente sección se hace un repaso de los seis fases en las que se divide el KDD.

La minería de datos dentro del proceso KDD

A grandes rasgos, se puede dividir en los siguientes pasos:

  1. Selección: en el primer paso se han de seleccionar las variables que se utilizaran en el resto del proceso. Estas se pueden dividir en dependientes (aquellas para las que se desea predecir o inferir su valor) e independientes (aquellas que se utilizaran para realizar las predicciones). En algunos análisis no se utiliza variables dependientes, como en los modelos no supervisados.
  2. Análisis: mediante la utilización de diferentes técnicas estadísticas se obtiene información que describe los datos. Pudiéndose utilizar esta información para la identificación de valores atípicos (“outliers“) o nulos. La identificación de estos valores es importante ya que pueden distorsionar las conclusiones.
  3. Procesado y transformación: en este paso se utilizan diferentes técnicas para preparar los datos para los modelos.Por ejemplo, en este paso se pueden normalizar los valores o crear nuevas variables a partir de las originales.
  4. Minería de datos: este es el paso en el que se construyen los modelos para explicar las observaciones.
  5. Interpretación y evaluación: este es el paso en el que se interpretan los resultados de los modelos. Evaluando de esta manera si las conclusiones obtenidas son coherentes con las observaciones. En el caso de que el modelo final no supere esta evaluación el proceso se puede repetir desde cualquier punto anterior. Por otro lado, en el caso de superar la evaluación el modelo puede ser puesto en producción. Los resultados así obtenidos podrán ser utilizados en futuros análisis.
  6. Producción: en esta fase los resultados de los modelos se pueden utilizar para solventar diferentes necesidades de negocio. En este paso es importante evaluar de forma continua los resultados. Verificando que las conclusiones obtenidas siguen siendo válidas con el paso del tiempo.

Algunas referencias pueden indicar que el KDD incluye también otros pasos como la limpieza e integración de los datos al comienzo del proceso y la visualización y representación final de los resultados.

Publicidad


Ciclo de vida de los modelos

Los modelos utilizados en minería de datos tienen un ciclo de vida. Inicialmente estos han de ser creados, validados y puestos en producción. Una vez puestos en producción su capacidad suele decaer con el tiempo debido a cambios en el entorno. Por ejemplo, en una tienda on-line los hábitos de los clientes, o la tecnología, pueden cambiar haciendo necesario que los modelos se actualicen para recoger estos cambios.

Generalmente el proceso de creación de los modelos suele ser costoso en recursos. Siendo necesario disponer de perfiles especializados y altamente cualificados para su generación. Por otro lado, la ejecución de los modelos en producción una vez creados no suele ser costosa. En la mayoría de los casos se ha de calcular una fórmula que suele ejecutarse rápidamente en los ordenadores actuales.

Conclusiones

En esta entrada se ha presentado en concepto de minería de datos y el papel que juega esta en KDD.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Nuevo detector de la Ley de Benford en el laboratorio de aplicaciones de Analytics Lane
  • Nuevo simulador de regresión lineal con ruido en el laboratorio de aplicaciones de Analytics Lane
  • Nuevo simulador de regresión logística en el laboratorio de aplicaciones de Analytics Lane
  • Nuevo Inspector de JWT en el laboratorio de aplicaciones de Analytics Lane
  • Nueva Calculadora de Estadísticos Descriptivos en el laboratorio de aplicaciones de Analytics Lane
  • Chatbots vs redes sociales: la diferencia clave entre la inteligencia artificial y los algoritmos de recomendación – Conversar con una inteligencia artificial – Parte II

Publicado en: Ciencia de datos Etiquetado como: Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Chatbots vs redes sociales: la diferencia clave entre la inteligencia artificial y los algoritmos de recomendación – Conversar con una inteligencia artificial – Parte II

abril 21, 2026 Por Daniel Rodríguez

Nueva Calculadora de Estadísticos Descriptivos en el laboratorio de aplicaciones de Analytics Lane

abril 20, 2026 Por Daniel Rodríguez

Nuevo Inspector de JWT en el laboratorio de aplicaciones de Analytics Lane

abril 20, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Método del codo (Elbow method) para seleccionar el número óptimo de clústeres en K-means publicado el junio 9, 2023 | en Ciencia de datos
  • Cómo calcular el tamaño de la muestra para encuestas publicado el septiembre 9, 2025 | en Ciencia de datos
  • Chatbots vs redes sociales: la diferencia clave entre la inteligencia artificial y los algoritmos de recomendación – Conversar con una inteligencia artificial – Parte II publicado el abril 21, 2026 | en Opinión
  • Ordenadores para Machine Learning e Inteligencia Artificial en 2026: Guía completa para elegir el equipo adecuado según tu perfil y presupuesto publicado el enero 20, 2026 | en Reseñas
  • Copiar y pegar Activar copiar y pegar en VirtualBox publicado el mayo 1, 2019 | en Herramientas

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.9 (11)

Pandas: Cambiar los tipos de datos en los DataFrames

Comentarios recientes

  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto