Data mining es el proceso de descubrir información predictiva a partir del análisis de grandes bases de datos. Para un científico de datos, o data scientist, el data mining  puede ser una tarea vaga y desalentadora que requiere de diversas habilidades y del conocimiento de muchas técnicas de minería de datos para tomar los datos en bruto y extraer con éxito las ideas. Por eso, en

En este artículo te damos una introducción a la minería de datos utilizando Python, una de las herramientas de data mining más utilizadas, desde la limpieza y organización de los datos hasta la aplicación de algoritmos de aprendizaje automático.

Definición de data mining

El objetivo de la minería de datos es la creación de un modelo a partir de un conjunto de datos determinado, cuyas conclusiones pueden generalizarse a conjuntos de datos similares. Un ejemplo del mundo real de una aplicación exitosa de minería de datos es la detección automatizada de fraudes por parte de bancos y cooperativas de crédito.

Su banco probablemente tiene una política que le notifica cuando detecta actividad sospechosa en su cuenta, como retiros repetidos en cajeros automáticos o compras grandes en un estado fuera de su residencia registrada. ¿Qué tiene que ver esto con el data mining? Los data scientists han desarrollado este sistema aplicando algoritmos para clasificar y predecir si una transacción es fraudulenta comparándola con un patrón histórico de retiradas fraudulentas y no fraudulentas. El modelo sabe que si tú vives en Madrid, es muy probable que las compras de mil euros cargadas a una provincia rusa poco poblada no sean legítimas.

Esta es sólo una de las muchas y potentes aplicaciones de la minería de datos. Otros usos del data mining son la secuenciación del genoma, el análisis de las redes sociales o el mapeo de la delincuencia, pero el caso de uso más común es el análisis de aspectos del ciclo de vida del consumidor. Las empresas utilizan la minería de datos para identificar las preferencias de los consumidores, clasificar a los diferentes consumidores en función de su actividad de compra, y determinar lo que hace un buen cliente de pago. Esta información es valiosa porque puede tener profundas implicaciones para la mejora de los flujos de ingresos y la reducción de costos.

¿Cuáles son las técnicas del data mining?

Hay varias formas de construir modelos predictivos a partir de conjuntos de datos, y un data scientist debe entender los conceptos que hay detrás de estas técnicas y cómo utilizar el código para crear modelos y visualizaciones similares. Estas técnicas incluyen:

  • Regresión Estimar las relaciones entre las variables mediante la optimización de la reducción de errores.
  • Clasificación Identificar a qué categoría pertenece un objeto. Un ejemplo es clasificar los correos electrónicos como spam o legítimos, o ver la puntuación de crédito de una persona y aprobar o denegar una solicitud de préstamo.
  • Análisis de clústeres Encontrar agrupaciones naturales de objetos de datos basadas en las características conocidas de esos datos. Un ejemplo de esto es el marketing, donde el análisis puede revelar grupos de clientes con comportamientos únicos que pueden utilizarse para tomar decisiones estratégicas.
  • Análisis de asociación y correlación Busca si hay relaciones únicas entre las variables que no son inmediatamente obvias. Un ejemplo sería el famoso caso de la cerveza y los pañales: los hombres que compraban pañales al final de la semana tenían más probabilidades de comprar también cerveza, por lo que las tiendas colocaron estos dos productos cerca para aumentar las ventas.
  • Análisis de valores atípicos Examina los valores atípicos para determinar las posibles causas y razones de estos valores atípicos. Un ejemplo de esto es el uso del análisis de valores atípicos en la detección del fraude para determinar si un patrón de comportamiento que se desvía de la norma es o no un fraude.

El data mining para los negocios se realiza a menudo con una base de datos transaccional y en vivo que permite un fácil uso de las herramientas de minería de datos para el análisis. Un ejemplo de esto sería un Servidor de Procesamiento Analítico en Línea u OLAP, que permite a los usuarios realizar un análisis multidimensional dentro del servidor de datos. Los OLAP permiten a las empresas consultar y analizar los datos sin tener que descargar archivos de datos estáticos, lo cual es útil en situaciones en las que su base de datos crece diariamente. Sin embargo, para alguien que quiera aprender minería de datos y practicar por su cuenta, un cuaderno de iPython es perfecto para manejar la mayoría de las tareas de minería de datos.

En este artículo te hemos contado los fundamentos de las técnicas de data mining en relación con Python. Si tú también quieres formarte en este ámbito, en Udeka ponemos a tu disposición los mejores cursos de big data, Python y data science para que puedas conseguir tus objetivos y mejorar tu perspectiva labora. ¿A qué estás esperando?