Las interrelaciones entre la Data Mining, Big Data y la toma de decisiones han dado lugar a lo que recientemente se viene llamando Data Science.

Ante la montaña de datos tenemos que ser capaz de entender qué es lo que tenemos que hacer para obtener la información que se necesita.

¿Cuáles son sus funciones de un data scientist?

  1. Descubrir los datos lo que no se sabe que están.
  2. Poder hacer predicciones con el análisis de los datos
  3. Transformar esos datos en decisiones, buscando un impacto final.
  4. La comunicación es fundamental para poder conseguir ese impacto. Tiene que ser un modelo comprensible.
  5. Dar el paso hacia la toma de decisiones.

Big Data se define bien con el esquema de las cinco v: volumen, velocidad, variedad, valor y veracidad:

Volumen: los datos crecen una media de un 40% cada año

Velocidad: a partir de 2008 hay más sensores produciendo datos que población en el mundo y es una cifra que se sigue multiplicando año tras año.

Variedad: números, localizaciones, 3D, audios, vídeos, imagen, textos, archivos, voces, las bases de datos relacionales… Hay un problema de complejidad que tiene que ver con los formatos.

Veracidad: las imprecisiones, los fallos de transmisión pueden perturbar mucho el resultado del análisis, por lo que la veracidad se convierte en una de las claves del data mining

Valor: el resultado debe aportar valor estratégico a la organización.

paris.jpg

Los pasos de este proceso sobre el que se sostiene la data science son los siguientes:

1. Definición del problema

2. Recolección de datos relevantes para el problema

3. Procesamiento de estos datos

4. Transformación de las estructuras de datos para prepararlas para el análisis

5. Minería de datos o explotación de los datos

6. Producción de conocimiento, interpretación y evaluación

En los últimos 20 años se ha desatascado el cuello de botella que existía en el procesamiento de los datos para que puedan tragar las cantidades de datos que van viniendo. Sin embargo se debe de investigar y automatizar los procesos de pre y post procesamiento. El sistema de minería de datos, tiene grandes catálogos de métodos para las distintas fases del proceso:

  1. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.

  2. Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un procesado diferente de los datos.

  3. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Por ello, el proceso del científico no se puede limitar a la explotación de datos en sí misma. “Todo lo que hay antes y después de esta explotación de datos es crítico para que el proceso de análisis tenga su impacto” Usama Fayyad

 

Izaskun Larrea

Assistant Director & Data Scientist

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s