¿Data Scientist para todos?

La ciencia de los datos no está destinada a unos pocos gurús. Se basa en técnicas estándares que pueden ser ensambladas juntas en un flujo de explotación de los datos parecido a los bloques de un Lego. Argumento que estas técnicas se pueden explicar de forma intuitiva a usuarios sin experiencia previa en la materia mediante el uso de una programación visual sencilla e interactiva sobre los datos y modelos.

data.science.image7

 

Con la creciente expansión de compañías como Google, Facebook, Twitter, etc, una nueva forma de analizar toda la información que estas compañías generaban era necesaria. De ahí surgió el término Data Science, específicamente designado para darle sentido a la información almacenada en los entornos Big Data.

Aunque el análisis de los datos empresariales ha estado presente desde hace muchos años en muchas compañías (conceptos como el Data Mining, Business Intelligence no nos son desconocidos) no ha sido hasta recientemente que su papel ha ganado un valor indiscutible. Y este valor sigue creciendo cada día.

AnalyticsDataScienceJobGrowth

 ¿A qué es debido este crecimiento? Para eso habría que explicar los orígenes del Big Data, y no me meteré ahora, puesto que hay todo un mundo detrás. Decir que en los últimos años la cantidad de datos que se ha guardado y necesitan ser procesados es varias veces superior a toda la información recolectada de los 20 años anteriores.

¿Pero qué diferencia a un/una Data Scientist de un estadístico/a o un minero/a de datos?

En mayo de 2012, Josh Willis, Data Scientist de Cloudera, dio una definición bastante acertada: “un Data Scientist es una persona que sabe más estadística que cualquier ingeniero/a de informática, y es mejor desarrollando software que cualquier estadístico/a”. Debido a las peculiaridades de trabajar con cantidades de datos que superaban las tecnologías habituales, se hace necesaria una nueva forma de pensar, de obtener valor de los datos de una empresa. El/la Data Scientist comienza a ganar una importancia considerable en el mercado.


DataScience

De manera muy resumida repasaremos ahora el trabajo que desempeña un/una Data Scientist en su día a día.

Aunque es posible que un/una Data Scientist deba desempeñar tareas o ayudar en el proceso de recolección y procesamiento de los datos (tarea que suelen realizar los/las Arquitectos/as Big Data), el trabajo comienza con el proceso de limpiar la información procesada. Puede parecer algo trivial, pero es una de las fases más importantes. Es crucial que los datos no contengan datos incongruentes, incompletos, o completamente fuera de lugar. Si, por ejemplo, los datos provienen de sensores, normalmente la información viene con mucho ruido, o con datos llamados “outliers” porque son radicalmente diferentes al resto de los datos. Si toda esta información no se limpia previamente, se puede inducir en mucho error en cualquier análisis posterior.

datascienceprocess

Una vez que la información está lo suficientemente limpia, empezamos a trabajar en lo que se conoce como Análisis Exploratorio Estadístico: el objetivo de esta tarea es “conocer” los datos, aprender cómo son, su comportamiento, sus medidas, distribuciones, etc. Esta fase es la que permite a un/a Data Scientist trabajar con datos de cualquier ámbito profesional sin poseer conocimientos específicos en la materia. Los datos le dicen todo lo que necesita saber sobre la tarea a realizar.

Cuando ya se conoce toda la estructura interna del dato, se puede comenzar a definir el modelo, a realizar pruebas con los algoritmos que sean necesarios para resolver el problema. Estos algoritmos engloban tanto al campo de la estadística (regresiones, análisis factorial, etc) como al “Machine Learning” (redes neuronales, algoritmos de clustering y clasificación, etc).

Por último, cuando los modelos empiezan a ejecutarse, han de presentar y visualizar los resultados de forma que sean entendibles para poder ejecutar decisiones o diseñar productos en base a esos resultados.

Para todas estas fases, el trabajo puede durar desde unas semanas, hasta varios meses, dependiendo de la dificultad del modelo, de las características de los datos, así como del problema a afrontar.

En resumidas cuentas (muy resumidas) estas suelen ser las responsabilidades más habituales del mundo de la Data Science. Aunque hay muchas, éstas son las que más forman parte de su día a día.

Izaskun Larrea Manzarbeitia

Assistant Director & Data Scientist

 

 

 

 

 

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s

A %d blogueros les gusta esto: