Solicita información

"El data scientist es un director de orquesta del análisis de datos"

En UNIR, entrevistamos a Luis de la Fuente Valentín, coordinador del Máster Universitario en Análisis y Visualización de Datos Masivos y Big Data.

Luis de la Fuente Valentín hizo su doctorado en tecnología educativa, alejado del análisis de datos. Venía de la rama de telemática, por lo que investigó sobre aplicaciones de Internet que pudieran mejorar el soporte del aprendizaje online. Una vez lo terminó, se interesó en cómo las interacciones del alumno a lo largo del curso favorecen el proceso de enseñanza. Este ámbito se conoce como learning analytics, que implica la aplicación del análisis de datos al ámbito educativo.

Con estos conocimientos, en 2014, UNIR le ofreció la oportunidad de coordinar un posgrado en el que pudiera desarrollar la temática del análisis de datos, no solo en el ámbito educativo. Con esta idea en mente, apostaron a la mayor con el Máster Universitario en Análisis y Visualización de Datos Masivos y Big Data. Con el inicio del curso a la vuelta de la esquina, aprovechamos a hablar con De la Fuente para entender el papel de un científico de datos y qué futuro le espera a la profesión.

¿En qué consiste el trabajo de un data scientist?

Dentro del mundo del big data hay muchas profesiones asociadas y, entre ellas, está la del científico de datos. Tiene un punto de vista global de todo el ecosistema que conforma el análisis de datos: conoce las implicaciones de elegir una infraestructura u otra, que los datos sean de un tipo u otro, y los análisis que se pueden hacer con ellos dependiendo de las conclusiones que quieras obtener. Por lo tanto, controla globalmente toda la parte de ingeniería y sabe cómo comunicar esos resultados. No es experto en cada una de esas áreas, pero es capaz de gestionarlas y emplazar recursos.

Entre sus cualidades, ¿cuál destacarías como más importante?

Que logre involucrarse en el dominio de la aplicación del análisis de datos sobre un negocio. Tiene que ser capaz de hacer un proceso inmersivo de tal manera que entienda el problema que tiene una empresa, el contexto de las preguntas que le plantean y cómo responder con los datos. Solo así podrá presentar un análisis de datos potente. En definitiva, un data scientist no solo ve el análisis de forma global, sino que también sabe ponerlo en el dominio del problema y es consciente de la labor del resto de áreas: del ingeniero de datos, del arquitecto de datos, del CTO… Es un director de orquesta.

datos

¿Cuáles son los pasos que debe seguir para un análisis optimizado de una empresa?

Dentro de este proceso de inmersión, el data scientist deberá hacer entrevistas con el cliente que le está planteando el problema y con los usuarios finales que han generado los datos, implicarse en un conocimiento de la competencia y, cuando termine, planteará un diseño de análisis de datos y decidirá cómo comunicarlos de manera efectiva para lograr su objetivo. Y es que no es lo mismo hacer un informe anual que uno diario, los recursos técnicos son diferentes, la reacción esperada es distinta y hay que tenerla en cuenta según las necesidades del cliente.

¿De qué manera se está implantando el big data en las empresas?

Hay dos puntos totalmente diferentes. Se suele hablar de inteligencia artificial, de un mapeo completo del proceso en datos, de una monitorización completa de los procesos y de incluso una predicción de lo que va a suceder, pero la realidad no es esa. Cuando todo esto baja a la tierra, se trabaja sobre qué datos tenemos, cuáles son útiles y qué podemos hacer con ellos: normalmente procesos descriptivos que aporten información útil de los que se puedan derivar acciones. Lo ideal es que todas y cada una de las decisiones que se toman en una empresa tengan siempre un informe basado en datos para apoyar ese cambio.

¿Con qué herramientas cuenta un data scientist para llevar a cabo su labor?

Si hablamos de infraestructuras: si lo que queremos es una base de datos distribuida y escalable, nos podemos ir a Cassandra o MongoDB (que tocamos más a fondo dentro del máster). Luego también, depende del tipo de datos que tenemos: si son altamente relacionables nos iremos a Neo4j, aunque también podemos usar Elasticsearch o Redis, entre otros. Poco a poco estamos incorporando todas estas tecnologías en el máster, y esperamos que los alumnos puedan salir con un conocimiento básico de todas ellas.

Luego tenemos infraestructuras para el procesado masivamente paralelo, que son sobretodo Hadoop y Spark, las cuales tocamos en el máster. Ambas nos sirven para conseguir escalar el procesado de datos y conseguir obtener respuestas instantáneas a problemas. En cuanto a los lenguajes de programación para el análisis de datos, tenemos R y Python. Y si tienes que hacer un reporte de resultados puedes apoyarte en Tableau, Carto, Argis…

Un camino lleno de baches

¿Cuáles son los principales problemas con los que se encuentra un data scientist?

Dicen que un 80% del tiempo del trabajo del científico de datos consiste en limpiar la base de datos. Si está sucia y no tiene los datos bien estructurados no vale para nada. ¿Por qué? Porque no me puedo fiar de ellos. Imagina que mi empresa tiene 5 departamentos, pero a la hora de tomar los datos de ellos, algunos los escriben con mayúscula, otros con minúscula o con abreviaturas. Esto se convierte en 20 palabras diferentes y si no hago una buena limpieza, mis consultas posteriores serán erróneas y la base de datos inútil.

chica datos

¿Pero es el principal problema?

Prácticamente. Estos errores son muy variopintos y no hay una solución única automatizable, no existe un software que puedas aplicarlo y se limpien los datos. Es un proceso muy manual en el que te puedes apoyar en herramientas para agilizar la limpieza, pero eres tú quien debe hacerlo.

¿Y otros?

El abuso de datos sin sentido, que provocan ruido y dificultan la comunicación. En ocasiones, con una o dos columnas de información, o una gráfica muy simple se entiende el mensaje. Pero, por algún motivo, tenemos la tendencia a meter muchos datos, como si fuera a estar más justificado. Pero, a veces, no aportan un valor añadido y dificultan la lectura del mensaje. Así que la elaboración de datos descuidada es otro de los problemas que pueden aparecer.

Por último, la elección adecuada de algoritmos para la respuesta de las preguntas que te han planteado. Un buen científico de datos debe elegir las técnicas adecuadas en cada momento. No todos los problemas son un clavo y, por tanto, el martillo no es la solución única.

¿Cómo afecta el Reglamento General de Protección de Datos la evolución del big data?

Lo frena, es un hecho. A nivel científico, si yo quiero usar los datos personales de alguien, debo informarle explícitamente, y antes de capturar esa información, de que sus datos van a ser usados para un tema en concreto, y solo para él, no otro. En caso de que se plantee otro tratamiento diferente hay que informar al usuario y este debe dar su consentimiento. Entonces, es una traba burocrática que puede reducir el número de personas que forman parte de un estudio.

Experiencia UNIR: un máster con alta empleabilidad

¿Qué oportunidades laborales tiene una persona formada en ciencia de datos?

Los informes que barajamos de nuestros alumnos son muy positivos. Tienen una tasa de paro muy baja, menor incluso que la de una población de referencia similar a estudiantes con el mismo perfil. Por lo tanto, es un hecho que favorece la empleabilidad. Dentro de quienes están ya empleados, el porcentaje de los que mejoran su situación laboral, ya sea con una promoción interna o un cambio de trabajo radical, es también bastante alta.

¿Las empresas son recelosas de sumar un puesto de data scientist en sus filas?

No creo que tengan miedo, más bien tienen desconocimiento del potencial y de los recursos necesarios para acoger un departamento en la compañía. Hay veces que muchos piensan que todo se basa en hacer predicciones, pero cuando les explicas que supone también la toma de decisiones basadas en datos con ejemplos claros, la cosa cambia.

data scientist

¿Qué perfil buscáis dentro del máster?

Estamos en una escuela de ingeniería. Es un máster hecho por ingenieros y para ingenieros, lo que quiere decir que el perfil que demandamos de nuestros futuros alumnos es técnico. ¿En qué lo concretamos? Que tengan conocimientos de programación, lo que les permitirá entender algoritmos o la diferencia entre almacenar o no los datos.

Además, ofrecéis incluso dos tipos de especializaciones: en Industria 4.0 y en Inteligencia Artificial.

En Industria 4.0 es un ámbito donde el big data aplica de forma muy directa y está mapeado en dos ámbitos muy claros: en los procesos de monitorización y en el Internet de las cosas (IoT), para la sensorización de procesos. Lo que ofrecemos a los alumnos del máster es estudiarlos para llevar los macrodatos a la línea de producción en la industria 4.0.

Algo similar pasa con la inteligencia artificial, ya que tiene dos niveles: elevar los datos a la categoría de información, y otra es, elevar la categoría de información a la de conocimiento. El análisis de datos trabaja lo primero, pero es un subconjunto de las posibilidades que tiene la IA. Los alumnos que quieran esa segunda rama y completar el pack, pueden cursar esta especialidad. Así consiguen un panorama más completo.

Los alumnos presentan al final del máster su proyecto de TFM donde desarrollan ideas relacionadas con el análisis de datos, ¿cuáles te han sorprendido más?

Esta última edición tengo 140 ideas de alumnos sobre la mesa. Hay mucha redundancia porque es imposible que no surjan cosas parecidas, pero hay trabajos realmente fascinantes. Por ejemplo, uno presentaba el uso de herramientas predictivas para estimar el desgaste de piezas fósiles de dientes humanos, lo que ayuda a los paleontólogos a tener datos más cercanos a su edad y alimentación.

En otro, el alumno usaba técnicas de inteligencia artificial para asociar recomendaciones de libros con críticas de esas lecturas para detectar las emociones que se ofrecen en ellos y los que los lectores demandan. De esta forma, las novelas no se recomendarán por su línea argumental o su autor, sino por las emociones que parecen sugerir en otros lectores.

Títulos que te pueden interesar

Noticias relacionadas

Big Data. Woman looking at large screen with many charts, graphs, data.

Bases de datos para Big Data

Las bases de datos son un elemento fundamental en la gestión de información, el almacenaje masivo, su gestión, análisis y difusión. En este post analizamos las diferentes bases de datos para Big Data.

Docencia 100% online

Nuestra metodología te permite estudiar sin desplazarte mediante un modelo de aprendizaje personalizado

Clases en directo

Nuestros profesores imparten 1600 horas de clases online a la semana. Puedes asistir en directo o verlas en otro momento.

Tutor personal

En UNIR nunca estarás solo. Un tutor personal realizará un seguimiento individualizado y te ayudará en todo lo que necesites.

La recompensa al esfuerzo

Mucho más que una universidad

Acompañamiento personalizado