Uff es muy relativo. Si yo lo tuviera que explicar muy simplemente, diría que un data scientist es una navaja suiza de datos. Pero eso es muy vago, cada data scientist es diferente y eso depende de su background.
Antes de ver que hace un data scientist, diría ¿Qué te hace un data scientist? y esa es otra pregunta muy amplia. En general es alguien que tiene un set de herramientas base: Es alguien con pensamiento matemático/estadístico, es un programador creativo enfocado al análisis de datos, sabe procesar grandes volúmenes de datos, tiene las herramientas para visualizarlos (conoce de librerías de visualización), conoce el estado del arte de los algoritmos de machine learning y además tiene una especialidad o background.
Ver adjunto 6354
Ahora, lo que hace un data scientist depende del rubro en que trabaje (retail/financiero, ciencias, empresas de innovación, investigación, etc..). Pero en general, el DS utiliza estas herramientas para resolver problemas, obtener respuestas, inferencias, a través de los datos.
Muy, pero muy vagamente, el pipeline del DS es: Hay un problema o quieres obtener respuestas/inferencias de ciertos datos. Tienes que ver si tienes los datos suficientes, de qué calidad son tus datos, qué tipo de datos son (variables continuas, discretas, categóricas) . Puedes complementarlo con otros datos?? (ej. data mining, web scrapping, etc). Luego, tienes que limpiar, corregir, agrupar esos datos (acá es dónde toma la mayor cantidad de tiempo; en python se utiliza pandas). Recién ahora puedes utilizar modelos estadísticos/ML con tus datos. Después, tienes que ver la accuracy de tu modelo, la sensibilidad, etc.. Puedes mejorarlo? Entonces ajustas tus hiperparámetros o incluso utilizas otras variables y descartas otras.
Dependiendo del problema inicial y la flexibilidad del modelo, ves si puedes obtener relaciones claras dato-respuesta. Si usaste un modelo muy flexible cómo redes neuronales o DNN, no puedes llegar a una relación clara (para el sentido humano), pero sí a un modelo interesante.
Luego tienes que presentar el modelo, necesitas visualizar tus datos y respuestas (visualizar los datos también es importante en etapas previas, cuando quieres entender los datos).
Con el tiempo puedes ir mejorando el modelo, tienes mejores y más datos, nuevos algoritmos, o incluso tu puedes hacer uno, etc...
Yo trabajo en una empresa que genera hartos datos oceanográficos y biológicos de la industria del salmón. Antes los tenían acumulados, pero ahora que tienen un montón necesitaban hacer algo con ellos. Trabajo en diversos proyectos en la empresa, desde visualización avanzada e inferencia de los datos, pasando por predicción oceanográfica en base a datos previos e imágenes satelitáles (para prevenir emergencias en la industria), hasta detección automática de células tóxicas (clasificación de imágenes).
También a veces tengo otras tareas menos interesantes, pero que tienen que ver con datos. A veces lo clientes necesitan reportes de datos históricos (décadas) y cosas así.