Cómo convertirse en Data Scientist?

lukastgo

Capo
Se incorporó
8 Mayo 2008
Mensajes
277
El año pasado me tocó estar en un proyecto de data scientist. Me preguntaron si queria entrar y yo dije que sí para ver si me gustaba,

El proyecto era predecir el indicador N.P.S (Net promoter score) en el parque de clientes de la compañia.

Nunca más me meto en "weas" .Como que está muy de moda subirse a la ola sin entender de que se trata. Al final se logró hacer lo que pidieron,solamente para decirnos "Ahhh y ¿porqué el cliente es un promotor o detractor?"

Eso no lo puedes saber.Los modelos son una caja negra,quien diantres sabrá que hace el modelo para llegar a la conclusión de que un cliente es detractor de la marca.Son millones de arboles de decisiones...

Lo modelos que usé fueron : Random forest,extra tree y extra random forest. Pero lo más pajero fue armar el dataset para inyectarlo al modelo,que cosa más pajera.Ahi se fue el 70% del tiempo.




Yo tuve que aprender de cero,y lo que más me sirvió fue pagar por el acceso a DataCamp. Pagué un año de suscripción por $100 K y hay muchisimos cursos de Python y R. Yo me fui por Python que tiene una comunidad muchisimo más grande.
Jaja me cague de la risa con la 2da parte.

Y si, lo que he leído es la paja de ordenar, estandarizar, corregir los datos.



Enviado desde mi SM-G930F mediante Tapatalk
 

Polaris

asdf
Se incorporó
25 Agosto 2011
Mensajes
45
Ojo que no todos los modelos son de caja negra... con los de machine learning puedes ver qué variables son mejores predictores y sus relaciones, lo que idealmente te debe llevar a sacar conclusiones / análisis sobre los datos.
De todas formas parece que si, la mayor parte del tiempo se pierde en la extracción y formateo de la información.

De hecho random forest provee métodos para selección de características y conocer su importancia dentro de la creación del modelo.
 

SlayerBoxer

Doctor of Pump and Dump
Se incorporó
16 Febrero 2020
Mensajes
1.517
De hecho random forest provee métodos para selección de características y conocer su importancia dentro de la creación del modelo.

Recuerdo que Random Forest tenía una función que te mostraba la importancia de la variable dentro del modelo asignándole un peso porcentual.

En el modelo daba lo siguiente:

1) Número de Reclamos comerciales 10%
2) Número de LLamados al Callcenter 6%
3) Numero de Reclamos en Sernac 5%
4) Numero de Visitas a sucursal 4%

y así hasta llegar a la variable numero 30 que tenia una relevancia de 0,00000001% dentro del modelo.

El punto es que saber eso no me respondía la pregunta que necesitaban responder : "¿Por qué un cliente es detractor de la compañia"?

Es obvio que un cliente con reclamos y hartas llamadas al callcenter está enojado.Es demasiado general.

Por lo que alcance a asesorarme con los "the real datascientist "de la compañía,para responder esa pregunta me servía más un modelo de Clustering que un modelo de clasificación.

Estaba implementando un K Means,hasta que me cambiaron de proyecto y ahí quedo tirada la wea jaja
 

guaripolo

Fanático
Se incorporó
21 Agosto 2006
Mensajes
1.355
hay un post re antiguo de reddit al respecto, no lo he podido volver a pillar pero resume la wea mas menos asi.

Hay mucho hype al respecto en la eterna necesidad de competir y no quedarse abajo de la micro las empresas estan contratando gente y creando "areas" que poco valor agregan debido al desconocimiento de como aplicar efectivamente los modelos y la pesima calidad de sus datos.

Las consultoras estan contratando "expertos" que tienen poca experiencia practica, generan proyectos que no pasan mas alla de una prueba de concepto en excel con datos "pre-cocinados" para entregar los resultados esperados (y obvios) con una "visualizacion bonita" que se presentan una vez a la alta gerencia y luego quedan guardados para siempre.

Hay pocos proyectos que generen conocimiento real, que impacten procesos y decisiones de negocio, que sean 100% automatizados y funcionen en un ambiente productivo de forma sistematica con resultados consistentes y medibles en el tiempo.

Incluso los mismos gerentes reconocen su necesidad de "mostrar algo" mas alla de que si la wea genera valor o no, su necesidad de "tener gente a cargo" los hace frenar el automatizar al 100% sus procesos y deliberadamente dejan unas pocas weas clave en excel, para asi inflar ficticiamente el presupuesto de su area y por ende inflar su propio sueldo debido a su mayor "responsabilidad" y el "headcount" de su area.
 

frank_shelby

Miembro Activo
Se incorporó
16 Agosto 2019
Mensajes
14
hay un post re antiguo de reddit al respecto, no lo he podido volver a pillar pero resume la wea mas menos asi.

Yo pienso que sí bien lo que mencionas es bastante cierto, he visto de todo, me ha tocado trabajar en organizaciones donde efectivamente pasa lo que mencionas, mucho dato maquillado,planilleo, en el fondo mostrar lo que quieren ver no más, y en otros lugares donde si se toman enserio el uso de los datos y las potencialidades que pueden obtener de ellos , yo creo por lo que he visto que esto está aún verde acá en Chile al menos, no sé cómo será en otros países...dicho lo anterior bajo mi apreciación la madurez de una organización influye bastante(excluyo en este sentido a las consultoras).
 

guaripolo

Fanático
Se incorporó
21 Agosto 2006
Mensajes
1.355
Como consultor me he paseado por hartos lados estuve en una big4 por un par de años y ahora trabajando en un proyecto para unos belgas y hasta el día de hoy no he visto algo asi 100% pulento.

He hecho roadmaps y evaluado niveles de madurez y tal y como tú mencionas falta mucho por avanzar.

Hay mucha mejora a nivel de data quality y de trazabilidad de procesos de negocio que se necesitan arreglar antes de siquiera pensar en meterle data science a la wea.

Por ejemplo no puedes hacer análisis predictivo de quiebres de stock si tus procesos de inventario están llenos de hoyos y tus datos maestros dan la cacha y los ingenieros de compras también dan la cacha (y protegen su pega btw)

Lo que sí ha mejorado un montón es la rapidez y el volumen de datos que puedes procesar vs las soluciones que existían 10 años atrás. Ahora sí quieres podis manejar flujos agilaos, y los cuellos de botella son los humanos metiendo los dedos y planillando weas en Excel para tomar decisiones.
 

schyzo

Experto (retirado) en comer costillar c/ cubiertos
Miembro del Equipo
MOD
Se incorporó
18 Agosto 2019
Mensajes
468
Muy bueno el thread y los comentarios, muchas gracias.

Aprovechando que hay varios DS que tienen experiencia, quiero plantear qué tanto pesa el conocimiento de estadística, el conocimiento del negocio y el conocer de TI en el desarrollo de la profesión.
Los pocos DS que conozco (he ido a varias formaciones con Metric Arts y al meetup de R en Chile), son estadísticos y matemáticos. Y existe el prejuicio de que para el informático debería ser súper fácil convertirse a DS, por el mero hecho que conocen de programación.
 

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
Muy bueno el thread y los comentarios, muchas gracias.

Aprovechando que hay varios DS que tienen experiencia, quiero plantear qué tanto pesa el conocimiento de estadística, el conocimiento del negocio y el conocer de TI en el desarrollo de la profesión.
Los pocos DS que conozco (he ido a varias formaciones con Metric Arts y al meetup de R en Chile), son estadísticos y matemáticos. Y existe el prejuicio de que para el informático debería ser súper fácil convertirse a DS, por el mero hecho que conocen de programación.

Yo creo que como data scientist tienes que dominar todas esas aristas. En mi opinión le daría harto peso a estadística, probabilidades y matemática (algebra lineal y cálculo), porque es necesario comprender lo que estás haciendo. Programar es más sencillo y no necesitas ser un software developer senior. Comprender el negocio es fundamental, y la curva de aprendizaje va a variar dependiendo del negocio.

Yo creo que lo mejor es un equipo multidisciplinario.


"Un data scientist es alguien que sabe más de estadística que un programador y más de programación que un estadístico"
-falta la cita-
 

kal-b

Miembro Regular
Se incorporó
12 Mayo 2018
Mensajes
68
Me han preguntado varias veces acerca de este tema del data science. Y en todas mis respuestas toco, de una manera u otra, el planteamiento e historia de Humberto Maturana.

Podría extenderme bastante acerca de los planteamientos teóricos. De que es necesario una mentalidad ordenada y metódica. Que la base de las careras en el área de las ingenierías entrega un bagaje casi escencial de un buen y "actual" data science. El poder entender medianamente (que escapa a la mayoría de los profesionales de otras áreas y de la gente común ... pero que no es estrictamente al 100%) ... el esquema y funcionamiento de los algoritmos de trabajo que se encuentran detrás. El saber qué extraer de la información que se encuentra al alcance, como el de "valorar" su peso específico al interior de las necesidades generales.

De entender las fases, de las cadenas de funcionamiento (con los eslabones correspondientes). Comprendiendo ese detalle del funcionamiento de una organización y/o empresa. Por lo que se enlaza a las mismas conclusiones extraídas que son tan apreciadas en los sectores de economía (desde la economía de procesos hasta la misma mercadotecnia).

En suma ... no solo es dato acumulado (y al alcance) y otras cosas varias relacionadas que no quiero comenzar a tratar de mencionar aquí... pues me abstraigo de lo que para mi es importante y se alargaría mi opinión con cosas consabidas. Y que, nuevamente, para mi es importante y el quid del asunto: la del modelamiento en el tratamiento de la información y de lo que debería hablarse mucho y no se menciona nada.

Y eso se relaciona con "teoría del conocimiento" ... de la que toca la parte del trabajo y conclusiones en el gran trabajo de Maturana. Lo que se busca entonces es una personalidad o perfil profesional criterioso, integrado y generalista. Que sea capaz de dar un paso atrás y vea el fenómeno a la distancia o con cierta perspectiva. Que sea capaz de crear un modelo para poder manejar, incorporar o hacer todos esos análisis que le provea sus distintas fuentes.

Y eso no es fácil. se debe tener en mente o conocimientos de estadística. No acabados pero si medios a superior. Lenguajes de programación que le entregue manejo de las herramientas sobre el manejo de datos y de los modelos creados (por ejemplo python como representantes de esos lenguajes de alto nivel, C (C++ y variantes, Java, etc.). tanto si los tenga que usar en ciertos procedimientos como en la totalidad de su trabajo. En suma todo lo que pueda llevar a entregar esa famosa información de valor que se menciona bastante en el rubro. Y eso lo entrega en principio los elementos de informática relacionada.

Y eso hace que vuelva a plantear eso del modelamiento ... y eso es parte (aunque no se vea a simple vista) de lo que se llama "teoría del conocimiento". Donde el mismo profesional tiene que entender porqué elige ciertas variables y no otras. Y si esa elección es fruto de un encontrarse con la realidad chocando con ella o porque está actuando bajo sus preferencias personales (que contaminarían las mismas conclusiones tan necesarias). Y afectará a la recabada de datos, de su manejo, de las hipótesis de trabajo, del testeo o revalorización de los métodos y/o cadenas de procesamiento, de las herramientas a usar, de la revisión constante de los procedimientos, etc ... hasta las mismas conclusiones

Maturana, llega a la conclusión, entre otras, que existe eso que se llama autopoiesis a través de planteamientos de base semejantes a lo que estoy planteando aquí. Y que si bien se podría entrar a varias discusiones ... el punto del modelamiento de la realidad, el modelamiento en relación al trabajo que vamos a realizar (de antemano, priori ... a toda acción ante los mismos datos duros, cualesquiera que estos sean ... pero aplicando o adecuando el planteamiento conceptual y de análisis a esos mismos datos que reflejan un aspecto de la realidad). Y que sólo quiero describirlo de una forma simple (siempre he creído que lo sencillo es mejor).

Y eso es lo que se busca en el perfil del profesional de data Science. y que se hace tan necesario (más allá de las necesidades prácticas y comerciales) ... en nuestra sociedad actual. Profesionales que ayuden a tomar decisiones. Que sean capaces de entregar material concluyente y, especialmente, relevante. Eeeen fin ... sólo quería expresar un poco de opinión. En general son opiniones que "sufro" más que me salga tan fácil. Pero ... esa es otra historia.
 

schyzo

Experto (retirado) en comer costillar c/ cubiertos
Miembro del Equipo
MOD
Se incorporó
18 Agosto 2019
Mensajes
468
Y eso es lo que se busca en el perfil del profesional de data Science. y que se hace tan necesario (más allá de las necesidades prácticas y comerciales) ... en nuestra sociedad actual. Profesionales que ayuden a tomar decisiones. Que sean capaces de entregar material concluyente y, especialmente, relevante. Eeeen fin ... sólo quería expresar un poco de opinión. En general son opiniones que "sufro" más que me salga tan fácil. Pero ... esa es otra historia.
Más que cierto. No sirve de nada contar con información y poder interpretarla si no se puede concluir al respecto y tomar decisiones "estratégicas" (pongo entre comillas porque está tan manoseada la palabra estrategia que muy pocos nos hacemos cargo que optar por una estrategia u otra implica la irreversibilidad de las decisiones tomadas, sino se trata de una cuestión táctica u operativa que puedo deshacer). Y a la hora de tomar esas decisiones no le podemos pedir eso a los DS, porque no son los dueños de la empresa.

Muy bueno tu comentario, gracias :amocapa9
 
Se incorporó
11 Noviembre 2007
Mensajes
129
Acá un data scientist con poco más de 6 años en la industria. Para ser un data scientist cotizado debes manejar al menos: Python(pandas,keras,tensorflow, sickitlearn,plotly,matplotlib,pulp,etc) , R (dplyr,datatable,lubridate,caret,plotlt,ggplot) ideal manejar ambos lenguajes. Después viene lenguaje de consulta SQL (mysql,sqlserver), NoSQL(redis,firestore), modelamiento data estructurado (rf,dt,ann,regresiones,xgb,catboost,etc), modelos data no estructurados aka deep learnin ( cnn,rnn,nlp), series de tiempo (arima,sarima,arimax,lstm,suavizado exponencial,garch,prophet), modelamiento no supervisado ( clustering), conceptos de estadística, inferencia no se ocupa a menos que estés en el ine. También es bueno manejar bien alguna herramienta BI (tableu,powerbi,qlik). Y ahora debes tener conocimientos de poner en productivo un modelo en alguna nube (azure,aws,gcp), idealmente saber de arquitectura cloud , que componenres utilizar y como se conectan para dejar operativo un modelo en productivo. Saber de git básico también es necesario. También es bueno trabajar con librerías De tipo Spark, así puedes hacer tanto los ETL o modelos mismos para que corran de manera distribuida en un cluster, también tener conocimientos de la metodología scrum. Y por sobre todo esto, se debe saber del negocio para aplicar la herramienta adecuada en la problemática . No es un camino sencillo ni corto, pero un DS bien cotizado gana bastante bien.
Yo he tenido 2 grandes casos de éxito aplicando DS en la industria. Primer caso genere un aumento de producción de una planta minera cercano a 650k usd anual, y después para otro proceso productivo químico un aumento de producción y disminución de insumos cercano a 1,2m usd anual. La tecnología es potente si es bien utilizada pero un proyecto así no es barato pero da buenos frutos.

Edit:
Me faltó agregar que también se debe saber de disminución de dimensiones, pca, tsne y umap, y si sigo haciendo esfuerzo saldrán más cosas xd
 
Última modificación:
Se incorporó
6 Octubre 2019
Mensajes
107
Uff es muy relativo. Si yo lo tuviera que explicar muy simplemente, diría que un data scientist es una navaja suiza de datos. Pero eso es muy vago, cada data scientist es diferente y eso depende de su background.

Antes de ver que hace un data scientist, diría ¿Qué te hace un data scientist? y esa es otra pregunta muy amplia. En general es alguien que tiene un set de herramientas base: Es alguien con pensamiento matemático/estadístico, es un programador creativo enfocado al análisis de datos, sabe procesar grandes volúmenes de datos, tiene las herramientas para visualizarlos (conoce de librerías de visualización), conoce el estado del arte de los algoritmos de machine learning y además tiene una especialidad o background.

Ver adjunto 6354

Ahora, lo que hace un data scientist depende del rubro en que trabaje (retail/financiero, ciencias, empresas de innovación, investigación, etc..). Pero en general, el DS utiliza estas herramientas para resolver problemas, obtener respuestas, inferencias, a través de los datos.

Muy, pero muy vagamente, el pipeline del DS es: Hay un problema o quieres obtener respuestas/inferencias de ciertos datos. Tienes que ver si tienes los datos suficientes, de qué calidad son tus datos, qué tipo de datos son (variables continuas, discretas, categóricas) . Puedes complementarlo con otros datos?? (ej. data mining, web scrapping, etc). Luego, tienes que limpiar, corregir, agrupar esos datos (acá es dónde toma la mayor cantidad de tiempo; en python se utiliza pandas). Recién ahora puedes utilizar modelos estadísticos/ML con tus datos. Después, tienes que ver la accuracy de tu modelo, la sensibilidad, etc.. Puedes mejorarlo? Entonces ajustas tus hiperparámetros o incluso utilizas otras variables y descartas otras.
Dependiendo del problema inicial y la flexibilidad del modelo, ves si puedes obtener relaciones claras dato-respuesta. Si usaste un modelo muy flexible cómo redes neuronales o DNN, no puedes llegar a una relación clara (para el sentido humano), pero sí a un modelo interesante.

Luego tienes que presentar el modelo, necesitas visualizar tus datos y respuestas (visualizar los datos también es importante en etapas previas, cuando quieres entender los datos).
Con el tiempo puedes ir mejorando el modelo, tienes mejores y más datos, nuevos algoritmos, o incluso tu puedes hacer uno, etc...



Yo trabajo en una empresa que genera hartos datos oceanográficos y biológicos de la industria del salmón. Antes los tenían acumulados, pero ahora que tienen un montón necesitaban hacer algo con ellos. Trabajo en diversos proyectos en la empresa, desde visualización avanzada e inferencia de los datos, pasando por predicción oceanográfica en base a datos previos e imágenes satelitáles (para prevenir emergencias en la industria), hasta detección automática de células tóxicas (clasificación de imágenes).
También a veces tengo otras tareas menos interesantes, pero que tienen que ver con datos. A veces lo clientes necesitan reportes de datos históricos (décadas) y cosas así.
DS en ingeniería, energía , hidrología hay? Un civil puede "pasarse " a la DS con cursos solamente? Si este civil investiga o se dedica a otra cosa, como es mi caso, como puede ser "útil" (por decirlo de alguna forma) saber usar herramientas de DS? Por mi parte estoy aprendiendo progra, primero, porque estudio civil como prosecusión de estudios y me castraron casi todos los cursos introductorios presentes de plan común, Python. Aunque en el ramo de estadística aprendí R piola, quedé con ganas de profundizar:
En resumen, entiendo que la DS puede servir en todas las áreas de conocimiento pero no lo logro palpar en la mía ni en las àrras a lasque me gustaria dedicarme... o tal vez inclinarme a DS?
 

soulstuff

REPORTERO
REPORTERO
Se incorporó
26 Agosto 2019
Mensajes
19
DS en ingeniería, energía , hidrología hay? Un civil puede "pasarse " a la DS con cursos solamente? Si este civil investiga o se dedica a otra cosa, como es mi caso, como puede ser "útil" (por decirlo de alguna forma) saber usar herramientas de DS? Por mi parte estoy aprendiendo progra, primero, porque estudio civil como prosecusión de estudios y me castraron casi todos los cursos introductorios presentes de plan común, Python. Aunque en el ramo de estadística aprendí R piola, quedé con ganas de profundizar:
En resumen, entiendo que la DS puede servir en todas las áreas de conocimiento pero no lo logro palpar en la mía ni en las àrras a lasque me gustaria dedicarme... o tal vez inclinarme a DS?
Con si existe en ingeniería, energía, etc. Sí, en todas las áreas existe la posibilidad de uso de DS (Yo tengo un par de colegas trabajando en energía).
Ahora, puedes pasarte a DS de otro lado?. Sí, es super común ver gente de otras áreas con un curso o un Diplomado, aunque acá en Chile sólo respetan los certificados universitarios por sobre el portafolio lamentablemente.
Los mejores cursos son en inglés y lamentablemente siempre en Python porque tiene las herramientas más trabajadas para esto pero depende también de lo que quieras hacer, DS es amplio y usualmente hay un caminito que recorrer:

- Reportería (Uso de Power BI, Orange, Tableau)/Saber hacer scripts en R y Python
- Clustering (Agrupar clientes dependiendo de sus características por ejemplo)
- Analisis en Series de tiempo (Cual es la proyección de ganacia para los proximos 6 meses basado en los 2 años pasados)
- Etc Etc

Si no tienes idea de como partir en tu area busca datos. Ve si en Kaggle hay datos relacionados a tu área y ve lo que otra gente ha hecho con ellos o mejor aún trabájalos tu en R.
No hay como un camino único para el DS y despues de cierto punto no puedes echarle el quite mucho a aprender estadísticas, pero partir es el primer paso.
 
Se incorporó
6 Octubre 2019
Mensajes
107
Con si existe en ingeniería, energía, etc. Sí, en todas las áreas existe la posibilidad de uso de DS (Yo tengo un par de colegas trabajando en energía).
Ahora, puedes pasarte a DS de otro lado?. Sí, es super común ver gente de otras áreas con un curso o un Diplomado, aunque acá en Chile sólo respetan los certificados universitarios por sobre el portafolio lamentablemente.
Los mejores cursos son en inglés y lamentablemente siempre en Python porque tiene las herramientas más trabajadas para esto pero depende también de lo que quieras hacer, DS es amplio y usualmente hay un caminito que recorrer:

- Reportería (Uso de Power BI, Orange, Tableau)/Saber hacer scripts en R y Python
- Clustering (Agrupar clientes dependiendo de sus características por ejemplo)
- Analisis en Series de tiempo (Cual es la proyección de ganacia para los proximos 6 meses basado en los 2 años pasados)
- Etc Etc

Si no tienes idea de como partir en tu area busca datos. Ve si en Kaggle hay datos relacionados a tu área y ve lo que otra gente ha hecho con ellos o mejor aún trabájalos tu en R.
No hay como un camino único para el DS y despues de cierto punto no puedes echarle el quite mucho a aprender estadísticas, pero partir es el primer paso.
Muchísimas gracias por la respuesta!!! voy a indagar en Kaggle. Saludos!
 

wat0n

ya lo encontre
Se incorporó
21 Agosto 2004
Mensajes
2.689
Hola, este thread está interesante. Yo estudié Ing. Comercial mención en economía + postgrado en Chile y después de algunos años me vine a EEUU a estudiar estadística. Hoy vivo y trabajo en EEUU como estadístico, pero en la práctica hice una pega de analista que es básicamete de data science (tuve que armar un modelo para predecir cuándo un PAC iba a ser rechazado, pues la empresa que maneja el sistema en EEUU pasa multas cuando la tasa de rechazo es demasiado alta - por lo que un segundo o tercer intento se tenía que hacer de forma estratégica para evitar eso).

@ritmandotpy explicó bien dónde se ubica un DS en ese esquema. Creo que vale la pena mencionar que dependiendo de la pega se puede enfatizar unas habilidades por sobre otras, un amigo por ejemplo postuló para trabajar en Oracle en su momento y las preguntas que le hicieron en la prueba técnica eran muy orientadas a programación y muy poco a estadística/ML.

@Sting_Master menciona varios conocimientos que es bueno saber, en lo personal he usado Python y R pero me manejo mucho mejor en el segundo (de hecho no he usado Python desde la u), y en lo personal me gusta más R (con los informáticos normalmente es al revés, probablemente porque R tuvo mucho input de estadísticos cuando lo armaron mientras que Python es un lenguaje multipropósito). No negaré que, objetivamente, saber Python sirve más que saber R, aunque en DS tiendo a pensar que da un poco lo mismo - Python tiene mejor rendimiento pero R es mejor para visualizar. Por ejemplo, el deep learning normalmente se hace en Python pero uno puede usar paquetes de R que corren tensorflow en Python en el background si el tema del rendimiento da igual o quiere ahorrarse algo de tiempo para programar todo en el mismo lenguaje, incluyendo las visualizaciones. Pero saber ambos igual va a ser mejor.

Sobre los conocimientos de estadística y de algoritmos, agregaría que es bueno entender conceptos de estadística/ML fundamentales para data science como el tradeoff entre sesgo y varianza, regularización, validación cruzada (cross-validation), la ROC (esto incluye saber sobre sensibilidad y especificidad e interpretar el área bajo esa curva), saber al menos qué significa "iid" y por qué es importante, entender bien la diferencia entre causalidad y correlación (y entre predecir y explicar), y saber un poco de optimización. Estos son conocimientos que son importantes independiente del algoritmo que se use para armar un modelo.

Recuerdo que Random Forest tenía una función que te mostraba la importancia de la variable dentro del modelo asignándole un peso porcentual.

En el modelo daba lo siguiente:

1) Número de Reclamos comerciales 10%
2) Número de LLamados al Callcenter 6%
3) Numero de Reclamos en Sernac 5%
4) Numero de Visitas a sucursal 4%

y así hasta llegar a la variable numero 30 que tenia una relevancia de 0,00000001% dentro del modelo.

El punto es que saber eso no me respondía la pregunta que necesitaban responder : "¿Por qué un cliente es detractor de la compañia"?

Es obvio que un cliente con reclamos y hartas llamadas al callcenter está enojado.Es demasiado general.

Por lo que alcance a asesorarme con los "the real datascientist "de la compañía,para responder esa pregunta me servía más un modelo de Clustering que un modelo de clasificación.

Estaba implementando un K Means,hasta que me cambiaron de proyecto y ahí quedo tirada la wea jaja

Correcto, otra posibilidad era tomar las predicciones de tu RF y tirar un logit de siempre con las variables seleccionadas para tener cierta idea. Y otra opción más es usar herramientas para visualizar lo que está haciendo tu modelo.

Pero ojo, porque en mi humilde opinión esa pregunta es posible que no sea posible responderla con los datos "administrativos" que tenían en ese momento. Al final no es descartable que tuvieran que hacer un focus group, todo depende de lo que resulte de las visualizaciones y (si los hacen) de experimentos ex-post para saber si la interpretación que le dieron al modelo es correcta. Eso es porque la decisión de reclamar puede tener un componente no-observable en la BD (tal vez la gente reclama porque los tratan mal en el call center o de forma presencial, tal vez la gente reclama porque no recibió el producto que esperaba recibir, etc).

Ese problema no es igual que, por ejemplo, tener que armar un modelo para predecir si un pago automático puede ser rechazado y con eso evitar tener un costo operacional por ese concepto ya que tiene un componente subjetivo bastante sustancial... Mal que mal hay gente que a veces reclama por puras weas y otras veces por razones fundadas, mientras que el tema de los pagos es predecir si la persona a la que se le va a cobrar va a tener los fondos para pagar en el momento del cobro.

Es decir, un DS tampoco es superman, hay preguntas que un modelo no puede responder. En ese caso entra el tema del "domain knowledge", i.e. saber de qué se trata el proyecto en sí para interpretar correctamente lo que sea que te tire tu algoritmo del ML (además a veces es necesario saberlo para limpiar la base que vayas a usar, asumiendo que el tema de programar se maneja bien) o si te falta información para decidir correctamente. Como dices, poder predecir la cantidad de reclamos no te dice nada sobre causalidad, no te dice por qué la gente reclama y esas variables que te quedan en el bosque son las que uno puede esperar que se correlacionen con el hecho de reclamar.
 

ShisuiX

Miembro Activo
Se incorporó
11 Diciembre 2020
Mensajes
23
Una consulta para todos, cual creen que sea el mejor diplomado en cuanto a peso curricular (para poder entrar a un primer trabajo como DS) en chile??, tengo pensado hacer el diplomado en DS de la UC este 2021, pero como me hare un MGen estadistica en la UC el 2022, quizas sea mejor hacer el diplomado en DS en otra Universidad.
 

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
DS en ingeniería, energía , hidrología hay? Un civil puede "pasarse " a la DS con cursos solamente? Si este civil investiga o se dedica a otra cosa, como es mi caso, como puede ser "útil" (por decirlo de alguna forma) saber usar herramientas de DS? Por mi parte estoy aprendiendo progra, primero, porque estudio civil como prosecusión de estudios y me castraron casi todos los cursos introductorios presentes de plan común, Python. Aunque en el ramo de estadística aprendí R piola, quedé con ganas de profundizar:
En resumen, entiendo que la DS puede servir en todas las áreas de conocimiento pero no lo logro palpar en la mía ni en las àrras a lasque me gustaria dedicarme... o tal vez inclinarme a DS?
cómo te respondieron, DS hay en todas las áreas, me ha tocado ver psicólogos data scientists. Así que sigue así no más!
 

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
Me cambié de pega a un holding de retail. Y hay harta demanda de data scientists, estamos reclutando para el resto de vacantes y ha sido difícil, hartos postulantes, pero pocos que realmente sepan (harta gente sabe como aplicar ciertas cosas, pero no tiene idea de la teoría), nos tocó un postulante que ni sabía programar xD.

En cuanto a las exigencias que vi en el mercado a la hora de cambiarme (y que exigen en mi nueva pega igual) no importa el background, pero que seas buen DS, me tocó entrevistar a estadísticos a los que les tenía harta fe por su background, pero no tenían idea de ML y por otro lado gente de otras áreas muy buenas en ML.
No importó si era R o python o los dos, onda si mañana es Julia (por dar un ejemplo), tú tienes que ser capaz de adaptarte. Acá estamos trabajando todo cloud (no tenía experiencia en cloud), aprender fue super rápido y dentro de la pega.
 

SlayerBoxer

Doctor of Pump and Dump
Se incorporó
16 Febrero 2020
Mensajes
1.517
Me cambié de pega a un holding de retail. Y hay harta demanda de data scientists, estamos reclutando para el resto de vacantes y ha sido difícil, hartos postulantes, pero pocos que realmente sepan (harta gente sabe como aplicar ciertas cosas, pero no tiene idea de la teoría), nos tocó un postulante que ni sabía programar xD.

En cuanto a las exigencias que vi en el mercado a la hora de cambiarme (y que exigen en mi nueva pega igual) no importa el background, pero que seas buen DS, me tocó entrevistar a estadísticos a los que les tenía harta fe por su background, pero no tenían idea de ML y por otro lado gente de otras áreas muy buenas en ML.
No importó si era R o python o los dos, onda si mañana es Julia (por dar un ejemplo), tú tienes que ser capaz de adaptarte. Acá estamos trabajando todo cloud (no tenía experiencia en cloud), aprender fue super rápido y dentro de la pega.

Yo postulé a un cargo de DS en la empresa que trabajo (Telecomunicaciones) y la entrevista fue una sola pregunta:

“ Imagina que se te encomienda la misión de implementar un sistema que recomiende peliculas al usuario tipo Netflix. ¿Como abordarias esta tarea? “

Obviamente respondi puras weas porque no pasé ni la Fase 1 de la entrevista,pero queria entender el conocimiento que requeria.
 

blaze~

Capo
Baneado
Se incorporó
19 Octubre 2008
Mensajes
408
data science en la realidad manejan puros datos mierda de marketing y en la practica es extremadamente poco interesante, yo lo estuve investigando como 1 semana super emocionado pero conclui que mi vida seria miserable. Al final me fui por ciberseguridad
 
Subir