Cómo convertirse en Data Scientist?

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
cuando ya tengan una buena base, recomiendo meterse a https://www.kaggle.com/

Es cómo la red social/guarida de los data scientists, ahí encuentran desafíos, datasets, tutoriales, etc... Mientras más te metes, más experiencia obtienes y subes de ranking. Es entretenido de cierta forma. Hay desafíos de variada dificultad, desde básico hasta avanzados donde compiten teams y ganan dinero. Todo en inglés obviamente.
 

frank_shelby

Miembro Activo
Se incorporó
16 Agosto 2019
Mensajes
14
Igual ahora no creo que sean tan escasos, hay harto interés y harta gente se está metiendo a esta área (oferta/demanda). En cuanto al sueldo depende harto del lugar, en Santiago pagan mucho más que en regiones. Acá comencé con 1MM, pero no tenía nada nada de experiencia laboral, mientras que en STGO he visto ofertas sobre 2MM por la misma pega que hago acá.

La he pensado, pero me gusta la calidad de vida que tengo acá.

Eso mismo te iba a preguntar jajajaj que tal es el campo como para trabajar allá? personalmente siempre me ha gustado el Sur como para vivir, sería soñado para mi encontrar una pega así por allá
 

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
En este momento no hay mucho campo laboral, sobre todo con la pandemia. Pero he visto que de a poco las empresas se están viniendo al sur por que la calidad de vida es super bacán y es medio cuico.

Hay un par de empresas que hacen AI acá y creo que las salmoneras deberían empezar a reclutar data scientists dentro del corto plazo, porque están llenos de datos, pero no los usan mucho.

Yo creo que no hay tanto campo porque igual hay pocos data scientists acá, y quizás las empresas salmoneras (que es la industria principal en la zona) no conocen lo que es el data science.

Yo encontré pega ofreciéndome, mandé mi curriculum a una empresa que ni siquiera estaba ofreciendo pega, me llamaron y me dijeron que justo estaban buscando eso hace tiempo, pero que no habían encontrado a nadie (fue súper rápido).
 
Última modificación:

lukastgo

Capo
Se incorporó
8 Mayo 2008
Mensajes
277
En este momento no hay mucho campo laboral, sobre todo con la pandemia. Pero he visto que de a poco las empresas se están viniendo a Puerto Varas por que la calidad de vida es super bacán y es medio cuico.

Hay un par de empresas que hacen AI acá y creo que las salmoneras deberían empezar a reclutar data scientists dentro del corto plazo, porque están llenos de datos, pero no los usan mucho.

Yo creo que no hay tanto campo porque igual hay pocos data scientists acá, y quizás las empresas salmoneras (que es la industria principal en la zona) no conocen lo que es el data science.

Yo encontré pega ofreciéndome, mandé mi curriculum a una empresa que ni siquiera estaba ofreciendo pega, me llamaron y me dijeron que justo estaban buscando eso hace tiempo, pero que no habían encontrado a nadie (fue súper rápido).

En general , qué hace un DS?

Y en específico que haces tú en tu pega, asociado al DS? Cómo esto se plasma en tu trabajo?

Proyectas multiplicación de la producción, enfermedades? Riesgos?

Enviado desde mi SM-G930F mediante Tapatalk
 

Lonerwalker

Main Support (LoL,Rol,OW)
Se incorporó
15 Marzo 2012
Mensajes
292
Cuando hablan de Pletzi, se refieren a este curso?


me interesa para aprender mas, de momento ejerzo como planificador y control de gestión pero meterle ciencia de datos a métricas de marketing se oye interesante, algo cacho de Python, de manera autodidacta (YouTube, Datacamp, SoloLearn, a medias todo jaja)
 

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
En general , qué hace un DS?

Uff es muy relativo. Si yo lo tuviera que explicar muy simplemente, diría que un data scientist es una navaja suiza de datos. Pero eso es muy vago, cada data scientist es diferente y eso depende de su background.

Antes de ver que hace un data scientist, diría ¿Qué te hace un data scientist? y esa es otra pregunta muy amplia. En general es alguien que tiene un set de herramientas base: Es alguien con pensamiento matemático/estadístico, es un programador creativo enfocado al análisis de datos, sabe procesar grandes volúmenes de datos, tiene las herramientas para visualizarlos (conoce de librerías de visualización), conoce el estado del arte de los algoritmos de machine learning y además tiene una especialidad o background.

1594307580161.png


Ahora, lo que hace un data scientist depende del rubro en que trabaje (retail/financiero, ciencias, empresas de innovación, investigación, etc..). Pero en general, el DS utiliza estas herramientas para resolver problemas, obtener respuestas, inferencias, a través de los datos.

Muy, pero muy vagamente, el pipeline del DS es: Hay un problema o quieres obtener respuestas/inferencias de ciertos datos. Tienes que ver si tienes los datos suficientes, de qué calidad son tus datos, qué tipo de datos son (variables continuas, discretas, categóricas) . Puedes complementarlo con otros datos?? (ej. data mining, web scrapping, etc). Luego, tienes que limpiar, corregir, agrupar esos datos (acá es dónde toma la mayor cantidad de tiempo; en python se utiliza pandas). Recién ahora puedes utilizar modelos estadísticos/ML con tus datos. Después, tienes que ver la accuracy de tu modelo, la sensibilidad, etc.. Puedes mejorarlo? Entonces ajustas tus hiperparámetros o incluso utilizas otras variables y descartas otras.
Dependiendo del problema inicial y la flexibilidad del modelo, ves si puedes obtener relaciones claras dato-respuesta. Si usaste un modelo muy flexible cómo redes neuronales o DNN, no puedes llegar a una relación clara (para el sentido humano), pero sí a un modelo interesante.

Luego tienes que presentar el modelo, necesitas visualizar tus datos y respuestas (visualizar los datos también es importante en etapas previas, cuando quieres entender los datos).
Con el tiempo puedes ir mejorando el modelo, tienes mejores y más datos, nuevos algoritmos, o incluso tu puedes hacer uno, etc...


Y en específico que haces tú en tu pega, asociado al DS? Cómo esto se plasma en tu trabajo?
Yo trabajo en una empresa que genera hartos datos oceanográficos y biológicos de la industria del salmón. Antes los tenían acumulados, pero ahora que tienen un montón necesitaban hacer algo con ellos. Trabajo en diversos proyectos en la empresa, desde visualización avanzada e inferencia de los datos, pasando por predicción oceanográfica en base a datos previos e imágenes satelitáles (para prevenir emergencias en la industria), hasta detección automática de células tóxicas (clasificación de imágenes).
También a veces tengo otras tareas menos interesantes, pero que tienen que ver con datos. A veces lo clientes necesitan reportes de datos históricos (décadas) y cosas así.
 

fvmp12

Capo
Se incorporó
6 Enero 2020
Mensajes
168
Interesante tema, hice hace poco un curso básico de python en TELEDUC (soy de área humanista), pero ahí quedé. A ver cuales serían los siguiente pasos
 

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
Qué interesante tener un background humanista y ligarse al DS. ¿Cómo encontraste la dificultad de ese curso? creo que es principalmente manejo de datos con pandas. Eso es sólo una parte, aunque importante.

Dentro de las herramientas y librerias de python, te aconsejo que domines las siguientes.
  1. Manejarte bien en python (obvio)
  2. Pandas para manejo de datos
  3. Numpy para todo lo que es álgebra lineal, transformaciones vectoriales etc.
  4. Librerías de visualización de datos. Yo uso matplotlib, seaborn y plotly. Hay otras interesantes como bokeh y altair.
  5. Librerías de Machine Learning clásicas = scikit-learn principalmente. Acá tienes el estado del arte en algoritmos clásicos, desde simples regresiones lineales hasta support vertor machine. Varios algorítmos de clusters (e.g. el clásico k-means), reducción de dimensiones cómo PCAs etc.
  6. Librerías de deep learning: Acá las dos grandes son tensorflow (de Google, yo uso esta) y pytorch (Facebook). Acá es un mundo gigante igual, donde encuentras desde redes neuronales someras, hasta GAN's. A mi me gusta tensorflow (aunque no he probado pytorch), es relativamente fácil, tiene harta documentación y cursos. Tiene una API bien interesante, llamada keras.
El creador de keras tiene este libro de deep learning en python y es super completo:
Ahí podrás encontrar todo el proceso del trabajo con deep learning en python de una manera muy sencilla, sin matemática avanzada y con las librerías que te mencioné antes. Además tiene ejemplos con código bien didácticos. El libro cubre un gran espectro de estructuras de deep learning, para trabajar con series de tiempo, imágenes, videos, texto, Natural Language Processing (NPL) que puede que te interese por tu background, generación de contenido nuevo (en vez de clasificación y predicción), etc.

Ahora eso es sólo lo de librerías, igual te aconsejo que le eches un ojo a la teoría que hay detrás de los algoritmos y repasar o aprender un poco de algebra lineal y estadística. No es necesario peinarte, ni comprender al revés y al derecho todo, porque la mate no es tu fuerte. Pero es bueno tener una comprensión general de lo que pasa detrás y no asumir que todo es una caja negra.

Para no desmotivarte, porque es harto que aprender, te sugiero que hagas un proyecto. A partir de una idea, algo simple e idealmente relacionado a tu área. Por ejemplo, quieres hacer un modelo en que clasifica las emociones detrás de los twits y relacionarlo con momentos particulares (protestas, covid, elecciones, etc). Entonces a partir de tu idea tienes que ver cómo lo harías. Tendrías que aprender a sacar info de twitter a partir de su API, a transformar esas palabras en vectores con un sentido (word embedding), aprender de algoritmos de NPL, crear tu modelo, ver los resultados, mejorarlo, publicarlo, etc. Este tipo de proyectos ya existen, así que puedes ver el enfoque de esos proyectos y aplicarlo al tuyo.

Es harto, pero con ganas se puede, la constancia es la clave.
 
Última modificación:

frank_shelby

Miembro Activo
Se incorporó
16 Agosto 2019
Mensajes
14
buenas a todos , por fin empecé de lleno a utilizar python con librerias como pandas,numpy o beautifulsoup en mi trabajo para hacer muchas cosas, ahora entiendo el por que es el lenguaje preferido para los DS !!!
 

rodrigokfw

Gold Member
Se incorporó
19 Octubre 2007
Mensajes
2.616
nadie usa fortran o matlab o R? que le ven a python?, se comio todos mis 12 gigas de ram leyendo las variables!
 

Soujiro

Fanático
Se incorporó
14 Enero 2008
Mensajes
1.433
jaja aca queremos migrar un codigo legacy de frotran a python, por que es infinitamente mas facil de mantener.
 

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.880
Dato: mi amigo data scientist me comenta que no se gana tanto como uno esperaría, básicamente porque no hay madurez en el mercado de big data ni de Data Science.
 

fvmp12

Capo
Se incorporó
6 Enero 2020
Mensajes
168
Qué interesante tener un background humanista y ligarse al DS. ¿Cómo encontraste la dificultad de ese curso? creo que es principalmente manejo de datos con pandas. Eso es sólo una parte, aunque importante.

Dentro de las herramientas y librerias de python, te aconsejo que domines las siguientes.
  1. Manejarte bien en python (obvio)
  2. Pandas para manejo de datos
  3. Numpy para todo lo que es álgebra lineal, transformaciones vectoriales etc.
  4. Librerías de visualización de datos. Yo uso matplotlib, seaborn y plotly. Hay otras interesantes como bokeh y altair.
  5. Librerías de Machine Learning clásicas = scikit-learn principalmente. Acá tienes el estado del arte en algoritmos clásicos, desde simples regresiones lineales hasta support vertor machine. Varios algorítmos de clusters (e.g. el clásico k-means), reducción de dimensiones cómo PCAs etc.
  6. Librerías de deep learning: Acá las dos grandes son tensorflow (de Google, yo uso esta) y pytorch (Facebook). Acá es un mundo gigante igual, donde encuentras desde redes neuronales someras, hasta GAN's. A mi me gusta tensorflow (aunque no he probado pytorch), es relativamente fácil, tiene harta documentación y cursos. Tiene una librería bien interesante detrás, llamada keras.
El creador de keras tiene este libro de deep learning en python y es super completo:
Ahí podrás encontrar todo el proceso del trabajo con deep learning en python de una manera muy sencilla, sin matemática avanzada y con las librerías que te mencioné antes. Además tiene ejemplos con código bien didácticos. El libro cubre un gran espectro de estructuras de deep learning, para trabajar con series de tiempo, imágenes, videos, texto, Natural Language Processing (NPL) que puede que te interese por tu background, generación de contenido nuevo (en vez de clasificación y predicción), etc.

Ahora eso es sólo lo de librerías, igual te aconsejo que le eches un ojo a la teoría que hay detrás de los algoritmos y repasar o aprender un poco de algebra lineal y estadística. No es necesario peinarte, ni comprender al revés y al derecho todo, porque la mate no es tu fuerte. Pero es bueno tener una comprensión general de lo que pasa detrás y no asumir que todo es una caja negra.

Para no desmotivarte, porque es harto que aprender, te sugiero que hagas un proyecto. A partir de una idea, algo simple e idealmente relacionado a tu área. Por ejemplo, quieres hacer un modelo en que clasifica las emociones detrás de los twits y relacionarlo con momentos particulares (protestas, covid, elecciones, etc). Entonces a partir de tu idea tienes que ver cómo lo harías. Tendrías que aprender a sacar info de twitter a partir de su API, a transformar esas palabras en vectores con un sentido (word embedding), aprender de algoritmos de NPL, crear tu modelo, ver los resultados, mejorarlo, publicarlo, etc. Este tipo de proyectos ya existen, así que puedes ver el enfoque de esos proyectos y aplicarlo al tuyo.

Es harto, pero con ganas se puede, la constancia es la clave.

Muchas gracias por la respuesta. La verdad no lo encontré tan difícil, quizás la parte más complicada fue donde enseñan funciones, pero nada del otro mundo. Yo soy de formación geógrafo y en general ocupamos programas que se basan en python para funcionar. Por lo mismo el siguiente paso dentro de la carrera (que casi uno lo tiene que descubrir solo), es la parte de la programación para automatizar tareas y hacer geo procesos. Se ocupa bastante lo que es Arcpy y geopandas, estoy en una etapa de aprendizaje todavía así que no sé nada de esos, pero mi meta es tener cierto dominio, y claro es bien visto en el mercado laboral.

Revisaré los pasos que mencionas, gracias por las recomendaciones!
 

mrdotpy

Miembro Activo
Se incorporó
8 Julio 2020
Mensajes
15
Muchas gracias por la respuesta. La verdad no lo encontré tan difícil, quizás la parte más complicada fue donde enseñan funciones, pero nada del otro mundo. Yo soy de formación geógrafo y en general ocupamos programas que se basan en python para funcionar. Por lo mismo el siguiente paso dentro de la carrera (que casi uno lo tiene que descubrir solo), es la parte de la programación para automatizar tareas y hacer geo procesos. Se ocupa bastante lo que es Arcpy y geopandas, estoy en una etapa de aprendizaje todavía así que no sé nada de esos, pero mi meta es tener cierto dominio, y claro es bien visto en el mercado laboral.

Revisaré los pasos que mencionas, gracias por las recomendaciones!
Buena, igual hay un área de "spatial data science", la importancia de la georreferenciación del dato. Ahí le puedes sacar partido a tu background. Yo igual tuve que aprender geopandas (para cosas de geología), buena librería para trabajar con datos espaciales.
 

lukastgo

Capo
Se incorporó
8 Mayo 2008
Mensajes
277
Recomiendan algún curso que Uds han realizado, a nivel introductorio en python o R?

Enviado desde mi SM-G930F mediante Tapatalk
 

SlayerBoxer

Doctor of Pump and Dump
Se incorporó
16 Febrero 2020
Mensajes
1.519
El año pasado me tocó estar en un proyecto de data scientist. Me preguntaron si queria entrar y yo dije que sí para ver si me gustaba,

El proyecto era predecir el indicador N.P.S (Net promoter score) en el parque de clientes de la compañia.

Nunca más me meto en "weas" .Como que está muy de moda subirse a la ola sin entender de que se trata. Al final se logró hacer lo que pidieron,solamente para decirnos "Ahhh y ¿porqué el cliente es un promotor o detractor?"

Eso no lo puedes saber.Los modelos son una caja negra,quien diantres sabrá que hace el modelo para llegar a la conclusión de que un cliente es detractor de la marca.Son millones de arboles de decisiones...

Lo modelos que usé fueron : Random forest,extra tree y extra random forest. Pero lo más pajero fue armar el dataset para inyectarlo al modelo,que cosa más pajera.Ahi se fue el 70% del tiempo.


Recomiendan algún curso que Uds han realizado, a nivel introductorio en python o R?

Enviado desde mi SM-G930F mediante Tapatalk

Yo tuve que aprender de cero,y lo que más me sirvió fue pagar por el acceso a DataCamp. Pagué un año de suscripción por $100 K y hay muchisimos cursos de Python y R. Yo me fui por Python que tiene una comunidad muchisimo más grande.
 
Última modificación:

Mesita

Capo
Se incorporó
3 Mayo 2007
Mensajes
100
El año pasado me tocó estar en un proyecto de data scientist. Me preguntaron si queria entrar y yo dije que sí para ver si me gustaba,

El proyecto era predecir el indicador N.P.S (Net promoter score) en el parque de clientes de la compañia.

Nunca más me meto en "weas" .Como que está muy de moda subirse a la ola sin entender de que se trata. Al final se logró hacer lo que pidieron,solamente para decirnos "Ahhh y ¿porqué el cliente es un promotor o detractor?"

Eso no lo puedes saber.Los modelos son una caja negra,quien diantres sabrá que hace el modelo para llegar a la conclusión de que un cliente es detractor de la marca.Son millones de arboles de decisiones...

Lo modelos que usé fueron : Random forest,extra tree y extra random forest. Pero lo más pajero fue armar el dataset para inyectarlo al modelo,que cosa más pajera.Ahi se fue el 70% del tiempo.




Yo tuve que aprender de cero,y lo que más me sirvió fue pagar por el acceso a DataCamp. Pagué un año de suscripción por $100 K y hay muchisimos cursos de Python y R. Yo me fui por Python que tiene una comunidad muchisimo más grande.
Ojo que no todos los modelos son de caja negra... con los de machine learning puedes ver qué variables son mejores predictores y sus relaciones, lo que idealmente te debe llevar a sacar conclusiones / análisis sobre los datos.
De todas formas parece que si, la mayor parte del tiempo se pierde en la extracción y formateo de la información.
 
Subir