Cómo convertirse en un centro de datos si tiene más de 40 años y no es un programador

Existe la opinión de que solo puede convertirse en un centro de datos con una educación superior adecuada, o más bien un título.

Sin embargo, el mundo está cambiando, la tecnología está disponible para meros mortales. Quizás sorprenda a alguien, pero hoy cualquier analista de negocios puede dominar las tecnologías de aprendizaje automático y lograr resultados que compitan con los matemáticos profesionales, y posiblemente incluso con los mejores.

Para no ser infundado, te contaré mi historia: como economista, me convertí en analista de datos, habiendo recibido los conocimientos necesarios a través de cursos en línea y participando en concursos de aprendizaje automático.



Ahora soy un analista líder en el grupo de Big Data en QIWI, pero hace tres años estaba bastante lejos de las líneas de datos y solo escuché sobre inteligencia artificial en las noticias. Pero luego todo cambió, en gran parte gracias a Coursera y Kaggle.

Entonces, lo primero es lo primero.

Sobre mi


Soy economista, trabajé como consultor de negocios durante bastante tiempo. Mi especialización es el desarrollo de una metodología de presupuesto e informes para la automatización posterior. Si es de una manera simple, se trata de construir primero el proceso normalmente, de modo que más adelante habrá un resultado de la automatización.

Hace 3 años, a los 42 años, cuando sentí que por el éxito en la consultoría estaba empezando a broncearme y comencé a pensar en la necesidad de un cambio. Sobre la próxima carrera. Ya tenía experiencia en cómo comenzar una carrera desde cero (a los 30 años cambié la vida tranquila del economista a consultoría), por lo que los cambios no me asustaron.

No me viene a la mente de inmediato, pero cuando lo piensas, resulta obvio que a pesar del hecho de que ya he trabajado durante 20 años, todavía quedan unos 25 años antes de la jubilación (hace mucho que se entiende que debemos centrarnos en la jubilación a los 70 o incluso más tarde). ) En general, el camino por recorrer es más largo que el que ya ha pasado, y sería bueno ir con una especialidad real. Por lo tanto, valió la pena aprender. En ese momento, trabajé por cuenta propia y, por el bien del futuro, reduje el número de proyectos y pude asignar suficiente tiempo para estudiar.

Mientras pensaba hacia dónde avanzar, descubrí Coursera. El enfoque occidental de la educación, cuando en primer lugar explican el significado, la idea general, y solo entonces los detalles, resultó estar cerca de mí. A diferencia del brutal sistema educativo soviético, que supone que solo los dignos saldrán, dan una oportunidad a personas como yo, que tienen brechas en la educación básica.

Comencé con cursos de análisis de negocios. Esto me ha sido extremadamente útil como consultor. Los mismos cursos me ayudaron a comprender mejor el papel de las tecnologías de IA para el desarrollo empresarial y, lo más importante, ver mi papel en esto. Esto es lo mismo que con otras tecnologías: no es necesario que quienes desarrollen nuevas tecnologías sean los mejores en su aplicación. Para que la tecnología realmente ayude a un negocio, es importante entenderlo. La experiencia en procesos comerciales no es menos importante que comprender las tecnologías de aprendizaje automático, procesamiento de big data, etc.

Y me sumergí en cursos sobre datos, estadísticas, programación.
Con interrupciones, en el transcurso de un año dominé más de 30 cursos en Coursera y ya no me sentía como un extraterrestre en el mundo de los bigdates y el aprendizaje automático.

Kaggle


Algunos cursos han recomendado a Kaggle como un gran lugar para practicar. No repitas mi error: llegué allí solo cuando ya sentía que había acumulado suficiente conocimiento. Y valió la pena seis meses antes, cuando la primera comprensión de qué y cómo apareció. Sería más fresco durante seis meses. Después de todo, este no es solo uno de los lugares para las competiciones, es la mejor (en la actualidad) plataforma para dominar el aprendizaje automático en la práctica, que es útil tanto para principiantes como para supergurús. Y allí creces, como dicen, un día en dos cursos únicos sin práctica no tendrá ese efecto.

Mi primera competencia fue un concurso del Banco Santander, que predijo la satisfacción del cliente. Era un principiante y quería verificar el nivel de mi conocimiento en los negocios. Combiné mi experiencia como cliente bancario, las habilidades de analizar casos de negocios y tecnologías de aprendizaje automático e hice un modelo bastante bueno con el que subí a los 50 mejores en una lista de líderes públicos. Esto fue mucho más alto que mis expectativas de la primera competencia, dado que más de 5 mil personas participaron en ella.

Pero no todo fue tan simple. No gané un feliz fin de semana. Hay un problema tan común entre los principiantes como el "reciclaje del modelo", que conocí en la práctica. La validación local estaba mal organizada, estaba demasiado enfocado en el público y, como resultado, en la parte cerrada de la prueba, volé más de 500 posiciones hacia abajo. Por supuesto, estaba molesto, pero la lección fue para el futuro: una buena validación es la base del aprendizaje automático y debe abordarse seriamente. Ahora este componente es uno de los puntos fuertes de mis modelos.

A pesar del primer resultado débil, había confianza en que llegar a la cima es real, se necesita más práctica y conocimiento adicional.

Para aquellos que no saben para qué sirve Cuggle, la comunidad está lista para ayudar a los principiantes a superar algún tipo de mordaza, discutir ideas, compartir ejemplos de "cómo funciona". Bueno, y no menos importante: al final de la competencia hay una oportunidad para estudiar las decisiones de los líderes. Aprendiendo de la experiencia de otra persona, puede progresar rápidamente. No es necesario pisar todos los rastrillos usted mismo.

Inmediatamente no puedo evitar recordar a OpenDataSaines (ods.ai), la comunidad de científicos de datos de habla rusa. Los entrenamientos de aprendizaje automático que organiza ods son otra forma de aprender más sobre el tema. Bueno, como plataforma para la comunicación sobre cualquier problema, también ayuda mucho. Si está pensando en su futuro en las líneas de datos y aún no se ha registrado con ods, este es un grave error.

Como las expectativas de altos resultados en Cuggle a menudo se mencionaban en vacantes para puestos de Datacientist, vi una oportunidad para esto: además de ganar experiencia, es posible completar un currículum vacío con experiencia más o menos relevante. Comencé a tratar a Cuggle como un trabajo donde el comienzo de una carrera podría ser una ventaja.

Tan pronto como apareció el tiempo libre, construí modelos en Cuggle, y con cada competencia el resultado mejoró.

Tenía algo que la mayoría de los participantes no tenía: la capacidad de analizar casos de negocios y mi experiencia en consultoría, me ayudó mucho al construir modelos. Seis meses después, ocupé el séptimo lugar en el próximo concurso del Banco Santander y obtuve mi primera medalla de oro.

Si se esfuerza persistentemente por un objetivo específico, lo logrará: en junio de 2017, un año después, con un poco de mis batallas en Cuggle, nosotros, junto con el desarrollador letón Agnis Lukis, ganamos una competencia de Sberbank para predecir los precios de los apartamentos en Moscú.



Nuestros puntos fuertes fueron comprender el caso (esta es una tarea compleja, cuya solución no debería haberse abordado en la frente, como lo hizo la mayoría) y una fuerte validación local. Terminamos la competencia en segundo lugar en público, pero nuestro modelo no sufrió mucho de reentrenamiento y no cedió mucho en datos cerrados: en la final fuimos los primeros con un gran margen.

Esta victoria me llevó al top 50 del ranking mundial de Kaggle, lo que resultó en ofertas de trabajo. Después de estudiar las opciones, elegí el banco como un lugar donde hay muchas tareas en las que puedes desarrollar habilidades, así como sentir toda la verdad de la vida al desarrollar modelos; sin embargo, las condiciones son más bien invernadero en las competiciones.

Mis planes de carrera eran ambiciosos y no se consideró la opción "no apresurarme a trabajar durante varios años para crecer al siguiente nivel". Era necesario excavar en el trabajo, y en el segundo turno no te olvides de Cuggle. No es fácil, pero ¿para quién es fácil ahora? Y esto arrojó resultados: 3 medallas de oro más y obtuve charreteras del Gran Maestro en Cuggle, más atrincherado en la cima mundial (ahora el 23).

Como una cereza en un pastel: el tercer premio en competencias de puntaje bancario, esto es lo que hice profesionalmente en el último año. Y, aparentemente, lo estaba haciendo bien.

Por desgracia, la verdad de la vida en el banco también es un proceso de toma de decisiones muy conservador y rápido. La introducción de mis modelos avanzaba lentamente. No había ningún plan para reconstruir el trabajo de todo el banco, por lo que fue más fácil, aunque con pesar, cambiar de trabajo.

Esto resultó no ser del todo difícil: gracias a los resultados en Cuggle, la búsqueda no tomó mucho tiempo, y durante varios meses he estado cavando miles de millones de tablas en QIWI. Tenemos muchas tareas interesantes , estoy seguro de que muy pronto podremos convertir nuestros datos en ganancias para la empresa; los antecedentes del economista ayudan mucho en esto. Caggloop aquí también terminó en la taquilla en varios casos.

Y ahora sobre cómo triunfar en las competiciones


La parte más importante es comprender el problema y encontrar todos los controladores que pueden afectar el resultado. Cuanto mejor comprenda el caso, más posibilidades hay de que sea genial. Todos pueden generar cientos o incluso miles de características estadísticas, pero pueden crear las que están diseñadas específicamente para esta tarea y explicar bien el objetivo, que es mucho más complicado. Invierte en él y rápidamente te encontrarás en la cima. Vale la pena aplicar cualquier experiencia relevante (negocios, hogar, etc.): ayuda mucho.

Entonces - validación local. Su principal enemigo es el reentrenamiento, especialmente si utiliza una tecnología tan poderosa como el aumento de gradiente. Sé lo psicológicamente difícil que es dejar de enfocarse en la tabla de clasificación pública, pero si no desea decepciones, la respuesta correcta es usar validación cruzada, diga "No" a la selección retrasada. Por supuesto, hay excepciones, pero incluso en problemas con series de tiempo, puede atornillar la validación cruzada, lo que aumenta en gran medida la confiabilidad del modelo. El esquema de validación local no siempre será simple, pero vale la pena dedicarle tiempo, tanto en competencias como en la vida real. La recompensa serán modelos estables.

Por supuesto, debe estudiar bien las herramientas básicas. Conociendo los principios de las diferentes tecnologías, puede elegir adecuadamente la mejor herramienta para resolver un problema específico. Para los datos tabulares, el aumento de gradiente es ahora el líder, específicamente Lightgbm. Pero es importante poder utilizar otros métodos, desde el inicio de sesión hasta las redes neuronales; en la vida y en las competiciones no serán superfluos.

Por cierto, la mejor manera de entender qué tecnologías están impulsando ahora cuando todo está cambiando rápidamente es ver qué bibliotecas usan los líderes de la competencia. En los últimos años, muchas tecnologías valiosas se han introducido en el mundo a través de Cuggle.

Hiperparámetros Es importante conocer los hiperparámetros clave de las herramientas utilizadas. Por lo general, no es necesario cambiar muchos parámetros. Creo que no debe dedicar mucho tiempo a la selección de hiperparámetros. Por supuesto, es necesario encontrar buenos hiperparámetros, pero no debe ir en ciclos.

Por lo general, cuando se describe el modelo, selecciono un conjunto de parámetros más o menos estable y vuelvo a su ajuste solo más cerca del final, cuando otras ideas se han agotado. El sentido común sugiere que el tiempo dedicado a crear y probar nuevas variables, bibliotecas e ideas no estándar puede proporcionar un aumento de modelo mucho mayor que la mejora de pasar de un buen conjunto de hiperparámetros a uno ideal.

Si confía en Kaggle como una característica que impulsará su currículum, considérelo como un trabajo, no se arrepentirá. Me ayudó, te ayudará.

Bien y otra vez sobre la competencia. Ella es muy alta aquí, por lo que es muy, muy difícil ganar sola. El trabajo en equipo es muy útil, la sinergia de ideas te permite saltar por encima de tu cabeza. Siéntase libre de usarlo.

Total


Bueno, un poco de motivación al final. En primer lugar, me demostré a mí mismo que puedo convertirme en un centro de datos a la edad de 44 años. La receta resultó ser sorprendentemente simple: educación en línea, pensamiento orientado a los negocios, desempeño y determinación.



Ahora estoy alentando en todos los sentidos a mis amigos a seguir el mismo camino. La nueva economía digital necesita (y necesitará) profesionales de primer nivel. Coursera + Kaggle es un excelente lugar para comenzar.

Érase una vez, Excel era una herramienta nueva e incomprensible (incluso recuerdo lo difíciles que fueron las primeras batallas con la calculadora tradicional). Y ahora, después de todo, nadie tiene dudas de que un especialista versado en su negocio pueda obtener muchos más beneficios reales de Excel que los propios desarrolladores de Excel.

Pasará un poco de tiempo y la posesión de herramientas de aprendizaje automático será tan obligatoria como la posesión de Excel, entonces, ¿por qué no prepararse para esto con anticipación y ganar la competencia en el mercado laboral ahora?

Además, la competencia no vale la pena. Cuantas más personas del lado comercial vengan a las líneas de datos, más dinero. La introducción de nuevas tecnologías en los sectores tradicionales de la economía puede acelerar un negocio, y para ello, una empresa debe comenzar a comprender las oportunidades que las nuevas tecnologías están abriendo hoy. De hecho, cualquier analista de negocios, que haya dominado varios cursos, puede estar a la vanguardia del progreso y ayudar a su empresa a superar a los competidores conservadores.

Espero que mi experiencia ayude a alguien a tomar una decisión importante.
Si tiene alguna pregunta sobre Kaggle, escriba, me complacerá responder en los comentarios.

Source: https://habr.com/ru/post/es427311/


All Articles