Conferencia de Budapest (29-31 de octubre) Análisis de datos

Este año asistí a la conferencia Data Crunch en Budapest dedicada al análisis de datos y la ingeniería de datos. Los oradores de Linkedin, Uber, Github y muchas empresas de segundo nivel están invitados a esta conferencia, donde las personas comparten sus experiencias o hablan sobre herramientas de datos. Bueno, lo que es igual de interesante para mí es hablar con los participantes de la conferencia para comprender cómo nuestra realidad rusa difiere de Europa y Estados Unidos.


Para que tenga en cuenta esto:


  1. Sceince de datos de pila completa: 2 informes se dedicaron a aproximadamente el mismo tema que escribí antes . Haga de DS / DA una persona que pueda resolver problemas de principio a fin. No divida el trabajo en "funciones", sino que divida el DS en "temas". Es decir trabajar con datos no es una división en partes entre quienes preparan, procesan, analizan, crean modelos y visualizan, sino esta división de temas entre especialistas que pueden hacer todo por completo.
  2. De cero a héroe: los chicos hablaron sobre cómo construyeron su departamento de DS desde cero. En general, como de costumbre, las ideas sonoras comunes funcionan:
    • 2 DS como el tamaño mínimo del equipo.
    • y 2 Ingeniero de datos para ellos.
    • Propietario del producto B, que se comunicaría con la empresa.
    • Construye un buen ecosistema. Los oradores generalmente se ahogan por el código abierto. Cada informe generalmente menciona a Hadoop. El problema es cierto en muchos aspectos, ya que en el proyecto en el que trabajo, así como en muchos de los lectores, no se necesita Hadoop, porque no hay esa cantidad de datos donde sea que haya una ganancia. En general, mi actitud hacia el código abierto es intentar estudiar, pero si su empresa ya ha comprado algo, entonces continuar viviendo en el ecosistema de software propietario puede ser más rentable que apresurarse por otras tecnologías y luego "emparejarlas" o aprenderlas desde cero.
    • Prueba lo que estás haciendo. Pruebas A / B y evaluación de resultados. Curiosamente, pero un simple consejo no hace todo en la práctica.
  3. Democratización de datos en Uber: sobre esto ya escribí un artículo separado
  4. Ética de IA: discutió que muchas tareas tienen varias óptimas fundamentalmente diferentes. Condicionalmente, puede tener una decisión "efectiva" y una "decisión ética". Y el problema es que su maximización ocurre bajo diferentes condiciones. Y no hay una solución correcta en matemáticas o algoritmos. Es para que las personas decidan lo que quieren de sus "autos". Como ejemplo, el orador dijo que el algoritmo de evaluación del riesgo de recaída del crimen tiende a dar una mayor evaluación del riesgo a los estadounidenses negros. Esta evaluación de riesgos se utiliza para tomar decisiones sobre libertad condicional. El dilema es que la "discriminación" socialmente inaceptable de los negros se topa con un aumento posterior objetivamente inaceptable de la delincuencia de aquellos que han sido liberados antes de lo previsto en vano. Y es imposible combinar ambas soluciones en un algoritmo. Curiosamente, la comunidad negra de los Estados Unidos comete principalmente delitos contra sus propios "hermanos y hermanas" negros, por lo que incluso un intento de "igualar" a blancos y negros no está en riesgo, pero de acuerdo con el número de liberados, conducirá a un aumento desproporcionado en el número de víctimas de violencia entre los negros.
  5. ML y guerra de información: el tipo contó cómo al analizar el texto y los enlaces entre sí y en Facebook encontró alguna actividad sospechosa en Facebook antes de las elecciones de Trump. Afirma que alguien supervisó masivamente la agenda "rusa", de modo que el idioma hablado por los grupos conservadores se ha vuelto más racista. Investigó esto analizando el vocabulario utilizado en los grupos neonazis, y luego lo comparó con el lenguaje de los conservadores. Y descubrió que el léxico comenzó a acercarse mucho antes de la elección de Trump, aunque nada de esto se había observado antes. En general, insinuó que Putin tiene la culpa :)

De conversaciones con personas en la conferencia:


  1. R vs Python. Las personas viven con dos herramientas y, por lo general, R es amado por personas con antecedentes en ciencias y matemáticas, y python es amado por personas con antecedentes en desarrollo. El uso más común de R es para exploración, Python para canalización. Los modelos escriben en ambos. Tengo experiencia personal produciendo modelos de producción en R, por ejemplo.
  2. Pruebas A / B: implementar una evaluación regular de sus acciones y elegir soluciones basadas en las pruebas A / B sigue siendo una práctica poco común para las empresas (de una docena de grupos con los que hablé, solo 1 tiene pruebas A / B). Las personas no quieren gastar energía en pruebas A / B, dicen que ya saben o que el CEO "ve" cómo ...
  3. Todos tienen problemas de comunicación: con gerentes, con clientes, dentro de la empresa, etc. Mejorar las comunicaciones es un punto de crecimiento para casi todos los equipos.
  4. El trabajo principal en el aprendizaje automático no va en la línea de elegir los modelos más geniales, sino que incluye la ingeniería y la preparación de datos. Ni google ni facebook tienen modelos "secretos", pero la efectividad de sus algoritmos es más probable en el procesamiento y preparación de datos para estos modelos. Esto generalmente es una buena noticia, porque significa que el xgboost público o la regresión es el algoritmo de vanguardia para la mayoría de las tareas.

Source: https://habr.com/ru/post/es430278/


All Articles