DZ Online Tech: ABBYY. ¿Cómo no confundirse en las redes neuronales?

Por segundo año, nosotros (DZ Systems) hemos estado filmando una serie de programas de transformación digital. Por lo general, se trata de programas "relacionados con la empresa", dirigidos principalmente a los altos directivos y diseñados para ayudar a comprender el valor empresarial de lo que se llama transformación digital.

Pero este año, también estamos filmando la segunda "línea" de programas: DZ Online Tech, ahora ya centrada en los aspectos tecnológicos del mismo tema. En resumen, eso es "debajo del capó".

A continuación se muestra una transcripción de otra transmisión de este tipo en la que Ivan Yamschikov y yo (Yandex, ABBYY y un profesional de clase alta en general) hablamos sobre el uso de redes neuronales en el mundo moderno.

Si está interesado, puede ver el programa en sí .

Y para aquellos a quienes les gusta leer, una transcripción a continuación:

Hola Nuestro invitado de hoy es Ivan Yamshchikov de ABBYY, quien
nos dirá cómo funciona la inteligencia artificial moderna.
Con respecto a la IA, hay condicionalmente dos posiciones: personas que dicen: "No queremos
No entiendo nada sobre la esencia de lo que está sucediendo en el sistema. Tenemos métodos estadísticos,
quienes sacarán el modelo de la vida externa. Este modelo será correcto, será
Siente todas las sutilezas semánticas ". Y hay personas que dicen: "No, eso es
no permitido Entendemos lo que está pasando. Debemos poner esta comprensión en el sistema.
inteligencia artificial, y luego será más valioso, mejor y mejor ". Esta batalla
¿Tiene algún criterio?

"Déjame explicarte en un lenguaje menos filosófico". Hay personas que dicen: "Necesitamos más
Algoritmos más fuertes y potentes y más datos. Tomaremos más
un algoritmo productivo, y nos dará una mayor calidad objetivo en un volumen mayor
métricas, no importa qué ". No conozco personas que digan que no necesitan datos o
Algoritmos Por lo tanto, el segundo grupo de personas, en mi opinión, tiene el siguiente enfoque: "Además de
De todo esto, sería bueno para nosotros todavía tener marcas humanas de una forma u otra, algún tipo de
conocimiento experto, agregue en la parte superior ".

Hay una broma en Google que a menudo se cita: menos lingüistas trabajan en
producto, mejor será la calidad final. Este chiste probablemente esté justificado por la práctica.
Servicios masivos de B2C. Pero cuando hablamos de B2B en el contexto de una tienda de comestibles estrecha
soluciones, en el contexto de una tarea muy claramente definida y un campo bien definido, entonces
El conocimiento experto comienza a jugar un papel bastante importante. Combinamos dentro de ABBYY y
modelos ontológicos que los lingüistas construyen y enfoques puramente de aprendizaje automático.

- Quiero dar un ejemplo: hicimos un proyecto para Mosvodokanal. Había tal tarea:
Mosvodokanal es una red compleja, de alguna manera funciona y de alguna manera se comporta. Y quiero algo
entonces para entenderlo, es aconsejable predecir accidentes, sentir cuando algo está mal
pasando

- Hiciste un sistema de monitoreo.

- Sí, hicimos algún tipo de sistema de análisis de comportamiento, que se suponía que debía decir: "En este
algo anda mal en la esquina ". Realmente no podemos decir si esto es un accidente o solo una fluctuación.
comportamientos porque son físicamente indistinguibles ...

- Hice sobre el mismo sistema para monitorear el tráfico.

- Un tema muy similar. Durante el proyecto, luchamos con ingenieros que dijeron:
“Escucha, estás haciendo basura. Es necesario medir todas las tuberías, sus diámetros son externos y
interno, luego ingrese información sobre la suavidad de las paredes. Y luego cuenta
modelo hidrodinámico, y ella lo mostrará todo ". Y dijimos: “No lo hagas.
Danos los datos de los sensores, los llevaremos al modelo de estadísticas, y ella, sin saber nada sobre
física, funcionará de todos modos, porque eliminará el comportamiento real ". Es recto
El último caso de lo que estamos hablando. Por un lado, este es el último conocimiento.
la física del trabajo del fenómeno que empacamos semánticamente directamente, y el segundo
lado es el último malentendido. No entendemos cómo funciona.
hidrodinámica: ni siquiera queríamos entender esto.

- La arrogancia es muy característica de las personas que conocen bien las estadísticas. Como dijo Mark
Twain: "Hay tres tipos de mentiras: mentiras, mentiras desvergonzadas y estadísticas".

- Terminamos derrotándolos por una razón muy simple: recopilar información sobre todos
Estas tuberías son imposibles. Pero, por otro lado, algo de conocimiento profundo del tema.
área no puede ayudar pero.

- Las personas que son los vehículos de este conocimiento creen que es verdad, porque es
Su área de especialización. Pero al mismo tiempo, de hecho, entendemos el lenguaje natural, con
informática, mucho menos de lo que nos gustaría, porque muchos
Los términos y categorías no se definen matemáticamente, sino intuitivamente. Esto lleva al hecho de que
esas personas que vienen completamente del lado de la informática, hay comprensible
desconfianza de las personas que vienen del lado de la lingüística y viceversa. En ABBYY es
decidió que ambos trabajan en el producto, son responsables de diferentes partes y usted
es posible medir la calidad que esto y esto le agregan. Este es el camino
pruebas y experimentos.

- Esto también es un gran problema. Todos sabemos que hay un problema de optimización local.

- por supuesto. Esto es reentrenamiento. Pero muy a menudo cosas relacionadas con lo común
Los enfoques lingüísticos le permiten lidiar con el reciclaje. Debido a que los lingüistas a menudo intentan crear una regla general, y luego hay una gran y maravillosa historia
Sobre excepciones. Cualquiera que haya leído el libro de Rosenthal sobre el ruso en la escuela está perplejo:
Dios mío, ¿qué hacen los filólogos? Llaman a las reglas lo que en realidad
es ...

- Un conjunto de excepciones.

- Pero en esencia, esta es exactamente la misma historia sobre el error en la prueba. Si lo miras con
punto de vista del aprendizaje automático, una gran cantidad de reglas lingüísticas
cubra un número bastante grande de ejemplos y deje algún error en
datos de prueba Si toma estas reglas y aplica a los datos que su modelo
Nunca vi, el modelo en este lugar está mal. Pero muchas heurísticas lingüísticas
permitirte protegerte del reentrenamiento.

- Te escuché correctamente que si tomamos un libro sobre el idioma ruso y lo manejamos
En el modelo, entonces, extrapolando estas reglas, ¿está el modelo necesariamente equivocado?

- por supuesto. Eso es correcto Cualquier regla estricta siempre conducirá a errores, porque,
desafortunadamente o afortunadamente, la inteligencia artificial es mucho más flexible que algunos conjuntos
reglas simples

- Esto también se debe al hecho de que cuando hablamos de formalizar las reglas de lo natural
lenguaje, estamos en este lugar inevitablemente involucrados en una tarea insoluble. Profundidad de esto
El proceso es interminable.

- Esta es una pregunta filosófica. A nivel de la máquina, la profundidad no parece infinita, pero hay
Un artículo interesante, en mi opinión, 2015. Una breve excursión: hay una sección de matemáticas,
que se llama teoría de la información. En particular, se utiliza en la teoría de codificación.
En Rusia, fue hecha por Kolmogorov y asociados, en los Estados Unidos, por Shannon. Primero de todo su
inventado en el contexto de la criptografía.

En la teoría de la información existe la "información general". Si completamente en los dedos
decir: imagina cómo se correlacionan tus significados de una palabra en un texto
dependiendo de la distancia entre ellos. Imagina una métrica así. Si tengo aqui
dice "Petia", luego n-palabras, y luego la palabra "comió". De hecho, las palabras "comió" y "Petia"
correlacionar, a pesar del hecho de que la palabra "comido" puede estar bastante lejos de "Petit".
Si construimos estadísticamente un modelo de estas correlaciones, resulta que en función de
distancias, esta información general en los textos disminuye bastante lentamente, no polinomialmente, pero
más lento En términos generales, en los textos de lenguaje natural existe una correlación entre las palabras,
muy lejos

Casi lo mismo se observa en los "textos" de ADN: nuestros nucleótidos también se correlacionan con
Distancia relativamente grande. En particular, este tipo de sistema está tratando de describir
teoría de la complejidad, etc. Toda la historia sobre el efecto mariposa, se trata de eso, de que tienes un poco
La desviación en un lugar puede conducir a algunos cambios significativos lejos.
El lenguaje natural se describe por dependencias de este tipo. Ahora, digamos LSTM (Long
Red de memoria a corto plazo) se considera la más avanzada, en términos de memoria, neural
una red que se usa para analizar el lenguaje solo para hacer estos amigos de largo alcance
para captar las correlaciones de un amigo. Aquí ella, la infección, la memoria disminuye más rápido de lo necesario.
Este es un gran tema para la investigación. En particular, nosotros en el Instituto Max Planck estamos tratando de
para hacer Hay un resultado interesante de la teoría de gráficos, que dice que si tiene ciclos en su red, entonces debería tener más memoria. Sabemos que en nuestro cerebro hay algunos
Estas son frecuencias características y hay ciclos en el cerebro. Una señal corre a lo largo de ellos, las neuronas estimulan
entre sí en un círculo con una frecuencia dada. En redes neuronales artificiales, todavía estamos
no se puede reproducir

"¿Por qué no podemos?" Añadir bucles! Por favor complete los ciclos de la bolsa.

"Y te lo diré". ¿Cómo aprendemos las redes neuronales? Usando la propagación hacia atrás
errores La propagación hacia atrás de un error es cuando tienes un pasaje neural directo
red y reversa.

- Tan pronto como haya ciclos, comience inmediatamente los problemas con el bucle de este mismo
errores?

- si! Que hacer ¿Cómo hacer la propagación hacia atrás?
Amigos, hagan una propagación hacia atrás en el ciclo y harán un gran avance en el desarrollo.
inteligencia artificial Les digo a todos: tenemos que hacer esto, es genial. Es real
Una tarea difícil.

- Y si estas personas que se ocupan del cerebro descubren cómo funciona en el cerebro, es
se puede poner? Parece que hoy el antropomorfismo de lo que estamos haciendo es
muy bajo

- Vamos: ¿qué es común entre ImageNet de Google y la almeja? Resulta mas o menos
Eso es todo. Inicialmente, el molusco fue desmontado y vio que sus campos visuales estaban dispuestos como
redes de convolución modernas, si lo desea. Érase una vez en los años 50 Rosenblatt y sus camaradas
desarmado, y se le ocurrió un perceptrón, en gran parte mirando cosas vivas y muy simples. Ellos son
pensamos que ahora entenderíamos cómo funcionan los organismos primitivos, y luego comenzaremos a construir
complicado

- ¿Por qué no tuvieron éxito? En aquellos días, se creía que el perceptrón no estaba vivo.
¿No hay suficiente potencia?

- Hubo muchos problemas. Vamos: hubo varios inviernos de IA, es decir, personas cada vez
piense en un nuevo avance en el campo de la inteligencia artificial y piense: "Eso es todo,
Jarvis será mi mejor amigo mañana y se comunicará conmigo mejor que el mío
psicoanalista ". Y luego sucede algo, como el mismo Jarvis. Amo mucho esta broma
de la película "Iron Man", donde al principio todo va bien, y luego pronuncias algo
unos arándanos Entonces Jarvis le dice al personaje principal cuando le pregunta si depuró
todos los sistemas

- ¿Cómo se ve prácticamente? ¿Dónde están las restricciones, si acepta la solicitud?
lado?

- En primer lugar, ahora incluso las cosas más poderosas que recolectamos artificialmente, fuertemente
más pequeño que nuestro cerebro simplemente en orden de magnitud.
Y el segundo punto está relacionado con el hecho de que no entendemos por qué funcionan. Esta separado
Gran área de investigación.

- Parece que ya están empezando a contar.

- Primero descubrieron qué funciona, luego comenzaron a descubrir cómo funciona.
Hay una dirección separada sobre cómo visualizar el funcionamiento de una red neuronal. Hay un separado
un formalismo matemático llamado Descomposición de información, que intenta describir
¿Cómo es la descomposición de la información en diferentes flujos dentro de la red para entender qué
qué capas está pasando. Con las imágenes, comienza a aparecer y el último resulta
unos años Con los textos cada vez es más difícil.

¿Por qué no entendemos cómo funciona? Porque no tenemos buenas matemáticas
Un resultado que nos explicaría todo. No tenemos un teorema probado que diga
que funciona Porque, digamos, al nivel de una red neuronal convolucional: ¿tienes
En la imagen, se dibuja un perro. Hay tantos píxeles en esta imagen, cada uno
píxeles hay tantos valores. Si intenta contar la cantidad combinada
opciones para una combinación de píxeles que aún se suman a un perro: te cansas. En
se supone que tiene un espacio dimensional bastante grande y muchas opciones
decisiones Además, si comienzas a entrenar una red neuronal convolucional con el número
los parámetros son mucho menores que la cantidad de imágenes potenciales de un perro, entrena
de una manera relativamente simple. Ella te dice a la salida, es un perro o no un perro, pero
dile que sí o no. De repente, después de un tiempo, resulta que ella puede
dar muy buena calidad en fotos de perros que ella no vio.

- ¿Es el grado de generalización inesperadamente alto?

- Sí, este es un grado inesperado de generalización. Todos han aceptado el hecho de que funciona, todos
aplicarlo en todas partes, pero resultado matemático estrictamente justificado, lo que
explicó por qué tal grado de generalización es posible, no. Y hay varias hipótesis, una
de los cuales me parece el más interesante. No es lo que está pasando en todos
neurona, y cómo conecta estas neuronas. La estructura misma de la red, aparentemente, para usted
le permite lograr una cierta generalización a cierto nivel. Es interesante
hipótesis, porque si es cierto, entonces está bien conectado con la neurofisiología, y luego
puedes tomar y probar algo más de neurofisiología. Hay algunos otros
supuestos, pero esta es una pregunta: la gente ahora escribe kilogramos de artículos por mes sobre cómo
funciona

- Existe la sensación de que Python es un lenguaje de IA. ¿Es esto un accidente o no? Porque
Python, después de todo, hay muchos Basic.

- Porque gran parte del trabajo de un científico de datos ahora equivale a
creación de prototipos. Es conveniente crear un prototipo en Python, se creó como un lenguaje para
creación de prototipos, y no como lenguaje para soluciones industriales. En ABBYY tenemos personas
quienes prototipan en Python, y hay personas que escriben modelos finales en C ++,
que se están implementando La comunidad de Python está utilizando activamente esta ola y hay una retroalimentación positiva. Hay una demanda, es decir, la ciencia de datos se está haciendo cada vez más en
Python, respectivamente, la comunidad comienza a estar saturada de personas que están intentando
Desarrollar el lenguaje en sí. Todo esto está conectado.

- Cuando hablamos de creación de prototipos, implica ejecutar un gran
Número de pruebas, experimentos. Hay un problema con la computación
recursos

- Los recursos informáticos se han vuelto más baratos, hay soluciones en la nube que hicieron
Su asequible. En términos generales, un estudiante con acceso a Internet puede brevemente
dinero para obtener un servidor bastante potente, para impulsar algo en él y algunos
obtener el modelo y atornillar la IA, por ejemplo, a la cafetera. Hubo muchos factores que
conducir el uno al otro. Debido a Internet, el umbral para ingresar a la programación y en
tecnología en general. Apareció una gran cantidad de hierro relativamente barato, también entró en
la nube Puedes comprar tiempo, no hierro. Han aparecido muchos datos en vivo.

Por ejemplo, en los años 80, las personas involucradas en la ciencia de datos tenían un problema fundamental: dónde
tomar datos? Y ahora, para un montón de tareas aplicadas, está claro dónde conseguirlas.
Elementos clave para el aprendizaje automático: algoritmo, datos y hardware en el que esto
El algoritmo funciona. Las tres opciones se han vuelto más accesibles. En este caso, el algoritmo se ha convertido
más asequible, en el sentido de que hay soluciones en caja de buena calidad. Ellos son
implementado en un lenguaje con una sintaxis simple intuitiva, baja
nivel de entrada y un montón de recursos educativos.

- Los chicos de Microsoft contaron la historia de cómo un pequeño grupo tomó una red neuronal
y el modelo de negocio de una compañía pequeña y simple que entregaba pan. Y de palos y
de cuerdas resultó construir un modelo que optimizó este negocio y dio + 10%
a la eficiencia ¿Es más probable que esas imágenes sean una excepción o una regla?

- Esto es más bien una regla. En mi opinión, Kelly (un famoso futurólogo) tiene una buena conferencia sobre
futura IA, en la que dice que en 20 años nos tratarán de la misma manera que nosotros
Tratamos a los que fueron pioneros de Internet. Ahora estamos diciendo: "Qué fácil fue para ti en 90-
e años para hacer negocios en Internet ". Y en 20 años también nos tratarán, diciendo: "Cómo
Fue fácil para usted hacer negocios con IA. Tomó cualquier cosa, le agregó IA y se convirtió en un líder en esto
categorías ". Al menos esta es la opinión de Kelly, y la comparto.

- Tú y yo experimentamos una cierta cantidad de lo que está sucediendo en la industria, y vimos esto
la imagen cuando lo que ahora es mercancía era una vez un estado de arte. Basado en su
experiencia, podemos asesorar a las personas que ahora forman parte de la tecnología de IA
¿Y cómo deberían moverse?

- Tengo dos consejos que me parecen razonables. Primero, no hagas uno en la esquina.
Encuentre un par de personas de ideas afines, trabaje entre ellos y preséntese
¿Qué haces dentro de la comunidad en general? Y en segundo lugar, pensar menos
modelos específicos que usará porque cambiarán,
mejorando Y si no estás en el nivel en este momento para mejorarlos tú mismo, tú
necesita saber menos sobre cómo funciona exactamente este modelo y por qué es mejor. Usted necesita
piensa más sobre el problema que estás resolviendo.

Source: https://habr.com/ru/post/es418935/


All Articles