Los autos se vuelven más inteligentes. Ya ahora están generando contenido de tal calidad que incluso un profesional no siempre lo distingue del "humano". Sergey Marin de Data Studio habló sobre por qué los periodistas y editores no deberían temer a la competencia, y sobre las perspectivas de automatizar el periodismo en nuestra conferencia "
Contenting ".

Bajo la transcripción cortada de su informe.
Sobre el hablanteSergey Marin es un experto en inteligencia artificial, líder y fundador de
Data Studio .
Tres ballenas de inteligencia artificial.
Si hablamos de inteligencia artificial, en el periodismo o en cualquier otro campo, primero debemos entender su estructura. La IA consta de tres componentes principales: aprendizaje automático, sistemas de recomendación y redes neuronales. Por cierto, muchos consideran que las redes neuronales son sinónimo de inteligencia artificial, pero esta es solo una de las herramientas, ni siquiera la más masiva: en cada caso, se utilizan los algoritmos que funcionan de manera más óptima.

Aprendizaje automático: estante
El aprendizaje automático se utiliza para buscar patrones ocultos en los datos. Imagine que tenemos un conjunto de líneas de información o publicaciones que deben clasificarse, es decir, asignarles automáticamente algunas etiquetas. O simplemente textos con muchas palabras que deben dividirse en ciertas clases, intereses, estados de ánimo, etc. ¿Cómo hacemos esto? Si hablamos de aprendizaje automático, no estamos buscando palabras clave para sacar conclusiones basadas en ellas. En cambio, le mostramos a la máquina la mayor cantidad posible de textos que ya hemos marcado con una gran cantidad de clases. Después de lo cual le damos un nuevo texto, y la máquina misma lo clasifica en el área a la que pertenece. Es decir, primero enseñamos, mostramos muchos ejemplos.

Es decir, la principal aplicación del aprendizaje automático en el periodismo es la clasificación. Por ejemplo, tenemos una gran cantidad de líneas de información, desde Internet, redes sociales, agencias de noticias, y necesitamos clasificarlas rápidamente. Preentrenamos nuestro modelo, y cuando tenemos una nueva guía de información, la máquina comprende a dónde pertenece, cuál es su tema, qué estado de ánimo transmite, a qué público se puede aplicar. La popularidad se predice de manera similar, la calificación de algunas noticias.
Sistemas de recomendación: encuentre un enfoque personal
El campo principal de aplicación de los sistemas de recomendación es la personalización. Queremos mostrar contenido que sea relevante para al menos un determinado segmento, e idealmente, seleccionarlo para cada persona. En este sentido, la presentación del contenido no es diferente de las ventas. Recuerde a los líderes en ventas de productos específicos: las tiendas en línea como Amazon y los cines en línea pueden recomendar sus productos. Y si consideramos el contenido como un producto, resulta que ya sabemos cómo recomendarlo y apuntarlo bien.

¿Cómo hacemos esto? Hay dos principios básicos. El primero son los sistemas de referencia que, de hecho, comparan a las personas entre sí en función de sus compras, en este caso, en función del contenido que consumieron anteriormente. Tomemos un ejemplo simple: Igor y Peter vieron las mismas películas, y si una de las películas fue vista solo por Igor, entonces es lógico recomendarla a Peter.
Otro principio es mucho más fuerte en términos de recomendar contenido: una evaluación de su popularidad, PageRank. El primer ejemplo es buscar, buscar en Yandex, Google. ¿Cómo determinar que cierta página es significativa? Consideramos la cantidad de enlaces o referencias a esta página en otros recursos y obtenemos un tipo de calificación que se le asigna. Pero una cosa es cuando cinco páginas desconocidas enlazan con la publicación, y otra muy distinta si los enlaces son proporcionados por marcas populares o por las principales agencias de noticias. Resulta que debemos tener en cuenta la calificación de aquellos que enlazan a nuestra página; obtenemos tal jerarquía.
Tinder funciona de la misma manera: cuando te desplazas de izquierda a derecha, la calificación se calcula para ti y para las personas que se te muestran. Le muestran fotos de aquellos que tienen aproximadamente la misma calificación que usted: este es el significado recomendatorio del servicio.

Este es un método muy efectivo para la evaluación automatizada de la importancia de cierta información. Si sabe contar no solo las menciones, sino también su importancia, puede ordenar automáticamente todas las noticias para audiencias específicas. Por lo tanto, las recomendaciones se utilizan principalmente para dicho nivel de orientación.
Redes neuronales: imitación del cerebro.
El concepto de redes neuronales es simple y aburrido. Hasta alrededor de los años 60 del siglo pasado, los estudios de los principios del cerebro humano pintaron la siguiente imagen: hay un cierto conjunto de neuronas que reciben señales de entrada. Después de eso, cada neurona realiza una pequeña modificación de la señal y la transmite. Para comprender cómo estas neuronas se unen en grupos dentro del cerebro, decidimos crear un modelo de computadora, un conjunto de neuronas que de alguna manera están conectadas. Así nacieron las primeras redes neuronales, y de esta forma todavía se usan para resolver problemas de aprendizaje automático. Pero si estamos hablando de algo más avanzado, ese sistema no encaja.

En algún momento de los años 90 del siglo pasado, los científicos se dieron cuenta de que el cerebro humano no funciona así. Las neuronas realmente interactúan entre sí, pero todo está construido jerárquicamente. Por ejemplo, cuando veo una imagen, se recopila información de cada una de sus áreas, que se agrega a otro grupo más pequeño de neuronas. Y allí se almacena en forma de algún tipo de representación interna. De hecho, pensamos con estas representaciones internas, y no con las imágenes reales que vemos. La teoría se recreó de inmediato en redes neuronales, y ahora, según la clasificación de imágenes, tales redes neuronales funcionan mucho mejor que los humanos. Estas redes neuronales se denominan convolucionales, porque se está llevando a cabo el proceso de generalización.

El segundo avance se produjo cuando se enteraron: una persona percibe información no en el momento, sino teniendo en cuenta un determinado contexto. Para entrenar computadoras para analizar la experiencia acumulada, construyeron las llamadas redes neuronales recurrentes. Utilizan el trabajo de las redes neuronales anteriores primero para clasificar y luego para crear contenido. Todo esto se usa ahora en el modelado de secuencias y, si es más fácil, en los bots de chat. Por ejemplo, cuando Yandex selecciona palabras similares, estas son redes neuronales recurrentes que replican cómo una persona procesa la información.
Cómo se usan las redes neuronales en el periodismo
La primera área de aplicación para redes neuronales es la generación de contenido. Si tenemos algún tipo de guía de información, una red neuronal capacitada nos permite determinar el tema y escribir un texto bastante inteligible. Ya hay empresas que producen el software correspondiente. Hay publicaciones que lo utilizan para líneas de información de rutina: informes de intercambio, indicadores financieros de empresas. Para obtener información objetiva, un terremoto que pasó aquí, un barco navegó allí, etc., funciona bien. Pero si hablamos de fuentes de información más avanzadas, tendremos que trabajar seriamente para transformar el contenido generado por la red neuronal en algo verdaderamente significativo y adecuado.

La segunda área es la clasificación; ya se ha mencionado anteriormente. El tercero es la evaluación de la percepción o las pruebas A / B, que rara vez se usan en algún lugar fuera de las ventas. En el periodismo, el principio es similar: tenemos varias formas de publicación, y queremos probar cómo funcionará en diferentes grupos objetivo. Usando tales métodos, este proceso puede ser completamente automatizado.
La última dirección atraerá a aquellos que necesitan escribir el mismo contenido para diferentes canales, recursos y audiencias objetivo. Para publicar un artículo sobre Habré, que ya ha sido publicado en otra publicación, no puede simplemente copiar. Para adaptarlo, puede atraer a un redactor o utilizar una red neuronal. Para una computadora, esto es aún más simple que la traducción automática: el texto no necesita ser convertido a otro idioma, sintaxis, etc. Pero en general es lo mismo.
Donde se usa Un pionero entre las principales agencias es Associated Press. Utilizan la generación automática de contenido para noticias financieras, en las que hay poca analítica, pero muchas cifras y evidencia. Hay tres proveedores que fabrican dicho software: Narrative Science, Automated Insights y Article Forge. Si visita sus sitios, puede ver muchos casos reales: ejemplos de publicaciones escritas por robots. Todos estos artículos se basan en alguna evidencia.

¿Existe una diferencia notable entre la creación y el contenido generado? En los Estados Unidos y Alemania, realizaron investigaciones, durante las cuales se mostró una gran cantidad de artículos a grupos de periodistas, respectivamente, en inglés y en alemán. La mitad de los textos fueron escritos por personas, la mitad por máquinas. En promedio, las personas no podían distinguir entre ellos. Y cuando se les pidió a los sujetos que clasificaran los textos de acuerdo con su confiabilidad e interés, resultó que los textos escritos por la máquina eran más confiables. Al mismo tiempo, los encuestados señalaron que leerlos no es tan interesante como los artículos "humanos".
Resulta que las personas están mejor haciendo contenido entretenido. Y si necesita traer algunas noticias, use el automóvil, lo creerán más.Beneficios y peligros.
Los robots le permiten centrarse en el contenido que desea incorporar en el contenido, en lugar de en el tedioso proceso de adaptarlo a diferentes formatos. Otra ventaja de las máquinas es la velocidad de reacción: si necesita procesar rápidamente pistas de información, entonces esta es su herramienta. Ya hemos dicho sobre la personalización del usuario, esta es una ventaja definitiva. La cuarta ventaja es el crowdsourcing: si utiliza una gran cantidad de fuentes, la máquina podrá clasificar automáticamente la información recibida de ellas, distinguir entre buenas y malas, y elegir las adecuadas.

Hay peligros potenciales. El primero es una cámara de eco. El contenido que me muestran está personalizado en función de la similitud de mis intereses, teniendo en cuenta lo que ya leí y los intereses de personas como yo. Por lo tanto, después de un cierto número de iteraciones, empiezo a cocinar en mi campo de información cerrado.
El segundo peligro son las burbujas de información. Si crea algún tipo de situación ficticia, evento, la máquina puede escribir muchas versiones diferentes de publicaciones que parecen auténticas. Con la ayuda de bots, redes sociales, etc., dicha información errónea se puede transmitir a grandes audiencias.

Ahora están hablando de los llamados ataques adversos en la red neuronal. Se da un ejemplo con el logotipo de KFC: si muestra una imagen de este tipo a un automóvil sin conductor, se eleva inmediatamente: la inteligencia artificial reconoce la imagen como una señal de alto. Si tales manipulaciones son posibles con textos, entonces un conjunto de palabras sin sentido correspondiente a un cierto algoritmo puede obtener una alta calificación de las redes neuronales, y el lector verá algún tipo de galimatías.

Afortunadamente, en la práctica, tal ataque es muy difícil. Recuerde que la red neuronal, como nuestro cerebro, trae cualquier imagen de acuerdo con la representación interna. Mire la imagen: a la izquierda de la cara, tal como la vemos, y a la derecha, como ve la red neuronal. Al tener acceso a la red neuronal en sí, se pueden seleccionar imágenes, como en el ejemplo con el logotipo de KFC. De hecho, el problema también se conoce por la criptografía, porque es un análogo del pirateo de la función hash. La red neuronal en este caso es una función hash: convierte cierto texto largo en una pequeña representación interna. Si recoges algo que coincida, piratea. Pero para poder repetir, necesita acceder al algoritmo.
No es un competidor, sino un asistente.
Casi todas las publicaciones sobre este tema plantean el problema de la demanda de periodistas en el futuro. La pregunta, me parece, no es del todo correcta: alguien será reemplazado, alguien no, pero está claro que todo el periodismo no puede ser reemplazado por máquinas. Una persona les cederá solo algunas publicaciones básicas, banales y simples. El problema es diferente: dado que las publicaciones básicas se pueden crear de forma automática y fácil, el porcentaje de contenido generado muy pronto será mucho mayor que el escrito por las personas. Como ya hemos descubierto, el contenido generado se percibe mejor en términos de confiabilidad, y esto le permite crear una herramienta poderosa para manipular la conciencia y la percepción. Esta es probablemente la peor y más importante cosa.

Para crear contenido mediante el aprendizaje automático, se utiliza el proceso de interacción hombre-máquina, no por separado, sino en conjunto, en un par. Primero, la máquina busca problemas informativos, los clasifica, predice la importancia, genera contenido ... Este es el caso cuando tenemos un gran flujo de varios tipos de información y queremos responder rápidamente. Si tiene tiempo para pensar, etc., este es un escenario completamente diferente. El contenido preparado por la máquina va a un periodista o editor que mira, evalúa, agrega. Además, el texto puede ir a la publicación o nuevamente al robot, para formar diferentes versiones de la publicación para diferentes audiencias objetivo. Después de eso, el automóvil se dedica a la personalización, elige para cada persona qué mostrarle. Por supuesto, esto no se implementa en todas partes, pero el flujo de trabajo general se parece a esto.
Una persona no está excluida del proceso de preparación de contenido. Los robots no son más que herramientas adicionales que aceleran y simplifican el proceso, nos quitan las tareas de rutina.
Los informes de "
Contenido " en formato de video se pueden solicitar
aquí . Para los usuarios de Habr, un descuento en el código promocional habr_online_promo.
Gracias a los patrocinadores:
Amigos, por otros 10 días aceptamos solicitudes para un concurso tecno-técnico sobre el tema "Estado y TI" e invitamos a todos los autores técnicos a participar. Puede contar una historia sobre tecnología, desarrollo, refinamiento de servicios, el dispositivo de varios sistemas y aplicaciones, entrevistas con un experto, una selección de trucos de vida, una revisión y otros materiales sobre el tema; lo principal es que se publican en Habré. Información detallada en la página del concurso .