🤹🏿 🎋 🚜 Prueba de resistencia de GPU NVidia en la transcodificación de transmisión en vivo 😍 😠 🤶🏽

A continuación se muestra una historia detallada sobre cómo cargamos la tarjeta de NVidia con las tareas de transcodificar video para su transmisión. Demostremos que probamos lo que sucedió y la mejor manera de usar tarjetas de video para transmitir en línea.

Durante varios años, nuestro equipo ha estado desarrollando productos para procesar y distribuir contenido multimedia en línea. Este artículo describió recientemente por qué los propietarios de contenido podrían necesitar tales soluciones en nuestra era de YouTube.

Uno de nuestros productos es el servidor de medios Nimble Streamer , que es un software de servidor que lleva las transmisiones en vivo y los archivos a la entrada y los hace accesibles a una gran cantidad de espectadores, mientras que simultáneamente le permite monetizar el contenido. Esta es una aplicación nativa escrita en C ++ y portada a todos los sistemas operativos y plataformas populares (Linux, Windows, MacOS) (x64, ARM). Desde el principio, el bajo consumo de recursos y la alta productividad fueron los requisitos principales, y logramos lograr buenos resultados en esto.

El año pasado, lanzamos el complemento Nimble Streamer: transcodificador de transmisión en vivo . Esta aplicación le permite tomar el flujo de entrada de video y / o audio en diferentes formatos y hacer varias conversiones con ellos en tiempo real. La funcionalidad incluye decodificación (software y hardware), conversión de video y audio mediante filtros (cambio de tamaño, superposición, etc.) y codificación (codificación), tanto de software como de hardware.

El transcodificador se controla a través del servicio web WMSPanel, los scripts de transcodificación se crean a través de la interfaz de arrastrar y soltar, que le permite ver visualmente el proceso. Se pueden ejecutar varios escenarios juntos: con este enfoque es conveniente ejecutar combinaciones de prueba, cargando el servidor en cualquier variación.
En estos videos puede ver ejemplos de cómo funciona la interfaz.

La decodificación de cada flujo se realiza solo una vez antes de todas las conversiones adicionales ... Esto le permite ahorrar recursos en una operación de decodificación costosa, esto se verá claramente a lo largo de las pruebas.

Uno de los mecanismos de conversión que se pueden usar en nuestro transcodificador es la decodificación de hardware y la codificación de video utilizando la GPU de NVidia. Las tarjetas gráficas de las últimas generaciones le permiten asumir algunas de las tareas típicas, lo que elimina la carga de la CPU. Nuestro transcodificador puede trabajar con este hardware, que nuestros clientes utilizan activamente.

En el curso de la comunicación con representantes de la oficina rusa de NVidia, se nos pidió que intentemos organizar pruebas de estrés conjuntas de nuestro transcodificador y GPU NVidia para comprender cuál será el efecto económico de tal tándem en comparación con la transcodificación exclusiva de software, sin aceleración de hardware. Además, quería entender cómo usar de manera óptima la GPU y, si es posible, dar buenas recetas.

Necesitábamos obtener rápidamente el hierro apropiado y acceder a él, para el ciclo de nuestros experimentos. Planeamos encontrarnos un par de semanas. Queda por encontrar dónde conseguir el equipo. La mejor opción sería encontrarlos en la nube y obtener acceso remoto. Después de buscar las opciones, resultó que AWS aún no tiene una VM con una GPU de generación Maxwell, y en la nube de Azure, solo está previsto comenzar a proporcionarlas pronto.

1. Hierro de NVidia en la nube de Softlayer, configurando Nimble Streamer

Con la asistencia de NVidia, IBM nos proporcionó acceso a su nube, la plataforma IBM Bluemix Cloud Platform (anteriormente Softlayer ). Esta es una gran red de centros de datos modernos (alrededor de 50 en el momento de la publicación) en todo el mundo, conectados por una red privada común y que proporcionan una gran selección de servicios de infraestructura en la nube. Todos los centros de datos están unificados y le permiten alquilar de uno a cientos de servidores virtuales o físicos de la configuración requerida durante varias horas, así como equilibradores, sistemas de almacenamiento, firewalls; en general, todo lo que se requiere para construir una infraestructura de TI confiable para el servicio de TI implementado.

La oficina de representación rusa de IBM nos dio acceso completo al portal de autoservicio para administrar los servicios en la nube y a la configuración del servidor necesaria, donde pudimos trabajar con diferentes flujos de entrada y configuraciones de nuestro transcodificador.

Hierro

Primero, nos dieron un servidor físico (metal) con 128 GB de RAM y 2xGPU NVidia Tesla M60 y sistema operativo Ubuntu 14.04 preinstalado. Todos los parámetros del servidor, contraseñas, versiones de firmware, su conmutación, IP dedicada, el estado de los componentes de hardware, eran visibles directamente en su cuenta personal, lo que le permite hacer las manipulaciones necesarias con el hardware alquilado, lo que minimiza la necesidad de interacción con el soporte de IBM. Durante la ejecución de la prueba, resultó que no pudimos cargar de manera óptima esta configuración, debido a una serie de limitaciones en la generación de contextos.

Queríamos reducir la configuración. Como utilizamos la plataforma en la nube, fue necesario a través del portal de autoservicio para solicitar cambios de configuración. Después de la aprobación, esta operación tardó aproximadamente 2 horas en la ventana de servicio aprobada. Durante este tiempo, el personal técnico del centro de datos de Amsterdam eliminó componentes adicionales (ranuras RAM y 1xGPU) del servidor que nos proporcionaron antes y lo devolvió a la operación. Debe tenerse en cuenta que para los desarrolladores esta opción es muy conveniente, ya que no es necesario ocuparse de la configuración del hardware, repararla o incluso pasar tiempo instalando el sistema operativo. Permítame recordarle que en este caso el hipervisor no se utiliza porque necesitamos exprimir al máximo los recursos de hardware.

En base a los resultados de nuestra investigación, nos decidimos por la siguiente configuración del servidor:

Doble Intel Xeon E5-2690 v3 (2.60GHz)
24 núcleos
64 GB de RAM
1 TB SATA

Tenemos 2 procesadores con 12 núcleos cada uno, y gracias a Hyper Threading obtenemos el doble, es decir virtualmente 48 núcleos.

En escenarios con un acelerador de gráficos, se utilizó una tarjeta basada en el chip GM204 - Tesla M60:

NVIDIA Tesla M60
1xGPU: 2 x Maxwell GM204
Memoria: 16 GB GDDR5
Velocidad de reloj: 2.5 GHz
Núcleos NVIDIA CUDA: 2 x 2048
Ancho de banda de memoria: 2 x 160 GB / seg.

Le llamo la atención sobre el hecho de que no se realizó ninguna afinidad, ajuste de chip, overclocking u otra magia en el hardware reducido, solo CPU y GPU no overclockeadas, y para la GPU solo se utilizó el controlador oficial tomado del sitio web de NVidia. Si alguien tiene una experiencia similar, comparta en los comentarios.

Entonces, tenemos acceso. Un rápido conocimiento de la interfaz web del panel de control (todo es simple y claro allí), luego acceder al servidor a través de SSH, y aquí estamos en la línea de comandos habitual de Ubuntu, poner Nimble Streamer, registrar una licencia de transcodificador nueva y hacer una pequeña configuración de configuración.

Transcodificador ágil streamer

Nimble Streamer se configuró para crear previamente el caché de contexto de GPU. Esto se debe al hecho de que la GPU tiene un límite en el número máximo de contextos de decodificación y codificación creados, y además, crear contextos sobre la marcha puede tomar demasiado tiempo.
Se pueden encontrar más detalles sobre el problema de crear contextos en la sección correspondiente a continuación.

Configuración de Nimbl en el ejemplo de la primera serie de pruebas:

nvenc_context_cache_enable = true
nvenc_context_create_lock = true
nvenc_context_cache_init = 0: 30: 15.1: 30: 15
nvenc_context_reuse_enable = true

Más detalles sobre estas configuraciones están escritos en nuestro artículo .

Antes de comenzar cada serie de pruebas, el caché se configuró por separado, teniendo en cuenta los detalles de cada tarea.

Crear scripts de transcodificación

Se siguió trabajando en nuestro servicio WMSPanel, donde se configuran los scripts del transcodificador.

Como ya se mencionó, el trabajo pasa por la interfaz web, todo es extremadamente claro y conveniente. Creamos una serie de escenarios que combinan diferentes opciones de transcodificación (CPU / GPU), diferentes opciones de resolución y diferentes parámetros de codificación (CPU / GPU, perfil, velocidad de bits, etc.)

Se pueden ejecutar conjuntos de escenarios simultáneamente, lo que permite introducir varias combinaciones de pruebas, aumentar la carga en un orden diferente y cambiarla según la situación. Simplemente seleccione los escenarios necesarios y deténgalos o reanúdelos.

Aquí hay un conjunto de escenarios:

Aquí hay un ejemplo de uno de los escenarios:

El decodificador de GPU se ve así:

Aplicamos el filtro de tamaño de imagen:

Y aquí está el codificador para la variante GPU:

En general, el funcionamiento de la interfaz del transcodificador se puede ver en estos videos .

2. Transcodificación de transmisiones FullHD 1080p

Para empezar, probamos el escenario con las cargas más altas para descubrir los límites de las capacidades de hierro. Por el momento, la "más pesada" de las resoluciones utilizadas en la práctica es FullHD 1080p.

Para generar las transmisiones en vivo originales, se tomó un archivo en FullHD (1920 * 1080) en H.264 de alto perfil . El contenido en sí es un video tour de la ciudad, es decir Este es un video con una tasa de cambio de imagen promedio. No hay marcos estáticos de un solo color que puedan facilitar el trabajo del transcodificador, pero no hay un cambio demasiado rápido de tipos y colores. En una palabra: una carga bastante típica.

Se alimentaron 36 transmisiones idénticas a la entrada de Nimble Streamer, que luego se utilizaron en el transcodificador en diferentes escenarios.

El escenario de transcodificación se usa típicamente: la transmisión entrante es de perfil alto de 1080p , perfil principal de 720p, 480p, 360p y luego las secuencias de perfil de línea de base se hacen a partir de ella : 240p, 160p . En total, hay 1 flujo en la entrada y 5 en la salida. Por lo general, también se realiza un paso (transferencia sin cambios) del flujo original para que el espectador pueda seleccionar 1080p mientras visualiza. No lo agregamos en el script, porque no utiliza transcodificación: hay una transferencia directa de datos de entrada a salida. Este escenario está optimizado en Nimble y en condiciones reales aumentará el consumo de memoria de forma relativamente leve.
Audio en las secuencias generadas - no. Agregar audio al script no causará cargas significativas de CPU, pero por la pureza del experimento, excluimos el sonido.

Prueba de CPU, sin GPU

Para comenzar, lanzamos scripts de transcodificación sin usar una GPU, especificando el decodificador y codificador de software en los scripts.

Como resultado, fue posible procesar solo 16 flujos de entrada con la emisión de 80 flujos de todos los permisos de salida.

Carga de CPU: 4600%, es decir 46 núcleos estuvieron involucrados. Consumo de RAM: aproximadamente 15 GB.

Prueba de CPU + GPU

La memoria caché de contexto al inicio se configura como 0: 30: 15.1: 30: 15, es decir 30 contextos para codificar, 15 para decodificar, cada GPU.

Permítame recordarle que en la GPU tenemos dos núcleos, lo que nos permite paralelizar las tareas, esto es útil para nosotros.

La carga máxima se obtuvo con la siguiente configuración de flujo.

El decodificador de entrada GPU0 y GPU1 - 15 flujos. De este modo, obtenemos 30 secuencias decodificadas, listas para su uso posterior. Cada secuencia se decodifica solo una vez, sin importar cuántos escenarios se use en el futuro.

Los codificadores GPU0 y GPU1 recibieron 15 transmisiones cada uno para obtener 720p, es decir. Se produjeron 30 transmisiones de 720p en una salida.

Además, los codificadores GPU0 y GPU1 proporcionaron cada uno 15 flujos para 480p, y también se emitieron 30 flujos de 480p.

Como los contextos del codificador se agotaron, la codificación de los permisos restantes se estableció en la CPU. Resultó lo siguiente:

30 transmisiones 360p
30 transmisiones 240p
30 transmisiones 160p

La carga resultó ser 2600% de CPU, 75% de decodificador, 32% de codificador. Luego, la CPU se cargó con 6 transmisiones para decodificar, por cada 5 resoluciones similares configuradas, para un total de 30 hilos por salida.

En total, se recibieron 36 transmisiones en la entrada, 180 se emitieron en la salida . La carga final se repara de la siguiente manera: 4400% de CPU, 75% de decodificador de tarjeta, 32% de codificador de tarjeta, 30 GB de RAM .

Algunos detalles

Decidimos verificar la opción en la que procesamos las tareas más difíciles en la GPU: decodificar 1080 y codificar 720 y 480, y dejar que el resto se procese a través de la CPU.

Primero, verificamos el límite del decodificador. Con 22 hilos, la decodificación se vio afectada por el problema de los contextos, simplemente no se pudieron crear. Disminuyó a 21: se crearon contextos, pero la carga se volvió 100% y los artefactos comenzaron a observarse en la secuencia. Nos detuvimos en 20 transmisiones, decodificamos 20 transmisiones, codificamos a 160p, todo funciona bien.

Además, resultó empíricamente que esta tarjeta con 16 GB de RAM a bordo puede funcionar con confianza en 47 contextos, y no hay diferencia, estos son los contextos de un codificador o decodificador. Repito: se trata específicamente de esta GPU Tesla M60, en otras tarjetas este número puede ser diferente. Creemos que si la tarjeta tuviera 24 GB de RAM, el número de contextos podría ser diferente, pero esto debe ser probado.

Como resultado, elegimos la fórmula de creación de caché "15 contextos del decodificador y 30 contextos del codificador", que proporciona 30 secuencias a la entrada y para cada una le permite crear 2 permisos. Entonces, las resoluciones superiores, 720 y 480, se lanzaron en la GPU, y el resto, 360, 240 y 160, se enviaron a la CPU. Y como la CPU aún estaba libre después de eso, "terminamos" los núcleos libres con nuevos hilos, dejando 4 núcleos para tareas utilitarias.

3. Transcodificación de transmisiones HD 720p

Escenario de carga típica La mayor parte del contenido ahora se crea en HD. Incluso el reciente SuperBowl LI, el programa mejor calificado en el mercado estadounidense, se transmitió en HD , dejando FullHD para el futuro.

Para generar las secuencias de origen, se tomó un archivo en HD (1280 * 720) en un perfil alto . El contenido es la serie favorita de "The Good Wife" de nuestro ingeniero, es decir Este es un video con una tasa de cambio de imagen promedio.

En la entrada del Nimble Streamer, se alimentaron 70 transmisiones idénticas, que luego se utilizaron en el transcodificador en diferentes escenarios.

Se utiliza el siguiente escenario de transcodificación: la transmisión entrante es de 720p de perfil alto, 480p, perfil principal de 360p y luego se hacen 240p, 160p líneas de perfil de línea base . Total, en la entrada 1, en la salida 4. No se realizó el paso de la secuencia original, como en el escenario anterior. El audio en las secuencias generadas tampoco lo es.

Prueba de CPU, sin GPU

Como en la sección anterior, intentamos transcodificar secuencias solo en la CPU. Como resultado, fue posible procesar solo 22 flujos de entrada con la emisión de 88 flujos de todos los permisos de salida. Carga de CPU: 4700%, es decir Participaron 47 núcleos. Consumo de RAM: aproximadamente 20 GB.

Prueba de CPU + GPU

La memoria caché de contexto al inicio se configura como 0: 23: 23.1: 23: 23, es decir 23 contextos para codificar, 23 para decodificar para cada GPU.

Usando la GPU, se decodificaron 46 secuencias de 720p. Allí, en la GPU, se codificaron 46 secuencias de 480p. A continuación, se realizaron codificaciones de 360p, 240p y 160p en la CPU: 46 transmisiones cada una.
Carga fija de 2100% de CPU, 61% del decodificador, 16% del codificador.

Además, se lanzó la codificación y decodificación de 24 subprocesos a la CPU, por cada 1 subproceso - 4 salidas, como para la GPU.

En total, se ingresaron 70 secuencias, se emitieron 280 secuencias .
Carga: 4600%, 61% del decodificador, 16% del codificador, 30 GB de RAM .

En cuanto a la prueba anterior, quizás una GPU RAM más grande daría más contextos y podríamos manejar más hilos. Pero esto es solo en teoría, es necesario verificarlo.

4. El problema con la creación de contextos en la GPU NVidia

Algunas palabras sobre el problema que no nos permitieron procesar más subprocesos en la GPU.

A fines del año pasado, realizamos pruebas con el equipo de NVidia, con varias tarjetas. Al trabajar con múltiples GPU, resultó que la creación de contextos ralentiza enormemente el servidor: la creación de cada nuevo contexto tomó más y más tiempo del mapa. Si el primer contexto se creó en el orden de 300 ms, cada uno de los siguientes agregó 200-300 ms y ya en los terceros diez contextos, crear uno nuevo tomó 3-4 segundos cada uno. Cuando un usuario crea un script de transcodificación, se supone que comienza a trabajar de inmediato y sin demoras, y esta nueva circunstancia negó todas las ventajas en la velocidad de Nimbl y dio demoras en la creación de contextos que condujeron a demoras en el inicio de la codificación.

Al principio, la sospecha recayó en Nimble, pero luego hicimos pruebas usando ffmpeg, que NVidia proporciona a los clientes y el resultado fue exactamente el mismo: la GPU está gastando más y más tiempo creando cada nuevo contexto. En condiciones en las que el servidor ya está transcodificando y necesita iniciar nuevos subprocesos para el procesamiento, esto afecta el rendimiento general y hace que el servidor simplemente sea inutilizable.

El problema fue descrito en detalle por el equipo de NVidia, pero hasta ahora no se ha proporcionado una solución a tiempo completo. Por lo tanto, hasta ahora hemos implementado un mecanismo de almacenamiento en caché de contexto en nuestro servidor, con la creación preliminar de contextos al inicio del servidor. Esto resolvió el problema desde el punto de vista del trabajo del usuario final, pero el inicio del Nimbl puede llevar algo de tiempo. La configuración de Nimbl para un trabajo efectivo con contextos se describe en nuestro blog .

Además, los contextos no son fáciles de crear. Con una gran cantidad de contextos al incluir cualquier script de transcodificación, la API de NVENC comienza a arrojar errores: "La llamada a la API falló porque no pudo asignar suficiente memoria para realizar la operación solicitada".

Empíricamente, resultó que una GPU puede comenzar y trabajar con confianza en 47 contextos, y no hay diferencia, estos son los contextos de un codificador o decodificador. Se suponía que esto se debía a la cantidad de memoria en la GPU. Ahora hay 16 GB, si coloca una tarjeta con 24 GB, es probable que se puedan hacer más contextos. Pero esto es solo una teoría, es necesario verificar, como se mencionó anteriormente. Los datos obtenidos son válidos para un modelo de GPU específico, otras tarjetas deben probarse por separado.

Es la restricción en el número de contextos lo que pone el obstáculo principal cuando se trabaja con grandes cargas.

5. Conclusiones

Por lo tanto, el propósito de las pruebas era estudiar la efectividad de la GPU para el rango de tareas indicado y desarrollar recetas para su uso adecuado. Cual es el resultado?

Efecto económico

Arriba, vimos cómo la cantidad de subprocesos que se pueden procesar en la CPU y en el tándem CPU + GPU es diferente. Veamos qué significa esto en términos de dinero. Como base tomamos los mismos Softlayer y los precios de alquiler de sus equipos.

La configuración sin una GPU costará $ 819 por mes . Aquí puedes recoger un auto.
La configuración con la GPU costará $ 1729 por mes para el centro de datos en Amsterdam, los precios se pueden encontrar aquí . Cuando se usa una GPU, el precio de alquiler del servidor aumenta ligeramente, ya que se usa el factor de forma de caso 2U más grande. El efecto económico probablemente será mayor al comprar equipos (pero esto requiere un análisis serio del TCO, teniendo en cuenta la actualización constante de la línea de GPU NVidia).

Ahora veamos los resultados de la prueba:

para FullHD 1080p

CPU sin GPU: 16 hilos por entrada + 80 hilos por salida
CPU + GPU: 36 hilos por entrada + 180 por salida

Beneficio de GPU: 2.25x.

Beneficios del uso de la GPU: $ 819 * 2.25 - $ 1729 = $ 113 por mes al alquilar 1 servidor con una GPU.

Para HD 720p

CPU sin GPU: 22 hilos por entrada + 88 hilos por salida
CPU + GPU: 70 hilos por entrada + 280 por salida

Beneficio de GPU: 3.18x.

Beneficio de usar la GPU: $ 819 * 3.18 - $ 1729 = $ 875 por mes al alquilar 1 servidor con una GPU

Es decir, con la opción de alquiler, los ahorros son bastante notables. Esto no tiene en cuenta los descuentos: en la oficina rusa de IBM prometen descuentos en el alquiler de recursos en la nube en comparación con los precios presentados aquí.

No entramos en las opciones con la compra, porque aquí, el costo total de propiedad depende en gran medida de la elección del proveedor, el costo del servicio en el centro de datos y otros factores que son familiares para quienes trabajan con metal desnudo. Sin embargo, las cifras preliminares también hablan a favor de una solución basada en GPU.

Además, no olvide el tráfico y el ancho del canal: están incluidos en una cierta cantidad en las tarifas presentadas anteriormente, pero deberá seleccionar las opciones para sus tareas en función del número de hilos, el número esperado de usuarios, etc.

Escalamiento

La opción con una tarjeta gráfica por servidor nos parece más rentable que la opción con dos o más tarjetas. Como podemos ver, el decodificador de GPU siempre cargó más que el codificador, pero incluso permaneció subcargado debido a problemas con el uso de contextos. Si agrega una segunda tarjeta, el decodificador se usará aún menos, los codificadores que no podremos cargar a plena capacidad, y todo el trabajo en la codificación aún tendrá que trasladarse a la CPU, lo que no se justificará por el dinero. También probamos la opción con dos GPU gracias al soporte de Softlayer, pero debido al débil efecto económico, no damos detalles en el artículo.

En consecuencia, para escalar la carga, es preferible agregar nuevos servidores con una tarjeta gráfica que agregar tarjetas a las máquinas existentes.

Si el número de transmisiones entrantes y salientes para su proyecto es relativamente pequeño, por ejemplo, una docena de transmisiones HD con una pequeña cantidad de resoluciones de salida, con una cantidad relativamente pequeña de filtrado, sería más conveniente utilizar un servidor sin una GPU.

También vale la pena señalar que la cantidad de RAM para la tarea de convertir subprocesos no es tan importante como la potencia de procesamiento. Entonces, en algunos casos, también puede ahorrar reduciendo la cantidad de memoria.

Conclusión

La solución de hardware presentada, una combinación de la CPU y GPU Tesla M60, fue perfecta para transcodificar transmisiones en vivo bajo cargas pesadas. La GPU se encarga de las operaciones más intensivas en recursos: decodifica las secuencias y las codifica en las resoluciones más altas, mientras que las resoluciones medias y pequeñas se procesan bien en la CPU.

Si uno de los lectores tiene experiencia y está optimizando el rendimiento de las tarjetas gráficas para la transmisión en vivo, estaremos encantados de conocer su experiencia: escriba los comentarios.

Prueba de resistencia de GPU NVidia en la transcodificación de transmisión en vivo

1. Hierro de NVidia en la nube de Softlayer, configurando Nimble Streamer

Hierro

Transcodificador ágil streamer

Crear scripts de transcodificación

2. Transcodificación de transmisiones FullHD 1080p

Prueba de CPU, sin GPU

Prueba de CPU + GPU

Algunos detalles

3. Transcodificación de transmisiones HD 720p

Prueba de CPU, sin GPU

Prueba de CPU + GPU

4. El problema con la creación de contextos en la GPU NVidia

5. Conclusiones

Efecto económico

Escalamiento

Conclusión

More articles: