Ensamblaje del servidor: desde el pedido de componentes hasta la prueba



¿Qué sucede cuando nuestro cliente solicita un servidor de configuración arbitrario? ¿Qué tan confiables son los servidores personalizados? Discutiremos estos y otros temas en detalle en un nuevo artículo de hoy.

Orden del servidor


A pesar de que en la sección de servidores disponibles para pedidos hay varias docenas de configuraciones diferentes, algunos clientes requieren servidores con configuraciones especiales. Muy a menudo, esto es necesario para crear un servidor con un rendimiento muy alto o con una gran cantidad de unidades de disco.

Para satisfacer esta necesidad, se proporcionó el servicio " Servidor dedicado de configuración arbitraria ". El configurador en el sitio le permite crear un servidor de cualquier complejidad y alquilarlo en un par de minutos. Sin embargo, pocas personas se preguntan cómo se ensamblan estos servidores.

Después de que el cliente haya decidido la configuración deseada, haya realizado un pedido y pagado, el sistema crea automáticamente un ticket en el panel de control. Tal boleto va al departamento de ensamblaje, y los especialistas comienzan a verificar el pedido y, de hecho, el ensamblaje del servidor.

Proceso de montaje


Pedido de cheques


El configurador en el sitio selecciona con mayor frecuencia la versión "correcta" de los componentes, pero en algunos casos, los clientes pueden no elegir la opción más óptima para combinar componentes de hardware. Por ejemplo, un controlador RAID que no podrá ofrecer el máximo rendimiento en esta configuración, o un número impar de ranuras de RAM en sistemas multiprocesador. Por lo tanto, los ingenieros primero verifican el pedido y si se identifican posibles problemas, deben advertir al cliente en un ticket.

Si el cliente acepta que la configuración no es óptima, puede cancelar fácilmente el pedido y crear uno nuevo. Los fondos tras la cancelación se devuelven al saldo del panel de control en su totalidad. Una vez verificado el pedido, procedemos a la preparación de componentes y al ensamblaje del servidor.

Accesorios


Cada servidor consta de los siguientes componentes:

  • estuche (viene inmediatamente con una fuente de alimentación);
  • placa base
  • memoria de acceso aleatorio ;
  • procesadores
  • unidades
  • controladores de disco (si están disponibles en el pedido);
  • tarjetas de video (si están disponibles en el pedido).

El ingeniero responsable del ensamblaje prepara todos los componentes y los repara en el sistema de contabilidad, utilizando números de serie como identificadores. Ahora le diremos sobre todas las etapas por las que pasa cada servidor de configuración arbitraria.

Preparación del caso


Usualmente usamos estuches Supermicro, que deben estar preparados para instalar la placa base usando el hardware provisto. Los diferentes modelos de placa base tienen diferentes puntos de montaje, por lo que debe determinar la cantidad de hardware y tornillos para cada ensamblaje específico.

Si bien el número de pedidos era pequeño, solo tomamos un conjunto de sujetadores diseñados para el estuche, y posponemos los sujetadores no utilizados. En cierto punto, quedó claro que lleva mucho tiempo encontrar el tornillo correcto y decidimos empacar todo el hardware disponible en el almacén.

Sujetadores preempaquetados

Después de que se empaquetó el último paquete con sujetadores, quedó claro que no hicimos este trabajo en vano. Ahora cada tornillo y cada hardware se encuentran en un lugar estrictamente designado para esto y esto ahorra una gran cantidad de tiempo.

Para evitar que los contactos de la placa base toquen la carcasa metálica y se cortocircuiten, se utiliza una capa de plástico especial. Sin ella, el montaje está prohibido. Además, debe separar cuidadosamente (sí, lo proporciona el fabricante) los puertos para los puertos en el código auxiliar desde la parte posterior del servidor. Se realiza principalmente con un destornillador plano.

Después de eso, las etiquetas con el identificador de pedido, así como el número de serie del futuro servidor, se aplican al caso. Por conveniencia, además del identificador alfanumérico, las etiquetas contienen códigos de barras que le permiten leer rápidamente la información con un escáner.

Instalación de la placa base


Inmediatamente antes de instalar la placa base, los ingenieros realizan algunos pasos preparatorios:

  • ponerse guantes finos;
  • ponte una pulsera de puesta a tierra.

En primer lugar, esto es necesario para no dañar las manos. La lesión más común en este caso son los cortes. Un brazalete de tierra no permitirá daños accidentales a los componentes electrónicos de la placa debido a la electricidad estática.

Después de colocar la placa base, los pernos de fijación se aprietan. Debe recordarse que la textolita es bastante frágil y no hace esfuerzos excesivos. Para ahorrar tiempo, los ingenieros usan destornilladores inalámbricos.

Ahora los cables de alimentación están conectados a la placa base, así como a los ventiladores del sistema de refrigeración. Es importante que a veces la longitud de los cables sea más larga de lo necesario, por lo que están bien unidos con finos lazos de nylon. Si no es posible fijar la regla al cuerpo, el fabricante suministra almohadillas de montaje convenientes en cinta de doble cara. Los extremos se muerden cuidadosamente con cortadores laterales.

Luego, el panel frontal y el plano posterior se conectan utilizando los cables adecuados. Ahora puede continuar con la instalación de procesadores y otros elementos.

Instalación de la CPU


Esta operación es quizás la más sutil y requiere atención. Incluso hace 10 años, los procesadores tenían "patas" convenientes, y los zócalos eran una matriz de plástico con agujeros. Gracias a esto, fue suficiente simplemente insertar cuidadosamente el procesador en el zócalo y cerrar el pestillo. Comenzando con el zócalo LGA 775, los procesadores perdieron sus "patas", dejando solo almohadillas de contacto suaves. Los zócalos, por el contrario, ahora tienen contactos, pero son tan pequeños y frágiles que cualquier operación con la instalación del procesador debe ser lo más precisa posible.

Enchufe contemporáneo FCLGA3647

Procesador escalable Intel Xeon

Después de instalar los procesadores en su lugar, es el turno de instalar radiadores de enfriamiento. Como regla general, se usan radiadores pasivos, pero antes de esto, se aplica grasa térmica, una capa de material conductor de calor que separa el procesador y el radiador. Con mucha frecuencia, se usa una pasta de organosilicio como KPT-8 para esto.

Debe recordarse que la tarea principal de la pasta térmica es cerrar los defectos microscópicos tanto en la superficie del procesador como en la superficie del radiador, proporcionando la mayor área de contacto posible. Por lo tanto, se aplica en una capa muy delgada y uniforme. Para hacer esto, use una espátula especial o la antigua tarjeta de plástico innecesaria. Los excesos se eliminan con bastoncillos de algodón.

Instalación de RAM


Cada fabricante de placas base determina independientemente el orden correcto de instalación de los módulos RAM, dependiendo de su tipo y velocidad. Para Supermicro, este procedimiento de instalación se describe en las instrucciones para cada modelo de la placa base. Sin embargo, hay varias reglas bastante universales que funcionan en la mayoría de los casos:

  • no es deseable usar un número impar de lamas (relevante para los procesadores Intel Xeon en la línea E5);
  • la memoria debe asignarse canal por canal para que el sistema pueda usar todos los modos posibles de mecanismos de control;
  • en un servidor, es deseable usar memoria con la misma latencia, voltaje y frecuencia en el rango que admite la placa base.

Antes de la instalación, los ingenieros verifican que no haya partículas extrañas de polvo o papel en las ranuras. Si es necesario, se utiliza aire comprimido para la limpieza.

Instalación de unidades


Todo es simple aquí. Las unidades de disco se fijan en patines estándar y luego se insertan en el servidor. Si se pidieron controladores de disco o tarjetas de red adicionales, se instalan en las ranuras PCI-E correspondientes y se aseguran con tornillos. Después de que todo esté instalado en su lugar, el ingeniero del departamento de ensamblaje verifica una vez más el cumplimiento de todos los componentes con el pedido y envía el servidor al soporte para el firmware y las pruebas.

Gestión de cables


Tocamos temas como la gestión de cables dentro del servidor. Aquí también tienen sus propios matices, el principal de los cuales es el espacio limitado. La mayoría de los servidores están diseñados para ocupar un espacio mínimo en el rack. La altura de una unidad de montaje es de 43.7 mm. Debido a esto, el espacio para cables después de instalar la placa base y otros periféricos es bastante pequeño.

Dato curioso: una unidad de montaje en altura es exactamente igual a un vértice (antigua unidad de longitud rusa).

Siempre debe considerar que el aire debe pasar por el servidor sin obstáculos para enfriar los componentes de manera efectiva. Cualquier obstáculo en su camino empeorará la disipación de calor y, en consecuencia, aumentará el consumo de energía debido al aumento de la carga en el sistema de enfriamiento. Esto es especialmente importante para servidores con múltiples GPU, cuya temperatura bajo carga alcanza los 80 grados.

El flujo de aire se divide por igual entre todas las GPU

Por lo tanto, todos los cables están tendidos de tal manera que no bloqueen el paso del aire. Los excedentes con la ayuda de lazos se fijan a los ojos normales y, en caso de ausencia, a plataformas de plástico con cinta de doble cara.

Los cables están tendidos para no interferir con el paso del flujo de aire.

Firmware del componente


Para comenzar, responderemos una pregunta frecuente: ¿por qué es necesario? La respuesta es simple: este procedimiento es necesario para garantizar que todos los componentes del servidor funcionen sin errores, así como para aumentar el nivel de seguridad.

La mayoría de los componentes del servidor se crean con la expectativa de que puedan reprogramarse. Después de abandonar la línea de ensamblaje durante las pruebas y la operación, en la mayoría de los casos, se detectan errores y vulnerabilidades de software. Si no se proporcionara la posibilidad de reprogramar los componentes, para eliminar estos problemas de software, todos los productos tendrían que ser retirados del mercado. Fue mucho más barato crear la capacidad de reemplazar el firmware.

IPMI intermitente


El módulo de control remoto (IPMI / iLO / iDrac) es uno de los elementos más importantes del servidor. Es un microordenador independiente, que siempre funciona cuando hay voltaje de funcionamiento en la placa base.

Incluso cuando no hay componentes en el servidor, esta microcomputadora funciona, realizando la tarea de interpretar y ajustar los datos de los sensores del servidor. El módulo está estrechamente conectado con todos los subsistemas de administración de energía y le permite realizar casi cualquier operación de forma remota. Por lo tanto, el problema de seguridad al acceder a dicho dispositivo es muy grave. La actualización oportuna del firmware le permite proteger el módulo contra piratería.

La instalación del firmware generalmente se realiza directamente desde la interfaz web, pero en algunos casos se puede hacer a través de la red enviando el firmware con el software apropiado al módulo.

BIOS intermitente


El sistema básico de E / S, además del motivo de seguridad ya mencionado, requiere actualización para otro punto importante. El firmware del BIOS contiene microcódigos para procesadores compatibles con la placa base, así como microcódigos para interfaces de red y conjuntos de chips. Cuando sale una nueva versión del procesador, los fabricantes de placas base lanzan nuevas versiones de firmware que contienen el microcódigo requerido. Sin esto, el nuevo procesador simplemente no puede iniciarse.

Además, el lanzamiento del nuevo firmware previene conflictos derivados de la interacción de varios componentes (ambos integrados en la placa base y dispositivos de terceros). Junto con el firmware del BIOS, los módulos relacionados, como Intel ME (Management Engine), a menudo se actualizan.

Para no ser infundado, damos un ejemplo. Tome las placas base Supermicro X10SRi / X10DRi / X10DRW que admiten procesadores Intel Xeon E5-XXXXv3. Si coloca el procesador de la próxima versión E5-XXXXv4 allí, la placa se inicia, sin embargo, producirá errores extraños de la RAM "DIMM que falla" en diferentes ranuras. Y el problema aquí no está en la memoria, sino en el hecho de que el controlador de memoria está ubicado en el procesador. Por lo tanto, el reconocimiento incorrecto del procesador por parte de la placa base lleva al hecho de que surgen problemas similares. El parpadeo con un procesador compatible resuelve completamente esta situación.

En algunos casos, los fabricantes de equipos suspenden artificialmente el soporte para equipos más antiguos con modelos de placa base más nuevos. Un ejemplo sorprendente es la placa base Supermicro X11DPi, que con cualquier versión del firmware del BIOS no funcionará con los adaptadores HBA de la séptima serie . El controlador de disco simplemente no se inicializa, lo que hace que el servidor se congele por completo. Y en este momento este problema no tiene solución.

Controladores de disco intermitente


Los errores en el software de dispositivos tan importantes como los controladores de disco no solo pueden causar problemas, sino también convertirse en una fuente de problemas muy grandes. En la mayoría de los casos, el proceso es muy simple, el flasheo ocurre usando la utilidad nativa, integrada directamente en el controlador.

Debe recordarse que el antiguo firmware del controlador de disco no solo puede corregir errores, sino que también cambia radicalmente la forma en que se almacenan los metadatos. Para evitar situaciones desagradables y mantener intactos los datos, es imprescindible leer la lista de cambios realizados en la funcionalidad antes de realizar un flasheo. Esta información siempre está presente en el sitio web del fabricante del equipo y con mayor frecuencia se duplica en el archivo con el firmware en sí.

Tarjetas de red intermitentes


No menos problemas serios, extremadamente difíciles de diagnosticar, pueden entregar tarjetas de red con errores a nivel de firmware. Además de la solución de problemas, el software de la tarjeta de red puede afectar directamente el rendimiento. Por lo tanto, este es otro elemento obligatorio para los ingenieros que crean los servidores.

Es importante


Me gustaría señalar por separado que todas las operaciones con componentes intermitentes son potencialmente peligrosas para el equipo, por lo tanto, está permitido llevarlas a cabo solo por especialistas calificados. Si ya es nuestro cliente y ha descubierto la necesidad de volver a actualizar cualquier componente del servidor, en ningún caso intente hacerlo usted mismo . Simplemente escríbanos en el boleto qué componente debe actualizarse, y esto se hará con todas las precauciones.

Prueba


Una vez finalizada la actualización del software, el ingeniero de ensamblaje procede a probar el servidor ensamblado. Dichas pruebas le permiten identificar la mayoría de los problemas incluso antes de que el servidor se entregue al cliente.

Prueba de RAM


Para verificar la operatividad de todos los módulos RAM instalados en el servidor, se lanza una herramienta muy popular llamada memtester. Inmediatamente antes de la prueba, el ingeniero de compilación verifica que todos los módulos de memoria instalados en el servidor se muestren correctamente en el BIOS.

Cuando se inicia la prueba, el proceso de leer y escribir datos en la RAM se lleva a cabo utilizando una secuencia diferente de datos y el orden en que se llenan las celdas. La velocidad de ejecución de todas las pruebas depende directamente del volumen. Nuestros requisitos mínimos son un ciclo de inspección completo.

Si se detectan errores durante el proceso de prueba, buscamos un módulo RAM fallido y lo excluimos de la configuración, reemplazándolo por uno similar. Luego, el proceso de prueba se repite en su totalidad. Solo cuando todas las iteraciones de prueba se completan sin errores, el servidor pasa a las pruebas de resistencia.

Prueba de CPU y disco


La prueba de carga simula la carga máxima en el servidor durante al menos 6 horas para un servidor con unidades magnéticas. En el caso de las unidades de estado sólido, una prueba tan larga puede aumentar drásticamente el desgaste de la unidad, por lo que se realiza una prueba similar para ellos con un tiempo de ejecución más corto.

Las pruebas de carga para los procesadores Intel se llevan a cabo utilizando la utilidad original Intel IPDT (Herramienta de diagnóstico del procesador). Este proceso hace que la temperatura del procesador aumente a la temperatura de funcionamiento máxima permitida, y el sistema de enfriamiento debe eliminar de manera efectiva todo este calor. Los ingenieros de ensamblaje se aseguran constantemente de que el servidor pase esta prueba y que la temperatura de todos los componentes no exceda los límites de operación declarados.

Una vez completadas las pruebas, se verifican las configuraciones SMART de todas las unidades instaladas. Si al menos un parámetro declarado por el fabricante como razón para reemplazar la unidad no es cero, el disco se reemplaza por otro y también se prueba para eliminar la probabilidad de problemas en el "modo de combate".

Conclusión


Cada servidor de cualquier configuración alquilada por nosotros se verifica y prueba muchas veces, por lo que se pueden usar de forma segura para cualquier proyecto a la vez, sin perder tiempo en pruebas y comprobaciones repetidas. Cada servidor ordenado tendrá la versión de firmware más actualizada de cada componente, lo que brinda una buena protección contra vulnerabilidades y errores existentes.

Cuéntenos sobre su experiencia en la construcción o prueba de servidores. ¿Qué características interesantes has encontrado? Esperando tus historias en los comentarios.

Source: https://habr.com/ru/post/es422959/


All Articles