Escribir un emulador de máquinas recreativas es un gran proyecto educativo, y en este tutorial analizaremos muy detalladamente todo el proceso de desarrollo. ¿Realmente quieres poner tus manos en el procesador? Entonces crear un emulador es la mejor manera de aprenderlo.

Necesitará conocimiento de C, así como conocimiento de ensamblador. Si no conoce el lenguaje ensamblador, escribir un emulador es la mejor manera de aprenderlo. También necesitará dominar las matemáticas hexadecimales (también conocido como base 16 o simplemente "hexadecimal"). Hablaré sobre este tema.

Decidí elegir un emulador para la máquina Space Invaders, que usa el procesador 8080. Este juego y este procesador son muy populares, porque en Internet puedes encontrar mucha información sobre ellos. Lo necesitará para completar el proyecto.

Todo el código fuente del tutorial se carga en github . Si no ha dominado el trabajo con git, en la página de github hay un botón "Descargar ZIP" que le permite descargar el archivo con todo el código.

Introducción a los números binarios y hexadecimales.

En matemáticas "ordinarias", se utiliza el sistema de números decimales. Cada dígito del número puede tener un valor de cero a nueve, y cuando superamos el 9, agregamos uno al número en el siguiente dígito y comenzamos nuevamente desde cero. Todo esto es bastante simple y directo, y probablemente nunca lo pensaste.

Es posible que haya sabido o escuchado que las computadoras funcionan con datos binarios. Los geeks informáticos llaman matemática decimal base-10 y la llamada binaria base-2. En notación binaria, cada dígito de un número puede tener solo dos valores, cero o uno. En el código binario, el recuento es el siguiente: 0, 1, 10, 11, 100, 101, 110, 111, 1000. Estos no son números decimales, por lo que no puede llamarlos "cero, uno, diez, once, cien, ciento uno". Se pronuncian como "cero, uno, uno-cero, uno-uno, uno-cero-cero", etc. Raramente leo números binarios en voz alta, pero si es necesario, debe indicar claramente el sistema de números utilizado. Diez, once y cien no tienen significado en notación binaria.

En notación decimal, un número tiene los siguientes dígitos: unidades, decenas, cientos, miles, decenas de miles, etc. En el sistema binario, los siguientes dígitos: unidades, deuces, fours, ochos, etc. En informática, el valor de cada bit binario se llama bit. 8 bits forman un byte.

En términos binarios, una cadena de números rápidamente se vuelve muy larga. Para representar el número decimal 20,000 en términos binarios, se requieren 16 dígitos: 0b100111000100000. Para solucionar este problema, es conveniente usar un sistema de números hexadecimales, también conocido como base-16 (o hexadecimal). En base-16, cada dígito contiene 16 valores. Para valores de cero a nueve, se usan los mismos caracteres que en la base 10, pero para los 6 valores restantes, las sustituciones se usan en forma de las primeras 6 letras del alfabeto, de A a F.

La cuenta en el sistema hexadecimal se realiza de la siguiente manera: 0 1 2 3 4 5 6 7 8 9 ABCDEF 10 11 12, etc. En hexadecimal, decenas, cientos, etc. no tienen el mismo significado que en decimal, por lo que las personas pronuncian los números por separado. Por ejemplo, $ A57 se pronuncia en voz alta como "A-cinco-siete". Para mayor claridad, también puede agregar hexágono, por ejemplo, "A-cinco-siete-hex". En el sistema de números hexadecimales, el equivalente del número decimal 20,000 es $ 4E20, una forma mucho más compacta en comparación con los 16 bits del sistema binario.

Creo que el sistema hexadecimal fue elegido debido a una conversión muy natural de binario a hexadecimal y viceversa. Cada dígito hexadecimal corresponde a 4 bits (4 bits) de un número binario similar. 2 dígitos hexadecimales forman un byte (8 bits). Un solo dígito hexadecimal puede llamarse nibble, y algunas personas incluso lo escriben a través de y como "nybble".

Cada dígito hexadecimal tiene 4 dígitos binarios.
Maleficio	Un	5 5	7 7
Binario	1010	0101	0111

Al escribir el código C, se cree que el número es decimal (base-10), a menos que se marque lo contrario. Para decirle al compilador de C que el número es binario, agregamos el número cero y la letra b en minúscula, de esta manera: 0b1101101 . El número hexadecimal se puede escribir en código C agregando al principio de cero yx en minúsculas: 0xA57 . Algunos lenguajes de ensamblaje usan el signo de dólar $: $A57 para indicar un número hexadecimal.

Si lo piensa, la conexión entre números binarios, hexadecimales y decimales es bastante obvia, pero para el primer ingeniero, que había pensado en esto antes de la invención de la computadora, esto debería haberse convertido en un momento de comprensión.

Entendido todo esto? Genial

Una breve introducción al procesador.

Si ya lo sabe, puede saltarse la sección de forma segura.

Una unidad central de procesamiento (CPU) es una máquina diseñada para ejecutar programas. Los bloques fundamentales de la CPU son registros e instrucciones. Como desarrollador de software, puede tratar estos registros como variables. En nuestro procesador 8080, entre otros registros, hay registros de 8 bits llamados A, B, C, D y E. Estos registros se pueden interpretar como el siguiente código C:

 unsigned char A, B, C, D, E;

Todos los procesadores también tienen un contador de programas (Contador de programas, PC). Puedes tomarlo como un puntero.

 unsigned char* pc;

Para una CPU, un programa es una secuencia de números hexadecimales. Cada instrucción de lenguaje ensamblador en 8080 corresponde a 1-3 bytes en el programa. Para saber qué comando corresponde a qué número, es útil el manual del procesador (o cualquier otra información sobre el procesador 8080 de Internet).

Los nombres de los comandos (instrucciones) a menudo son mnemotécnicos de las operaciones realizadas por estos comandos. El mnemónico para cargar en 8080 es MOV (mover), y ADD se usa para realizar la adición.

Ejemplos

El valor de memoria actual indicado por el contador de instrucciones es 0x79. Esto cumple con la instrucción MOV A,C procesador 8080. Este código de ensamblaje en código C se parece a A=C; .

Si, en cambio, el valor en la PC sería 0x80, entonces el procesador ejecutaría ADD B En C, esto corresponde a la cadena A = A + B; .

Puede encontrar una lista completa de las instrucciones del procesador 8080 aquí . Para implementar nuestro emulador, utilizaremos esta información.

Tiempos

En la CPU, la ejecución de cada instrucción requiere una cierta cantidad de tiempo (sincronización), medida en ciclos. En los procesadores modernos, esta información puede ser difícil de obtener, porque los tiempos dependen de muchos aspectos diferentes. Pero en procesadores más antiguos como el 8080, los tiempos son constantes y el fabricante del procesador suele proporcionar esta información. Por ejemplo, una instrucción de transferencia de registro a registro MOV toma 1 ciclo.

La información de tiempo es útil para escribir código eficiente en el procesador. Un programador puede tratar de evitar las instrucciones que tardan muchos ciclos en completarse.

Más importante para nosotros es que usaremos información de tiempo para emular el procesador. Para que el juego funcione de la misma manera que en el original, las instrucciones deben ejecutarse a la velocidad correcta. Algunos emuladores ponen mucho esfuerzo en esto, pero cuando lleguemos a esto, tendremos que decidir qué precisión queremos obtener.

Operaciones lógicas

Antes de cerrar el tema de los números binarios y hexadecimales, deberíamos hablar sobre operaciones lógicas. Probablemente ya esté acostumbrado a usar la lógica en su código, por ejemplo, en construcciones como if ((conditionA) and (conditionB)) . En los programas que funcionan directamente con hardware, a menudo tiene que manipular bits individuales de números.

Y operación

Aquí están todos los resultados posibles de la operación AND (AND) (tabla de verdad) entre dos números de un solo bit.

x	y	Resultado
0 0	0 0	0 0
0 0	1	0 0
1	0 0	0 0
1	1	1

El resultado de AND es igual a la unidad solo cuando ambos valores son iguales a la unidad. Cuando combinamos dos números con la operación AND, AND para cada bit de un número es AND con el bit correspondiente del otro número. El resultado se almacena en este bit del número de destino. Probablemente sea mejor solo mirar un ejemplo:

	binario								maleficio
fuente x	0 0	1	1	0 0	1	0 0	1	1	$ 6B
fuente y	1	1	0 0	1	0 0	0 0	1	0 0	$ D2
x e y	0 0	1	0 0	0 0	0 0	0 0	1	0 0	$ 42

En C, la operación AND lógica es un simple signo "&".

Operación OR (OR)

La operación OR funciona de manera similar. La única diferencia es que el resultado será igual a uno si al menos uno de los valores de x o y es igual a uno.

x	y	Resultado
0 0	0 0	0 0
0 0	1	1
1	0 0	1
1	1	1

	binario								maleficio
fuente x	0 0	1	1	0 0	1	0 0	1	1	$ 6B
fuente y	1	1	0 0	1	0 0	0 0	1	0 0	$ D2
x O y	1	1	1	1	1	0 0	1	1	$ Fb

En C, una operación OR lógica se indica mediante una barra vertical "|".

¿Por qué es esto importante?

En muchos procesadores más antiguos, y especialmente en máquinas recreativas, el juego a menudo requiere trabajar con solo una parte del número. A menudo hay un código similar:

  /*  1:     */ char *buttons_ptr = (char *)0x2043; char buttons = *buttons_ptr; if (buttons & 0x4) HandleLeftButton(); /*  2:  LED-    */ char * LED_pointer = (char *) 0x2089; char led = *LED_pointer; led = led | 0x40; //,  LED   6 *LED_pointer = led; /*  3:   LED- */ char * LED_pointer = (char *) 0x2089; char led = *LED_pointer; led = led & 0xBF; //  6 *LED_pointer = led;

En el ejemplo 1, la dirección $ 2043 asignada en la memoria es la dirección de los botones en el panel de control. Este código lee y responde al botón presionado. (¡Por supuesto, en Space Invaders este código estará en lenguaje ensamblador!)

En el ejemplo 2, el juego quiere encender un indicador LED, que se encuentra en el bit 6 de la dirección de $ 2089 asignada en la memoria. El código debe leer el valor existente, cambiar solo un bit y volver a escribirlo.

En el ejemplo 3, debe apagar el indicador del ejemplo 2, por lo que el código debe restablecer el bit 6 de la dirección $ 2089. Esto se puede hacer realizando la operación AND para el byte de control del indicador con un valor para el que solo el bit 6 es cero. Por lo tanto, afectaremos solo 6, dejando los bits restantes sin cambios.

Esto generalmente se llama una "máscara". En C, una máscara generalmente se escribe usando el operador NOT, denotado por una tilde ("~"). Por lo tanto, en lugar de escribir 0xBF , simplemente escribo ~0x40 y obtengo el mismo número, pero sin poner mucho esfuerzo.

Introducción al lenguaje ensamblador

Si lee este tutorial, probablemente esté familiarizado con la programación de computadoras, por ejemplo, en Java o Python. Estos lenguajes le permiten hacer mucho trabajo en solo unas pocas líneas de código. El código se considera hábilmente escrito si hace el mayor trabajo posible en la menor cantidad de líneas posible, posiblemente incluso utilizando la funcionalidad de las bibliotecas integradas. Tales lenguajes se llaman "lenguajes de alto nivel".

En lenguaje ensamblador, por el contrario, no hay funciones integradas para salvar vidas, y se pueden requerir muchas líneas de código simples para completar tareas simples. El lenguaje ensamblador se considera un lenguaje de bajo nivel. En él, debe acostumbrarse a pensar al estilo de "¿qué secuencia específica de pasos se deben tomar para completar esta tarea?"

Lo más importante que necesita saber sobre el lenguaje ensamblador es que cada línea se traduce en un comando de procesador.

Considere tal construcción del lenguaje C:

 int a = b + 100;

En lenguaje ensamblador, esta tarea deberá realizarse en la siguiente secuencia:

Cargue la dirección de la variable B en el registro 1
Cargue el contenido de esta dirección de memoria en el registro 2
Agregue valor directo 0x64 para registrar 2
Cargue la dirección de la variable A en el registro 1
Escriba el contenido del registro 2 en la dirección almacenada en el registro 1

En código, se verá más o menos así:

  lea a1, #$1000 ;   a lea a2, #$1008 ;   b move.l d0,(a2) add.l d0, #$64 mov (a1),d0

Vale la pena señalar lo siguiente:

En un lenguaje de alto nivel, el compilador decide dónde colocar las variables en la memoria. Al escribir código en ensamblador, usted mismo es responsable de cada dirección de memoria que utilizará.
En la mayoría de los lenguajes ensambladores, los corchetes significan "memoria en esta dirección".
En la mayoría de los lenguajes ensambladores, # denota un número algebraico, también llamado valor inmediato. Por ejemplo, en la línea 1 del ejemplo anterior, el código realmente escribe el valor # 0x1000 para registrar a1. Si el código se parece a move.l a1, ($1000) , entonces a1 recibiría el contenido de la memoria en la dirección 0x1000.
Cada procesador tiene su propio lenguaje ensamblador, y la transferencia de código de un procesador a otro puede ser difícil.
Este no es un lenguaje ensamblador de procesador real, se me ocurrió como ejemplo.

Sin embargo, hay una cosa en común entre los programadores inteligentes de alto nivel y los asistentes de ensamblador. Los programadores de ensambladores consideran un honor completar la tarea de la manera más eficiente posible y minimizar la cantidad de instrucciones utilizadas. El código para las máquinas recreativas generalmente está altamente optimizado y todos los jugos se exprimen de cada byte y ciclo extra.

Pilas

Hablemos un poco más sobre el lenguaje ensamblador. En cualquier programa de computadora bastante complejo en el ensamblador se utilizan subrutinas. La mayoría de las CPU tienen una estructura llamada pila.

Imagina una pila en forma de pila. Si necesitamos guardar un número, lo colocamos en la parte superior de la pila. Cuando necesitamos traerlo de vuelta, lo tomamos de la parte superior de la pila. Los programadores de ensambladores llaman "empujar" al número emergente en la pila, y al llamarlo emergente se llama "pop".

Digamos que mi programa necesita llamar a una subrutina. Puedo escribir un código similar:

  0x1000 move.l (sp), d0 ;  d0   0x1004 add.l sp, #4 ;     0x1008 move.l (sp), d1 ;  d1   0x1010 add.l sp, #4 ;  .. 0x1014 move.l (sp), a0 0x1018 add.l sp, #4 0x101C move.l (sp), a1 0x1020 add.l sp, #4 0x1024 move.l (sp), #0x1030 ;   0x1028 add.l sp, #4 0x102C jmp #0x2040 ;   - 0x2040 0x1030 move.l a1, (sp) ;    0x1034 sub.l sp, #4 ;    0x1038 move.l a0, (sp) ;    0x103c sub.l sp, #4  ..

El código que se muestra arriba empuja los valores d0, d1, a0 y a1 a la pila. La mayoría de los procesadores usan un puntero de pila. Este puede ser un registro regular, por convención utilizado como un puntero de pila, o un registro especial con funciones para ciertas instrucciones.

En los procesadores de la serie 68K, el puntero de la pila solo se determina por convención; de lo contrario, es un registro regular. En nuestro procesador 8080, el registro SP es un registro especial. Tiene comandos PUSH y POP que escriben y salen de la pila en un solo comando.

En nuestro proyecto de emulador, no escribiremos código desde cero. Pero si necesita analizar programas en lenguaje ensamblador, entonces es bueno aprender a reconocer tales construcciones.

Idiomas de alto nivel

Al escribir un programa en un lenguaje de alto nivel, todas las operaciones de guardar y restaurar registros se realizan con cada llamada de función. No pensamos en ellos, porque el compilador los trata. Las llamadas a funciones en un lenguaje de alto nivel pueden ocupar mucha memoria y tiempo de procesador.

¿Alguna vez ha experimentado un bloqueo de un programa al llamar a una subrutina en un bucle infinito? Esto puede suceder porque cada llamada a la función introdujo valores de registro en la pila, y en algún momento la memoria se agotó. (Si la pila crece demasiado, esto se llama desbordamiento de pila o desbordamiento de pila).

Es posible que haya oído hablar de las funciones en línea. Evitan guardar y restaurar registros al incluir el código de rutina en la función de llamada. El código se hace más grande, pero gracias a esto, se guardan varios comandos y operaciones de lectura / escritura en la memoria.

Convenciones de llamadas

Al escribir un programa ensamblador que solo llame a su código, puede decidir por sí mismo cómo se comunicarán las rutinas entre sí. Por ejemplo, ¿cómo vuelvo a la función de llamada una vez que se completa la rutina? Una forma es escribir la dirección del remitente en un registro específico. El otro es colocar la dirección de retorno en la parte superior de la pila. Muy a menudo, la decisión depende de lo que admita el procesador. El 8080 tiene un comando CALL que empuja la dirección de retorno de una función a la pila. Quizás utilizará este comando 8080 para implementar llamadas de subrutina.

Se debe tomar una decisión más. ¿La preservación del registro es responsabilidad de la función o subrutina que llama? En el ejemplo anterior, la función de llamada almacena los registros. Pero, ¿y si tenemos 32 registros? Guardar y restaurar 32 registros cuando una rutina usa solo una pequeña fracción de ellos será una pérdida de tiempo.

La compensación puede ser un enfoque mixto. Supongamos que elegimos una política en la que una rutina puede usar los registros r10-r32 sin guardar su contenido, pero no puede destruir r1-r9. En una situación similar, la función de llamada sabe lo siguiente:

Al regresar de una función, el contenido de r1-r9 permanecerá sin cambios.
No puedo depender del contenido de r10-r32
Si necesito un valor en r10-r32 después de llamar a una subrutina, entonces antes de llamarlo necesito guardarlo en algún lugar

Del mismo modo, cada rutina sabe lo siguiente:

Puedo destruir r10-r32
Si quiero usar r1-r9, entonces necesito guardar el contenido y restaurarlo antes de volver a la función que me llamó

Abi

En la mayoría de las plataformas modernas, dichas políticas son creadas por ingenieros y publicadas en documentos llamados ABI (Application Binary Interface). Gracias a este documento, los creadores del compilador saben cómo compilar código que puede llamar al código compilado por otros compiladores. Si desea escribir código de ensamblador que pueda funcionar en dicho entorno, entonces necesita conocer ABI y escribir código de acuerdo con él.

Conocer ABI también ayuda a depurar código cuando no tiene acceso a la fuente. El ABI define la ubicación de los parámetros para las funciones, por lo que al considerar cualquier subprograma, puede examinar estas direcciones para comprender qué se pasa a las funciones.

De vuelta al emulador

La mayoría del código de ensamblaje escrito a mano, especialmente para los procesadores y juegos arcade más antiguos, no sigue ABI. Los programas están ensamblados y pueden no tener muchas rutinas. Cada rutina guarda y restaura registros solo en caso de emergencia.

Si desea comprender lo que hace el programa, sería bueno comenzar marcando las direcciones que están destinadas a los comandos CALL.

Creación de una máquina arcade emulador. Parte 1