♓️ 🚏 🎢 Ecuación de Navier-Stokes y simulación de fluidos en CUDA 🧑🏼‍🤝‍🧑🏻 👉🏽 🔅

Hola Habr En este artículo, trataremos la ecuación de Navier-Stokes para un fluido incompresible, lo resolveremos numéricamente y haremos una hermosa simulación que funciona mediante computación paralela en CUDA. El objetivo principal es mostrar cómo puede aplicar las matemáticas subyacentes a la ecuación en la práctica al resolver el problema de modelar líquidos y gases.

Advertencia

El artículo contiene muchas matemáticas, por lo que aquellos que estén interesados en el aspecto técnico del problema pueden ir directamente a la sección de implementación del algoritmo. Sin embargo, aún le recomendaría que lea el artículo completo y trate de comprender el principio de la solución. Si tiene alguna pregunta al final de la lectura, me complacerá responderla en los comentarios a la publicación.

Nota: si está leyendo el Habr desde un dispositivo móvil y no ve las fórmulas, use la versión completa del sitio

Ecuación de Navier-Stokes para un fluido incompresible

${\ partial {\ bf \ vec {u}} \ over {\ partial t}} = - ({\ bf \ vec {u}} \ cdot \ nabla) {\ bf \ vec {u}} - {1 \ over \ rho} \ nabla {\ bf p} + \ nu \ nabla ^ 2 {\ bf \ vec {u}} + {\ bf \ vec {F}}$

Creo que todos al menos una vez escucharon acerca de esta ecuación, algunos, quizás incluso resolvieron analíticamente sus casos particulares, pero en términos generales, este problema sigue sin resolverse hasta ahora. Por supuesto, no establecemos el objetivo de resolver el problema del milenio en este artículo, sin embargo, aún podemos aplicarle el método iterativo. Pero para empezar, veamos la notación en esta fórmula.

Convencionalmente, la ecuación de Navier-Stokes se puede dividir en cinco partes:

$\ partial {\ bf \ vec {u}} \ over \ partial t$ - denota la tasa de cambio de la velocidad del fluido en un punto (lo consideraremos para cada partícula en nuestra simulación).
$- ({\ bf \ vec {u}} \ cdot \ nabla) {\ bf \ vec {u}}$ - el movimiento de fluidos en el espacio.
$- {1 \ over \ rho} \ nabla {\ bf p}$ Es la presión ejercida sobre la partícula (aquí $\ rho$ - coeficiente de densidad del fluido).
$\ nu \ nabla ^ 2 {\ bf \ vec {u}}$ - viscosidad del medio (cuanto más grande es, más fuerte es el líquido que resiste la fuerza aplicada a su parte), $\ nu$ - coeficiente de viscosidad).
$\ bf \ vec {F}$ - fuerzas externas que aplicamos al fluido (en nuestro caso, la fuerza desempeñará un papel muy específico: reflejará las acciones realizadas por el usuario).

Además, dado que consideraremos el caso de un fluido incompresible y homogéneo, tenemos otra ecuación:

${{\ \ nabla \ cdot \ bf \ vec {u}} = 0}$ . La energía en el medio ambiente es constante, no va a ninguna parte, no viene de ninguna parte.

Sería un error privar a todos los lectores que no están familiarizados con el análisis vectorial , por lo que al mismo tiempo, revise brevemente todos los operadores que están presentes en la ecuación (sin embargo, recomiendo recordar cuáles son la derivada, el diferencial y el vector, ya que subyacen a todo eso). lo que se discutirá a continuación).

Comenzamos con el operador nabla, que es un vector de este tipo (en nuestro caso, será de dos componentes, ya que modelaremos el fluido en un espacio bidimensional):

$\ nabla = {\ begin {pmatrix} {\ partial \ over \ partial x}, {\ partial \ over \ partial y} \ end {pmatrix}}$

El operador nabla es un operador diferencial de vectores y puede aplicarse tanto a una función escalar como a una función vectorial. En el caso de un escalar, obtenemos el gradiente de la función (el vector de sus derivadas parciales) y, en el caso de un vector, la suma de las derivadas parciales a lo largo de los ejes. La característica principal de este operador es que a través de él puede expresar las operaciones principales del análisis vectorial: grad ( gradiente ), div ( divergencia ), podredumbre ( rotor ) y

$\ nabla ^ 2$ ( Operador de Laplace ). Vale la pena señalar de inmediato que la expresión

$({\ bf \ vec {u} \ cdot \ nabla}) {\ bf \ vec {u}}$ no es equivalente a

$({\ nabla \ cdot \ bf \ vec {u}}) {\ bf \ vec {u}}$ - el operador nabla no tiene conmutatividad.

Como veremos más adelante, estas expresiones se simplifican notablemente cuando se mueven a un espacio discreto en el que realizaremos todos los cálculos, así que no se alarme si en este momento no tiene muy claro qué hacer con todo esto. Después de dividir la tarea en varias partes, resolveremos sucesivamente cada una de ellas y presentaremos todo esto en forma de la aplicación secuencial de varias funciones a nuestro entorno.

Solución numérica de la ecuación de Navier-Stokes

Para representar nuestro fluido en el programa, necesitamos obtener una representación matemática del estado de cada partícula de fluido en un punto arbitrario en el tiempo. El método más conveniente para esto es crear un campo vectorial de partículas que almacenen su estado en forma de un plano de coordenadas:

imagen

En cada celda de nuestra matriz bidimensional, almacenaremos la velocidad de las partículas a la vez

$t: {\ bf \ vec {u}} = u ({\ bf \ vec {x}}, t), \ bf \ vec {x} = \ begin {pmatrix} x, y \ end {pmatrix}$ , y la distancia entre partículas se denota por

$\ delta x$ y

$\ delta y$ en consecuencia En el código, será suficiente para nosotros cambiar el valor de la velocidad en cada iteración, resolviendo un conjunto de varias ecuaciones.

Ahora expresamos el gradiente, la divergencia y el operador de Laplace teniendo en cuenta nuestra cuadrícula de coordenadas (

$i, j$ - índices en la matriz,

$\ bf \ vec {u} _ {(x)}, \ vec {u} _ {(y)}$ - tomando los componentes correspondientes del vector):

Operador	Definición	Analógico discreto
grad	$\ nabla \ bf p = \ begin {pmatrix} {\ partial \ bf p \ over \ partial x}, {\ partial \ bf p \ over \ partial y} \ end {pmatrix}$	${{p_ {i + 1, j}} - {p_ {i - 1, j}} \ over {2 \ delta x}}, {{p_ {i, j + 1}} - {p_ {i, j - 1}} \ over {2 \ delta y}}$
div	$\ nabla \ cdot \ bf \ vec {u} = {{\ partial u \ over \ partial x} + {\ partial u \ over \ partial y}}$	${{\ \ vec {u} _ {(x) i + 1, j} - \ vec {u} _ {(x) i - 1, j}} \ over {2 \ delta x}} + {{\ vec {u} _ {(y) i, j + 1} - \ vec {u} _ {(y) i, j - 1}} \ over {2 \ delta y}}$
$\ bf \ Delta$	$\ bf \ nabla ^ 2p = {\ partial ^ 2 p \ over \ partial x ^ 2} + {\ partial ^ 2 p \ over \ partial y ^ 2}$	${{p_ {i + 1, j} -2p_ {i, j} + p_ {i - 1, j}} \ over (\ delta x) ^ 2} + {{p_ {i, j + 1} - 2p_ {i, j} + p_ {i, j - 1}} \ over (\ delta y) ^ 2}$
pudrirse	$\ bf \ nabla \ times \ vec {u} = {{\ partial \ vec {u} \ over \ partial y} - {\ partial \ vec {u} \ over \ partial x}}$	${\ vec {u} _ {(y) i, j + 1} - \ vec {u} _ {(y) i, j - 1} \ over 2 \ delta y} - {\ vec {u} _ {(x) i + 1, j} - \ vec {u} _ {(x) i - 1, j} \ over 2 \ delta x}$

Podemos simplificar aún más las fórmulas discretas de los operadores de vectores si suponemos que

$\ delta x = \ delta y = 1$ . Esta suposición no afectará en gran medida la precisión del algoritmo, sin embargo, reduce el número de operaciones por iteración y, en general, hace que las expresiones sean más agradables a la vista.

Movimiento de partículas

Estas declaraciones solo funcionan si podemos encontrar las partículas más cercanas en relación con la que se está considerando en este momento. Para anular todos los costos posibles asociados con su búsqueda, no rastrearemos su movimiento, sino de dónde provienen las partículas al comienzo de la iteración proyectando la trayectoria del movimiento hacia atrás en el tiempo (en otras palabras, reste el vector de velocidad multiplicado por el cambio de tiempo desde posición actual). Usando esta técnica para cada elemento de la matriz, nos aseguraremos de que cualquier partícula tenga "vecinos":

imagen

Poniendo eso

$q$ - un elemento de matriz que almacena el estado de la partícula, obtenemos la siguiente fórmula para calcular su estado a lo largo del tiempo

$\ delta t$ (creemos que todos los parámetros necesarios en forma de aceleración y presión ya se han calculado):

$q ({{\ \ vec {\ bf x}}, t + \ delta t}) = q ({{\ \ bf \ vec {x}} - {\ bf \ vec {u}} \ delta t}, t) $$

Notamos de inmediato que para lo suficientemente pequeño

$\ delta t$ y nunca podemos ir más allá de los límites de la célula, por lo tanto, es muy importante elegir el momento correcto que el usuario dará a las partículas.

Para evitar la pérdida de precisión en el caso de que una proyección golpee el límite de la celda o en el caso de coordenadas no enteras, realizaremos la interpolación bilineal de los estados de las cuatro partículas más cercanas y la tomaremos como el valor verdadero en el punto. En principio, dicho método prácticamente no reducirá la precisión de la simulación y, al mismo tiempo, es bastante simple de implementar, por lo que lo utilizaremos.

Viscosidad

Cada líquido tiene una cierta viscosidad, la capacidad de evitar la influencia de fuerzas externas en sus partes (la miel y el agua serán un buen ejemplo, en algunos casos sus coeficientes de viscosidad difieren en un orden de magnitud). La viscosidad afecta directamente la aceleración adquirida por el líquido, y puede expresarse mediante la siguiente fórmula, si por brevedad omitimos otros términos por un tiempo:

${\ partial \ vec {\ bf u} \ over \ partial t} = {\ nu \ nabla ^ 2 \ bf \ vec {u}}$

. En este caso, la ecuación iterativa para velocidad toma la siguiente forma:

$u ({\ bf \ vec {x}}, t + \ delta t) = u ({\ bf \ vec {x}}, t) + \ nu \ delta t \ nabla ^ 2 \ bf \ vec {u }$

Transformaremos ligeramente esta igualdad, llevándola a la forma

$\ bf A \ vec {x} = \ vec {b}$ (forma estándar de un sistema de ecuaciones lineales):

$({\ bf I} - \ nu \ delta t \ nabla ^ 2) u ({\ bf \ vec {x}}, t + \ delta t) = {u ({\ bf \ vec {x}}, t )}$

donde

$\ bf I$ Es la matriz de identidad. Necesitamos tales transformaciones para aplicar posteriormente el método de Jacobi para resolver varios sistemas de ecuaciones similares. También lo discutiremos más tarde.

Fuerzas externas

El paso más simple del algoritmo es la aplicación de fuerzas externas al medio. Para el usuario, esto se reflejará en forma de clics en la pantalla con el mouse o su movimiento. La fuerza externa se puede describir mediante la siguiente fórmula, que aplicamos para cada elemento de la matriz (

$\ vec {\ bf G}$ - vector de impulso

$x_p, y_p$ - posición del mouse

$x, y$ - coordenadas de la celda actual,

$r$ - radio de acción, parámetro de escala):

$\ vec {\ bf F} = \ vec {\ bf G} \ delta t {\ bf exp} \ left (- {{(x - x_p) ^ 2 + (y - y_p) ^ 2} \ over r} \ right)$

Un vector de impulso puede calcularse fácilmente como la diferencia entre la posición anterior del mouse y la actual (si existiera), y aquí todavía puede ser creativo. Es en esta parte del algoritmo que podemos introducir la adición de colores a un líquido, su iluminación, etc. Las fuerzas externas también pueden incluir la gravedad y la temperatura, y aunque no es difícil implementar tales parámetros, no los consideraremos en este artículo.

Presión

La presión en la ecuación de Navier-Stokes es la fuerza que impide que las partículas llenen todo el espacio disponible después de aplicarles una fuerza externa. Inmediatamente, su cálculo es muy difícil, pero nuestro problema puede simplificarse enormemente aplicando el teorema de descomposición de Helmholtz .

Llamar

$\ bf \ vec {W}$ campo vectorial obtenido después de calcular el desplazamiento, las fuerzas externas y la viscosidad. Tendrá divergencia distinta de cero, lo que contradice la condición de incompresibilidad del líquido (

$\ nabla \ cdot \ bf \ vec {u} = 0$ ), y para solucionar esto, es necesario calcular la presión. De acuerdo con el teorema de descomposición de Helmholtz,

$\ bf \ vec {W}$ se puede representar como la suma de dos campos:

$\ bf \ vec {W} = \ vec {u} + \ nabla p$

donde

$\ bf u$ - este es el campo vectorial que estamos buscando con divergencia cero. No se proporcionará ninguna prueba de esta igualdad en este artículo, pero al final puede encontrar un enlace con una explicación detallada. Podemos aplicar el operador nabla a ambos lados de la expresión para obtener la siguiente fórmula para calcular el campo de presión escalar:

$\ nabla \ cdot \ bf \ vec {W} = \ nabla \ cdot (\ vec {u} + \ nabla p) = \ nabla \ cdot \ vec {u} + \ nabla ^ 2 p = \ nabla ^ 2 p $$

La expresión escrita arriba es la ecuación de Poisson para la presión. También podemos resolverlo mediante el método de Jacobi mencionado anteriormente, y así encontrar la última variable desconocida en la ecuación de Navier-Stokes. En principio, los sistemas de ecuaciones lineales pueden resolverse en una variedad de formas diferentes y sofisticadas, pero aún nos detendremos en las más simples, para no cargar más este artículo.

Límite y condiciones iniciales

Cualquier ecuación diferencial modelada en un dominio finito requiere condiciones iniciales o límites correctamente especificadas, de lo contrario es muy probable que obtengamos un resultado físicamente incorrecto. Las condiciones límite se establecen para controlar el comportamiento del fluido cerca de los bordes de la cuadrícula de coordenadas, y las condiciones iniciales especifican los parámetros que tienen las partículas en el momento en que comienza el programa.

Las condiciones iniciales serán muy simples: inicialmente el fluido es estacionario (la velocidad de las partículas es cero) y la presión también es cero. Las condiciones de contorno se establecerán para la velocidad y la presión mediante las fórmulas dadas:

${\ bf \ vec {u} _ {0, j} + \ bf \ vec {u} _ {1, j} \ over 2 \ delta y} = 0, {\ bf \ vec {u} _ {i , 0} + \ bf \ vec {u} _ {i, 1} \ over 2 \ delta x} = 0$

${\ bf p_ {0, j} - \ bf p_ {1, j} \ over \ delta x} = 0, {\ bf p_ {i, 0} - \ bf p_ {i, 1} \ over \ delta y} = 0$

Por lo tanto, la velocidad de las partículas en los bordes será opuesta a la velocidad en los bordes (por lo tanto, se repelerán desde el borde), y la presión es igual al valor inmediatamente al lado del límite. Estas operaciones deben aplicarse a todos los elementos delimitadores de la matriz (por ejemplo, hay un tamaño de cuadrícula

$N \ veces M$ , luego aplicamos el algoritmo para las celdas marcadas en azul en la figura):

imagen

Tinte

Con lo que tenemos ahora, ya puedes encontrar muchas cosas interesantes. Por ejemplo, para darse cuenta de la propagación del tinte en un líquido. Para hacer esto, solo necesitamos mantener otro campo escalar, que sería responsable de la cantidad de pintura en cada punto de la simulación. La fórmula para actualizar el tinte es muy similar a la velocidad, y se expresa como:

${\ partial d \ over \ partial t} = {- (\ vec {\ bf u} \ cdot \ nabla) d} + \ gamma \ nabla ^ 2d + S$

En la formula

$S$ responsable de reponer el área con un tinte (posiblemente según dónde haga clic el usuario),

$d$ directamente es la cantidad de tinte en el punto, y

$\ gamma$ - coeficiente de difusión. Resolverlo no es difícil, ya que todo el trabajo básico sobre la derivación de fórmulas ya se ha llevado a cabo, y es suficiente para hacer algunas sustituciones. La pintura se puede implementar en el código como un color en el formato RGB, y en este caso la tarea se reduce a operaciones con varios valores reales.

Vorticidad

La ecuación de vorticidad no es una parte directa de la ecuación de Navier-Stokes, pero es un parámetro importante para una simulación plausible del movimiento de un tinte en un líquido. Debido al hecho de que estamos produciendo un algoritmo en un campo discreto, así como debido a pérdidas en la precisión de los valores de punto flotante, este efecto se pierde y, por lo tanto, necesitamos restaurarlo aplicando fuerza adicional a cada punto en el espacio. El vector de esta fuerza se designa como

$\ bf \ vec {T}$ y está determinado por las siguientes fórmulas:

$\ bf \ omega = \ nabla \ times \ vec {u}$

$\ vec {\ eta} = \ nabla | \ omega |$

$\ bf \ vec {\ psi} = {\ vec {\ eta} \ over {| \ vec {\ eta} |}}$

$\ bf \ vec {T} = \ epsilon (\ vec {\ psi} \ times \ omega) \ delta x$

$\ omega$ existe el resultado de aplicar el rotor al vector de velocidad (su definición se da al comienzo del artículo),

$\ vec \ eta$ - gradiente del campo escalar de valores absolutos

$\ omega$ .

$\ vec \ psi$ representa un vector normalizado

$\ vec \ eta$ y

$\ epsilon$ Es una constante que controla qué tan grandes serán los vórtices en nuestro fluido.

Método de Jacobi para resolver sistemas de ecuaciones lineales.

Al analizar las ecuaciones de Navier-Stokes, encontramos dos sistemas de ecuaciones, uno para la viscosidad y el otro para la presión. Se pueden resolver mediante un algoritmo iterativo, que se puede describir mediante la siguiente fórmula iterativa:

$x ^ {(k + 1)} _ {i, j} = {{x ^ {(k)} _ {i-1, j} + x ^ {(k)} _ {i + 1, j} + x ^ {(k)} _ {i, j-1} + x ^ {(k)} _ {i, j + 1} + \ alpha b_ {i, j}} \ over \ beta}$

Para nosotros

$x$ - elementos de matriz que representan un campo escalar o vectorial.

$k$ - el número de iteración, podemos ajustarlo para aumentar la precisión del cálculo o viceversa para reducirlo y aumentar la productividad.

Para calcular la viscosidad, sustituimos:

$x = b = \ bf \ vec {u}$ ,

$\ alpha = {1 \ over \ nu \ delta t}$ ,

$\ beta = 4+ \ alpha$ aquí está el parámetro

$\ beta$ - la suma de los pesos. Por lo tanto, necesitamos almacenar al menos dos campos de velocidad vectorial para leer independientemente los valores de un campo y escribirlos en otro. En promedio, para calcular el campo de velocidad por el método de Jacobi, es necesario realizar 20-50 iteraciones, lo cual es bastante si realizamos cálculos en la CPU.

Para la ecuación de presión, hacemos la siguiente sustitución:

$x = p$ ,

$b = \ nabla \ bf \ cdot \ vec {W}$ ,

$\ alpha = -1$ ,

$\ beta = 4$ . Como resultado, obtenemos el valor

$p_ {i, j} \ delta t$ en el punto Pero dado que se usa solo para calcular el gradiente restado del campo de velocidad, se pueden omitir transformaciones adicionales. Para el campo de presión, es mejor realizar 40-80 iteraciones, porque con números más pequeños la discrepancia se hace notable.

Implementación de algoritmo

Implementaremos el algoritmo en C ++, también necesitamos Cuda Toolkit (puede leer cómo instalarlo en el sitio web de Nvidia), así como SFML . Necesitamos CUDA para paralelizar el algoritmo, y SFML se usará solo para crear una ventana y mostrar una imagen en la pantalla (en principio, esto se puede escribir en OpenGL, pero la diferencia en el rendimiento no será significativa, pero el código aumentará en otras 200 líneas).

Kit de herramientas de Cuda

Primero, hablaremos un poco sobre cómo usar Cuda Toolkit para paralelizar tareas. Nvidia proporciona una guía más detallada , por lo que aquí nos restringimos solo a lo más necesario. También se supone que pudo instalar el compilador y que fue capaz de construir un proyecto de prueba sin errores.

Para crear una función que se ejecute en la GPU, primero debe declarar cuántos núcleos queremos usar y cuántos bloques de núcleos debemos asignar. Para esto, Cuda Toolkit nos proporciona una estructura especial: dim3 , que establece de forma predeterminada todos sus valores x, y, z en 1. Al especificarlo como argumento al llamar a la función, podemos controlar el número de núcleos asignados. Como estamos trabajando con una matriz bidimensional, necesitamos establecer solo dos campos en el constructor: x e y :

dim3 threadsPerBlock(x_threads, y_threads); dim3 numBlocks(size_x / x_threads, y_size / y_threads);

donde size_x y size_y son el tamaño de la matriz que se procesa. La firma y la llamada a la función son las siguientes (el compilador Cuda procesa los corchetes angulares triples):

 void __global__ deviceFunction(); // declare deviceFunction<<<numBlocks, threadsPerBlock>>>(); // call from host

En la función en sí, puede restaurar los índices de una matriz bidimensional a través del número de bloque y el número de núcleo en este bloque utilizando la siguiente fórmula:

 int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y;

Debe tenerse en cuenta que la función ejecutada en la tarjeta de video debe estar marcada con la etiqueta __global__ , y también devolver nula , por lo que la mayoría de las veces los resultados del cálculo se escriben en la matriz que se pasa como argumento y se asignan previamente en la memoria de la tarjeta de video.

Las funciones CudaMalloc y CudaFree son responsables de liberar y asignar memoria en la tarjeta de video. Podemos operar en punteros al área de memoria que devuelven, pero no podemos acceder a los datos desde el código principal. La forma más fácil de devolver los resultados del cálculo es usar cudaMemcpy , similar a la memoria estándar, pero capaz de copiar datos de una tarjeta de video a la memoria principal y viceversa.

SFML y renderizado de ventanas

Armados con todo este conocimiento, finalmente podemos pasar a escribir código directamente. Para comenzar, creemos el archivo main.cpp y coloquemos todo el código auxiliar para el renderizado de la ventana:

main.cpp

 #include <SFML/Graphics.hpp> #include <chrono> #include <cstdlib> #include <cmath> //SFML REQUIRED TO LAUNCH THIS CODE #define SCALE 2 #define WINDOW_WIDTH 1280 #define WINDOW_HEIGHT 720 #define FIELD_WIDTH WINDOW_WIDTH / SCALE #define FIELD_HEIGHT WINDOW_HEIGHT / SCALE static struct Config { float velocityDiffusion; float pressure; float vorticity; float colorDiffusion; float densityDiffusion; float forceScale; float bloomIntense; int radius; bool bloomEnabled; } config; void setConfig(float vDiffusion = 0.8f, float pressure = 1.5f, float vorticity = 50.0f, float cDiffuion = 0.8f, float dDiffuion = 1.2f, float force = 1000.0f, float bloomIntense = 25000.0f, int radius = 100, bool bloom = true); void computeField(uint8_t* result, float dt, int x1pos = -1, int y1pos = -1, int x2pos = -1, int y2pos = -1, bool isPressed = false); void cudaInit(size_t xSize, size_t ySize); void cudaExit(); int main() { cudaInit(FIELD_WIDTH, FIELD_HEIGHT); srand(time(NULL)); sf::RenderWindow window(sf::VideoMode(WINDOW_WIDTH, WINDOW_HEIGHT), ""); auto start = std::chrono::system_clock::now(); auto end = std::chrono::system_clock::now(); sf::Texture texture; sf::Sprite sprite; std::vector<sf::Uint8> pixelBuffer(FIELD_WIDTH * FIELD_HEIGHT * 4); texture.create(FIELD_WIDTH, FIELD_HEIGHT); sf::Vector2i mpos1 = { -1, -1 }, mpos2 = { -1, -1 }; bool isPressed = false; bool isPaused = false; while (window.isOpen()) { end = std::chrono::system_clock::now(); std::chrono::duration<float> diff = end - start; window.setTitle("Fluid simulator " + std::to_string(int(1.0f / diff.count())) + " fps"); start = end; window.clear(sf::Color::White); sf::Event event; while (window.pollEvent(event)) { if (event.type == sf::Event::Closed) window.close(); if (event.type == sf::Event::MouseButtonPressed) { if (event.mouseButton.button == sf::Mouse::Button::Left) { mpos1 = { event.mouseButton.x, event.mouseButton.y }; mpos1 /= SCALE; isPressed = true; } else { isPaused = !isPaused; } } if (event.type == sf::Event::MouseButtonReleased) { isPressed = false; } if (event.type == sf::Event::MouseMoved) { std::swap(mpos1, mpos2); mpos2 = { event.mouseMove.x, event.mouseMove.y }; mpos2 /= SCALE; } } float dt = 0.02f; if (!isPaused) computeField(pixelBuffer.data(), dt, mpos1.x, mpos1.y, mpos2.x, mpos2.y, isPressed); texture.update(pixelBuffer.data()); sprite.setTexture(texture); sprite.setScale({ SCALE, SCALE }); window.draw(sprite); window.display(); } cudaExit(); return 0; }

línea al comienzo de la función principal

 std::vector<sf::Uint8> pixelBuffer(FIELD_WIDTH * FIELD_HEIGHT * 4);

crea una imagen RGBA en forma de una matriz unidimensional con una longitud constante. Lo pasaremos junto con otros parámetros (posición del mouse, diferencia entre cuadros) a la función computeField . Estas últimas, así como varias otras funciones, se declaran en kernel.cu y llaman al código ejecutado en la GPU. Puede encontrar documentación sobre cualquiera de las funciones en el sitio web de SFML, no sucede nada muy interesante en el código del archivo, por lo que no nos detendremos allí por mucho tiempo.

Computación GPU

Para comenzar a escribir código en gpu, primero cree un archivo kernel.cu y defina varias clases auxiliares en él: Color3f, Vec2, Config, SystemConfig :

kernel.cu (estructuras de datos)

 struct Vec2 { float x = 0.0, y = 0.0; __device__ Vec2 operator-(Vec2 other) { Vec2 res; res.x = this->x - other.x; res.y = this->y - other.y; return res; } __device__ Vec2 operator+(Vec2 other) { Vec2 res; res.x = this->x + other.x; res.y = this->y + other.y; return res; } __device__ Vec2 operator*(float d) { Vec2 res; res.x = this->x * d; res.y = this->y * d; return res; } }; struct Color3f { float R = 0.0f; float G = 0.0f; float B = 0.0f; __host__ __device__ Color3f operator+ (Color3f other) { Color3f res; res.R = this->R + other.R; res.G = this->G + other.G; res.B = this->B + other.B; return res; } __host__ __device__ Color3f operator* (float d) { Color3f res; res.R = this->R * d; res.G = this->G * d; res.B = this->B * d; return res; } }; struct Particle { Vec2 u; // velocity Color3f color; }; static struct Config { float velocityDiffusion; float pressure; float vorticity; float colorDiffusion; float densityDiffusion; float forceScale; float bloomIntense; int radius; bool bloomEnabled; } config; static struct SystemConfig { int velocityIterations = 20; int pressureIterations = 40; int xThreads = 64; int yThreads = 1; } sConfig; void setConfig( float vDiffusion = 0.8f, float pressure = 1.5f, float vorticity = 50.0f, float cDiffuion = 0.8f, float dDiffuion = 1.2f, float force = 5000.0f, float bloomIntense = 25000.0f, int radius = 500, bool bloom = true ) { config.velocityDiffusion = vDiffusion; config.pressure = pressure; config.vorticity = vorticity; config.colorDiffusion = cDiffuion; config.densityDiffusion = dDiffuion; config.forceScale = force; config.bloomIntense = bloomIntense; config.radius = radius; config.bloomEnabled = bloom; } static const int colorArraySize = 7; Color3f colorArray[colorArraySize]; static Particle* newField; static Particle* oldField; static uint8_t* colorField; static size_t xSize, ySize; static float* pressureOld; static float* pressureNew; static float* vorticityField; static Color3f currentColor; static float elapsedTime = 0.0f; static float timeSincePress = 0.0f; static float bloomIntense; int lastXpos = -1, lastYpos = -1;

El atributo __host__ delante del nombre del método significa que el código se puede ejecutar en la CPU, __device__ , por el contrario, obliga al compilador a recopilar el código bajo la GPU. El código declara primitivas para trabajar con vectores de dos componentes, color, configuraciones con parámetros que se pueden cambiar en tiempo de ejecución, así como varios punteros estáticos a matrices, que usaremos como buffers para los cálculos.

cudaInit y cudaExit también se definen de manera bastante trivial:

kernel.cu (init)

 void cudaInit(size_t x, size_t y) { setConfig(); colorArray[0] = { 1.0f, 0.0f, 0.0f }; colorArray[1] = { 0.0f, 1.0f, 0.0f }; colorArray[2] = { 1.0f, 0.0f, 1.0f }; colorArray[3] = { 1.0f, 1.0f, 0.0f }; colorArray[4] = { 0.0f, 1.0f, 1.0f }; colorArray[5] = { 1.0f, 0.0f, 1.0f }; colorArray[6] = { 1.0f, 0.5f, 0.3f }; int idx = rand() % colorArraySize; currentColor = colorArray[idx]; xSize = x, ySize = y; cudaSetDevice(0); cudaMalloc(&colorField, xSize * ySize * 4 * sizeof(uint8_t)); cudaMalloc(&oldField, xSize * ySize * sizeof(Particle)); cudaMalloc(&newField, xSize * ySize * sizeof(Particle)); cudaMalloc(&pressureOld, xSize * ySize * sizeof(float)); cudaMalloc(&pressureNew, xSize * ySize * sizeof(float)); cudaMalloc(&vorticityField, xSize * ySize * sizeof(float)); } void cudaExit() { cudaFree(colorField); cudaFree(oldField); cudaFree(newField); cudaFree(pressureOld); cudaFree(pressureNew); cudaFree(vorticityField); }

En la función de inicialización, asignamos memoria para matrices bidimensionales, especificamos una matriz de colores que usaremos para pintar el líquido y también establecemos los valores predeterminados en la configuración. En cudaExit, solo liberamos todos los buffers. Por paradójico que parezca, para almacenar matrices bidimensionales, es más ventajoso utilizar matrices unidimensionales, cuyo acceso se realizará con la siguiente expresión:

 array[y * size_x + x]; // equals to array[y][x]

Comenzamos la implementación del algoritmo directo con la función de movimiento de partículas. Los campos oldField y newField (el campo de donde provienen los datos y dónde se escriben), el tamaño de la matriz, así como el delta de tiempo y el coeficiente de densidad (utilizados para acelerar la disolución del tinte en el líquido y hacer que el medio no sea muy sensible a la advección, se transfieren a advect acciones del usuario). La función de interpolación bilineal se implementa de manera clásica mediante el cálculo de valores intermedios:

kernel.cu (advecto)

 // interpolates quantity of grid cells __device__ Particle interpolate(Vec2 v, Particle* field, size_t xSize, size_t ySize) { float x1 = (int)vx; float y1 = (int)vy; float x2 = (int)vx + 1; float y2 = (int)vy + 1; Particle q1, q2, q3, q4; #define CLAMP(val, minv, maxv) min(maxv, max(minv, val)) #define SET(Q, x, y) Q = field[int(CLAMP(y, 0.0f, ySize - 1.0f)) * xSize + int(CLAMP(x, 0.0f, xSize - 1.0f))] SET(q1, x1, y1); SET(q2, x1, y2); SET(q3, x2, y1); SET(q4, x2, y2); #undef SET #undef CLAMP float t1 = (x2 - vx) / (x2 - x1); float t2 = (vx - x1) / (x2 - x1); Vec2 f1 = q1.u * t1 + q3.u * t2; Vec2 f2 = q2.u * t1 + q4.u * t2; Color3f C1 = q2.color * t1 + q4.color * t2; Color3f C2 = q2.color * t1 + q4.color * t2; float t3 = (y2 - vy) / (y2 - y1); float t4 = (vy - y1) / (y2 - y1); Particle res; res.u = f1 * t3 + f2 * t4; res.color = C1 * t3 + C2 * t4; return res; } // adds quantity to particles using bilinear interpolation __global__ void advect(Particle* newField, Particle* oldField, size_t xSize, size_t ySize, float dDiffusion, float dt) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; float decay = 1.0f / (1.0f + dDiffusion * dt); Vec2 pos = { x * 1.0f, y * 1.0f }; Particle& Pold = oldField[y * xSize + x]; // find new particle tracing where it came from Particle p = interpolate(pos - Pold.u * dt, oldField, xSize, ySize); pu = pu * decay; p.color = p.color * decay; newField[y * xSize + x] = p; }

Se decidió dividir la función de difusión de la viscosidad en varias partes: computeDiffusion se llama desde el código principal, que llama a difuso y computeColor un número predeterminado de veces, y luego intercambia la matriz de donde tomamos los datos y aquella donde la escribimos. Esta es la forma más fácil de implementar el procesamiento de datos en paralelo, pero estamos gastando el doble de memoria.

Ambas funciones causan variaciones del método de Jacobi. El cuerpo de jacobiColor y jacobiVelocity verifica de inmediato que los elementos actuales no estén en el borde; en este caso, debemos establecerlos de acuerdo con las fórmulas descritas en la sección Límite y condiciones iniciales .

kernel.cu (difuso)

 // performs iteration of jacobi method on color grid field __device__ Color3f jacobiColor(Particle* colorField, size_t xSize, size_t ySize, Vec2 pos, Color3f B, float alpha, float beta) { Color3f xU, xD, xL, xR, res; int x = pos.x; int y = pos.y; #define SET(P, x, y) if (x < xSize && x >= 0 && y < ySize && y >= 0) P = colorField[int(y) * xSize + int(x)] SET(xU, x, y - 1).color; SET(xD, x, y + 1).color; SET(xL, x - 1, y).color; SET(xR, x + 1, y).color; #undef SET res = (xU + xD + xL + xR + B * alpha) * (1.0f / beta); return res; } // calculates color field diffusion __global__ void computeColor(Particle* newField, Particle* oldField, size_t xSize, size_t ySize, float cDiffusion, float dt) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; Vec2 pos = { x * 1.0f, y * 1.0f }; Color3f c = oldField[y * xSize + x].color; float alpha = cDiffusion * cDiffusion / dt; float beta = 4.0f + alpha; // perfom one iteration of jacobi method (diffuse method should be called 20-50 times per cell) newField[y * xSize + x].color = jacobiColor(oldField, xSize, ySize, pos, c, alpha, beta); } // performs iteration of jacobi method on velocity grid field __device__ Vec2 jacobiVelocity(Particle* field, size_t xSize, size_t ySize, Vec2 v, Vec2 B, float alpha, float beta) { Vec2 vU = B * -1.0f, vD = B * -1.0f, vR = B * -1.0f, vL = B * -1.0f; #define SET(U, x, y) if (x < xSize && x >= 0 && y < ySize && y >= 0) U = field[int(y) * xSize + int(x)].u SET(vU, vx, vy - 1); SET(vD, vx, vy + 1); SET(vL, vx - 1, vy); SET(vR, vx + 1, vy); #undef SET v = (vU + vD + vL + vR + B * alpha) * (1.0f / beta); return v; } // calculates nonzero divergency velocity field u __global__ void diffuse(Particle* newField, Particle* oldField, size_t xSize, size_t ySize, float vDiffusion, float dt) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; Vec2 pos = { x * 1.0f, y * 1.0f }; Vec2 u = oldField[y * xSize + x].u; // perfoms one iteration of jacobi method (diffuse method should be called 20-50 times per cell) float alpha = vDiffusion * vDiffusion / dt; float beta = 4.0f + alpha; newField[y * xSize + x].u = jacobiVelocity(oldField, xSize, ySize, pos, u, alpha, beta); } // performs several iterations over velocity and color fields void computeDiffusion(dim3 numBlocks, dim3 threadsPerBlock, float dt) { // diffuse velocity and color for (int i = 0; i < sConfig.velocityIterations; i++) { diffuse<<<numBlocks, threadsPerBlock>>>(newField, oldField, xSize, ySize, config.velocityDiffusion, dt); computeColor<<<numBlocks, threadsPerBlock>>>(newField, oldField, xSize, ySize, config.colorDiffusion, dt); std::swap(newField, oldField); } }

El uso de la fuerza externa se implementa a través de una única función: applyForce , que toma como argumento la posición del mouse, el color del tinte y el radio de acción. Con su ayuda, podemos dar velocidad a las partículas, así como pintarlas. El exponente fraterno le permite hacer que el área no sea demasiado nítida y al mismo tiempo bastante clara en el radio especificado.

kernel.cu (fuerza)

 // applies force and add color dye to the particle field __global__ void applyForce(Particle* field, size_t xSize, size_t ySize, Color3f color, Vec2 F, Vec2 pos, int r, float dt) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; float e = expf((-(powf(x - pos.x, 2) + powf(y - pos.y, 2))) / r); Vec2 uF = F * dt * e; Particle& p = field[y * xSize + x]; pu = pu + uF; color = color * e + p.color; p.color.R = min(1.0f, color.R); p.color.G = min(1.0f, color.G); p.color.B = min(1.0f, color.B); }

El cálculo de vorticidad ya es un proceso más complejo, por lo que lo implementamos en computeVorticity y applyVorticity , también observamos que para ellos es necesario definir dos operadores de vectores como curl (rotor) y absGradient (gradiente de valores de campo absolutos). Para especificar efectos de vórtice adicionales, multiplicamos

$y$ componente del vector gradiente en

$-1$ , y luego normalízalo dividiendo por la longitud (sin olvidar comprobar que el vector no es cero):

kernel.cu (vorticidad)

 // computes curl of velocity field __device__ float curl(Particle* field, size_t xSize, size_t ySize, int x, int y) { Vec2 C = field[int(y) * xSize + int(x)].u; #define SET(P, x, y) if (x < xSize && x >= 0 && y < ySize && y >= 0) P = field[int(y) * xSize + int(x)] float x1 = -Cx, x2 = -Cx, y1 = -Cy, y2 = -Cy; SET(x1, x + 1, y).ux; SET(x2, x - 1, y).ux; SET(y1, x, y + 1).uy; SET(y2, x, y - 1).uy; #undef SET float res = ((y1 - y2) - (x1 - x2)) * 0.5f; return res; } // computes absolute value gradient of vorticity field __device__ Vec2 absGradient(float* field, size_t xSize, size_t ySize, int x, int y) { float C = field[int(y) * xSize + int(x)]; #define SET(P, x, y) if (x < xSize && x >= 0 && y < ySize && y >= 0) P = field[int(y) * xSize + int(x)] float x1 = C, x2 = C, y1 = C, y2 = C; SET(x1, x + 1, y); SET(x2, x - 1, y); SET(y1, x, y + 1); SET(y2, x, y - 1); #undef SET Vec2 res = { (abs(x1) - abs(x2)) * 0.5f, (abs(y1) - abs(y2)) * 0.5f }; return res; } // computes vorticity field which should be passed to applyVorticity function __global__ void computeVorticity(float* vField, Particle* field, size_t xSize, size_t ySize) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; vField[y * xSize + x] = curl(field, xSize, ySize, x, y); } // applies vorticity to velocity field __global__ void applyVorticity(Particle* newField, Particle* oldField, float* vField, size_t xSize, size_t ySize, float vorticity, float dt) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; Particle& pOld = oldField[y * xSize + x]; Particle& pNew = newField[y * xSize + x]; Vec2 v = absGradient(vField, xSize, ySize, x, y); vy *= -1.0f; float length = sqrtf(vx * vx + vy * vy) + 1e-5f; Vec2 vNorm = v * (1.0f / length); Vec2 vF = vNorm * vField[y * xSize + x] * vorticity; pNew = pOld; pNew.u = pNew.u + vF * dt; }

El siguiente paso en el algoritmo será el cálculo del campo de presión escalar y su proyección en el campo de velocidad. Para hacer esto, necesitamos implementar 4 funciones: divergencia , que considerará la divergencia de velocidad, jacobiPressure , que implementa el método Jacobi para presión, y computePressure con computePressureImpl , que itera los cálculos de campo:

kernel.cu (presión)

 // performs iteration of jacobi method on pressure grid field __device__ float jacobiPressure(float* pressureField, size_t xSize, size_t ySize, int x, int y, float B, float alpha, float beta) { float C = pressureField[int(y) * xSize + int(x)]; float xU = C, xD = C, xL = C, xR = C; #define SET(P, x, y) if (x < xSize && x >= 0 && y < ySize && y >= 0) P = pressureField[int(y) * xSize + int(x)] SET(xU, x, y - 1); SET(xD, x, y + 1); SET(xL, x - 1, y); SET(xR, x + 1, y); #undef SET float pressure = (xU + xD + xL + xR + alpha * B) * (1.0f / beta); return pressure; } // computes divergency of velocity field __device__ float divergency(Particle* field, size_t xSize, size_t ySize, int x, int y) { Particle& C = field[int(y) * xSize + int(x)]; float x1 = -1 * Cux, x2 = -1 * Cux, y1 = -1 * Cuy, y2 = -1 * Cuy; #define SET(P, x, y) if (x < xSize && x >= 0 && y < ySize && y >= 0) P = field[int(y) * xSize + int(x)] SET(x1, x + 1, y).ux; SET(x2, x - 1, y).ux; SET(y1, x, y + 1).uy; SET(y2, x, y - 1).uy; #undef SET return (x1 - x2 + y1 - y2) * 0.5f; } // performs iteration of jacobi method on pressure field __global__ void computePressureImpl(Particle* field, size_t xSize, size_t ySize, float* pNew, float* pOld, float pressure, float dt) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; float div = divergency(field, xSize, ySize, x, y); float alpha = -1.0f * pressure * pressure; float beta = 4.0; pNew[y * xSize + x] = jacobiPressure(pOld, xSize, ySize, x, y, div, alpha, beta); } // performs several iterations over pressure field void computePressure(dim3 numBlocks, dim3 threadsPerBlock, float dt) { for (int i = 0; i < sConfig.pressureIterations; i++) { computePressureImpl<<<numBlocks, threadsPerBlock>>>(oldField, xSize, ySize, pressureNew, pressureOld, config.pressure, dt); std::swap(pressureOld, pressureNew); } }

La proyección se ajusta a dos pequeñas funciones: proyecto y el gradiente que requiere presión. Esto puede decirse la última etapa de nuestro algoritmo de simulación:

kernel.cu (proyecto)

 // computes gradient of pressure field __device__ Vec2 gradient(float* field, size_t xSize, size_t ySize, int x, int y) { float C = field[y * xSize + x]; #define SET(P, x, y) if (x < xSize && x >= 0 && y < ySize && y >= 0) P = field[int(y) * xSize + int(x)] float x1 = C, x2 = C, y1 = C, y2 = C; SET(x1, x + 1, y); SET(x2, x - 1, y); SET(y1, x, y + 1); SET(y2, x, y - 1); #undef SET Vec2 res = { (x1 - x2) * 0.5f, (y1 - y2) * 0.5f }; return res; } // projects pressure field on velocity field __global__ void project(Particle* newField, size_t xSize, size_t ySize, float* pField) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; Vec2& u = newField[y * xSize + x].u; u = u - gradient(pField, xSize, ySize, x, y); }

Después de la proyección, podemos proceder de forma segura a representar la imagen en el búfer y varios efectos posteriores. La función de pintura copia los colores del campo de partículas en la matriz RGBA. También se implementó la función applyBloom , que resalta el líquido cuando se coloca el cursor sobre él y se presiona el botón del mouse. Por experiencia, esta técnica hace que la imagen sea más agradable e interesante para los ojos del usuario, pero no es necesaria en absoluto.

En el procesamiento posterior, también puede resaltar los lugares donde el fluido tiene la velocidad más alta, cambiar el color según el vector de movimiento, agregar varios efectos, etc., pero en nuestro caso nos limitaremos a un tipo mínimo, porque incluso con él las imágenes son muy fascinantes (especialmente en dinámica) :

kernel.cu (pintura)

 // adds flashlight effect near the mouse position __global__ void applyBloom(uint8_t* colorField, size_t xSize, size_t ySize, int xpos, int ypos, float bloomIntense) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; int pos = 4 * (y * xSize + x); float e = expf(-(powf(x - xpos, 2) + powf(y - ypos, 2)) * (1.0f / (bloomIntense + 1e-5f))); uint8_t R = colorField[pos + 0]; uint8_t G = colorField[pos + 1]; uint8_t B = colorField[pos + 2]; uint8_t maxval = max(R, max(G, B)); colorField[pos + 0] = min(255.0f, R + maxval * e); colorField[pos + 1] = min(255.0f, G + maxval * e); colorField[pos + 2] = min(255.0f, B + maxval * e); } // fills output image with corresponding color __global__ void paint(uint8_t* colorField, Particle* field, size_t xSize, size_t ySize) { int x = blockIdx.x * blockDim.x + threadIdx.x; int y = blockIdx.y * blockDim.y + threadIdx.y; float R = field[y * xSize + x].color.R; float G = field[y * xSize + x].color.G; float B = field[y * xSize + x].color.B; colorField[4 * (y * xSize + x) + 0] = min(255.0f, 255.0f * R); colorField[4 * (y * xSize + x) + 1] = min(255.0f, 255.0f * G); colorField[4 * (y * xSize + x) + 2] = min(255.0f, 255.0f * B); colorField[4 * (y * xSize + x) + 3] = 255; }

Y al final, todavía tenemos una función principal que llamamos desde main.cpp : computeField . Vincula todas las piezas del algoritmo, llamando al código en la tarjeta de video y también copia los datos de gpu a cpu. También contiene el cálculo del vector de impulso y la elección del color del tinte, que pasamos a applyForce :

kernel.cu (función principal)

 // main function, calls vorticity -> diffusion -> force -> pressure -> project -> advect -> paint -> bloom void computeField(uint8_t* result, float dt, int x1pos, int y1pos, int x2pos, int y2pos, bool isPressed) { dim3 threadsPerBlock(sConfig.xThreads, sConfig.yThreads); dim3 numBlocks(xSize / threadsPerBlock.x, ySize / threadsPerBlock.y); // curls and vortisity computeVorticity<<<numBlocks, threadsPerBlock>>>(vorticityField, oldField, xSize, ySize); applyVorticity<<<numBlocks, threadsPerBlock>>>(newField, oldField, vorticityField, xSize, ySize, config.vorticity, dt); std::swap(oldField, newField); // diffuse velocity and color computeDiffusion(numBlocks, threadsPerBlock, dt); // apply force if (isPressed) { timeSincePress = 0.0f; elapsedTime += dt; // apply gradient to color int roundT = int(elapsedTime) % colorArraySize; int ceilT = int((elapsedTime) + 1) % colorArraySize; float w = elapsedTime - int(elapsedTime); currentColor = colorArray[roundT] * (1 - w) + colorArray[ceilT] * w; Vec2 F; float scale = config.forceScale; Fx = (x2pos - x1pos) * scale; Fy = (y2pos - y1pos) * scale; Vec2 pos = { x2pos * 1.0f, y2pos * 1.0f }; applyForce<<<numBlocks, threadsPerBlock>>>(oldField, xSize, ySize, currentColor, F, pos, config.radius, dt); } else { timeSincePress += dt; } // compute pressure computePressure(numBlocks, threadsPerBlock, dt); // project project<<<numBlocks, threadsPerBlock>>>(oldField, xSize, ySize, pressureOld); cudaMemset(pressureOld, 0, xSize * ySize * sizeof(float)); // advect advect<<<numBlocks, threadsPerBlock>>>(newField, oldField, xSize, ySize, config.densityDiffusion, dt); std::swap(newField, oldField); // paint image paint<<<numBlocks, threadsPerBlock>>>(colorField, oldField, xSize, ySize); // apply bloom in mouse pos if (config.bloomEnabled && timeSincePress < 5.0f) { applyBloom<<<numBlocks, threadsPerBlock>>>(colorField, xSize, ySize, x2pos, y2pos, config.bloomIntense / timeSincePress); } // copy image to cpu size_t size = xSize * ySize * 4 * sizeof(uint8_t); cudaMemcpy(result, colorField, size, cudaMemcpyDeviceToHost); cudaError_t error = cudaGetLastError(); if (error != cudaSuccess) { std::cout << cudaGetErrorName(error) << std::endl; } }

Conclusión

En este artículo, analizamos un algoritmo numérico para resolver la ecuación de Navier-Stokes y escribimos un pequeño programa de simulación para un fluido incompresible. Quizás no entendimos todas las complejidades, pero espero que el material resulte interesante y útil para usted, y al menos sirvió como una buena introducción al campo del modelado de fluidos.

Como autor de este artículo, agradeceré sinceramente los comentarios y adiciones, y trataré de responder todas sus preguntas en esta publicación.

Material adicional

Puede encontrar todo el código fuente en este artículo en mi repositorio de Github . Cualquier sugerencia de mejora es bienvenida.

El material original que sirvió de base para este artículo, puede leerlo en el sitio web oficial de Nvidia. También presenta ejemplos de la implementación de partes del algoritmo en el lenguaje de sombreadores:
developer.download.nvidia.com/books/HTML/gpugems/gpugems_ch38.html

La prueba del teorema de descomposición de Helmholtz y una gran cantidad de material adicional sobre mecánica de fluidos se puede encontrar en este libro (en inglés, ver sección 1.2):
Chorin, AJ y JE Marsden. 1993. Una introducción matemática a la mecánica de fluidos. 3ra ed. Springer

El canal de un YouTube de habla inglesa, que hace contenido de alta calidad relacionado con las matemáticas y la solución de ecuaciones diferenciales en particular (inglés) Videos muy visuales que ayudan a comprender la esencia de muchas cosas en matemáticas y física:
3Blue1Brown -
Ecuaciones diferenciales de YouTube (3Blue1Brown)

También agradezco a WhiteBlackGoose por ayudarme a preparar el material para el artículo.

Y al final, una pequeña ventaja: algunas capturas de pantalla hermosas tomadas en el programa: Transmisión