Usando threads OpenMP e std: :( experimental: :) simd para calcular o conjunto de Mandelbrot

Aug 19 2020

Estou procurando implementar um plotter de conjunto Mandelbrot simples usando diferentes tipos de paradigmas de HPC, mostrando seus pontos fortes e fracos e como suas implementações são fáceis ou difíceis. Pense em GPGPU (CUDA / OpenACC / OpenMP4.5), threading / OpenMP e MPI. E use esses exemplos para dar aos programadores novos em HPC um apoio para as mãos e ver quais são as possibilidades. Clareza de código é mais importante do que obter o melhor desempenho absoluto do hardware, essa é a segunda etapa;)

Como o problema de paralelização é trivial e as CPUs modernas podem ganhar muito desempenho usando instruções vetoriais, também quero combinar OpenMP e SIMD. Infelizmente, simplesmente adicionar um #pragma omp simdnão produz resultados satisfatórios e usar intrínsecos não é muito amigável ou à prova de futuro. Ou bonita .

Felizmente, o padrão C ++ está sendo feito de forma que seja mais fácil implementar genericamente as instruções vetoriais, conforme mencionado no TS: "Extensões para paralelismo, versão 2" , especificamente a seção 9 sobre tipos de dados paralelos. Uma implementação WIP pode ser encontrada aqui , que é baseada no VC, que pode ser encontrada aqui .

Suponha que eu tenha a seguinte classe (que foi alterada para torná-la um pouco mais simples)

#include <stddef.h>

using Range = std::pair<double, double>;
using Resolution = std::pair<std::size_t, std::size_t>;

class Mandelbrot
{
    double* d_iters;
    Range d_xrange;
    Range d_yrange;
    Resolution d_res;
    std::size_t d_maxIter;
    
public:
    Mandelbrot(Range xrange, Range yrange, Resolution res, std::size_t maxIter);
    ~Mandelbrot();

    void writeImage(std::string const& fileName);
    void computeMandelbrot();
private:
    void calculateColors();
};

E a seguinte implementação de computeMandelbrot()usar OpenMP

void Mandelbrot::computeMandelbrot()
{
    double dx = (d_xrange.second - d_xrange.first) / d_res.first;
    double dy = (d_yrange.second - d_yrange.first) / d_res.second;

    #pragma omp parallel for schedule(dynamic)
    for (std::size_t row = 0; row != d_res.second; ++row)
    {
        double c_imag = d_yrange.first + row * dy;
        for (std::size_t col = 0; col != d_res.first; ++col)
        {
            double real = 0.0;
            double imag = 0.0;
            double realSquared = 0.0;
            double imagSquared = 0.0;
            double c_real = d_xrange.first + col * dx;

            std::size_t iter = 0;
            while (iter < d_maxIter && realSquared + imagSquared < 4.0)
            {
                realSquared = real * real;
                imagSquared = imag * imag;
                imag = 2 * real * imag + c_imag;
                real = realSquared - imagSquared + c_real;
                ++iter;
            }
            d_iters[row * d_res.first + col] = iter;
        }   
    }
}

Podemos supor que as resoluções nas direções xey são múltiplos de 2/4/8 / .., dependendo de quais instruções SIMD usamos.

Infelizmente, há muito pouca informação disponível online em std::experimental::simd. Nem quaisquer exemplos não triviais, até onde pude encontrar.

No repositório Vc git, existe uma implementação da calculadora de conjuntos Mandelbrot, mas é bastante complicada e devido à falta de comentários um tanto difícil de seguir.

É claro que devo alterar os tipos de dados das duplas na função computeMandelbrot(), mas não tenho certeza do quê. O TS menciona dois novos tipos de dados principais para algum tipo T,

native_simd = std::experimental::simd<T, std::experimental::simd_abi::native>;

fixed_size_simd = std::experimental::simd<T, std::experimental::simd_abi::fixed_size<N>>;

Usar native_simdfaz mais sentido, já que não sei meus limites em tempo de compilação. Mas então não está claro para mim o que esses tipos representam, é um native_simd<double>único duplo ou uma coleção de duplos em que uma instrução vetorial é executada? E quantas duplas há nesta coleção?

Se alguém pudesse me apontar para exemplos onde esses conceitos são usados, ou me dar algumas dicas sobre como implementar instruções vetoriais usando std :: experimental :: simd, eu ficaria muito grato.

Respostas

NigelOvermars Aug 24 2020 at 19:45

Aqui está uma implementação muito básica, que funciona (pelo que posso dizer). O teste de quais elementos do vetor têm valor absoluto maior que 2 é feito de uma forma muito complicada e ineficiente. Deve haver uma maneira melhor de fazer isso, mas ainda não a encontrei.

Usando threads OpenMP e std: :( ​​experimental: :) simd para calcular o conjunto de Mandelbrot

Respostas

Usando threads OpenMP e std: :( experimental: :) simd para calcular o conjunto de Mandelbrot