using Printf

function answer_checker(answer,solution)
    if answer == solution
        "🥳 Well done! "
    else
        "It's not correct. Keep trying! 💪"
    end |> println
end
gauss_seidel_1_check(answer) = answer_checker(answer,"c")
jacobi_1_check(answer) = answer_checker(answer, "d")
jacobi_2_check(answer) = answer_checker(answer, "b")
jacobi_3_check(answer) = answer_checker(answer, "c")
println("🥳 Well done! ")

function jacobi(n,niters)
    u = zeros(n+2)
    u[1] = -1
    u[end] = 1
    u_new = copy(u)
    for t in 1:niters
        for i in 2:(n+1)
            u_new[i] = 0.5*(u[i-1]+u[i+1])
        end
        u, u_new = u_new, u
    end
    u
end

jacobi(5,0)

jacobi(5,100)

using LinearAlgebra: norm
function jacobi_with_tol(n,tol)
    u = zeros(n+2)
    u[1] = -1
    u[end] = 1
    u_new = copy(u)
    increment = similar(u)
    while true
        for i in 2:(n+1)
            u_new[i] = 0.5*(u[i-1]+u[i+1])
        end
        increment .= u_new .- u
        if norm(increment)/norm(u_new) < tol
            return u_new
        end
        u, u_new = u_new, u
    end
    u
end

n = 5
tol = 1e-9
jacobi_with_tol(n,tol)

for t in 1:nsteps
    for i in 2:(n+1)
        u_new[i] = 0.5*(u[i-1]+u[i+1])
    end
    u, u_new = u_new, u
end

function gauss_seidel(n,niters)
    u = zeros(n+2)
    u[1] = -1
    u[end] = 1
    for t in 1:niters
        for i in 2:(n+1)
            u[i] = 0.5*(u[i-1]+u[i+1])
        end
    end
    u
end

gauss_seidel(5,1000)

for t in 1:niters
    for i in 2:(n+1)
        u[i] = 0.5*(u[i-1]+u[i+1])
    end
end

answer = "x" # replace x with a, b, c or d
gauss_seidel_1_check(answer)

] add MPI

using MPI

code = quote
    using MPI
    MPI.Init()
    function jacobi_mpi(n,niters)
        comm = MPI.COMM_WORLD
        nranks = MPI.Comm_size(comm)
        rank = MPI.Comm_rank(comm)
        if mod(n,nranks) != 0
            println("n must be a multiple of nranks")
            MPI.Abort(comm,1)
        end
        load = div(n,nranks)
        u = zeros(load+2)
        u[1] = -1
        u[end] = 1
        u_new = copy(u)
        for t in 1:niters
            # Communication
            if rank != 0
                neig_rank = rank-1
                s = 2
                r = 1
                MPI.Sendrecv!(view(u,s:s),view(u,r:r),comm;dest=neig_rank,source=neig_rank)
            end
            if rank != (nranks-1)
                neig_rank = rank+1
                s = load+1
                r = load+2
                MPI.Sendrecv!(view(u,s:s),view(u,r:r),comm;dest=neig_rank,source=neig_rank)
            end
            # Local computation
            for i in 2:(load+1)
                u_new[i] = 0.5*(u[i-1]+u[i+1])
            end
            u, u_new = u_new, u
        end
        # Gather the results
        if rank !=0
            lb = 2
            ub = load+1
            MPI.Send(view(u,lb:ub),comm,dest=0)
            u_all = zeros(0) # This will nevel be used
        else
            u_all = zeros(n+2)
            # Set boundary
            u_all[1] = -1
            u_all[end] = 1
            # Set data for rank 0
            lb = 2
            ub = load+1
            u_all[lb:ub] = view(u,lb:ub)
            # Set data for other ranks
            for other_rank in 1:(nranks-1)
                lb += load
                ub += load
                MPI.Recv!(view(u_all,lb:ub),comm;source=other_rank)
            end
        end
        return u_all
    end
    function jacobi(n,niters)
        u = zeros(n+2)
        u[1] = -1
        u[end] = 1
        u_new = copy(u)
        for t in 1:niters
            for i in 2:(n+1)
                u_new[i] = 0.5*(u[i-1]+u[i+1])
            end
            u, u_new = u_new, u
        end
        u
    end
    function testit(load)
        comm = MPI.COMM_WORLD
        nranks = MPI.Comm_size(comm)
        rank = MPI.Comm_rank(comm)
        n = load*nranks
        niters = 100
        u_par = jacobi_mpi(n,niters)
        if rank == 0
            # Compare agains serial
            u_seq = jacobi(n,niters)
            if u_par ≈ u_seq
                println("Test passed 🥳")
            else
                println("Test failed")
            end
        end
    end
    testit(3)
end
run(`$(mpiexec()) -np 4 julia --project=. -e $code`);

answer = "x" # replace x with a, b, c or d
jacobi_2_check(answer)

function jacobi_2d(n,niters)
    u = zeros(n+2,n+2)
    u[1,:] = u[end,:] = u[:,1] = u[:,end] .= 1
    u_new = copy(u)
    for t in 1:niters
        for j in 2:(n+1)
            for i in 2:(n+1)
                north = u[i,j+1]
                south = u[i,j-1]
                east = u[i+1,j]
                west = u[i-1,j]
                u_new[i,j] = 0.25*(north+south+east+west)
            end
        end
        u, u_new = u_new, u
    end
    u
end

u = jacobi_2d(10,0)

for t in 1:niters
    for j in 2:(n+1)
        for i in 2:(n+1)
            north = u[i,j+1]
            south = u[i,j-1]
            east = u[i+1,j]
            west = u[i-1,j]
            u_new[i,j] = 0.25*(north+south+east+west)
        end
    end
    u, u_new = u_new, u
end

Partition	Messages per iteration	Communication per worker	Computation per worker	Ratio communication/ computation
1d block	2	O(N)	N²/P	O(P/N)
2d block	4	O(N/√P)	N²/P	O(√P/N)
2d cyclic	4	O(N²/P)	N²/P	O(1)

Programming large-scale parallel systems¶

Jacobi method¶

Contents¶

The Jacobi method for the Laplace equation¶

Serial implementation¶

Where can we exploit parallelism?¶

The Gauss-Seidel method¶

Parallelization of the Jacobi method¶

Parallelization strategy¶

Data dependencies¶

Communication overhead¶

Ghost (aka halo) cells¶

MPI implementation¶

Latency hiding¶

Extension to 2D¶

Serial implementation¶

Where can we exploit parallelism?¶

Parallelization strategies¶

1D block partition¶

2D block partition¶

2D cyclic partition¶

Summary¶

Which partition is the best one?¶

Exercises¶

Exercise 1¶

License¶