问题这个基准测试结果的原因是什么？

将rgb图像转换为灰度图像的两个函数：

function rgb2gray_loop{T<:FloatingPoint}(A::Array{T,3})
  r,c = size(A)
  gray = similar(A,r,c)
  for i = 1:r
    for j = 1:c
      @inbounds gray[i,j] = 0.299*A[i,j,1] + 0.587*A[i,j,2] + 0.114 *A[i,j,3]
    end
  end
  return gray
end

和：

function rgb2gray_vec{T<:FloatingPoint}(A::Array{T,3})
  gray = similar(A,size(A)[1:2]...)
  gray = 0.299*A[:,:,1] + 0.587*A[:,:,2] + 0.114 *A[:,:,3]
  return gray
end

第一个是使用循环，而第二个使用矢量化。

在对它们进行基准测试时（使用Benchmark包），我得到了不同大小的输入图像的以下结果（f1 是循环版本， f2 矢量化版本）：

A = rand(50,50,3)：

| Row | Function | Average     | Relative | Replications |
|-----|----------|-------------|----------|--------------|
| 1   | "f1"     | 3.23746e-5  | 1.0      | 1000         |
| 2   | "f2"     | 0.000160214 | 4.94875  | 1000         |

A = rand(500,500,3)：

| Row | Function | Average    | Relative | Replications |
|-----|----------|------------|----------|--------------|
| 1   | "f1"     | 0.00783007 | 1.0      | 100          |
| 2   | "f2"     | 0.0153099  | 1.95527  | 100          |

A = rand(5000,5000,3)：

| Row | Function | Average  | Relative | Replications |
|-----|----------|----------|----------|--------------|
| 1   | "f1"     | 1.60534  | 2.56553  | 10           |
| 2   | "f2"     | 0.625734 | 1.0      | 10           |

我期望一个函数比另一个函数更快（因为inbounds宏可能是f1）。

但我无法解释为什么矢量化版本对于较大的图像变得更快。这是为什么？

3964

2018-04-20 08:30

起源

我认为这个说法 gray = similar(A,size(A)[1:2]...) 在矢量化版本中是不必要的，语言将直接从第二个语句创建正确的数组大小。但这并不能解释为什么矢量化版本变得更快。 - cfh

偏离主题，但你可以说 convert(Array{Gray{Float64}}, A) 如果你是 using Images。 - tholy

答案:

结果的答案是Julia中的多维数组以列主顺序存储。看到 Julias记忆顺序。

修复了循环版本，关于列主要顺序（交换的内部和外部循环变量）：

function rgb2gray_loop{T<:FloatingPoint}(A::Array{T,3})
  r,c = size(A)
  gray = similar(A,r,c)
  for j = 1:c
    for i = 1:r
      @inbounds gray[i,j] = 0.299*A[i,j,1] + 0.587*A[i,j,2] + 0.114 *A[i,j,3]
    end
  end
  return gray
end

新结果 A = rand(5000,5000,3)：

| Row | Function | Average  | Relative | Replications |
|-----|----------|----------|----------|--------------|
| 1   | "f1"     | 0.107275 | 1.0      | 10           |
| 2   | "f2"     | 0.646872 | 6.03004  | 10           |

以及较小阵列的结果：

A = rand(500,500,3)：

| Row | Function | Average    | Relative | Replications |
|-----|----------|------------|----------|--------------|
| 1   | "f1"     | 0.00236405 | 1.0      | 100          |
| 2   | "f2"     | 0.0207249  | 8.76671  | 100          |

A = rand(50,50,3)：

| Row | Function | Average     | Relative | Replications |
|-----|----------|-------------|----------|--------------|
| 1   | "f1"     | 4.29321e-5  | 1.0      | 1000         |
| 2   | "f2"     | 0.000224518 | 5.22961  | 1000         |

2018-04-20 09:53

尼斯。你能试试吗？ @simd 你的循环上的宏，看看它是否进一步加快了它？ - cfh

@cfh @simd 没有产生显着的性能变化。 - reschu

只是推测，因为我不知道Julia-Lang：

我认为这个说法 gray = ... 在矢量化形式中创建一个新数组，其中存储所有计算值，同时废弃旧数组。在 f1 值被覆盖，因此不需要新的内存分配。内存分配非常昂贵，因此具有就地覆盖的循环版本对于低数字更快。

但内存分配通常是一个静态开销（分配的两倍，不需要两倍的时间），矢量化版本计算速度更快（可能是并行？）所以如果数字变得足够大，更快的计算会比内存更大分配。

2018-04-20 08:39

在Julia中，矢量化操作通常比元素操作慢，因为后者产生较少的临时值。这里的矢量化版本将创建三个临时数组，然后将它们加在一起，而元素版本不需要任何额外的临时数据，只使用一个循环。 - cfh

@cfh这就是我的想法 - 内存影响更多的是矢量化。但另一方面，矢量化版本可以在4个核心上并行计算。并且可能存在盈亏平衡点，其中4倍CPU带来的好处多于内存分配成本。你测试过四核吗？ - Falco

我不认为这些计算在这一点上会自动分布在Julia的核心上。 - cfh

我无法重现你的结果。

看到这个IJulia笔记本： http://nbviewer.ipython.org/urls/gist.githubusercontent.com/anonymous/24c17478ae0f5562c449/raw/8d5d32c13209a6443c6d72b31e2459d70607d21b/rgb2gray.ipynb

我得到的数字是：

In [5]:

@time rgb2gray_loop(rand(50,50,3));
@time rgb2gray_vec(rand(50,50,3));

elapsed time: 7.591e-5 seconds (80344 bytes allocated)
elapsed time: 0.000108785 seconds (241192 bytes allocated)

In [6]:

@time rgb2gray_loop(rand(500,500,3));
@time rgb2gray_vec(rand(500,500,3));

elapsed time: 0.021647914 seconds (8000344 bytes allocated)
elapsed time: 0.012364489 seconds (24001192 bytes allocated)

In [7]:

@time rgb2gray_loop(rand(5000,5000,3));
@time rgb2gray_vec(rand(5000,5000,3));

elapsed time: 0.902367223 seconds (800000440 bytes allocated)
elapsed time: 1.237281103 seconds (2400001592 bytes allocated, 7.61% gc time)

正如预期的那样，对于大型输入，循环版本更快。还要注意矢量化版本如何分配三倍的内存。

我也想指出这一说法 gray = similar(A,size(A)[1:2]...) 是多余的，可以省略。如果没有这种不必要的分配，最大问题的结果是：

@time rgb2gray_loop(rand(5000,5000,3));
@time rgb2gray_vec(rand(5000,5000,3));

elapsed time: 0.953746863 seconds (800000488 bytes allocated, 3.06% gc time)
elapsed time: 1.203013639 seconds (2200001200 bytes allocated, 7.28% gc time)

因此内存使用量下降，但速度没有明显改善。

2018-04-20 09:05

我可以用@time重现我的结果。我猜Falco是对的，结果与我机器上的某种并行化有关.... - reschu

@reschu：听起来不错。首先，Julia不会自动并行化。另请注意，循环版本的给定时间比问题的大小线性变差：从第二个问题到第三个问题，它慢了200倍，尽管问题大小只有100倍。那里有一些奇怪的东西。 - cfh

你是对的。我发现它是什么。我从Julia开始时首先阅读的内容：列主要订单。在嵌套循环中交换行和列会产生预期的结果。 - reschu

@reschu：那很有意思！你会加一个答案来描述你的所作所为吗？我也可能要撤回我的声明，即Julia不会自动并行化 - 它使用OpenBLAS，并且在某些情况下可以利用多个核心。所以它可能是这两个因素的组合。 - cfh

问题 这个基准测试结果的原因是什么？

答案:

热门问题

问题这个基准测试结果的原因是什么？