为什么元素级的添加在单独的循环中比在组合循环中要快得多？

movsd xmm0,mmword ptr [edx+18h]addsd xmm0,mmword ptr [ecx+20h]movsd mmword ptr [ecx+20h],xmm0 movsd xmm0,mmword ptr [esi+10h]addsd xmm0,mmword ptr [eax+30h]movsd mmword ptr [eax+30h],xmm0 movsd xmm0,mmword ptr [edx+20h]addsd xmm0,mmword ptr [ecx+28h]movsd mmword ptr [ecx+28h],xmm0 movsd xmm0,mmword ptr [esi+18h]addsd xmm0,mmword ptr [eax+38h]

addsd xmm0,mmword ptr [eax+28h]movsd mmword ptr [eax+28h],xmm0 movsd xmm0,mmword ptr [ecx+20h]addsd xmm0,mmword ptr [eax+30h]movsd mmword ptr [eax+30h],xmm0 movsd xmm0,mmword ptr [ecx+28h]addsd xmm0,mmword ptr [eax+38h]movsd mmword ptr [eax+38h],xmm0 movsd xmm0,mmword ptr [ecx+30h]addsd xmm0,mmword ptr [eax+40h]movsd mmword ptr [eax+40h],xmm0

想象一下你在一台机器上工作n是正确的值，因为它只能一次在内存中容纳两个数组，但是通过磁盘缓存可用的总内存仍然足以容纳所有四个数组。假设有一个简单的LIFO缓存策略，以下代码：for(int j=0;j<n;j++){     a[j] += b[j];}for(int j=0;j<n;j++){     c[j] += d[j];}会首先引起a和b加载到RAM中，然后完全在RAM中工作。当第二个循环开始时，c和d然后从磁盘加载到RAM中并对其进行操作。另一个循环for(int j=0;j<n;j++){     a[j] += b[j];     c[j] += d[j];}将分出两个数组，并在另外两个数组中分页。每次绕圈..这显然是多慢点。您可能没有在测试中看到磁盘缓存，但是您可能看到了其他形式的缓存的副作用。这里似乎有点混乱/误解，所以我会尝试用一个例子来解释一下。说n = 2我们用的是字节。在我的场景中，我们有内存只有4字节我们剩下的内存要慢得多(比如100倍的访问时间)。假设一个相当愚蠢的缓存策略如果字节不在缓存中，则将其放在缓存中，并在缓存中获取以下字节您将得到这样的场景：带着for(int j=0;j<n;j++){  a[j] += b[j];}for(int j=0;j<n;j++){  c[j] += d[j];}高速缓存a[0]和a[1]然后b[0]和b[1]并设定a[0] = a[0] + b[0]在缓存中-缓存中现在有四个字节，a[0], a[1]和b[0], b[1]..费用=100+100。集a[1] = a[1] + b[1]在缓存中。费用=1+1。重复c和d.总费用=(100 + 100 + 1 + 1) * 2 = 404带着for(int j=0;j<n;j++){  a[j] += b[j];  c[j] += d[j];}高速缓存a[0]和a[1]然后b[0]和b[1]并设定a[0] = a[0] + b[0]在缓存中-缓存中现在有四个字节，a[0], a[1]和b[0], b[1]..费用=100+100。弹出a[0], a[1], b[0], b[1]从缓存和缓存c[0]和c[1]然后d[0]和d[1]并设定c[0] = c[0] + d[0]在缓存中。费用=100+100。我怀疑你开始看到我要去哪里了。总费用=(100 + 100 + 100 + 100) * 2 = 800这是一个经典的缓存处理场景。

为什么元素级的添加在单独的循环中比在组合循环中要快得多？

3回答