有這10個關鍵點，在ARM下高效C編程沒問題！

技術小白 · 發(fā)表于 2018-5-3 10:26:02

通過一定的方法來編寫C程序，可以幫助C編譯器生成執(zhí)行速度更快的ARM代碼。下面就是一些與性能相關的關鍵點：

1.對局部變量、函數參數和返回值要使用signed和unsigned int類型。這樣可以避免類型轉換，而且可高效地使用ARM的32位數據操作指令。

2.最高效的循環(huán)體形式是減計數到零（counts down to zero）的do-while循環(huán)。

3.展開重要的循環(huán)來減少循環(huán)的開銷。

4.不要依賴編譯器來優(yōu)化掉重復的存儲器訪問。指針別名會阻止編譯器的這種優(yōu)化。

5.盡可能把函數參數的個數限制在4個以內。如果函數參數都存放在寄存器內，那么函數調用就會快得多。

6.按元素尺寸從小到大排列的方法來安排結構體，特別是在thumb模式下編譯。

7.不要使用位域，可以用掩碼和邏輯操作來替代。

8.避免除法，可以用倒數的乘法來替代。

9.避免邊界不對齊的數據。如果數據有可能邊界不對齊，那么就要使用char *指針類型來訪問。

10.在C編譯器中使用內嵌匯編可以利用到C編譯器本來不支持的指令或優(yōu)化。

一、數據類型使用上的優(yōu)化

1.局部變量
一個char類型的數據比int類型的數據占用更小的寄存器空間或者更小的ARM堆棧空間。這兩種設想對于ARM來說，都是錯誤的。所有的ARM寄存器都是32位的，所有的堆棧入口至少是32位的。當我們執(zhí)行i++，要利用當i=255后，i++=0這個條件時，可以把它定義為char類型。

2.函數參數
盡管寬和窄的函數調用規(guī)則各有其優(yōu)點，但char或short類型的函數參數和返回值都會產生額外的開銷，導致性能的下降，并增加了代碼尺寸。所以，即使是傳輸一個8位的數據，函數參數和返回值使用int類型也會更有效。

總結:

1）對于存放在寄存器中的局部變量，除了8位或16位的算術模運算外，盡量不要使用char和short類型，而要使用有符號或無符號int類型。除法運算時使用無符號數執(zhí)行速度更快。

2）對于存放在主存儲器中的數組和全局變量，在滿足數據大小的前提下，應盡可能使用小尺寸的數據類型，這樣可以節(jié)省存儲空間。ARMv4體系結構可以有效地裝載和存儲所有寬度的數據，并可以使用遞增數組指針來有效地訪問數組。對于short類型數組，要避免使用數組基地址的偏移量，因為LDRH指令不支持偏移尋址。

3）通過讀取數組或全局變量并賦給不同類型的局部變量時，或者把局部變量寫入不同類型的數組或者全局變量時，要進行顯式數據類型轉換。這種轉換使編譯器可以明確、快速地處理，把存儲器中數據寬度比較窄的數據類型擴展，并賦給寄存器中較寬的類型。

4）由于隱式或者顯式的數據類型轉換通常會有額外的指令周期開銷，所以在表達式中應盡量避免使用。Load和store指令一般不會產生額外的轉換開銷，因為load和store指令是自動完成數據類型轉換的。

5）對于函數參數和返回值應盡量避免使用char和short類型。即使參數范圍比較小，也應該使用int類型，以防止編譯器做不必要的類型轉換。

二、C循環(huán)結構

在ARM上，一個循環(huán)其實只要2條指令就足夠了：

一條減法指令，進行循環(huán)減法計數，同時設置結果的條件標志；
一條條件分支指令。

這里的關鍵是，循環(huán)的終止條件應為減計數到零，而不是計數增加到某個特定的限制值。由于減計數結構已存儲在條件標志里，與零比較的指令就可以省略了。由于不用i作為數組的下標索引，采用減計數就沒有任何問題了。

總而言之，無論對于有符號的循環(huán)計數值，都應使用i！=0作為循環(huán)的結束條件。對有符號數i，這比使用條件i>0少了一條指令。

總結：
1）使用減計數到零的循環(huán)結構，這樣編譯器就不需要分配一個寄存器來保存循環(huán)終止值，而且與0比較的指令也可以省略。

2）使用無符號的循環(huán)計數值，循環(huán)繼續(xù)的條件為i!=0而不是i>0，這樣可以保證循環(huán)開銷只有兩條指令。

3）如果事先知道循環(huán)體至少會執(zhí)行一次，那么使用do-while循環(huán)要比for循環(huán)要好，這樣可以使編譯器省去檢查循環(huán)計數值是否為零的步驟。

4）展開重要的循環(huán)體可降低循環(huán)開銷，但不要過度展開，如果循環(huán)的開銷對整個程序來說占的比例很小，那么循環(huán)展開反而會增加代碼量并降低cache的性能。

5）盡量使數組的大小是4或8的倍數，這樣可以容易的以2，4，8次等多種選擇展開循環(huán)，而不需要擔心剩余數組元素的問題。

三、寄存器分配

高效的寄存器分配:應該盡量限制函數內部循環(huán)所用局部變量的數目，最多不超過12個，這樣，編譯器就可以把這些變量都分配給ARM寄存器。

四、函數調用

4寄存器規(guī)則:帶有4個或者更少參數的函數，要比多于4個參數的函數執(zhí)行效率高得多。對帶有少于4個參數的函數來說，編譯器可以用寄存器傳遞所有的參數；而對于多于4個參數的函數，函數調用者和被調用者必須通過訪問堆棧來傳遞一些參數。

如果函數體積很小，只用到很少的寄存器，那么還有一些其他的方法來減少函數調用的開銷。可以把調用函數和被調用函數放在同一個C文件中，這樣編譯器就知道了被調用函數生成的代碼，并以此對調用函數進行一些優(yōu)化。

總結：
1）盡量限制函數的參數，不要超過4個，這樣函數調用的效率會更高。也可以將幾個相關的參數組織在一個結構體中，用傳遞結構體指針來代替多個參數。
2）把比較小的被調用函數和調用函數放在同一個源文件中，并且要先定義，后調用，編譯器就可以優(yōu)化函數調用或者內聯較小的函數。
3）對性能影響較大的重要函數可使用關鍵字_inline進行內聯。

五、指針別名

定義：當2個指針指向同一個地址對象時，這2個指針被稱作該對象的別名（alias）。如果對其中一個指針進行寫入，就會影響從另一個指針的讀出。在一個函數中，編譯器通常不知道哪一個指針是別名，哪一個不是；或哪一個指針有別名，哪一個沒有。

避免指針別名：
1）不要依賴編譯器來消除包含存儲器訪問的公共子表達式，而應建立一個新的局部變量來保存這個表達式的值，這樣可以保證只對這個表達式求一次值；
2）避免使用局部變量的地址，否則對這個變量的訪問效率會比較低。

六、結構體安排

在ARM上使用結構體有2個問題需要考慮：結構體地址邊界對齊和結構體總的大小。

獲得高效結構體的原則：
1）把所有8位大小的元素安排在結構體的前面；
2）以此安排16位、32位和64位的元素；
3）把所有數組和比較大的元素安排在結構體最后；
4）對于一條指令，如果結構體太大而不能訪問所有的元素，那么把元素組織到一個子結構體中。編譯器可以維持單獨的子結構體的指針。

總結：
結構體元素要按照元素的大小來排列，以最小的元素放在開始，最大的元素安排在最后；避免使用很大的結構體，可以用層次化的小結構體來代替；為了提高可移植性，人工對API的結構體增加填充位，這樣，結構體的安排將不會依賴與編譯器；在API的結構體中要謹慎使用枚舉類型。一個枚舉類型的大小是編譯器相關的。

七、位域

注意事項：
1）應避免使用位域，而使用#define或者enum來定義屏蔽位；
2）使用整型邏輯運算AND、OR、“異或”操作和屏蔽對位域進行測試、取反和設置操作。這些操作編譯效率高，還可以同時對多個位域進行測試、取反和設置。

八、邊界不對齊數據和字節(jié)排列方式（大/小端）

邊界不對齊數據和字節(jié)排列方式這2個問題，可使內存訪問和移植問題復雜化。須考慮數組指針是否邊界對齊，ARM配置是大端（big-endian），還是小端（little-endian）的存儲器系統(tǒng)。

總結：
1）盡量避免使用邊界不對齊的數據；
2）使用類型char *可指向任意字節(jié)邊界的數據。通過讀字節(jié)來訪問數據，使用邏輯操作來組合數據，這樣代碼就不會依賴于邊界是否對齊或者ARM的字節(jié)排列方式的配置；
3）為了快速訪問邊界不對齊的結構體，可以根據指針邊界和處理器的字節(jié)排序方式寫出不同的程序變體。

九、除法

ARM硬件上不支持除法指令，當代碼中出現除法運算時，ARM編譯器會調用C庫函數（有符號的除法調用_rt_sdiv，無符號的調用_rt_udiv），來實現除法操作。有許多不同類型的除法程序來適應不同的除數和被除數。

總結：
1）盡可能避免使用除法。對環(huán)形緩沖區(qū)的處理可以不用除法。

2）如果不能避免除法運算，那么盡可能考慮使用除法程序同時產生商n/d和余數n%d的好處。

3）對于重復對同一除數d的除法，預先計算好s=(2k-1)/d�？捎贸艘詓的2k位乘法來代替除以d的k位無符號整數除法。

4）使用2的整數次冪作除數。當2的整數次冪做除數時，編譯器會自動將除法運算轉換成移位運算。所以在編寫程序算法時，盡量使用2的整數次冪做除數。

5）求余運算�？梢詫⒁恍┑湫偷那笥噙\算進行轉換，以避免在程序中使用除法運算。

如：
uint counter1(uint count)
{
      return (++count%60);
}
轉換成：
uint counter2(uint count)
{
      if (++count >=60)
      count=0;
      return (count);
}

大多數ARM處理器硬件上并不支持浮點運算。這樣在一個對價格敏感的嵌入式應用系統(tǒng)中，可節(jié)省空間和降低功耗。除了硬件向量浮點累加器VFP和ARM7500FE上的浮點累加器FPA外，C編譯器必須在軟件上提供浮點支持。

十、內聯函數和內嵌匯編

高效地調用函數，使用內聯函數可以完全去除函數調用的開銷，另外許多編譯器允許在C源程序中使用內嵌匯編。使用包含匯編的內嵌函數，可以使編譯器支持通常不能有效使用的ARM指令和優(yōu)化方法。

內聯函數和內嵌匯編最大的好處是，可以實現一些在C語言部分中通常難以完成的操作。使用內聯函數要比使用#define宏定義更好，因為后者不檢查函數參數和返回值的類型。

以下課程可免費試聽C語言、電子、PCB、STM32、Linux、FPGA、JAVA、安卓等。
想學習的你和我聯系預約就可以免費聽課了。
宋工企鵝號：35--24-65--90-88 Tel/WX：173--17--95--19--08

国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

有這10個關鍵點，在ARM下高效C編程沒問題！

有這10個關鍵點，在ARM下高效C編程沒問題！