TW200818054A

TW200818054A - Tile based precision rasterization in graphics pipeline

Info

Publication number: TW200818054A
Application number: TW096126076A
Authority: TW
Inventors: Frnaklin C Crow; Blaise Vignon
Original assignee: Nvidia Corp
Priority date: 2006-07-26
Filing date: 2007-07-17
Publication date: 2008-04-16
Also published as: CN101131768B; US20080024497A1; TWI386862B; JP2008097583A; CN101131768A; JP4598030B2; KR100902974B1; KR20080010361A; US9070213B2

Description

200818054 九、發明說明：【發明所屬之技術領域】本發明-般而言係關於硬體加速圖像電腦系統。【先前技術】電腦效能之最近進展已使圖像系統能夠使用個人電腦、家用視訊遊戲電腦、手持裝置等提供更逼真之圖像影像。在此類圖像糸統中，盡| ^十&加^ + τ轨仃夕個程序以向系統螢幕”顯像，，或繪製圖像圖元。”圖像圖元，，為圖像圖片之基本組成部分，諸如頂，點夕邊形等。經顯像之影像由此等圖像圖元之組合形成。可利用許多程序執行3_D圖像顯像。已研I出夕種專用圖像處理單元（例如，GPU等）以最佳化執=圖像顯像程序所需之計算。咖經組態以高速操作且通系併入有-或多個顯像管線。每一管線包括多個基於更體之功月b單元，該等功能單元經最佳化以高速執行圖像指令/資料’其中將指令/資料饋入至管線之前端中，且於 e線之後端處出現計算結果。Gpu之基於硬體之功能單 70决取β己彳思體、拿刀體等經最佳化以對於低級圖像圖元 (例如包a點"、”線"、"三角形，，等）操作且產生經即時顯像之3 -D影像。 _使用光栅顯示技術產生經即時顯像之3_d影像。光拇顯 =技術廣泛用於電腦圖像系統中，且一般指代組成影像之夕\像素之拇格文圖像圖元影響的機制。對於每個圖元， -型成像系統-般逐像素步進，且按照圖元之貢獻確定是否將』像給^像素或將其寫人訊框緩衝H或像素映射 122688.doc 200818054 中。此又確定如何將資料寫入代表每個像素之顯示緩衝器。已研發出各種追蹤演算法（traversal alg〇rithm)及各種成像方法，用於以覆蓋組成給定3-D場景之圖元内所有像素之方式自基於圖像圖元之描述計算為基於像素之描述（例如，對於每個圖元進行逐像素成像）。典型之解決方案涉及以單向方式藉由系統地逐行步進越過場景（例如，自左至右）而產生像素，且訪問該場景之每像素。按妝組成该場景之各個圖元之貢獻確定每個像素之覆蓋度。其它傳統之解決方案涉及利用每像素評估技術而精密評估組成顯示器之像素中之每一者，且確定哪些像素由哪些圖元覆蓋。一旦圖元被成像為其組成像素，隨即接著在成像級隨後之官線級中處理此等像素，其中執行顯像操作。一般而言，此等顯像操作根據組成場景之圖元之覆蓋度向顯示器之像素中之每一者分配顏色。亦根據分配於圖元之紋理映射資訊、光照資訊等確定每像素之顏色。然而，先前技術3-D顯像結構在符合處理當今應用之曰盈複雜之3-D場景之能力方面存在問題。電腦螢幕現通常具有1920x1200個像素或更大之螢幕解析率。先前技術成像解決方案愈來愈成為3-D顯像過程之瓶頸。由於顯示螢幕之尺寸不可動搖地增加至（例如920個像素寬或更大，因而先4技術之用於成像之逐行步進及每像素評估解決方案愈來愈需要更大之資源以處理計算負荷。為了處理此類 122688.doc 200818054 幕尺寸GPU之成像資源需要在每時鐘週期基礎上處理較大數目之每圖元評估操作（例如，多邊形邊緣等式），且需要每圖元評估操作處理相應較大數目之像素。因此，八1之先％技術GPU不具有足夠之成像資源以符合大螢幕尺寸且同時料可接受之即時Μ顯像效能。 a力3 D顯像效月包之傳統方法（例如，增加時鐘速度）具 . f諸如增加功率消耗及增加由GPU積體電路晶粒產生之熱〇 *之負面影響。用於增加效能之其它方法(例如併入較大數目之並行執行#元以並行執行Gpu操作）具有諸如增加積體電路晶粒尺寸、減少GPU製造過程之產率、增加功率需求等負面影響。因此，需要一種成像過程，其能夠符合圖像應用需求之要求且提供增加之效能，而不會招致諸如功率消耗增加及/ 或製作產率降低之不利結果。【發明内容】本發明實施例提供一種用於成像過程之方法及系統，其旎夠符合圖像應用需求之要求且提供增加之效能，而不會招致諸如功率消耗增加及/或製作產率降低之不利結果。 , 在一個實施例中，本發明實施為一種用於在圖像處理器 • 之光柵級中進行基於方塊之精度之成像的方法。該方法包括接收圖像圖元以於圖像處理器之光柵級中成像，以及以第一水平精度成像圖像圖元以產生複數個像素方塊。接著以第二水平精度成像該等方塊，以產生覆蓋之像素。接著輸出該等覆蓋之像素，以於圖像處理器之隨後級中進行顯 122688.doc 200818054 像操作。第一水平精度通常高於第二水平精度，以使得用於以第一水平精度處理該複數個方塊之整數值大於用於以第二水平精度處理複數個像素之整數值。以此方式，可根據需要處理之各個像素或樣品之數目調節所需精度。舉例而言，在一個實施例中，以第一水平精度成像圖像圖元，以處理組成螢幕影像之多個像素。相應地，在一個實施例中，以第二水平精度成像圖像圖元，以處理組成該複數個方塊中之每一者之複數個像素。藉由此種做法，本發明實施例有效利用GPU之成像資源在每時鐘週期基礎上處理每圖元評估操作（例如，多邊形邊緣等式），以有效符合大螢幕尺寸且同時維持可接受之即時3_D顯像效能。【實施方式】現將詳細參看本發明之較佳實施例，附圖中說明該等較佳實施例之實例。儘管將結合較佳實施例描述本發明，但將瞭解不希望其將本發明限於此等實施例。相反，希望本發明涵蓋可包含在隨附申請專利範圍中所界定之本發明精神及範疇内之替代物、修改及均等物。此外，在本發明實施例之以下詳細描述中，陳述多個特定細節以提供對本發明之徹底理解。然而，普通熟習此項技術者將認識到可在不存在此等特定細節之情況下實踐本發明。在其它例子中，未詳細描豸熟知之方法、程序、㈣及電路以免不必要地混淆本發明實施例之態樣。符號及術語 122688.doc 200818054 自電腦記憶體内對資料位元所進行之操作的程序、牛 :的苹邏：塊、處理及其他符號表示之角度展現以下㈣部分。此等描述及表示為熟習資料處理技術者用 =作品實質最有效傳達至其它熟習此項技術者的方 \転序、電腦執行步驟、邏輯塊、處理等在此處且一般被⑽為疋導致希望結果之自相容步驛或指令序列。該等牛驟為需要對於實體量作出實體操作之步驟。通常（儘管: 必要），此等量採用能在電腦系統中存儲、傳遞、組合、比車乂及以其他方式操縱之電信號或磁信號的形式。已多次證實將此等信號稱為位元、值、元素、符號、字符、項^ 數字或類似形式是便利的，主要因為常見用法之緣故。然而’應記住所有此等及類似術語與適#實體量相關聯且僅僅為應用於此等量之方便標記。除非自以下論述中容易看出另有特別規定，否則理解為在本發明中使用諸如處理或存取"或"執行，，或"存儲"或"顯像"等術語之論述始終指代電腦系統（例如圖丨之電腦系統1〇〇)或類似電子計算裝置之行為及處理，其操縱表示為電腦系統之暫存器及記憶體内的實體（電子）量之資料且將其變換為類似表^為電腦系統記憶體或暫存器或其它此類資訊存儲、傳輸或顯示裝置内之實體量的其它資料。電腦系統平臺圖1展示根據本發明一個實施例之電腦系統1〇〇。電腦系統100描繪根據本發明實施例之基本電腦系統的組件，其為特定的基於硬體及基於軟體之功能性提供執行平臺。一 122688.doc -10· 200818054 般而言’電腦系統100包含至少一個CPU 101、系統記憶體 115及至少一個圖像處理器單元（GPU)l 10。該CPU 101可經由橋接器組件/記憶體控制器（未圖示）耦合至系統記憶體 Π5，或可經由在cpu 101内部至記憶體控制器（未圖示）直接麵合至系統記憶體115。GPU 110耦合至顯示器112。一或多個額外GPU可視情況耦合至系統1 〇〇，以進一步增加 ' 其計异能力。GPU 110耦合至CPU 101及系統記憶體115。 / 系統100可實施為（例如）桌上型電腦系統或伺服器電腦系統’其具有耦合至專用圖像顯像GPU 110之強大的通用 CPU 101。在此類實施例中，可包括添加外圍匯流排、專門圖像記憶體、1〇裝置等的組件。類似地，系統1 〇〇可實施為手持裝置（例如，手機等）或置頂視訊遊戲控制台裝置 (例如了自 Microsoft Corporation of Redmond，Washington 講知之 Xbox® 或可自 Sony Computer Entertainment C〇rporati〇n of T〇ky〇, Japan購得之piayStati〇n3⑧）〇 (J 應理解，GpU 110可實施為離散組件、經設計以經由連接器（例如，AGP插槽、PCI_Express插槽等）耦合至電腦系統100之離散圖像卡、離散積體電路晶粒（例如，直接安裝、於主機板上）或作為包括於電腦系統晶片組組件（未圖示）之 . 積體電路晶粒内的積體GPU。視情況，可對於GPU 11〇包括本地圖像記憶體114以用於高頻寬圖像資料存儲。本發明實施例圖2展示根據本發明之一個實施例描繪位於螢幕25〇上用於成像之多邊形201的圖2〇〇。 122688.doc 200818054 J:描緣根據本發明實施例執行之成像過程。在該成像罝^間，多邊形（在此情況下為三角形201)之覆蓋範圍在 … ^個方塊之個別部分上方分解為其各個貢獻部分 •如每方塊32x32個像素、每方塊16><16個像素、每方塊8X8個〜像素等）°對於覆蓋較大數目像素之非常大之三角幵〉’界定三角形且因此界定覆蓋哪些像素之邊緣等式可用 :較：數目之位元表示其整數操作數。此是由於這樣之事

U ^而要以足夠之精度界定三角形邊緣等式，以便允許確疋那些像素由三角形（或其它類型圖像圖元）覆蓋。圖2描繪比較大之螢幕25〇，在此情況下其橫越卟個像素 (例如，8192個像素）。使用此類大螢幕25〇，需要較大數目元界疋且處理組成螢幕25〇之像素，如由例示性線描繪，其中成像器在螢幕25〇之寬度上自左至右步進越過一行方塊。圖3展不根據本發明一個實施例之三角形2〇1及沿著成像線202產生之覆蓋方塊。如上所述，三角形邊緣等式之較大整數操作數用於評估較大三角形（例如，三角形2〇丨），且確定哪些方塊具有覆蓋。三角形邊緣等式之較大整數操作數用於為該三角形切割出具有至少某些覆蓋之彼等方塊。沿著成像線202說明此等方塊。根據本發明實施例，一旦確定了此等方塊，即可使用較小整數操作數評估每一該方塊内有哪些像素具有覆蓋。此屬性利用這樣之事實：步進越過方塊所需之位元數目比步進越過大螢幕（例如，螢幕 25 0)所需之位元數目小得多。 122688.doc -12- 200818054 圖4展示根據本發明之一個實施例描繪例示性方塊400之尺度之圖。如上所述，組成方塊400之像素之數目比組成大勞幕（例如，螢幕250)之像素之數目小得多。舉例而言，在一個實施例中，方塊400具有32像素之寬度及32像素之而度。在另一實施例中，方塊400具有16像素之寬度及16 像素之高度。對於圖2之全螢幕影像250，三角形邊緣等式需要能夠處理相對較大數目之像素（例如，4096或8192個像素）。此意味著三角形邊緣等式操作數使用13或14個位元（例如，13 位70 X維度操作數及13位元y維度操作數）。在後續成像操作中（例如，在細成像期間），計算僅需要處理各個方塊（例如方塊400(例如，ι6χ16個像素））内所發生之事物。對於此等情形，在每個維度上僅處理16個像素是足夠的。因而，舉例而言，該演算法僅需要提供三或四位元整數像素位址而非13或14位元。因此，對於此等稍後成像操作，藉由消除最高有效10位元（舉例而言），給定成像器級可節省大量矽面積而不會損失有用精度。舉例而言，在一個實施方案中，成像過程被劃分為粗成像及細成像。在細成像期間，當在32x32方塊内工作時，精度自13或14位元調節至5位元。節省之矽面積提供諸多優點。舉例而言，節省之矽面積可用於其它用途，諸如較大之記憶體超高速緩存、更強大之ALU等。類似地，較小整數操作數降低了存儲操作數所需之矽面積。節省之矽面積亦改進整個GPU製作過程之產 122688.doc -13- 200818054 率，且降低所得GPU晶粒之功率消耗。因此’舉例而言’在成像器與大榮幕2 5 0 —起作用之情況下，為執行初始成像，成像器需要能夠處理螢幕250之 8K範圍内之各個像素，從而導致較大整數操作數（例如， 14、15位元或更多）。一旦切割出各個方塊，成像器便僅需要在組成方塊400之該數目之像素内工作。因此，在方塊400為32個像素寬之情況下，成像器僅需要在寬度維度上處理32個像素，此僅需要5個位元。類似地，在方塊為8 個像素寬之情況下，成像器級僅需要在每一維度上處理8 個像素，此僅需要每維度3個位元。換而言之，一旦成像過程進入方塊水平，精度之整數水平便可降低為足以覆蓋界定該方塊之像素範圍。對於執行多級成像之成像級，隨著方塊尺寸進一步沿著成像管線向下而變小’重複此過程。精度相應降低以匹配組成該方塊之像素數目乃至組成該方塊之樣品數目。圖5展示根據本發明一個實施例於光柵級5〇〇内實施之基於方塊之精度之成像過程的圖。如圖5描繪，當光栅級以螢幕相關之精度尺度（例如，圖2之螢幕25〇)操作時，三角形邊緣等式操作數具有第一整數精度水平，展示為整數精度水平501。當光柵級（例如）在組成各個方塊（例如，圖4之方塊400)之像素内以第二水平方塊相關之精度操作時，三角形邊緣等式操作數向下調節為第二精度水平，從而產生較小整數操作數，展示為整數精度水平5〇2。因此，當光柵級（例如）在方塊400之子部分（例如，在方塊4〇〇被進一步 122688.doc 200818054 劃分成較小子方塊之情況下）内或用各個像素之樣品以第二水平方塊相關之精度操作時，三角形邊緣等式操作數向下調節為第三精度水平，從而產生較小整數操作數，展示為整數精度水平503。以此方式，每當降低方塊尺寸時，可相應降低處理組成 • 該方塊之像素所需之精度。在計算樣品時類似地降低精 • 度。圖6展示根據本發明實施例描繪包括擴展位元601之例示

C 性整數操作數之圖600。圖6描繪擴展位元601之可選使用之使用’該擴展位元601可添加為操作數之最高有效位元’以才曰示二角形（例如，三角形2〇 1)之邊緣位於方塊邊界以外之情況。舉例而言，在一個實施例中，擴展位元6〇1 將由光栅級之硬體用以指示覆蓋範圍延伸超過方塊邊界，如同邊緣位於無限遠處一樣。圖7展示根據本發明一個實施例之GPU 110之内部組件的 Q 圖。如圖7所示，GPU 110包括設置引擎701及成像器單元 702 °在本實施例中，本發明之功能性在成像器單元702之硬體及軟體内實施。一般而言，成像器單元702藉由將自 ' 設置引擎701接收之基於頂點之描述轉換為基於邊緣描述 • 之描述而起作用。成像器單元702隨後將此等邊緣描述轉換為組成實際像素描述之填充區域（例如，像素區域、像素子樣品等）。隨後將像素描述傳遞至GPU 110内之其它單兀以供進_步處理及顯像。 &本實施例中，成像器單元702包括粗光柵組件703及細 122688.doc •15- 200818054 光栅組件704。粗光柵組件703在快速查找方塊柵格以識別所關注之方塊（例如，由圖元覆蓋之方塊）時實施第一少許精度方塊成像過程（如上所述）。一旦識別到所關注之方塊群組，細光柵組件704單獨識別由圖元覆蓋之像素。因此，在此類實施例中，粗光柵组件703藉由使用方塊而快速查找像素栅格，且細光柵組件704使用由粗光柵組件703 產生之資訊，且藉由單獨識別由圖元覆蓋之像素而實施第二水平精度細粒度成像。仍參看圖7，CPU 110進一步包括快取記憶體721，其藉由對於最頻繁使用之圖像顯像資料實施高速低等待時間存儲而起作用。此類資料通常包含紋理資訊、頂點資訊、顏色等。快取記憶體721展示為耦合至本地圖像記憶體114。快取記憶體721利用一或多個快取維持機制維持與本地圖像記憶體114之一致性。箭頭74〇展示Gpu 11〇與系統記憶體（例如，圖1所示之記憶體115)之間之通信路徑。

C 在個實施例中，包含光栅單元702之硬體經最佳化以在母時鐘基礎上操作。舉例而言，為提供高處理量且因此維持高顯像訊框速率，粗光柵組件7()3及細光柵組件7〇4包 t經設計以在每時鐘·基礎上實施第-水平精度成像及水平精度成像之硬體。成像器單元繼可經實施以使 :在粗光栅組件703中實施第一水平成像，該粗光桃組件你 ^ 刀J Φ覆盍給定圖元之方塊。隨二：光柵組件704中實施具有第二水平精度之成像，先柵組件取在單個時鐘週期中切割出方塊之覆蓋之 122688.doc _ 16 · 200818054 像辛0 ^ U此’舉例而言，可每時鐘處理64個像素之硬體將使用64像素佔地面積（例如，四個每一者具有16個像素之鬼）而可母時鐘處理128個像素之硬體將使用128個像素2地面積（例如，八個每一者具有16個像素之方塊、四個母者具有32個像素之方塊等）。於。兒明及描述目之展現對本發明特定實施例之以上描述不希望其為詳盡的或將本發明限於所揭示之精確形式，且能夠根據以上教示作出多種修改及改變。選擇且描述忒等實施例是為了最好地解釋本發明原理及其實際應用，因而使得熟習此項技術者能夠最好地利用本發明及具有適合於所希望之特定使用之各種修改之各種實施例。希望本發明範圍由隨附申請專利範圍及其均等物界定。【圖式簡單說明】在附圖圖式中以實例方式而非以限制方式來說明本發月其中相同元件符號指代類似元件。圖1展示根據本發明一個實施例之電腦系統。圖2展不根據本發明一個實施例描繪位於螢幕上用於成像之多邊形201之圖。圖3展示根據本發明一個實施例之三角形及沿著成像線產生之覆蓋方塊。圖4展示根據本發明一個實施例描繪示範性方塊之尺度之圖。圖5展示根據本發明一個實施例於光柵級内實施之基於方塊之精度之成像過程的圖。 122688.doc -17- 200818054 圖6展示根據本發明實施例描繪包括擴展位元之例示性整數操作數之圖。圖7展示根據本發明一個實施例之GPU之内部組件的圖。【主要元件符號說明】 100 電腦系統

101 CPU

110 GPU

112 顯示器 114 本地圖像記憶體 115 系統記憶體 201 多邊形（三角形） 202 成像線 250 螢幕 400 方塊 500 光柵級 501 整數精度水平 502 整數精度水平 503 整數精度水平 600 圖 601 擴展位元 701 設置引擎 702 成像器單元 703 細光柵組件 122688.doc -18- 200818054

U 704 粗光柵組件 721 快取記憶體 740 箭頭 122688.doc

Claims

200818054 十、申請專利範圍： 1· 一種於一圖像處理器之一光柵級中用於基於方塊之精度之成像的方法，其包含：接收一圖像圖元以於一圖像處理器之一光柵級中成像；以一第一水平精度成像該圖像圖元以產生複數個像素方塊；以及以一第二水平精度成像該等方塊以產生覆蓋之像素；以及輸出該等覆蓋之像素以於該圖像處理器之一隨後級中進行顯像操作。 2.如請求項丨之方法，其中該第一水平精度高於該第二水平精度。月长項2之方法，其中用於以該第一水平精度處理該複數個方塊之整數值A於用於以該第二水平精度處理複 Ο 數個像素之整數值。月长項1之方法’其中以該第一水平精度成像該等圖 <圖π ’以處理組成—螢幕影像之複數個像素。 5. 2求項1之方法，其中以該第二水平精度成像該等圖 :=，以處理組成該複數個方塊中之每一者之複數個 6·如請求項5之方法，分為至少兩個部分，至少兩個部分以處理其中將該複數個方塊中之每一者劃且^以―第三水平精度成像該等組成每個部分之複數個像素。 122688.doc 200818054 7·如請求項1之方法，其中在每時鐘週期基礎上實施該具有該第一水平精度之成像。 8·如印求項1之方法，其中在每時鐘週期基礎上實施該具有該第二水平精度之成像。 9·如睛求項1之方法，其中於一粗光栅單元中實施具有該第一水平精度之成像，且於一細光柵單元中實施具有該第二水平精度之成像。 10· —種GPU(圖像處理器單元），其包含：一設置單元，其用於產生多邊形描述；一成像器單元，其耦合至該設置單元，用於成像該等多邊形描述；一粗光柵單元，其位於該成像器單元内，用於以一第一水平精度成像一圖像圖元，以產生複數個像素方塊；以及一細光栅單元，其位於該成像器單元内，用於以一第二水平精度成像該圖像圖元，以產生覆蓋之像素以於該圖像處理器之一隨後級中進行顯像操作。 11.如請求項10之GPU，其中該第一水平精度高於該第二水平精度。 12·如請求項1〇2GPU，其中用於以該第一水平精度處理該複數個方塊之整數值大於用於以該第二水平精度處理複數個像素之整數值。 13.如請求項1〇2GPU，其中以該第一水平精度成像該等圖像圖元，以處理組成一螢幕影像之複數個像素。 122688.doc 200818054 14·=求項Η)之GPU，其中以該第二水平精度成像該等圖圖％，以處理組成該複數個方塊中之每一者之複數個像素。 15· 2請求項14之GPU，其中將該複數個方塊中之每一者劃為至夕兩個部分，且其中以一第三水平精度成像該等至少兩個部分以處理組成每個部分之複數個像素。 16·如請，項10之GPU，其中在每時鐘週期基礎上實施該具有該第一水平精度之成像。 17·如請求項1〇之Gpu，其中在每時鐘週期基礎上實施該具有該第二水平精度之成像。 18· 一種電腦系統，其包含：一系統記憶體；中央處理器單兀，其耦合至該系統記憶體；以及 -圖像處理器單元，其以通信方式耦合至該中央處理器單元；一设置單元，其位於該圖像處理器單元内，用於產生多邊形描述；一成像器單元，其位於該圖像處理器單元内且耦合至該設置單元，用於成像該等多邊形描述；以及 -粗光柵組件’其位於該光栅單元内，其中該粗成像器圖像處理器組件經組態以接收一圖像圖元以用於在一之-光柵級中成像，以-第-水平精度成像該圖像圖元以產生複數個像素方塊，且以一第二水平精度成像該等方塊以產生覆蓋之像素；且其中輸出料覆蓋之像素以 122688.doc 200818054 於該圖像處理器之一隨後級中進行顯像操作。 19 ·如請求項1 8之電腦糸統，其中該第一水平精度高於該第二水平精度。 20·如請求項19之電腦系統，其中用於以該第一水平精度處理該複數個方塊之整數值大於用於以該第二水平精度處 • 理複數個像素之整數值。

122688.doc