ТПУ в2 (Тенсор Процессинг Унит верзија 2) је специјализовани хардверски акцелератор који је развио Гоогле за радна оптерећења машинског учења. Посебно је дизајниран да побољша перформансе и ефикасност модела дубоког учења. У овом одговору ћемо истражити структуру распореда ТПУ в2 и разговарати о компонентама сваког језгра.
ТПУ в2 распоред је организован у више језгара, од којих се свако састоји од различитих компоненти. Свако језгро је способно да изврши велики број операција множења матрице паралелно, што је фундаментална операција у многим алгоритмима машинског учења.
У срцу сваког ТПУ в2 језгра је низ елемената за обраду (ПЕ). Ови ПЕ су одговорни за извођење стварних прорачуна. Они су високо оптимизовани за множење матрице и могу да обављају ове операције са великом пропусношћу и малим кашњењем. Број ПЕ-ова у сваком језгру варира у зависности од специфичног ТПУ в2 модела.
ПЕ-ови су повезани са локалном хијерархијом меморије, која укључује различите нивое кеша. Ове кеш меморије се користе за складиштење међурезултата и смањују потребу за приступом спољној меморији, што може бити значајно уско грло у погледу перформанси. ТПУ в2 користи комбинацију СРАМ-а на чипу (статичка меморија са случајним приступом) и ДРАМ-а ван чипа (динамичка меморија са случајним приступом) како би обезбедио равнотежу између капацитета и кашњења.
Поред ПЕ-ова и меморијске хијерархије, свако ТПУ в2 језгро такође укључује контролну јединицу. Контролна јединица је одговорна за координацију извршавања инструкција и управљање протоком података између различитих компоненти. Осигурава да се ПЕ правилно користе и да се прорачуни одвијају на ефикасан начин.
Штавише, ТПУ в2 укључује ткање међусобног повезивања високог пропусног опсега које омогућава да више језгара међусобно комуницирају. Ова интерконекција омогућава ефикасно дељење података и синхронизацију између језгара, што је важно за паралелну обраду. Осигурава да ТПУ в2 може ефикасно да скалира своје перформансе користећи више језгара на координисан начин.
Да резимирамо, ТПУ в2 распоред је структуиран око више језгара, од којих се свако састоји од елемената за обраду, локалне меморијске хијерархије, контролне јединице и мреже међусобног повезивања високог пропусног опсега. Ове компоненте раде заједно како би омогућиле ефикасно и високо перформансно извршавање радних оптерећења машинског учења.
Остала недавна питања и одговори у вези Уроните у ТПУ в2 и в3:
- Да ли употреба формата података bfloat16 захтева посебне технике програмирања (Python) за TPU?
- Која су побољшања и предности ТПУ в3 у поређењу са ТПУ в2, и како систем воденог хлађења доприноси овим побољшањима?
- Шта су ТПУ в2 подови и како они побољшавају процесорску снагу ТПУ-а?
- Какав је значај типа података бфлоат16 у ТПУ в2 и како он доприноси повећању рачунарске снаге?
- Које су кључне разлике између ТПУ в2 и ТПУ в1 у погледу дизајна и могућности?

