23:59
Comentarii Adauga Comentariu

ZeRO-Infinity și DeepSpeed: Deblocarea unei scale de model fără precedent pentru instruirea în profunzime a Inteligenței Artificiale



Blogul Microsoft Research

ZeRO-Infinity și DeepSpeed: Deblocarea unei scale de model fără precedent pentru instruirea în profunzime a Inteligenței Artificiale

Publicat 19 aprilie 2021

De echipa DeepSpeed

Inteligență artificială

De când a fost introdusă biblioteca de optimizare DeepSpeed ​​anul trecut, a lansat numeroase optimizări noi pentru instruirea modelelor mari de AI - îmbunătățirea scării, vitezei, costurilor și utilizabilității. Deoarece modelele mari au evoluat rapid în ultimul an, la fel și DeepSpeed. Indiferent dacă le permite cercetătorilor să creeze generația de limbi naturale Microsoft Turing de 17 miliarde de parametri (Turing-NLG) cu precizie de ultimă generație, obținând cel mai rapid record de formare BERT sau susținând formare de 10 ori mai mare folosind un singur GPU , DeepSpeed continuă să abordeze provocările din AI la scarăcu cele mai recente progrese pentru formarea la scară largă a modelelor. Acum, noua tehnologie de optimizare a memoriei ZeRO (Zero Redundancy Optimizer), inclusă în DeepSpeed, se află într-o transformare proprie. ZeRO-Infinity îmbunătățit oferă capacitatea sistemului de a trece dincolo de peretele de memorie GPU și de a antrena modele cu zeci de miliarde de parametri, un ordin de mărime mai mare decât sistemele de ultimă generație. De asemenea, oferă o cale promițătoare spre instruirea modelelor de 100 trilioane de parametri.

ZeRO-Infinity dintr-o privire: ZeRO-Infinity este o nouă tehnologie de formare profundă (DL) pentru formarea modelelor de scalare, de la un singur GPU la supercomputerele masive cu mii de GPU-uri. Alimentează dimensiuni de model fără precedent, utilizând capacitatea completă de memorie a unui sistem, exploatând simultan toată memoria eterogenă (GPU, CPU și memorie non-volatile express sau NVMe pe scurt). Aflați mai multe în lucrarea noastră, „ ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning ”. Cele mai importante momente ale ZeRO-Infinity includ:

Oferind capacitatea sistemului de a antrena un model cu peste 30 de trilioane de parametri pe 512 GPU-uri NVIDIA V100 Tensor Core, de 50 de ori mai mari decât stadiul tehnicii.

Oferind o eficiență excelentă de formare și o scalare a randamentului superliniar prin partiționarea și maparea de date noi, care pot exploata lățimile de bandă de memorie CPU / NVMe agregate și calculul procesorului, oferind peste 25 de petaflopi de transfer susținut pe 512 GPU-uri NVIDIA V100.

Continuarea misiunii echipei DeepSpeed ​​de a democratiza formarea de modele mari, permițând oamenilor de știință de date cu un singur GPU să regleze modele mai mari decât Open AI GPT-3 (175 miliarde de parametri).

Eliminarea barierei de intrare pentru formarea de modele mari, făcându-l mai simplu și mai ușor - ZeRO-Infinity depășește un trilion de parametri fără complexitatea combinării mai multor tehnici de paralelism și fără a necesita modificări în codurile de utilizator. Din câte știm, este singura tehnologie paralelă care face acest lucru. Videoclipul de mai sus arată modul în care ZeRO-Infinity valorifică în mod eficient GPU, CPU și NVMe în totalitate prin 1) partiționarea fiecărui nivel de model în toate procesele paralele de date, 2) plasarea partițiilor pe dispozitivele NVMe paralele de date corespunzătoare și 3) coordonarea mișcării datelor necesare pentru a calcula propagarea înainte / înapoi și actualizările de greutate pe GPU-urile paralele de date și respectiv CPU-uri.

Suntem, de asemenea, încântați să anunțăm integrarea DeepSpeed ​​cu Azure Machine Learning și soluțiile open-source. Mediul curatat DeepSpeed din Azure Machine Learning facilitează accesul utilizatorilor la Azure . DeepSpeed ​​este acum integrat în Hugging Face v4.2 și PyTorch Lightning v1.2. Utilizatorii Hugging Face și PyTorch Lightning își pot accelera cu ușurință modelele cu DeepSpeed ​​printr-un simplu steag „deepspeed”!

Abordarea nevoilor de formare de modele mari acum și în viitor cu ZeRO-Infinity

În ultimii trei ani, cel mai mare model dens antrenat a crescut de peste 1.000 de ori, de la o sută de milioane de parametri în era pre-BERT la peste o sută de miliarde de parametri acum. Cu toate acestea, în aceeași durată, memoria GPU simplă a crescut doar cu 5x (16 GB la 80 GB). Prin urmare, creșterea dimensiunii modelului a fost posibilă în principal prin progresele în tehnologia de sistem pentru instruirea modelelor DL ​​mari, cu tehnologii paralele precum paralelismul modelului, paralelismul conductelor și ZeRO permițând modelelor mari să se încadreze în memoria GPU agregată, creând o cale către instruirea modelelor mai mari și mai puternice.

Stadiul tehnicii în tehnologia de formare a modelelor mari este paralelismul 3D. Acesta combină paralelismul modelului (tranșarea tensorială) și paralelismul conductelor cu paralelismul datelor în moduri complexe pentru a scala modele în mod eficient, utilizând pe deplin memoria GPU agregată și calculul unui cluster. Paralelismul 3D a fost folosit în DeepSpeed și NVIDIA Megatron-LM , printre alte cadre.

În ciuda capacităților incredibile ale paralelismului 3D pentru formarea modelelor mari, ajungem acum la peretele de memorie GPU. Memoria GPU agregată pur și simplu nu este suficient de mare pentru a susține creșterea dimensiunii modelului. Chiar și cu cele mai noi GPU-uri NVIDIA A100, care au 80 GB memorie, paralelismul 3D necesită 320 de GPU-uri doar pentru a se potrivi cu un model de trilioane de parametri pentru antrenament. În plus, paralelismul 3D necesită refactorizarea semnificativă a codului de la oamenii de știință a datelor, creând o barieră mare la intrare. Trei întrebări apar:

Privind în viitor, cum susținem următoarea creștere de 1.000 de ori în dimensiunea modelului, trecând de la modele precum GPT-3 cu 175 de miliarde de parametri la modele cu sute de miliarde de parametri?

Concentrându-ne pe prezent, cum putem face ca marile modele de astăzi să fie accesibile mai multor oameni de știință care ar putea să nu aibă acces la sute la GPU-uri necesare în prezent pentru a se potrivi acestor modele?

Putem face mai ușoară pregătirea pentru modelele mari eliminând această nevoie de refactorizare a modelelor?

Astăzi, facem un salt înainte de paralelismul 3D prin introducerea ZeRO-Infinity, un sistem nou capabil să abordeze toate provocările menționate mai sus ale antrenamentului pentru modelele mari. ZeRO-Infinity extinde familia de tehnologie ZeRO cu noi inovații în cartografierea datelor și acces la memorie eterogenă de înaltă performanță, care permite ZeRO-Infinity să accepte dimensiuni masive ale modelului pe resurse GPU limitate prin exploatarea simultană a memoriei CPU și NVMe, neimputernicită de lățimea lor de bandă limitată .

ZeRO-Infinity poate antrena, de asemenea, aceste modele fără a fi nevoie să combine mai multe forme de paralelism în paralelism 3D. O face printr-o nouă abordare bazată pe calcul, centrată pe memorie, care vizează reducerea cerințelor de memorie GPU ale straturilor individuale mari, care altfel ar necesita paralelismul modelului (feliere tensoriale) pentru a se potrivi modelului în memoria GPU. În plus, ZeRO-Infinity simplifică formarea de modele mari, identificând și automatizând toate comunicațiile necesare pentru instruirea oricărei arhitecturi de model arbitrare, eliminând practic nevoia de refacturare a oricărui model chiar și atunci când se scalează la trilioane de parametri. Nu în ultimul rând, ZeRO-Infinity oferă un motor puternic de calcul și comunicare care se suprapune conceput pentru a împinge eficiența antrenamentului la limite ascunzând cât mai multă latență de comunicare.

Cu toate aceste inovații, ZeRO-Infinity redefinește capacitățile unui sistem DL, oferind o scală de model fără precedent, care este accesibilă și ușor de utilizat , obținând în același timp o eficiență excelentă a antrenamentului .

Scală de model fără precedent: instruiți modele de 30 de trilioane de parametri pe 512 GPU-uri ZeRO-Infinity oferă un salt de ordine de mărime în tehnologia sistemelor de instruire DL, deschizând o cale către susținerea următoarei creșteri de 1.000 de ori a scării modelului prin exploatarea eficientă a sistemelor de memorie eterogene pe generațiile actuale și viitoare de hardware. Acesta rulează un model cu peste un trilion de parametri pe un singur nod NVIDIA DGX-2 și peste 30 de trilioane de parametri pe 32 de noduri (512 GPU-uri). Cu o sută de noduri DGX-2 într-un cluster, proiectăm ZeRO-Infinity poate antrena modele cu peste o sută de miliarde de parametri . (vezi Figura 1 pentru detalii).

Figura 1: Compararea scării modelului între paralelism 3D și ZeRO-Infinity. Experimentele sunt efectuate pe clustere GPU utilizând sisteme NVIDIA DGX-2 16-GPU (noduri). Modelul scalează până la 32 trilioane de parametri pe 512 GPU-uri V100 (32 noduri DGX-2) pe baza rulărilor măsurate, în timp ce numărul de parametri pe 64 și 128 noduri DGX-2 se bazează pe proiecții. Pentru a permite formarea modelului la această scară, ZeRO-Infinity extinde familia de tehnologie ZeRO cu inovații distincte care vizează diferite blocaje ale memoriei.

1. Etapa 3 a ZeRO (ZeRO-3) permite eliminarea tuturor redundanțelor de memorie în formarea paralelă de date prin partiționarea stărilor modelului în procesele paralele de date.

Explorează modul în care ZeRO-3 elimină redundanțele de memorie

2. Infinity Offload Engine, o nouă bibliotecă de descărcare de date, permite exploatarea completă a arhitecturilor eterogene moderne de memorie prin descărcarea stărilor de model partiționate în memoria dispozitivului CPU sau NVMe, care sunt mult mai mari decât memoria GPU.

Figura 3: Defalcare a memoriei / stocării totale disponibile pe un singur sistem NVIDIA DGX-2. Are 3x memorie CPU și peste 50x stocare NVMe comparativ cu memoria GPU.

Explorează modul în care Infinity Offload Engine exploatează pe deplin memoria eterogenă 3. Punctul de control al activării cu descărcarea procesorului permite reducerea amprentei de memorie de activare, care poate deveni blocajul memoriei de pe GPU după ce memoria cerută de stările modelului este adresată de ZeRO-3 și Infinity Offload Engine.

Explorați modul în care punctele de control ale activării cu descărcarea procesorului conservă memoria

4. Placarea operatorului centrat pe memorie, o tehnică nouă de reprogramare a calculelor care funcționează împreună cu programul de acces și comunicare ZeRO, permite reducerea amprentei de memorie a straturilor individuale incredibil de masive care pot fi prea mari pentru a se potrivi în memoria GPU chiar și cu un singur strat la o vreme.

Explorează modul în care placarea operatorului centrat pe memorie reduce memoria de lucru pentru straturile mari

Acces mai larg la reglarea fină a modelelor extrem de mari: GPT-3 sau chiar modele mai mari pe un singur GPU

Figura 4: Compararea celor mai mari dimensiuni de model care pot fi instruite pe un singur nod NVIDIA DGX-2 utilizând diverse tehnologii de formare paralele DL. Nodul NVIDIA DGX-2 este format din 16 GPU-uri V100-32GB împreună cu 1,5 TB memorie CPU și 20 TB stocare NVMe utilizabilă. Culorile albastru, portocaliu și verde sunt utilizate pentru a reprezenta tehnologii care utilizează numai memoria GPU, GPU cu memorie CPU și GPU cu memorie atât pentru CPU, cât și pentru NVMe. ZeRO-Infinity poate rula de fapt cu peste un trilion de parametri chiar și pe un singur GPU, comparativ cu stadiul tehnicii, care este de 13 miliarde de parametri cu ZeRO Offload.

În timp ce pregătirea preliminară este primul pas important în crearea unui model masiv, reglarea fină pentru sarcini specifice este esențială pentru valorificarea întregului potențial al modelului pentru diferite scenarii. Reglarea fină a modelelor masive ușor accesibile pentru oamenii de știință a datelor ar putea permite crearea multor modele derivate pentru a satisface nevoia diferitelor scenarii de aplicație. Aceste sarcini ar putea varia de la corecția gramaticală la asistența la scriere, de la subtitrarea imaginii la generarea de cod - orice sarcină posibilă cu modelele mari de AI.

Spre deosebire de pretraining, care poate necesita milioane de ore de calcul GPU, reglarea fină a unui model cu sute de miliarde de parametri este mult mai ieftină, necesitând semnificativ mai puține ore de calcul GPU și se poate face pe un singur nod de calcul cu o mână de GPU-uri. În timp ce astfel de resurse de calcul sunt accesibile multor companii și utilizatori, din păcate, acestea sunt restricționate de memoria disponibilă pe aceste noduri de calcul, care la rândul său limitează dimensiunea modelului care poate fi reglat fin. Face inaccesibilă reglarea fină a modelelor mari pentru majoritatea companiilor și companiilor care nu au acces la clustere masive GPU.

ZeRO-Infinity schimbă complet acest peisaj, permițând oamenilor de știință de date cu acces la un singur nod, cum ar fi NVIDIA DGX-2, să regleze fin modelele cu peste un trilion de parametri (Figura 4). De fapt, poate rula modele cu peste un trilion de parametri chiar și pe un singur GPU al unui astfel de nod, deoarece are suficientă memorie CPU și NVMe. Aceasta este cu aproape 100 de ori mai mare decât stadiul tehnicii pentru antrenamentul GPU unic. Cu ZeRO-Infinity, blocajul memoriei nu mai este memoria GPU sau chiar memoria CPU. În schimb, le putem folosi acum împreună cu memoria NVMe mult mai mare și mai ieftină.

Prin ZeRO-Infinity, facem un alt pas spre democratizarea AI, permițând utilizatorilor și companiilor cu resurse limitate să valorifice puterea modelelor masive pentru aplicațiile lor specifice afacerii.


(Fluierul)


Linkul direct catre Petitie

CEREM NATIONALIZAREA TUTUROR RESURSELOR NATURALE ALE ROMANIEI ! - Initiativa Legislativa care are nevoie de 500.000 de semnaturi - Semneaza si tu !

Comentarii:


Adauga Comentariu



Citiți și cele mai căutate articole de pe Fluierul:

PNL-ul lui Cîțu-Iohannis și PSD Ciulacu-Dâncu-Grindeanu au transformat România în țara ABUZURILOR ANTICONSTITUȚIONALE A patra zi consecutiv când gașca de Securistoizi de la PNL PSD și UDMR împiedică ABUZIV și NEconstituțional Demararea Moțiunii de CENZURĂ

HOROSCOP 25 septembrie 2021. O sâmbătă cu provocări, dar și cu satisfacții. Care zodie are parte de amândouă?

Congresul PNL. Liberalii își aleg astăzi președintele: Ludovic Orban sau Florin Cîțu. Votul, în jurul orei 14.00

,,InSecuritate", cu Bogdan Nicolae – invitat Ing.Dr. Ioan Iordache, director executiv al Asociației pentru Energia Hidrogenului

Carles Puigdemont a fost eliberat din închisoare: "Spania nu pierde niciodată ocazia să se facă de râs"

CACEALMA SI MANIPULARE PENIBILE. Klaus Iohannis "negociaza" cu ONG-urile lui SOROS "ce vor romanii". O mai mare manipulare nu s-a vazut de mult. Protestarii trebuie sa refuze simulacru de negocieri purtate de Iohannis cu ONG-urile lui SOROS

Chinezoaica Meng Wanzhou, "prințesa" Huawei, eliberată de canadieni la solicitarea americanilor

Talibanii afgani, anunț înfricoșător: "Vom relua amputările de mâini și execuțiile"

Coronavirus în România LIVE UPDATE 25 septembrie 2021. Bilanț complet COVID-19. Tot mai multe localități în scenariu roșu

Joe Biden, către americani: "Nevaccinații înfundă spitalele și pun în pericol revenirea economică"

Dezvăluire bombă a lui Liviu Dragnea: În România SRI-ul pune prim-miniștrii. Liviu Dragnea a declarat că șeful SRI, Hellvig împreună cu Coldea și Dâncu, i-au cerut să-l pună pe Dîncu premier chiar în ziua când PSD câștigase alegerile

Alegerile din Germania. Olaf Scholz vorbește deja ca un cancelar: "Am o întâlnire cu oamenii"

Boom la licitațiile online pentru albume Panini. Se oferă până la 12.000 de euro pentru o colecție de stickere

Partidul multor finanțați de'ai lui Soros se află într-un deficit de Democrație. O spun chiar deputații lui. Tensiuni in ​​USR: Inca un deputat il acuza pe Nicusor Dan de deficit de democratie. Doar nu credeați că Progresismul şi Soros aduc democrația?

Elon Musk și cântăreața Grimes s-au despărțit după trei ani de căsnicie

Parcursul favoritului în cursa pentru președinția PNL. Florin Cîțu: economist, politician și omul din mijlocul unor controverse

Elvețienii sunt împărțit dacă sau nu să voteze căsătoria între homosexuali și în același timp să permită homosexualilor sa adopte copii

Proiect de 40 milioane euro în România pentru energia eoliană

Avionul Egyptair prăbuşit: Analiza uneia din cutiile negre arată că s-a pronunţat cuvântul "foc"

ŞOC ÎN LUMEA MANELELOR. Incredibil cu cine l-a înşelat Cristina pe Nicolae Guţă FOTO

Liga 1 la fotbal. Rapid și-a pierdut strălucirea din startul sezonului: 0-1 cu FC Voluntari

Ce scriu cititorii: "Teoria conspirației" s-a adeverit DIN NOU, ȘI DIN NOU...Progresiștii dați de gol în cazul VACCINĂRII CU FORȚA

POZA ZILEI CARE CIRCULA PE FACEBOOK: MA OPUN VANZARII TERENURILOR SI A RESURSELOR MINERALE ALE ROMANIEI CATRE CETATENII STRAINI SAU COMPANII STRAINE

Satanismul mai activ ca niciodată. SUA. O statuie controversată inaugurată la Templul Satanic din Detroit la o ceremonie satanică secretă a atras proteste.

Laurentiu Primo: Actualitatea Romaneasca de Marti 3-Iunie-2014

Rusia ar putea primi vizita unei delegații a regimului taliban afgan

Daniela Crudu, scene XXX la TV. În ce poziţie indecentă a muls o vacă FOTO

Fotbal: Neymar a reluat antrenamentele

Răsturnare de situaţie în cazul modelului de 14 ani mort de epuizare. Descoperire şocantă la autopsie

FAKE NEWS la FAKE NEWS. Sau cum poți să minți la puterea a doua. CNA-ul Britanic ne spune că înscenarea Sky News făcută cu cei 3 unguri pe post de traficanți de arme era "REALĂ". Concluzia CNA-ului britanic în cazul reportajului Sky News

Continuă exercițiile militare rusești în Transnistria. Tancuri din Transnistria au trecut Nistrul pe sub apa si au simulat un atac impotriva inamicului. R. Moldova: prezenta ilegala a fortelor straine, sfidatoare si inadmisibila

BATAIE DE JOC! INCREDIBIL! Membru PNL despre Avram Iancu | “Un criminal, descreierat!”. Despre românii care-l apără pe Iancu: “Mari dobitoci!”. Despre revoluționarii lui Avram Iancu: “Proștii ăia de țărani români!”

Imagini XXX. Cine este vedeta surprinsă aproape goală la plajă

Ce este Ateismul Militant şi Cine sunt exponenții lui în România

Sex oral într-o parcare din Bucureşti. Ea e dezbrăcată, el cu pantalonii în vine IMAGINI XXX

Diana Dumitrescu s-a mutat cu bărbatul care a fost filmat în timp ce o dezbrăca pe Inna FOTO

Roxana Nemeş, protagonista unui sex tape: "Eu sunt acolo"

ALEGERI UNGARIA. Ungurii nu vor soroşişti. Fidesz aproape 50%. Viktor Orban a obținut al treilea mandat consecutiv: Fidesz va dispune de o majoritate de două treimi, cu 133 de parlamentari din 199. Conducerea Partidului Socialist Ungar înfrânt demisionează

BĂSESCU A FOST ȘI A RĂMAS UN LOBBIST ȘI O VUVUZEA A MULTINAȚIONALELOR STRĂINE. Băsescu: "Introducerea unui impozit pe cifra de afaceri este o întoarcere în paleoliticul fiscal"

FOTO: Circulație oprită pe un drum național, din cauza inundațiilor

Un nou container cu răcire, adus la Morga Sibiu, aglomerată din cauza deceselor de Covid

Filme porno pentru minori la Vaslui: "Îi măsura cucul la toaletă"

Cel mai mare mister al Evului Mediu autohton: unde au dispărut coroanele tuturor voievozilor români. Valoarea lor, estimată la zeci de milioane de euro

Cine deţine Ziare.com, CrestinOrtodox.ro şi un site porno pentru copii: Clopotel.ro precum si okazii.ro, bestmusic.ro, 220.ro, sfatulmedicului.ro, acasa.ro, ele.ro, copilul.ro, studentie.ro, trafic.ro, boom.ro, auto.ro, imobiliare.ro, eva.ro, cinemagia.ro

CENZURĂ LA ANTENA 3. Antena 3 a CENZURAT toată ziua știrea despre Ambasadorul KLEMM care s-a pozat cu STEAGUL SEPARATIST. După ce progresistul GÂDEA s-a bătut cu pumnul în piept duminică "ce mare patriot este"

Morgan Freeman, impresionat de povestea unui orfan român. Interviul va fi difuzat de National Geographic

Elvețienii au ieșit în stradă, pentru a protesta împotriva restricțiilor anti-Covid. Poliția a folosit gloanțe de cauciuc

Ora 18. Doar 27.88% prezența la vot. Alegătorii le-au dat o palmă cioclilor progresiști Werner, Orbon și Barna de la rețeaua progresistă USR-PNL dar și slugilor lor securistoide Ciolacul Dâncul Grindeanul și Tudose care au luat controlul PSD

ASIA EXPRESS. Daniela Crudu, bătută cu pumni şi picioare de Ana Baniciu. "Mi-a dat în faţă de 7 ori, mă feream să nu-mi dea în baloane"

Microbuz implicat într-un accident, în Bacău

Mircea Baniciu, nuntă în stil bătrânesc

Iohannis, participare la ONU. Despre ce a vorbit?

Masterclass de Fotografie. Raul Jichici: "Atâta timp cât spune o poveste, aceea e o fotografie bună"

Prietenia între specii. Joaca între un pui de câine și fluture, într-un video viral adorabil

Certificat verde în România. Peste 350 de localități în scenariul roșu. Lista completă

SPD rămâne pe primul loc în sondaje în Germania, dar CDU a redus diferența

Și USR PLUS va organiza congresul la Romexpo, dar cu maxim 150 de persoane simultan în sala

"Viața mea în fotbal". Laura "Lala" Rus, un fel de Cristiano Ronaldo al fotbalului românesc feminin

Scandalul AUKUS. Boris Johnson și Emmanuel Macron au convenit să coopereze pentru depășirea crizei submarinelor

Joe Biden se întâlnește cu liderii din India, Japonia și Australia /China critică reuniunea QUAD


Pag.1 Pag.2 Pag.3 Pag.4 Pag.5 Pag.6 Pag.7
Pag.8 Pag.9 Pag.10 Pag.11 Pag.12 Pag.13 Pag.14 Pag.15
Pag.16 Pag.17 Pag.18 Pag.19 Pag.20 Pag.21 Pag.22 Pag.23
Pag.24 Pag.25 Pag.26 Pag.27 Pag.28 Pag.29 Pag.30 Pag.31
Pag.32 Pag.33

Nr. de articole la aceasta sectiune: 1943, afisate in 33 pagini.