![]() Comentarii Adauga Comentariu _ Pot modelele de limbaj să citească genomul? Acesta a decodificat ARNm pentru a face vaccinuri mai bune![]() _ Modelele lingvistice pot citi genomul? Acesta a decodificat ARNm pentru a face vaccinuri mai buneAceeași clasă de inteligență artificială care a făcut titluri de software de codificare și a promovat examenul de bară a învățat să citească un alt tip de text – codul genetic. Acest cod conține instrucțiuni pentru toate funcțiile vieții și urmează reguli similare celor care guvernează limbajele umane. Fiecare secvență dintr-un genom aderă la o gramatică și sintaxă complicate, structurile care dau naștere semnificației. Așa cum schimbarea câtorva cuvinte poate modifica radical impactul unei propoziții, micile variații ale unei secvențe biologice pot face o diferență uriașă în formele pe care le codifică secvența. Acum, cercetătorii de la Universitatea Princeton conduși de expertul în învățare automată Mengdi Wang folosesc modele lingvistice pentru a aborda secvențele parțiale ale genomului și pentru a optimiza acele secvențe pentru a studia biologia și a îmbunătăți medicina. Și sunt deja în desfășurare. Într-o lucrare publicată pe 5 aprilie în revista Nature Machine Intelligence, autorii detaliază un model de limbaj care și-a folosit puterile de reprezentare semantică pentru a proiecta un vaccin ARNm mai eficient, cum ar fi cele utilizate. pentru a proteja împotriva COVID-19. Oamenii de știință au o modalitate simplă de a rezuma fluxul de informații genetice. Ei o numesc dogma centrală a biologiei. Informația trece de la ADN la ARN la proteine. Proteinele creează structurile și funcțiile celulelor vii. ARN-ul mesager, sau ARNm, transformă informațiile în proteine în acea etapă finală, numită traducere. Dar ARNm este interesant. Doar o parte din el deține codul proteinei. Restul nu este tradus, ci controlează aspecte vitale ale procesului de traducere. Guvernarea eficienței producției de proteine este un mecanism cheie prin care funcționează vaccinurile ARNm. Cercetătorii și-au concentrat modelul lingvistic acolo, pe regiunea netradusă, pentru a vedea cum ar putea optimiza eficiența și îmbunătăți vaccinurile. După antrenamentul modelului pe o varietate mică de specii, cercetătorii au generat sute de noi secvențe optimizate și a validat acele rezultate prin experimente de laborator. Cele mai bune secvențe au depășit câteva criterii de referință de vârf pentru dezvoltarea vaccinurilor, inclusiv o creștere cu 33% a eficienței generale a producției de proteine. Creșterea eficienței producției de proteine chiar și cu o cantitate mică oferă un impuls major pentru terapiile emergente, conform cercetatorii. Dincolo de COVID-19, vaccinurile ARNm promit să protejeze împotriva multor boli infecțioase și cancere. Wang, profesor de inginerie electrică și informatică și cercetător principal în acest studiu, a spus că succesul modelului a indicat, de asemenea, un posibilitate fundamentală. Antrenat pe ARNm de la o mână de specii, a fost capabil să decodeze secvențe de nucleotide și să dezvăluie ceva nou despre reglarea genelor. Oamenii de știință cred că reglarea genelor, una dintre cele mai de bază funcții ale vieții, deține cheia pentru a debloca originile bolii și tulburărilor. Modele de limbaj ca acesta ar putea oferi o nouă modalitate de a investiga. Colaboratorii lui Wang includ cercetători de la firma de biotehnologie RVAC Medicines, precum și de la Școala de Medicină a Universității Stanford. Noul model. diferă în grad, nu în fel, de modelele mari de limbaj care alimentează boții de chat AI de astăzi. În loc să fie antrenat pe miliarde de pagini de text de pe internet, modelul lor a fost antrenat pe câteva sute de mii de secvențe. De asemenea, modelul a fost antrenat pentru a încorpora cunoștințe suplimentare despre producția de proteine, inclusiv informații structurale și legate de energie. Echipa de cercetare a folosit modelul instruit pentru a crea o bibliotecă de 211 secvențe noi. Fiecare a fost optimizat pentru o funcție dorită, în primul rând o creștere a eficienței traducerii. Acele proteine, precum proteina de vârf vizată de vaccinurile COVID-19, conduc răspunsul imun la bolile infecțioase. Studiile anterioare au creat modele de limbaj pentru a decoda diverse secvențe biologice, inclusiv proteine și ADN, dar acesta a fost primul model de limbaj care se concentrează pe regiunea netradusă a ARNm. Pe lângă o creștere a eficienței generale, a putut, de asemenea, să prezică cât de bine va funcționa o secvență la o varietate de sarcini conexe. Wang a spus că adevărata provocare în crearea acestui model de limbaj a fost înțelegerea completă a contextul datelor disponibile. Antrenarea unui model necesită nu numai datele brute cu toate caracteristicile sale, ci și consecințele în aval ale acelor caracteristici. Dacă un program este conceput pentru a filtra spam-ul din e-mail, fiecare e-mail pe care îl antrenează va fi etichetat „spam” sau „nu spam”. Pe parcurs, modelul dezvoltă reprezentări semantice care îi permit să determine ce secvențe de cuvinte indică o etichetă „spam”. Aici constă sensul. Wang a spus că analizarea unui set de date restrâns și dezvoltarea unui model în jurul acestuia nu a fost suficientă pentru a fi utilă pentru oamenii de știință a vieții. Trebuia să facă ceva nou. Deoarece acest model lucra la vârful înțelegerii biologice, datele pe care le-a găsit erau peste tot. „O parte din setul meu de date provine dintr-un studiu în care există măsuri pentru eficiență”, a spus Wang. „O altă parte a setului meu de date provine dintr-un alt studiu [care] a măsurat nivelurile de expresie. De asemenea, am colectat date neadnotate din mai multe resurse.” Organizarea acelor părți într-un întreg coerent și robust – un set de date cu mai multe fațete pe care l-ar putea folosi pentru a antrena un model de limbaj sofisticat – a fost o provocare masivă. „Pregătirea unui model nu înseamnă doar punerea laolaltă a tuturor acelor secvențe, dar și punerea laolaltă a secvențelor cu etichetele care au fost colectate până acum. Acest lucru nu s-a mai făcut niciodată înainte." Lucrul, „A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions, " a fost publicat în Nature Machine Intelligence. Autorii suplimentari includ Dan Yu, Yupeng Li, Yue Shen si Jason Zhang, de la RVAC Medicines; Le Cong din Stanford; și Yanyi Chu și Kaixuan Huang din Princeton.
Linkul direct catre PetitieCitiți și cele mai căutate articole de pe Fluierul:
|
|
|
Comentarii:
Adauga Comentariu