13:28
Comentarii Adauga Comentariu

_ Tehnicile de reducere a datelor bioinformatice trebuie utilizate cu prudență

_ Tehnicile de reducere a datelor bioinformatice trebuie utilizate cu precauție

În domeniul bioinformaticii, analiza ADN-ului poate fi efectuată cu schițarea datelor, o metodă care reduce sistematic dimensiunea unui set de date la un eșantion mai mic care permite oamenilor de știință să-l analizeze și să-l aproximeze la viteze mai mari. Deși scalabilitatea acestei metode este atrăgătoare, două instrumente comune utilizate pentru schițarea datelor permit inexactități și inconsecvențe în analiză și rezultate, a descoperit o echipă de cercetători Penn State.

Echipa și-a publicat rezultatele despre analiza lor. și descoperirile a două instrumente diferite — estimatorul Jaccard și estimatorul MinHash — în Bioinformatică și, respectiv, în Journal of Computational Biology.

„Domeniul biomedical a suferit o transformare în ultimii zece ani, așa cum noi acum. au tehnologie care poate secvenționa ADN-ul din organisme vii la o scară fără precedent”, a declarat co-investigatorul principal Paul Medvedev, director al Centrului de Biologie Computațională și Bioinformatică și profesor asociat de informatică și inginerie, biochimie și biologie moleculară. „Așadar, blocajul s-a mutat de la colectarea datelor la analizarea lor într-o manieră riguroasă din punct de vedere statistic și fezabilă din punct de vedere computațional.”

În schițarea genomului, oamenii de știință extrag un set mic, dar reprezentativ de puncte de date, numite k-mers, care formați o schiță care poate fi utilizată pentru a estima divergența dintre două secvențe de genom. Divergența estimată ar trebui să fie aproape identică cu divergența adevărată și într-un interval de încredere acceptabil. Cercetătorii au descoperit că, spre deosebire de ipotezele obișnuite în domeniu, unele strategii de schiță utilizate în bioinformatică nu îndeplinesc aceste obiective.

În Bioinformatics, publicat pe 27 iunie, cercetătorii au descoperit că estimatorul Jaccard de minimizare este părtinitor și inconsecvent. , ceea ce înseamnă că indiferent de câte date se pun în schiță, estimarea divergenței dintre doi genomi rămâne inexactă. Motivul pentru aceasta, conform cercetătorilor, este că schița este sensibilă la ordonarea punctelor de date de pe genom într-un mod în care adevărata divergență nu este.

Pentru a ajunge la aceste constatări, cercetătorii au simulat și au analizat genomii de E. coli, în cazul în care au comparat estimarea Jaccard de minimizare a unui subșir de date de E. coli cu valoarea reală pe care au calculat-o manual pentru a afla unde din secvență aparținea subșirul mai mic. Nu s-au aliniat și, în consecință, cercetătorii au arătat că există șansa ca metoda să nu găsească locația corectă a citirii în genomul mai mare.

„Am venit cu o reprezentare matematică abstractă. a problemei care este potrivită pentru aplicarea instrumentelor de probabilitate pe care am vrut să le folosim”, a spus co-investigatorul principal David Koslicki, profesor asociat de informatică și inginerie și biologie. „Am lucrat prin această teorie și am stabilit dacă ipotezele noastre privind structura teoretică erau corecte. S-a dovedit că a existat o mică părtinire în estimatorul Jaccard de minimizare.”

„Instrumentele pot fi încă utile pentru cercetători dacă nu le deranjează inconsecvențele sau micile părtiniri care sunt prezente, dar dacă afectează ceea ce încercați să măsurați, există și alte tehnici de schiță pe care le sugerăm să le folosim”, a spus Medvedev.

În Journal of Computational. Lucrarea de biologie, care a fost publicată în februarie, cercetătorii au testat estimatorul MinHash, o altă metodă folosită în mod obișnuit pentru schițarea datelor, pentru eficacitatea sa în cercetarea genomică. În cadrul studiului, cercetătorii au calculat proprietățile statistice ale punctelor de date schiță care sunt afectate de evoluție.

„Am studiat câte dintre aceste puncte de date k-mer sunt distruse”, a spus Medvedev. „Odată ce am obținut acele numere, am reușit să dezvoltăm un interval de încredere pentru predicția estimatorului”.

Intervalele de încredere determină probabilitatea ca un parametru să se încadreze într-un anumit interval de valori sau, cu alte cuvinte, cât de precisă este o predicție din punct de vedere statistic, potrivit co-investigatorului principal Antonio Blanca, profesor asistent de informatică și inginerie.

„În timp ce metodele de schiță sunt omniprezente în bioinformatică, domeniul nu a studiat riguros modul în care erorile de secvențiere și mutațiile afectează multe dintre aceste metode”, a spus Blanca. „Aceste descoperiri permit cercetătorilor să obțină statistici și estimări ale erorilor pe care trebuie să le folosească schița în mod eficient în practică, ceea ce duce la măsurători mai bune ale similitudinii și diferențelor dintre organisme și la metode mai precise de construire a secvențelor ADN.”

În În august 2021, cercetătorii și-au prezentat lucrarea JCB la Conferința RECOMB, prescurtare pentru Research in Computational Molecular Biology, care a avut loc la Padova, Italia. Lucrarea de bioinformatică va fi prezentată la conferința Intelligent Systems for Molecular Biology din iulie.


(Fluierul)


Linkul direct catre Petitie

CEREM NATIONALIZAREA TUTUROR RESURSELOR NATURALE ALE ROMANIEI ! - Initiativa Legislativa care are nevoie de 500.000 de semnaturi - Semneaza si tu !

Comentarii:


Adauga Comentariu



Citiți și cele mai căutate articole de pe Fluierul:

_ Oamenii de știință găsesc noi indicatori ai dezghețului permafrostului din Alaska

_ „Este o prostie totală”: sindicatele trenurilor din stânga tare sunt criticate, deoarece 50.000 de angajați plănuiesc să plece

_ Comisia Europeană anunţă lansarea pe orbită a doi sateliţi Galileo care au primit numele unor copii câştigători ai unui concurs de desen

Turcia iese la atac după summitul UE la care a participat și Iohannis: 'Decizii părtinitoare, lipsite de contact cu realitatea'

_ Real Madrid „a ajuns la un acord verbal cu Monaco pentru Aurelien Tchouameni într-o afacere în valoare de cel puțin 85 de milioane de lire sterline”

_ Atmosfera Pământului poate fi sursa de apă lunară


Pag.1
Nr. de articole la aceasta sectiune: 6, afisate in 1 pagina.