Accesul deschis la date ştiinţifice (open data) a accelerat cercetarea biomedicală în ultimele decenii. Totuşi, odată cu dezvoltarea rapidă a inteligenţei artificiale (AI), un grup de cercetători avertizează că anumite seturi de date biologice ar putea fi utilizate abuziv şi cer reguli mai clare pentru protejarea informaţiilor sensibile.
Peste 100 de cercetători, de la instituţii precum Universităţile Johns Hopkins Oxford, Fordham şi Stanford, au semnat în care solicită măsuri suplimentare de protecţie pentru anumite baze de date biologice cu risc ridicat. Autorii atrag atenţia că accesul neîngrădit la unele tipuri de date ar putea permite sistemelor de inteligenţă artificială să contribuie la proiectarea sau modificarea unor virusuri periculoase.
Modelele de AI utilizate în biologie sunt antrenate pe volume mari de date, inclusiv secvenţe genetice şi informaţii despre caracteristicile agenţilor patogeni. Aceste sisteme pot prezice mutaţii, identifica tipare şi genera variante mai transmisibile ale unor agenţi patogeni cu potenţial pandemic.
Autorii descriu această capacitate drept una îngrijorătoare, deoarece ar putea accelera şi simplifica crearea unor agenţi biologici transmisibili, cu impact asupra oamenilor, animalelor, plantelor sau mediului.
În scrisoare, cercetătorii subliniază că majoritatea datelor biologice ar trebui să rămână accesibile publicului, însă datele considerate sensibile, denumite „date despre agenţi patogeni periculoşi”, necesită controale suplimentare de securitate. Ei propun definirea clară şi reglementarea celor mai riscante seturi de date înainte ca acestea să devină disponibile dezvoltatorilor de modele de AI.
În prezent, nu există un cadru universal care să reglementeze aceste baze de date. Unii dezvoltatori aleg, din proprie iniţiativă, să elimine datele cu risc ridicat din seturile folosite pentru antrenarea modelelor, însă autorii subliniază că este nevoie de reguli clare, unitare şi obligatorii pentru toţi actorii din domeniu.
De exemplu, dezvoltatorii modelelor biologice de inteligenţă artificială Evo, creat de cercetători de la Arc Institute, Stanford şi TogetherAI, şi ESM3, dezvoltat de EvolutionaryScale, au eliminat anumite secvenţe virale din datele utilizate la antrenare.
În februarie 2025, echipa EVO 2 a anunţat că a exclus din seturile sale de date agenţi patogeni care infectează oameni şi alte organisme complexe, invocând riscuri etice şi de siguranţă, şi dorinţa de a preveni utilizarea modelului pentru dezvoltarea de arme biologice.
EVO 2 este un model open source care poate prezice efectele mutaţiilor ADN, proiecta genomuri noi şi identifica tipare în codul genetic.
Autorii propun un sistem de clasificare în cinci niveluri, denumit Biosecurity Data Level (Nivel de biosecuritate al datelor), care ar urma să evalueze riscul asociat diferitelor tipuri de date despre agenţi patogeni.
- Nivelul BDL-0 include date biologice obişnuite, fără restricţii de acces.
- Nivelul BDL-1 cuprinde elemente virale de bază, precum secvenţe genetice, pentru care ar fi necesară monitorizarea accesului, dar nu măsuri stricte.
- Nivelul BDL-2 se referă la date privind caracteristicile virusurilor animale, cum ar fi capacitatea de a trece de la o specie la alta sau de a supravieţui în afara gazdei.
- Nivelul BDL-3 include date despre virusuri umane, precum transmisibilitatea, simptomele sau rezistenţa la vaccinuri.
- Nivelul BDL-4 vizează virusuri umane modificate, de exemplu mutaţii ale coronavirusului SARS-CoV-2 care îl fac mai contagios, categorie pentru care ar fi impuse cele mai stricte restricţii.
Pentru a garanta că accesul la aceste date este limitat la utilizatori legitimi şi că orice utilizare abuzivă poate fi identificată, cercetătorii propun introducerea unor instrumente tehnice dedicate de control şi monitorizare.
Printre acestea se numără inserarea unor marcaje digitale invizibile în seturile de date pentru a putea identifica eventuale scurgeri de informaţii, sisteme de urmărire a provenienţei datelor şi jurnale de audit care înregistrează accesările şi modificările cu semnături digitale imposibil de alterat. De asemenea, se menţionează şi utilizarea biometriei comportamentale, o metodă care analizează modul în care un utilizator interacţionează cu sistemul, cum ar fi ritmul de tastare sau mişcările cursorului, pentru a-i verifica identitatea şi a detecta eventuale utilizări neautorizate.
Autorii subliniază că menţinerea unui echilibru riguros între accesul deschis la datele ştiinţifice şi aplicarea unor restricţii ferme pentru informaţiile cu risc ridicat devine crucială pe măsură ce modelele de AI devin tot mai performante şi mai răspândite.


