Vreme
VREME 743, 31. mart 2005. / VREME

Intervju - Nebojša Jojić, istraživač:
Sagledavanje virusa ili kako ubiti sidu

Ako se delotvorna vakcina protiv poznatih i još nepoznatih oblika side uskoro pojavi na tržištu, veliki deo zasluga za to pripašće Nebojši Jojiću, istraživaču iz Majkrosofta. U ekskluzivnom razgovoru za "Vreme", Nebojša Jojić kaže šta će to za njega značiti: "Moći ću lako da nađem saradnike na bilo kom projektu koji budem želeo da dobijem"
Image

Sijetl, marta 2005 – Istraživačko odeljenje Majkrosoftove centrale u Redmondu prošlog meseca objavilo je da je jedna njihova ekipa otkrila i postavila osnov za proizvodnju vakcine protiv side i da će prva laboratorijska testiranja na univerzitetima u Sijetlu i Bostonu biti okončana u narednih nekoliko meseci. Do proizvodnje uspešne vakcine proći će, naravno, bar nekoliko godina. Ono što je privuklo pažnju medija u svetu bila je činjenica da je algoritam potencijalne vakcine razvijen iz onih koji se koriste za eliminaciju spama iz elektronske pošte, pretraživanje baza podataka, kompjutersko „sagledavanje" slika (kompjuterska vizija) i programa veštačke inteligencije.

Za ovdašnje medije najzanimljivije je bilo to što su među pokretačima projekta dvojica Užičana, braća Nebojša i Vladimir Jojić. Nebojša (33) objašnjava da su ga još u osnovnoj školi privlačile matematika i fizika, da je redovno učestvovao na takmičenjima i u Beogradu je završio Matematičku gimnaziju, zatim i Elektrotehnički fakultet. Zahvaljujući čikaškom profesoru (farmacije) Miodragu Radulovačkom, koji je godinama organizovao gostovanja beogradskih studenata, upisuje postdiplomske studije u Čikagu; nastavlja ih Urbani, a neposredno pre no što će doktorirati, 2000. godine dobija posao u Majkrosoftu. „Tada su me zanimali 'kompjutersko sagledavanje’, ‘mašinsko učenje’, ‘prepoznavanje uzorka’ i veštačka inteligencija", kaže Nebojša Jojić u razgovoru za „Vreme". „A onda je to, na kraju, dovelo do priče o sidi."

"VREME": Kako sad izgleda ta priča?

NEBOJŠA JOJIĆ: Godinama sam radio na problemima analiziranja slika i načinu na koji će mašina, kompjuter na primer, „prepoznavati" sliku. Drugim rečima, kako napraviti algoritam koji to radi. Problem je isti kao u veštačkoj inteligenciji. Ovde to zovu Machine Learning („mašinsko učenje"), oblast koja istražuje način na koji mašine mogu da uče – bez posebne kontrole, na potpuno autonoman način. „Kompjutersko sagledavanje" se u principu može primeniti na bilo koji set podataka i, laički govoreći, cilj je da se nađe šta je zajedničko u nekom setu podataka, bez obzira na to što to zajedničko može biti zajedničko na veoma komplikovan način. I, naravno, treba videti koliki je varijetet u podacima, gde postoji varijabilnost a gde ne postoji itd. Na primer – ako posmatram bilo koju sliku, u njoj vidim nekoliko objekata. Na prvi pogled, varijabilnost je ogromna zato što svaki piksel u slici može da ima bilo koju vrednost od 0 do 255. To je ogroman varijetet. Čak i za malu sliku, recimo 100X100 piksela, postoji ogroman broj mogućih kombinacija. Međutim, ako sliku posmatram kao set objekata i ako znam da različite slike imaju iste objekte, objekte koji manje-više isto izgledaju samo su drugačije raspoređeni, drugačije zaklanjaju jedni druge itd., onda je varijetet manji. Prema tome, ako slika može da se objasni preko objekata a ne kroz piksele, onda se dobija bolja reprezentacija i ta reprezentacija može da se koristi za prepoznavanje, kompresiju, i tako dalje. To je samo jedan primer. Taj isti princip može da se primeni na bilo koji set podataka. U biologiji, biohemiji, biomedicini postoji veoma mnogo novih podataka koji imaju sličnu strukturu kao i svi ostali prirodni signali; imaju paterne („uzorke") koji se ponavljaju s određenim malim varijacijama. Ako gledam ovu papirnu čašu, ona je ista gde god da je stavim, ali osvetljenje je malo drukčije, malčice se promeni intenzitet svakog piksela koji bih ovde dobio, pojavi se odsjaj, promeni osvetljenje... Ta kombinacija je prilično kompleksna: ja, na primer, mogu da pritiskom deformišem čašu i ona onda izgleda malo drugačije. Ljudski mozak sve to prepoznaje bez ikakvih problema, vidi taj isti objekat, dok je kompjuterima to komplikovano, tako da je čak i taj problem analiziranja slike poprilično složen – iako smo mi svesni rešenja. Kad god dobiješ sliku, ti znaš rešenje, ali napisati algoritam koji će to automatski da uradi jeste veoma komplikovano.

Image

Kako se taj pristup problemu primenjuje na virus side?

Sa biologijom je još komplikovanije, iako se i tu stvari posmatraju na isti način, po istom principu ponavljanja „uzorka" s varijacijama. Međutim, ti se „uzorci" teško prepoznaju golim okom jer to više nisu „uzorci" koji odgovaraju slici na koju je naš mozak navikao. „Uzorci" koje smo mi gledali jesu „uzorci" aminokiselina ili nukleotida u lancu; ti „uzorci" se takođe ponavljaju od jednog organizma do drugog, od jedne do druge vrste. Postoje stvari koje se ponavljaju, postoje male varijacije koje moraju da se razumeju i problem je u nekim slučajevima prilično komplikovan. Protein je sekvenca aminokiselina te je u principu digitalni kod. Postoji 20 različitih aminokiselina, svaka pozicija ima jednu od tih 20 aminokiselina i to je to. Štaviše, protein je sam po sebi kodiran DNK molekulima, nizovima nukleotida; postoje samo četiri različita nukleotida. I onda, kombinacija od tri nukleotida u nizu kodira jednu aminokiselinu. Informacija je skladištena digitalno. Međutim, te aminokiseline imaju svoja hemijska svojstva i, kad se protein napravi, on se savije u formu koja zavisi od različitih hemijskih i električnih sila koje deluju između aminokiselina. Kad se protein savije, neke od tih aminokiselina završe u unutrašnjosti čitavog molekula, a neke su na površini. One na površini često imaju veoma važno hemijsko dejstvo, katališu razne reakcije. Protein takođe može da služi kao strukturalni element.

Image
POČETAK PRIČE...: Prepoznavanje slika

Naučnici često znaju o kojoj sekvenci nukleotida se radi i, prema tome, znaju koja je sekvenca aminokiselina na lancu – ali ne znaju koje su unutra, koje spolja, koje su bitne a koje nebitne. Ipak, ono što može da se primeti je, na primer, da postoji varijacija od vrste do vrste, od organizma do organizma, varijacija na nekim kiselinama, a na drugim ne. Na osnovu toga može se, indirektno, razumeti koja varijacija je bila bitna, a koja ne. Sve ovo navodim kao primere tog jednog te istog problema – da postoje stvari koje se ponavljaju od jednog do drugog „uzorka", da postoje stvari koje se razlikuju i postoji struktura, način na koji se to razlikuje, struktura koja nije neposredno uočljiva na osnovu direktnih podataka. U kompjuterskom „sagledavanju" slike mi znamo rešenje, pokušavamo samo da napravimo program koji će automatski da ga nađe, zbog primene u, recimo, robotici. U biologiji je stvar teža jer pokušavamo da razumemo misteoriozan fenomen, a nemamo mozak koji to može da procesira nego koristimo „kolektivni mozak" istraživačke zajednice da to postignemo. Odmah se nameće pomisao da bi u rešavanju problema trebalo koristiti metode iz „mašinskog učenja" ili veštačke inteligencije.

Nekoliko mojih kolega i ja u biologiji smo tražili primenu za „mašinsko učenje". Hteli smo da vidimo da li negde može da se iskoristi neki od naših algoritama ili da se razviju novi. Razgovarali smo s ljudima sa univerziteta države Vašington, ovde u Sijetlu, i iz nekoliko drugih lokalnih instittucija. Zapravo je Sijetl sada jedno od ključnih mesta za biološka i biomedicinska istraživanja, uključujući kompjutersku biologiju. U to vreme smo već imali algoritam namenjen analizi evolucije organizama na osnovu njihovih gena.

A kako ste stigli do side?

Razgovarali smo s Džejmsom Malinsom koji radi na razvoju vakcine protiv side, jer HIV virus mutira ogromnom brzinom. Posle „upoznavanja" s karakteristikama HIV virusa počeli smo da čitamo o načinu funkcionisanja imunog sistema. Ispostavilo se da imuni sistem prepoznaje kratke „uzorke" na proteinu virusa, „uzorke" dužine 8 do 11 aminokiselina, odnosno da bar jedna „ruka" imunog sistema to radi. To me je podsetilo na model koji sam razvio za „kompjutersko sagledavanje". Ideja je bila da se jednostavno uzmu slike iz kolekcije ili čak jedna slika, da se razbije na male parčiće – 8x8, 10x10 piksela, parčiće raznih veličina, da se jednostavno proizvoljno uzmu parčići s preklapanjima i skupi velika količina parčića – i onda se grupišu u strukturu koja je manja od originalne slike, i koju sam nazvao epitom. Rezultat je da slični parčići dođu na isto mesto, ali segmentacija nije bitna, ona je automatska. Recimo, ako hoću da grupišem svo cveće koje postoji u slikama u kolekciji, ne moram da ga prvo označim – gde se nalazi ovaj ili onaj cvet – nego se, automatski, slični cvetovi grupišu na istom mestu. Rad o tome objavili smo pre nekoliko godina na najvažnijoj konferenciji o „kompjuterskom sagledavanju". To što imuni sistem zapravo „vidi" samo prozore od 8 do 11 aminokiselina podsetilo me je na epitom, reprezentaciju koju smo razvili za „kompjutersko sagledavanje" slike, tako da smo jednostavno primenili istu tehniku, ali umesto distribucije preko intenziteta svetlosti, koristili smo distribuciju preko aminokiselina. Taj metod zapravo proizvodi reprezentaciju koja, iako je manja od svih mogućih varijanti HIV virusa koje smo videli, sadrži većinu delova iz originalnih sekvenci virusa. Ukratko, treba imati hiljade ili stotine hiljada sekvenciranih sekvenci virusa side u obliku njihovih proteina, treba uzeti sve bitne „prozore" od 8 do 11 aminokiselina i sve ih uskladištiti u vakcinu koja je mnogo kraća od ukupnog broja aminokiselina – ali i dalje ima sve te „uzorke".

Najzad, kako deluje vakcina?

Kad čovek primi vakcinu, ona dospeva u ćeliju koja „secka" protein i na površini ćelije pokazuje te kratke peptide od 8 do 11 aminokiselina, a peptidi „treniraju" imuni sistem da reaguje na njih. Imuni sistem „vidi" da je ćelija inficirana pošto pokazuje strane peptide na površini. „Ćelije ubice" vezuju se za peptide na površini i ubijaju zaraženu ćeliju, istovremeno postajući memorijske ćelije koje se u budućnosti, ako ikada ponovo naiđu na taj peptid, reprodukuju u ogromnim količinama i sprečavaju infekciju. Vakcina nije pun virus side nego samo epitom – sažetak, rezime podataka, verzija podataka varijabilnosti dovoljne da se neki podaci objasne u određenom smislu, u ovom slučaju u smislu „uzoraka" koji su jedino važni za tu „ruku" imunog sistema, za ćelije koje ubijaju inficirane ćelije. Na taj način može da se dizajnira protein koji bi trebalo da stimuliše tu ruku imunog sistema. Za vreme infekcije virusom side, inficirana ćelija ima u svom genomu genom virusa, tako da proizvodeći sopstvene proteine ona proizvodi i proteine virusa. Ta ćelija postaje, zapravo, fabrika virusa, pa je zato meta adaptivnog imunog sistema, koji vakcina treba da pripremi.

Image
...PREMA REŠENJU: Slika HIV virusa

Da li će vakcina proizvedena na osnovu vašeg rada delovati na sve dosad poznate, ili i na nove moguće mutacije virusa?

Takva vakcina trebalo bi da zaštiti od velikog procenta poznatih varijanti side. Međutim, kako „pokriva" samo parčiće, ona bi trebalo da štiti ne samo od varijanti koje su već viđene nego i od varijanti koje će tek biti viđene rekombinacijom postojećih varijanti ili mutacijom virusa, sve dok oni imaju iste parčiće.

Najavljeno je da se prvi rezultati u pravljenju vakcine mogu očekivati već za nekoliko meseci?

Sve o čemu sam govorio je „uzorak" koji ide u vakcinu, informacija koju vakcina treba da sadrži. Međutim, da bi vakcina funkcionisala, taj „uzorak" treba da se nađe u ćeliji. To nije jednostavno. Virus uspešno ulazi u ćeliju zato što ima čitav aparat neophodan za to, a mi imamo samo „uzorak" koji treba uneti. U tome su biolozi briljantni, jednostavno su smislili da koriste druge viruse, genetski promenjene tako da sadrže ono što u ćeliju želimo da ubacimo, sadržaj koji tim virusima ništa ne znači, ali ćelija na njega reaguje. Jedan od tih virusa zato se i zove Vakcinija. Ima raznih virusa koji se koriste u te svrhe, postoje i DNK vakcine, razni načini da se vakcina uopšte saopšti ćeliji. Trenutno, uspešna vakcina protiv side ne postoji, tako da se ne zna ni šta je ono što će ometati njen razvoj. Postoji mogućnost da mehanizam za ubacivanje vakcine bude problematičan, jer je sam problem ubacivanja „uzorka" prilično težak. S druge strane, ako se reši problem ubacivanja „uzorka" a on bude pogrešan, vakcina će opet biti neefikasna. Analogija koju ponekad koristim jeste analogija između hardvera i softvera – softver ne može da radi bez hardvera, a hardver bez softvera je beskoristan, i jedno i drugo mora da postoje. Dakle, hardver bi bio virus Vakcinije, adjuvant (koji izaziva imunu reakciju), i ostali detalji u vezi s predajom vakcine, dok bi „uzorak" ili epitom, koji treba staviti u vakcinu, bio analogan softveru. Uz to postoje i drugi detalji. Kada „uzorak" dospe u ćeliju, on – tj. njegovi delovi – treba da se pokažu na njenoj površini. Biolozi znaju dosta o tome, ali moguće je da ne znaju sve. Zatim, ćelije ubice koje napadaju te peptide možda će, kada nauče da napadaju taj, napadati i druge slične peptide. Tu postoji čitav niz istraživačkih problema koje takođe treba rešiti. Ono što smo mi predložili jeste način da se reši problem mutacije, problem ogromne količine različitih virusa, na način koji može da uključi poznatu imunologiju u optimizaciji. Ono što će se desiti u narednih pet-šest meseci jeste da će istraživači na univerzitetu Vašington u Sijetlu i na Harvardu u Bostonu analizirati šta rade ćelije ubice uzete od pacijenata, koje napadaju delove našeg epitoma. To je prvi test. Sledeći korak je utvrđivanje koji će se delovi epitoma pojaviti na površini ćelije i da li se ćelije ubice zaista za to vezuju ili ne. To će biti eksperimenti na posebnoj vrsti miševa koji imaju imuno-sisteme slične ljudskim. Čitav period – od ideje do vakcine – traje najmanje pet do deset godina, jer nakon pomenutih eksperimenata vakcinu treba testirati na majmunima i kasnije na ljudima.

Šta će za vas lično značiti pojava delotvorne vakcine protiv side?

Moći ću lako da nađem saradnike na bilo kom projektu koji budem želeo da dobijem. To znači da ću moći da okupim veliku grupu ljudi za rad na bilo kom projektu. Mada, već mi je lakše. Menadžment je dozvolio da zaposlimo dva posledoktoranta i četiri studenta, sad već imam više ljudi koji rade sa mnom.

Vaš brat Vladimir radi na istom projektu?

On je radio na tome gotovo od samog početka. On je pre nekoliko godina počeo postdiplomske studije iz „kompjuterske biologije" u Torontu; u međuvremenu smo i mi u Istraživačkom odeljenju Majkrosofta počeli time da se bavimo. Ja sam se zainteresovao za problem side i rekao sam Vladimiru da je epitom možda fenomenalan način da se razvije vakcina protiv side – i onda smo to i implementirali... Ali, dobili smo podršku mnogih, naročito biologa; podržao me je i Dejvid Hekerman, menadžer Grupe za "mašinsko učenje" zainteresovan za primenu kompjuterskih nauka u biologiji. Kada se pokazalo da je pitanje vakcine protiv side najzanimljivije, opet smo se okupili. Vladimir je prvi implementirao verziju epitoma na genima. Prema simulacijama, i prvi rezultati su bili bolji od prethodnih racionalnih dizajna na kojima su radili biolozi.

Aleksandar Ćirić




Smanjivanje knjiga

„Sve se prilično sažima – kompjuterske nauke, biologija, fizika... Mislim da smo na pragu renesanse u nauci. Ne verujem da će za desetak godina biti biologa koji ne znaju, i to dobro, matematiku, kao što će i ‘kompjuteraši’ morati da znaju fundamentalne nauke. Konačno se stvari dovoljno pojednostavljuju, a to je jedna od konstanta u nauci – stvari koje su nekad izgledale komplikovano danas više to nisu. I knjige se smanjuju. Po tome se vidi proboj, veliki napredak u nauci – kad se knjige, udžbenici iz neke oblasti na postdiplomskim ili osnovnim studijama koje su godinama i decenijama samo rasle odjednom smanje. To znači da ono što je do juče bilo konfuzno, čija su objašnjenja tražila hiljade i hiljade stranica, sad može da se objasni na jednostavan način. Korišćenje kompjutera ne samo za skladištenje nego i za analizu podataka koja dovodi do novih zaključaka i nudi potpuno nove, inteligentne alatke za analizu problema... Mislim da će to biti ključna stvar u svakoj od nauka budućnosti."