+ All Categories
Home > Documents > Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in...

Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in...

Date post: 09-Aug-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
16
PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 1 Raport ştiinţific privind activităţile derulate în perioada Ianuarie 2017 Noiembrie 2017 în cadrul proiectului PNII-RU-TE-2014-4-0422, cu titlul „Strategii inovative de modelare in silico a promiscuităţii compuşilor evaluaţi în testări biologice de capacitate ridicată” (acronim iPEHTS). 5. Modelarea agregatorilor coloidali. 5.1. Calcularea descriptorilor moleculari/fragmentari. 5.2. Evaluarea şi optimizarea modelelor. 6. Dezvoltarea unei metodologii integrate pentru predicţia FHs. 6.1. Dezvoltarea metodologiei integrative. 6.2. Diseminarea rezultatelor. 6.3. Elaborarea raportului final. 5. Modelarea agregatorilor coloidali. Am reluat protocolul de lucru utilizat pentru realizarea obiectivelor anterioare: selectarea seturilor de date pentru modelarea inhibitorilor de luciferază, a fluorescenţei şi a reactivităţii, doar că au fost aduse câteva îmbunătăţiri codului JAVA dezvoltat de noi în acest sens în ceea ce priveşte structurarea informaţiei biologice provenite pentru o identificare cât mai exactă a moleculelor cu caracter de agregator. Astfel, au fost extrase din baza de date PubChem Bioassay (ftp://ftp.ncbi.nlm.nih.gov/pubchem) toate testele biologice, identificate prin AID (identificator unic pentru fiecare test biologic). Din datele testelor biologice au fost reţinute pentru compuşi numai rezultatele de activitate biologică de tip „Activ” şi „Inactiv”. Compuşii din setul MLSMR au fost testaţi în 464,424 teste biologice, înregistrându-se 85,976 răspunsuri ca “activ” sau “inactiv”. Dintre acestea, 25,023 teste au o ţintă biologică specificată cu un gene ID (GID) specificat. Au fost identificate un număr total de 3,179 de ţinte biologice unice.
Transcript
Page 1: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

1

Raport ştiinţific

privind activităţile derulate în perioada Ianuarie 2017 – Noiembrie 2017 în cadrul

proiectului PNII-RU-TE-2014-4-0422, cu titlul „Strategii inovative de modelare in silico a

promiscuităţii compuşilor evaluaţi în testări biologice de capacitate ridicată” (acronim

iPEHTS).

5. Modelarea agregatorilor coloidali.

5.1. Calcularea descriptorilor moleculari/fragmentari.

5.2. Evaluarea şi optimizarea modelelor.

6. Dezvoltarea unei metodologii integrate pentru predicţia FHs.

6.1. Dezvoltarea metodologiei integrative.

6.2. Diseminarea rezultatelor.

6.3. Elaborarea raportului final.

5. Modelarea agregatorilor coloidali.

Am reluat protocolul de lucru utilizat pentru realizarea obiectivelor anterioare: selectarea

seturilor de date pentru modelarea inhibitorilor de luciferază, a fluorescenţei şi a reactivităţii, doar

că au fost aduse câteva îmbunătăţiri codului JAVA dezvoltat de noi în acest sens în ceea ce priveşte

structurarea informaţiei biologice provenite pentru o identificare cât mai exactă a moleculelor cu

caracter de agregator. Astfel, au fost extrase din baza de date PubChem Bioassay

(ftp://ftp.ncbi.nlm.nih.gov/pubchem) toate testele biologice, identificate prin AID (identificator

unic pentru fiecare test biologic). Din datele testelor biologice au fost reţinute pentru compuşi

numai rezultatele de activitate biologică de tip „Activ” şi „Inactiv”.

Compuşii din setul MLSMR au fost testaţi în 464,424 teste biologice, înregistrându-se

85,976 răspunsuri ca “activ” sau “inactiv”. Dintre acestea, 25,023 teste au o ţintă biologică

specificată cu un gene ID (GID) specificat. Au fost identificate un număr total de 3,179 de ţinte

biologice unice.

Page 2: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

2

În plus, am utilizat un set de medicamente ca set control şi de comparare a rezultatelor. Am

folosit un set de 3,935 de medicamente disponibile din baza de date DrugCentral

(http://drugcentral.org/) subset v2000.

Pentru fiecare test biologic, au fost extrase din descriere următoarele informaţii: ţinte

proteice cu gene ID specificat (GIDs), tipul testului: confirmator sau primar, sursa datelor:

depuneri din literatura ştiinţifică din ChEMBL sau date din HTS, teste celulare sau biochimice,

prezenţa detergenţilor (Tween-20 şi Triton X). Toate testele biologice care conţin compuşi activi

sau inactivi au fost descrise prin intermediul setului de caracteristici prezentate. În acest mod s-a

conceput un fingerprint unic pentru fiecare test biologic.

Figura 1. Definirea profilului testului biologic (Assay Profile, AP). Bit-ul 1 indică specificarea

ţintei proteice în test, bit-ul 2 indică tipul testului, confirmator/primar, bit-ul 3 indică testul cellular

şi/sau biologic, bit-ul 4 indică sursa testului: literatură (ChEMBL) şi/sau HTS, bit-ul 5 arată dacă

metoda de detecţie a semnalului în determinare se bazează pe fluorescenţă sau utilizează luciferaza

sau altele, bit-ul 6 indică prezenţa detergentului în mediul testului.

Un număr total de 64 fingerprint-uri posibile au fost utilizate pentru a clasifica testele

biologice: i). Primul bit este 1 dacă testul (AID) are specificată ţintă prin Gene ID sau 0, altfel; ii).

Al doilea bit primeşte valoarea 1 dacă AID este confirmator şi 0 dacă este fie primar sau

confirmator; iii). Al treilea bit este 1 daca AID este realizat în celule şi 0 dacă nu; iv). Al patrulea

Page 3: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

3

bit este 1 dacă rezultatele vin din ChEMBL şi 0 dacă nu; v). Al cincelea bit este 1 dacă testul a fost

făcut în prezenţa detergentului şi 0 dacă nu s-a folosit detergent. vi). Al şaselea bit este 1 dacă

metoda de detecţie se bazează pe determinarea fluorescenţei\inhibarea luciferazei şi 0 în situaţia

opusă (Figura 1).

Figura 2. Distribuţia activilor şi inactivilor în profilurile testelor biologice.

Testele care conţin cel puţin un compus MLSMR, etichetat activ sau inactiv, au fost

atribuite unuia dintre cele 64 de profiluri de teste (assay profiles, APs). În figurile 2 şi 3 sunt

prezentate AP pentru care a fost găsită informaţie de activitate. Astfel, 34 de profiluri APs sunt

completate cu activi şi inactivi. Aproximativ 70% din APs conţin cel puţin 325,000 compuşi testaţi

biologic, în timp ce numai 11% au mai puţin de 10,000 de compuşi evaluaţi (Figura 2). Numărul

mare de compuşi găsiţi într-o vastă majoritate de profiluri de testare ar putea fi o consecinţă a

testării intensive a MLSMR în campanii de HTS. Am descoperit 30 de APs care nu conţineau nici

Page 4: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

4

un tip de compuşi, activi sau inactivi, majoritatea provenind din teste biologice extrase din baza

de date ChEMBL. Aceste APs au fost îndepărtate din datele folosite pe mai departe. În cele 34 de

APs rămase, două provin din ChEMBL, AP21 şi AP53, şi sunt teste confirmatoare. Raportul de

activi la inactivi este de 15 la 1, comparativ cu 0.3 la 1 în celelalte APs (Figurile 2 şi 3). Acest

lucru nu este deloc surprinzător, deoarece datele colectate în ChEMBL provin din articole

publicate, care în proporţie mare, prezintă date de activitate biologică din determinări de tip doză-

răspuns. În schimb, în PubChem, sunt depuse experimente de HTS, marea majoritate fiind teste

primare realizate la o singură concentraţie

Valorile reduse ale raportului activi/inactivi sunt date de prezenţa unui număr mare de

inactivi în aproape toate APs. Astfel, 73% din APs conţin peste 300,000 de compuşi inactivi şi

numai 8% dintre ei conţin sub 4,000 de inactivi (Figura 2). Numărul mare de inactivi este o

consecinţă directă a testării intensive a setului MLSMR în HTS. În cazul activilor, se observă o

distribuţia globală comparabilă în APs care au sau nu specificată o ţintă biologică (GeneID),

ultimul caz prezentând un număr puţin mai ridicat de activi. Independent de ţintă, numărul cel mai

mare de activi se găseşte în AP10 şi AP42 în care sunt strânse teste biologice celulare care au

determinări de fluorescenţă sau inhibare a luciferazei ca metodă de detecţie a semnalului biologic

(Figura 3). De asemenea, prezenţa detergentului în protocolul testului împreună cu un

determinarea fluorimetrică sau inhibarea luciferazei sunt asociate cu un număr mai scăzut de activi

comparativ cu APs similare unde ţinta nu este menţionată.

În ceea ce priveşte APs pentru medicamentele din MLSMR, se poate observa o creştere a

raportului activ la inactiv pe APs. În cazul unui profil, AP43, nu s-a găsit nici un medicament activ

deşi au fost testate 1034 medicamente în teste biologice celulare cu ţintă proteică specificată şi

care conţin detergent (Figura 3). Ca si observaţie generală, în APs care conţin date din ChEMBL

sunt cuantificate mai multe medicamente active decât inactive.

Page 5: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

5

Figura 3. Profilurile biologice generate pentru MLSMR şi setul de medicamente din MLSMR.

Sunt prezentate APs cu cel puţin un compus testat (activ sau inactiv), în fiecare AP sunt cuantificaţi

compuşii activi (roşu) şi inactivi (albastru) extraşi din MLSMR (care include si medicamentele) în

panelul din stânga şi doar medicamentele în cel din dreapta.

Datele de agregare moleculară în profilurile testelor

Au fost excluse AP13 şi AP30 deoarece conţineau date provenite din ChEMBL şi au rămas

32 de APs care conţin rezultate provenite din HTS. Pentru a construi seturile de date în vederea

modelării fenomenului de agregare am separat APs care conţineau teste cu detergent de cele fără

Page 6: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

6

detergent. Apoi, pentru fiecare compus am adunat, separat pe cele două categorii, fiecare apariţie

ca activ, respectiv inactiv. Astfel, am obţinut pentru fiecare compus numărul de apariţii în APs cu

detergent şi fără detergent. Rezultatele obţinute sunt prezentate în figura 4.

Figura 4. Distribuţia APs cu detergent (Det) şi fără (nonDet).

Se poate observa din Figura 4 că mai mult de 71% din molecule au fost testate în mai mult

de 50 de teste care conţineau detergent, în timp ce 79% din compuşi au fost evaluaţi în teste fără

detergent.

Scor de activitate normalizat pentru datele de agregare.

Scorurile de activitate (frequency of hits, FoH) pentru cele două categorii au fost normalizate,

conform ecuaţiilor (1) şi (2), utilizând două valori limită de 50 pentru determinări cu detergent şi

100 pentru cele fără detergent.

𝐹𝑜𝐻𝑑 = #𝐴𝑑∗(#𝑇𝑑−𝐶𝑑)

𝐶𝑑 (1)

𝐹𝑜𝐻𝑛𝑑 = #𝐴𝑛𝑑∗(#𝑇𝑛𝑑−𝐶𝑛𝑑)

𝐶𝑛𝑑 (2)

unde fiecare termen al ecuaţiei reprezintă:

Page 7: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

7

d = detergent şi nd = fără detergent

FoH – scorul de activitate pentru compuşi în cele două cazuri.

#A – numărul de teste în care compuşii au fost declaraţi activi.

#T – numărul de determinări în care au fost testaţi.

C – valoare limită pentru cele două cazuri.

Figura 5. Reprezentări ale scorurilor de activitate pentru APs în cele două cazuri: cu detergent

şi fără.

(A) - Distribuţia scorurilor de activitate

normalizate pentru APs cu detergent

(FoH_D) şi fără (FoH_ND).

(B) - Dependenţa între scorurile de activitate

din determinări cu detergent (FoH_D) versus

cele fără detergent (FoH_ND).

În consecinţă, scoruri FoH ≥ 0 indică compuşi testaţi în cel puţin 50 şi 100 de teste, pentru

cele două cazuri. Din Figura 5 se observă că compuşii tind să aibă scoruri FoH_ND (fără detergent)

mai mari comparativ cu scorurile FoH_D. Această observaţie indică prezenţa fenomenului de

agregare ne-specifică care conduce la apariţia răspunsului biologic fals.

După calcularea scorurilor FoH şi analiza rezultatelor am identificat 30,896 compuşi cu

valori pozitive ale FoH. Dintre aceştia, 1,374 compuşi au valori ale scorului FoH_ND de două ori

A B

Page 8: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

8

mai mari decât valorile corespunzătoare pentru scorurile FoH_D. Aceşti compuşi sunt consideraţi

posibili agregatori. Am încercat să modelăm această clasă de agregatori, care formează setul de

activi, în opoziţie cu o clasă de 1,557 non-agregatori, setul de inactivi, pentru care raportul

FoH_ND la FoH_D variază între 0.99 şi 1.01.

5.1. Calcularea descriptorilor moleculari/fragmentari.

Structurile chimice ale compuşilor au fost standardizate, cu ajutorul programului

ChemAxon JChem API package, după cum urmează: au fost îndepărtate sărurile şi fragmentele

mici nelegate sau molecule multi-fragment, au fost neutralizate sarcinile şi au fost generate formele

tautomerice majoritare la pH 7.4.

Setul de 2,931 compuşi standardizaţi a fost descris de trei tipuri de descriptori generaţi

ajutorul pachetului RDKit disponibil din platforma KNIME. Astfel, au fost generaţi 117

descriptori fizico-chimici şi două clase de descriptori de tip fingerprint cu o lungime de 1024 de

biţi fiecare: ECFPs şi FCFPs.

5.2. Evaluarea şi optimizarea modelelor.

Am utilizat acelaşi protocol pentru generarea modelelor ca şi în cazurile anterioare. Pe

scurt, compuşii au fost împărţiţi random în 80% set de învăţare şi 20% set de testare utilizând

pachetul „caret” disponibil în platforma statistică R. Procedeul a fost repetat de 10 ori.

Modelele au fost generate cu algoritmul Random forest, ca şi în situaţiile anterioare

utilizând „cforest” din pachetul „party” disponibil în platforma statistică R. Modelele au fost

generate în 10 runde, utilizând seturile de învăţare generate random.

Evaluare performanţei modelelor de agregare în clasificare şi puterea de discriminare a fost

determinată pe seturile de testare externe (care nu au fost utilizate în generarea modelelor) utilizănd

următorii parametrii de evaluare: senzitivitatea, Se - proporţia de activi prezişi corect din numărul

total de activi disponibili, specificitatea, Sp – proporţia de inactivi corect prezişi raportată la

numărul total de inactivi disponibili şi acurateţea Acc – proporţia de compuşi prezişi corect din

totul setul de date. În plus, capacitatea modelelor de a separa activii de inactivi a fost evaluată cu

parametrul AUC (area under the receiver operating curve) fără a impune o valoare limită pentru

Page 9: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

9

apartenţa la o clasă (activ sau inactiv). Ecuaţiile folosite pentru calcularea acestor parametrii sunt

prezentate în Tabelul 4.

Figura 6. Evaluarea modelelor în clasificare. Parametrii de clasificare Se, Sp, Acc şi AUC sunt

reprezentaţi ca valori medii pentru fiecare model.

Rezultatele evaluării sunt prezentate în Figura 6 ca medie a celor 10 runde împreună cu

erorile standard. Se pot observa valorile mari ale Se pentru descriptorii fizico-chimici comparativ

cu descriptorii de tip fingerprint. Aceasta arată că descriptorii fizico-chimici sunt mai potriviţi

pentru identificarea agregatorilor. Cu toate acestea, modelele bazate pe ECFP sunt capabile să

clasifice non-agregatorii cu acurateţe uşor mai ridicată, după cum se poate vedea în Figura 6 din

valorile Sp. Per ansamblu, cea mai bună performanţă în discriminare este realizată de proprietăţile

fizico-chimice.

Page 10: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

10

Cele mai importante variabile care au contribuit la separarea agregatorilor de non-

agregatori sunt prezentate în Figura 7.

Figura 7. Reprezentarea celor mai importanţi descriptori în separarea agregatorilor (A) de non-

agregatori (nA).

Au fost determinate prin măsurători de importanţă a variabilelor din random-forest,

descriptorii care contribuie cel mai mult la separarea agregatorilor de non-agregatori. Rezultatele

obţinute sunt prezentate în Figura 7 şi se poate observa că numărul de legături de H diferenţiază

complet între clase, în timp ce o serie de descriptori, de exemplu slogP separă parţial clasele.

2.1. Dezvoltarea metodologiei integrative.

Sistemul care a rezultat în urma studiului integrează cele 4 modele de predicţie ce permite

identificarea compușilor cu reactivitate crescuta, a inhibitorilor de luciferază, a compușilor

fluorescenți și ai celor ce pot forma agregate coloidale, într-un singur program MPP, Molecular

Promiscuity Predictor, care rulează pe platforma Knime Analytics Platform

(https://www.knime.com/). În Figura 8 sunt reprezentate modulele (nodurile și meta-nodurile)

MMP care conduc la generarea profilul promiscuității unui compus supus analizei. Interfaţa este

simplă iar rezultatele se bazează pe cele 4 module fiecare destinat unui model predictiv.

Page 11: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

11

Figura 8. Nordurile MPP in platforma Knime.

Programul este extrem de simplu de folosit. De exemplu, compusul fisetina (CID 5281614,

Figura 9), o flavonoidă activă în 105 din 235 testări conform PubChem Bioassay. Acest grad ridicat

de activtitate este explicat prin toate cele 4 cauze de promiscuitate. Compusul se poate încărca sub

formă de cod SMILES sau desena în primul nod, Marvin Sketch. Se execută programul care

generează descriptorii moleculari care sunt înnaintați modulelor de predicție. Acestea prezic

reactivitatea, fluorescența, capacitatea inhibitoare a luciferazei și cea de agregare coloidală.

Rezultatele acestor predicții pot fi vizualizate sub forma valorilor de probabilitate sau a activtităii

Page 12: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

12

prezise: active sau inactiv. Structura fisetinei și rezultatul predicției promiscuității sunt afișate in

Figura10: compusul este prezis ca reactiv, fluorescent, inhibitor al luciferazei si aggregator. Un alt

compus, aspirina, a fost supusă aceliași analize iar rezultele au ieșit negative conform tuturor

modelor. Conform PubChem Bioassay aspirina (CID 2244), medicament consacrat cu

administrare orală, a fost testată de 1741 de ori și s-a dovedit activă în 140 de determinări. Astfel,

caraterul celor două substanțe, fiestina ca frequent hitter (FoH =0.45) și aspirina ca rare hitter (FoH

= 0.08), a fost scos în evidență și explicat prin rezultatele MPP.

Figura 9. Structura fisetinei (stanga) si a aspirinei (dreapta).

Figura 10. Rezultatul analizei promiscuității conform MPP.

Page 13: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

13

Programul MPP este disponibil cu acces liber pe pagina http://chembioinf.ro/en/Grants/, și

poate servi la analiza compușilor chimici pentru evitarea răspunsurilor false în HTS, dar și\sau a

activităţii biologice nespecifice.

Concluzii

Am elaborat un protocol de lucru integrat pentru realizarea obiectivelor, prin care s-a

urmărit sistematizarea eficientă a datelor, automatizarea etapelor, astfel încât în orice moment al

proiectului să poate fi accesate etapele anterioare pentru optimizarea continuă a modelării. În acest

fel procesul de modelare a fost rulat în circuit: construire seturi de date – generare modele –

evaluare – reluare, până când s-au obţinut modele cu parametrii de evaluare satisfăcători.

Am construit seturi de învăţare şi testare robuste pentru modelare agregării.

Au fost generate 10 de modele pentru descrierea agregări cu algoritmul random forest.

Performanţa modelelor a fost evaluată pe seturi externe de testare generate random

(nefolosite în antrenarea modelelor) în următoarea situaţie:

- pentru clasificare, puterea modelului de a discrimina activi de inactivi, agregatorii de non-

agregatori, obţinându-se rezultate satisfăcătoare: AUC = 0.8 în cazul modelelor generate

cu descriptori fizico-chimici, arătând că 80% dintre agregatori sunt prezişi corect.

Am dezvoltat un program bazat pe platforma KNIME Knime Analytics Platform

(https://www.knime.com/), numit MPP, Molecular Promiscuity Predictor care integrează cele

4 modele de predicţie ce permite identificarea compușilor cu reactivitate crescută, a inhibitorilor

de luciferază, a compușilor fluorescenți și ai celor ce pot forma agregate coloidale. Programul este

disponibil on-line pe pagina proiectului (http://chembioinf.ro/en/Grants/) şi poate fi accesat de cei

interesaţi. Acest program este versatil şi simplu de utilizat pentru analiza compușilor chimici în

vederea evitării compuşilor sursă de răspunsuri false în testarea biologică de volum ridicat, HTS,

dar și\sau a activităţii biologice nespecifice.

Pornind de la această analiză exhaustivă şi complexă a datelor chimice şi biologice

publicate în Pubchem, am investigat promiscuitatea biologică pentru o clasă specifică de proteine,

kinazele, de foarte mare interes pentru comunitatea ştiinţifică datorită implicării acestor ţinte

proteice în numeroase patologii, cea mai relevantă pentru societate, în general, şi comunitatea

Page 14: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

14

medicală, în special, fiind cancerul. Studiul s-a desfăşurat în paralel utlizând volumul uriaş de date

avut la dispoziţie, strategiile elaborate pentru selecţia seturilor de activi şi inactivi pentru modelare,

programele dezvoltate în acest scop pentru modelare. Am obţint modele performante, cu capacitate

de predicţie ridicată pentru inhibitorii de kinaze şi am identificat compuşi cu caracter promiscuu

pe această familie de proteine.

2.2. Diseminarea rezultatelor

ARTICOLE

1. Avram S., Bora A., Halip L., Curpăn R., Modelling kinase inhibition using highly confident

data sets, Journal of Chemical Information and Modeling, în evaluare FI2016 = 3.76

2. Curpăn R., Avram S., Bora A., Halip L., Bologa C., Chemical reactivity in biological

promiscuous compounds, Revue Roumaine de Chimie, în evaluare FI 2016 = 0.246

3. Borota A., Funar-Timofei S., Homology model for tribolium castaneum smoothened receptor

as potential target for pesticides, Revue Roumaine de Chimie, în evaluare FI 2016 = 0.246

4. Maximov P.Y., Abderrahman B., Curpan R.F., Hawsawi Y.A., Fan P., Craig J.V., A unifying

biology of sex steroid-induced apoptosis in prostate and breast cancers, Endocrine-related

Cancer, acceptat FI 2016 = 5.267

5. Maximov P.Y., Abderrahman B., Fanning S.W., Sengupta S., Fan P., Curpan R.F., Rincon

James D.Q., Greenland J., Rajan S.S., Greene G.L., Jordan V.C., Endoxifen, 4-hydroxytamoxifen

and an estrogenic derivative modulate estrogen receptor complex mediated apoptosis in breast

cancer, Molecular Pharmacology, în evaluare FI 2016 = 3.922

MANIFESTĂRI ŞTIINŢIFICE

PREZENTĂRI ORALE:

1. Curpăn R, Avram S., Bora A., Halip L. In-silico modeling of promiscuous compounds in high-

throughput screening. 11th European Conference on Theoretical and Computational Chemistry,

EUCO-TCC, 4-7 September 2017, Barcelona, Spain, Book of Abstracts, p. 62, OC26, comunicare

orală.

Page 15: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

15

2. Curpăn R., Avram S., Bora A., Halip L., Kurunczi L. Biological promiscuity modeled using in-

silico tools. The 10th Edition of New Trends and Strategies in the Chemistry of Advanced Materials

with Relevance in Biological systems, Technique and Environmental Protection, 8-9 June 2017,

Timisoara, Romania, Book of Abstracts, ISSN 2065-0760, pag 18, L11, lecture.

POSTERE

1. Curpăn R., Avram S., Bora A., Halip L., Minimizing false-positive rates in high-throughput

screening: predictors for fluorescent compounds, 11th European Conference on Theoretical and

Computational Chemistry, EUCO-TCC, 4-7 September 2017, Barcelona, Spain, Book of abstracts,

pag. 114, P20.

2. Bora A., Halip L., Curpăn R., Avram S. Minimizing false-positive rates in high throughput

screening (HTS): prediction of luciferase inhibitors. 11th European Conference on Theoretical and

Computational Chemistry, EUCO-TCC, 4-7 September 2017, Barcelona, Spain, Book of abstracts,

pag. 106, P12.

3. Avram S., Bora A., Halip L., Curpăn R. Development of reliable prediction models for the

efficient profiling of kinase inhibitors. 11th European Conference on Theoretical and

Computational Chemistry, EUCO-TCC, 4-7 September 2017, Barcelona, Spain, Book of abstracts,

pag. 103, P09.

4. Bora A., Avram S., Halip L., Curpăn R. Description of PUBCHEMKININA: a comprehensive

dataset of kinase inactive compounds. 11th European Conference on Theoretical and

Computational Chemistry, EUCO-TCC, 4-7 September 2017, Barcelona, Spain, Book of abstracts,

pag. 171, P77.

5. Halip L., Avram S., Bora A., Curpăn R. Mapping the chemical space of kinase inhibitors. 11th

European Conference on Theoretical and Computational Chemistry, EUCO-TCC, 4-7 September

2017, Barcelona, Spain, Book of abstracts, pag. 105, P31.

6. Bora A., Halip L., Curpăn R., Avram S. A survey of electronic properties influence on biological

activity of flavonoids. The 10th Edition of the Symposium New Trends And Strategies In The

Chemistry Of Advanced Materials With Relevance In Biological Systems, Technique And

Page 16: Raport ştiinţific · 2018-10-16 · PNII-RU-TE-2014-4-0422 Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) – Raport 2017 3 bit este 1 dacă rezultatele

PNII-RU-TE-2014-4-0422

Strategii innovative de modelare in silico a promiscuităţii biologic (iPEHTS) –

Raport 2017

16

Environmental Protection, 08-09 June, 2017, Timişoara, Romania, Book of abstracts, ISSN: 2065-

0760, pag. 67, P32.

7. Avram S., Bora A., Curpăn R., Halip L. The computation of prediction intervals in kinase

inhibitor modelling. The 10th Edition of the Symposium New Trends And Strategies In The

Chemistry Of Advanced Materials With Relevance In Biological Systems, Technique And

Environmental Protection, 08-09 June, 2017, Timişoara, Romania, Book of abstracts, ISSN: 2065-

0760, pag. 95, P44.

8. Halip L., Avram S., Bora A., Curpăn R. A novel tool for the chemical space mapping of

biological active compounds. The 10th Edition of the Symposium New Trends And Strategies In

The Chemistry Of Advanced Materials With Relevance In Biological Systems, Technique And

Environmental Protection, 08-09 June, 2017, Timişoara, Romania, Book of abstracts, ISSN: 2065-

0760, pag. 56, P23.

Dezvoltare aplicaţie

MPP, Molecular Promiscuity Predictor – aplicaţie disponibilă gratis on-line pe pagina

proiectului (http://chembioinf.ro/en/Grants/) utilizată pentru predicţia compuşilor cu

potenţial de fals-pozitivi în testarea biologică de volum ridicat (HTS) şi\sau a compuşilor

neselectivi\nespecifici.

Formarea resursei umane în cadrul proiectului

Susţinerea doctorandului Mioc Marius Nicolae în pregătirea şi elaborarea tezei de doctorat

intitulată: “Proiectarea, sinteza și testarea unor compusi bioactivi noi, potentiale medicamente

pentru caile de semnalizare in cancerul de colon” susţinută public în data de 30.08.2017 în cadrul

IOD - Institutul de Chimie Timişoara al Academiei Române.


Recommended