+ All Categories
Home > Documents > UNIVERSITATEA POLITEHNICA TIMIŞOARA

UNIVERSITATEA POLITEHNICA TIMIŞOARA

Date post: 19-Mar-2016
Category:
Upload: alair
View: 54 times
Download: 0 times
Share this document with a friend
Description:
UNIVERSITATEA POLITEHNICA TIMIŞOARA. MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății. www.medinfo.umft.ro/dim / bioinformatica.htm. BIOINFORMATICA. Prof Dr George I Mihala ş UMF Victor Babeş. CURSUL 8. COMPARAREA A DOUĂ SECVENŢE (III). - PowerPoint PPT Presentation
25
UNIVERSITATEA POLITEHNICA TIMIŞOARA MASTER SIIS MASTER SIIS Sisteme Informatice în Sisteme Informatice în Îngrijirea Sănătății Îngrijirea Sănătății 1
Transcript
Page 1: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

UNIVERSITATEAPOLITEHNICA TIMIŞOARA

MASTER SIIS MASTER SIIS Sisteme Informatice în Îngrijirea Sisteme Informatice în Îngrijirea

Sănătății Sănătății

1

Page 2: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

www.medinfo.umft.ro/www.medinfo.umft.ro/dimdim/bioinformatica.htm/bioinformatica.htm

2

Page 3: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

BIOINFORMATICA

Prof Dr George I MihalaProf Dr George I MihalaşşUMF Victor BabeşUMF Victor Babeş

3

Page 4: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

CURSUL 8

4

Page 5: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

COMPARAREA A DOUĂ COMPARAREA A DOUĂ SECVENŢE (III)SECVENŢE (III)

5

Page 6: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Potriviri repetate (Repeated matches) Potriviri repetate (Repeated matches) [i][i]

• Aplicaţii– Găseşte copii (nesuprapuse) ale unei secţiuni care se

repetă (există domenii numite “motive”)

6

Page 7: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Potriviri repetatePotriviri repetate [ii] [ii]

• Aspecte teoretice– Se ia un prag T (threshold)– Se reţin doar secvenţele pentru care se ajunge la scoruri > T– Prima linie F(i,0) = max [F(i-1,0),

F(i-1,j)-T, pt. j=1,…,m]– La F(i,j), în loc de 0 punem F(i,0)

• Comentarii– T mare – poate exclude potriviri– T mic – divizează secvenţele ca să găsească şi potriviri slabe

7

Page 8: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Potriviri suprapuse (Overlap matches)Potriviri suprapuse (Overlap matches) [i] [i]

• Aplicaţii– Când ne aşteptăm ca o secvenţă să o conţină pe cealaltă,

sau să se suprapună parţial– La compararea fragmentelor genomice de ADN– La compararea unor secvenţe cromozomale mari

8

Page 9: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Potriviri suprapusePotriviri suprapuse [ii] [ii]

• Aspecte teoretice– Nu se penalizează gap-urile de la margini– Marginile se iniţializează cu 0 şi se aplică algoritmul N-W– Se setează maximul Fmax la valoarea maximă de pe linia de jos sau coloana

din dreapta– “traceback” începe de la Fmax până la marginea de sus

sau stânga– Există versiune cu “repeat”:

F(i,0) = max [F(i-1,0), F(i-1,m)-T]

9

Page 10: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Potriviri hibride (Hybrid mPotriviri hibride (Hybrid matchatch conditions) conditions)

• Aplicaţii– Fiecare variantă are avantaje şi dezavantaje– Exemple ce necesită abordări specifice:

• O secvenţă repetitivă tinde să fie găsită în copii tandem neseparate • Căutăm secvenţe ce încep la startul ambelor secvenţe dar se pot

termina în orice punct• Avem probabilitate mare ca o secvenţă să fie regăsită integral în alta,

dar şi o probabilitate de a găsi numai un segment (căutări în familii)

– Este bine să ştim ce potriviri căutăm• Aspecte teoretice

– Cazurile standard sunt limitate, dar putem găsi ceva apropiat– Se pot face “postprocesări”

10

Page 11: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Programare dinamică – modele complexeProgramare dinamică – modele complexe

• Aplicaţii– Gap-urile sunt adesea “în lanţ”

• Aspecte teoretice – Tipuri de penalizare gap:

• Liniară γ(g) = - g d (g = nr.gap-uri, d = penalizare 1 gap)• Gap-uri afine: γ(g) = - d – (g-1) e (e = penalizare gap în lanţ; e << d)

– Modificarea relaţiilor de recurenţă– “Automate cu stări finite”, modele complexe

• Scoruri diferite la substituţie în diverse regiuni (transmembranar, intracelular, extracelular)

– Metode euristice - BLAST

11

Page 12: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

MATRICIMATRICI DE DE

SUBSTITUȚIESUBSTITUȚIE

12

Page 13: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Matrici de substituţie Matrici de substituţie pentru proteine [i]pentru proteine [i]

A. Matrici PAM – Percent Accepted Mutations

• Ipoteză Ipoteză – fiecare schimbare a unui AA este independentă de alte schimbări anterioare

• Calculul matricilor PAM (Margaret Dayhoff, 1978)– Au fost evaluate 1572 schimbări în 71 grupe de secvenţe proteice cu

similaritate cel puţin 85%– PAM1 – se acceptă 1 mutaţie la 100 AA– PAM10 – 10 mutaţii, etc– PAM-N = PAM1 x PAM1 x … de N ori

• Folosire în funcţie de procent de similaritate– PAM250 pt 20%, PAM120 / 80 / 60 pt 40%, 50%, 60%

13

Page 14: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

14

Page 15: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

15

Page 16: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

• Exprimare cu “log odds”• Fiecare celulă = log OR (scor aditiv)

OR = p(AA1mAA2) / fr(AA1)= frecv.rel.a schimbării

16

Page 17: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

B. Matrici BLOSUM

- Blocks (Amino Acid) Substitution Matrices - Stephen şi Georgia Henikoff (1992)- Pe baza a 2000 patternuri de AA organizaţi în blocuri- (blocuri – semnăturile unor familii de proteine)- BLOSUM50,60,80 – secvenţe 50% (60%, 80%) similare, etc

s(a,b) = (1/λ) log [p(a,b) / fa fb]

17

Page 18: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

• Blosum62

18

Page 19: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Matrici de substituţieMatrici de substituţiepentru Acizi Nucleicipentru Acizi Nucleici [ii][ii]

• Matrici pentru Acizi nucleici– bazate pe modele de evoluţie / substituţie

a nucleotidelor

A) Modelul Jukes-Cantor– rate uniforme la mutaţii

B) Modelul Kimura– rate diferite la mutaţii

19

Page 20: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

• Modelul Kimura

- tranziţiitranziţii (conservă purină/pirimidină), - rata α

- transversiitransversii – rate mai mici β < α

20

Page 21: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Aspecte StatisticeAspecte Statistice

21

Page 22: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Testarea semnificaţiei alinieriiTestarea semnificaţiei alinierii

Distribuţia Poisson (Gumbel)

E = K m n e- λS

E = nr alinieri cu scor min. Sm, n = lungimile secvenţelorK, λ = parametrii statistici ai S

S = 10 log x

22

Page 23: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

Semnificaţia alinierii - NormalizareSemnificaţia alinierii - Normalizare

- Nr bits (log2) de informaţie în scor- Nr nats (ln)• Conversia la biţi:

S’ = (λ S – ln K) / ln 2E = m n 2- S’

• Valori P – probabilitatea de a obţine S la întâmplare

P = 1 – e –E ~ e –E • Determinarea rapidă a semnificaţiei

– Uzual K = 0.1, λ este precalculat în PAM şi BLOSUM– Ex: matricea log odds în biţi:

λ = ln 2 şi prag = ln (mn)23

Page 24: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

24

Page 25: UNIVERSITATEA POLITEHNICA  TIMIŞOARA

PAUZAPAUZA

25


Recommended