Está en la página 1de 24

UTILIZAREA PROGRAMULUI MEGA PENTRU ANALIZA FILOGENETICĂ

Programul MEGA - Molecular Evolutionary Genetics Analysis (Analiza molecular-


genetică evolutivă) este un program de calculator pentru efectuarea analizei statistice a evoluției
moleculare și pentru construirea arborilor filogenetici. Acesta include multe metode și instrumente
sofisticate pentru filogenomică și filomedicină. Este licențiat ca freeware. Proiectul de dezvoltare
a acestui software a fost inițiat sub conducerea lui Masatoshi Nei în laboratorul său de la
Universitatea de Stat din Pennsylvania, în colaborare cu colegii săi Sudhir Kumar și Koichiro
Tamura. De la început, MEGA a fost destinat să fie ușor de utilizat și să includă numai metode
statistice consistente. Prima versiune MEGA nu putea fi difuzată într-un format electronic, care ar
fi putut fi încărcată direct pe calculatoarele personale, deaceea era distribuită doar prin poștă.

MEGA versiunea 2 (MEGA2), care a fost coautorizată de un investigator suplimentar


Ingrid Jakobson, a fost lansată în 2001. Toate programele de calculator și fișierele readme ale
acestei versiuni déjà puteau fi trimise electronic datorită progreselor tehnologiei informatice. În
acest moment, conducerea proiectului MEGA a fost preluată de S. Kumar (care în present
activează la Temple University) și K.Tamura (care activează în present la Universitatea
Metropolitană din Tokyo

În present sunt editate mai multe manual și monografii, care pot fi utilizate ca instrucțiuni
de utilizare a acestui program. Prima monografie pe aproximativ 130 pagini a fost editată chiar de
primul autor al programului M.Nei. ). Această carte a fost adesea folosită ca un manual pentru
însușirea noilor modalități de studiere a evoluției moleculare.

Programul MEGA a fost actualizat și extins de mai multe ori și în prezent toate aceste
versiuni sunt disponibile pe site-ul MEGA. Ultima versiune, MEGAX, a fost optimizată pentru
utilizarea pe sisteme de calcul pe 64 de biți. orice versiune MEGA este disponibilă în două
variante. Prima are o interfață grafică și este disponibilă ca un program Microsoft Windows nativ.
A doua variant este de tip linie de comandă, MEGA-Computing Core (MEGA-CC), este
disponibilă pentru funcționarea de diferite platform (cross-platform). Metoda este utilizată pe larg
și citată în numeroase lucrări științifice. Cu milioane de descărcări pe toate versiunile, MEGA este
citată în mai mult de 85.000 de lucrări.
Algoritmul de lucru (se dă pentru versiunea MEGA6)

I. Pregătirea masivului de date pentru analiză filogenetică.

Pentru analiza filogenetică pot fi luate secvențe, care corespund următoarelor criteria:

a) Sunt omoloage
b) Ca rezultat al analizei BLAST cu secvența de interes au un procent de acoperire (query
cover) a secvenței de interes de cel puțin 60% (Query cover≥60%;
c) Ca rezultat al analizei BLAST cu secvența de interes au o valoare a Evalue de cel mult
0,001 (Evalue≤10-3).
d) Au aceiași orientare ( trebuie sa fie plus/plus)

Pentru a pregăti masivul de date pentru analiză putem aplica editarea unui fișier FASTA în
format text, care să includă secvențe care corespund cerințelor de mai sus, după care efectuăm
alinierea, și exportăm alinierea în format NEXUS cu utilizarea programului MESQUITE.

Cea de a doua cale de constituire a masivului de date pentru analiza filogenetică este cu
utilizarea direct a programului MEGA.

Pentru aceasta realizăm următorii pași

1. Deschidem programul MEGA. Selectăm din meniul principal Align----Do BLAST search

2. Se deschide resursa BLAST de pe NCBI. Selectăm parametrii necesari și introducem


secvența de interes (in cazul nostru secventa:
ATGATCACCGGGAATATCCACCAGCTTGAATTGGTTCCTTATCTGCCTGCCAAACTGCGCGAAGCGATCG
AGTACGTAAAAGCCAACATTACGGTCGATACTCCGCTGGGCAAGCACGATGTCGATGGCAACAACGTGTT
TGTGCTGGTTTCCAATGACAGTACTGAAGCGTTTGAACAACGTCGCGCCGAATACCATGCCAAATATCTG
GATATTCAGATTGTGCTCAACGGCGTTGAAGGTATGACCCTCAGCAACCTGCCGGCAGGCACACCTGACA
CGGACTGGTTGGCGGATAAAGACATCGCATTTTTGTCTGCCGGTGAGCAGGAAAAAACCTTTGTCATGCA
ACCGGGTGATTTTGTTGTCTTCTTCCCGGGCGAAGTGCACAAGCCGCTGTGTGCCGTGGGTGAACCTGCA
CGCGTACGCAAAGCCGTCGTGAAGATCGACGCTTCACTGGTGCTGTAA
3. Din raportul BLAST vedem că cerințelor expuse corespund primele 13 secvențe

4. Aceste secvențe se iau pentru analiză filogenetică. Pentru aceasta se verifică fiecare
dintre secvențele date daca se respect aceiași orientare și se deschide GenBank pentru
fiecare în parte asa cum se vede mai jos.
5. Selectăm pe dreapta opțiunea Send to, la Choose destination selectăm File, la Format
selectăm Fasta și tastăm Create file.

6. Fisierul creat este extras din locul unde a fost expediat si transferat într-o mapă unde vor
merge toate celelalte fisiere create.
7. La fel se procedează si cu celelalte secvențe. Atenție- cea de de a doua secvență este cu
orientare inversă:
8. După ce am colectat toate secvențele de interes le transferam în MEGA alignment:

Din meniul principal selectăm Align -----Edit/build Alignment------Create a new alignment,

După care din mediul principal selectăm Edit------Insert sequence from file, selectăm toate
fisierele din mapa noastra data si tastăm ok. Redactăm numele secvențelor, astfel ca ele sa
contina doar litere, cifre si semnul liniuță jos. Spații nu se admit.
9. Aliniem secvențele respective. Pentru aceasta le narcăm pe toate si tastăm semnul Muscle
10. Exportăm alinierea în formatul MEGA 9DATA----Export alignment------MEGA Format

Cu aceasta etapa de pregătire a masivului de date a luat sfârșit.


II. Analiza filogenetică propriu zisă

Analiza filogenetică are drept scop obținerea arborelui filogenetic pentru unitățile taxonomice
operaționale incluse în analiză.

Pentru masive de date mici așa cum este al nostru se recomandă utilizarea analizei filogenetice
prin construirea arborelui filogenetic NJ (Neighborn Joining tree). Aceasta este una dintre
metodele algoritmice, cel mai des utilizată pentru analiza filogenetică, inclusiv în cadrul
programei MEGA.

Mai jos este expus algoritmul aplicat la realizarea acestei metode de analiză:

METODA NEIGHBOR JOINING (NJ)

Saitou şi Nei (1987) au dezvoltat o metodă eficientă de realizare a arborilor filogenetici, care
se bazează pe principiul evoluţiei minime (ME). Această metodă nu examinează toate topologiile
posibile, dar în fiecare stadiu de grupare a taxonilor, aplică un principiu de evoluţie minimă.
Această metodă se numeşte Neighbour –Joining (NJ) şi este privită ca o versiune simplificată a
metodei ME. Când se folosesc 4 din 5 taxoni, metodele NJ, ME dau rezultate identice (Saitou şi
Nei, 1987). Există o oarecare asemănare între NJ şi metoda adiţională de realizare a arborilor,
care dă atât topologia cât şi lungimea ramurii simultan.
Unul dintre conceptele importante în această metodă, este reprezentat de noțiunea
de vecini - „neighbors”, definiţi ca doi taxoni conectaţi printr-un singur nod într-un arbore fără
punct de origine. De exemplu, taxonii 1 şi 2 din arborele prezentat în figura A, sunt consideraţi
„neighbors” (vecini), pentru că sunt conectaţi doar prin nodul A. Similar taxonii 5 şi 6 sunt
consideraţi „neighbors”, dar toate celelalte perechi nu. Cu toate acestea dacă se combină taxonii
1 şi 2 şi se consideră ca fiind un singur taxon, acesta, (1-2) şi taxonul 3 sunt acum „neighbors”.
Este posibilă definirea topologiei unui arbore prin alăturări succesive ale taxonilor vecini (nj) şi
producerea unor noi perechi de taxoni vecini. De exemplu, topologia arborelui din Figura A poate
fi descrisă prin următoarele perechi de taxoni vecini („neighbors”): (1, 2), (5, 6), (1 – 2, 3) şi (1
– 2 –3,4). Astfel, prin găsirea acestor perechi de taxoni vecini, se poate obţine topologia arborelui.

Fig. A. Arborele filogenetic cu lungime ştiută a ramurilor, pentru şase secvenţe

Construirea unui arbore prin intermediul acestei metode, începe cu arborele în formă de stea
care este produs, pe baza presupunerii că nu există o grupare a taxonilor (Figura B). În practică,
această presupunere este în general incorectă. Astfel, dacă se estimează lungimea ramului unui
arbore în formă de stea şi se calculează suma tuturor ramurilor (S0), această sumă ar trebui să fie
mai mare decât suma (SF) pentru arborele de tip NJ final. Dacă se elimină taxonii vecini 1 şi 2
din cadrul arborelui prezentat în Figura C, suma (S12) a tuturor lungimilor ramurilor, trebuie să
fie mai mică decât S0, cu toate că este posibil să fie mai mare decât SF. În practică,
deoarece nu se ştie exact care perechi de taxoni sunt vecini, se consideră toate perechile de taxoni,
ca potenţiale perechi de taxoni vecini şi se calculează suma lungimilor ramurilor (Sij) pentru
taxonii i şi j, utilizând o topologie similară cu cea din Figura A, se pot alege taxonii i şi j care au
cea mai mică valoare pentru Sij Desigur, valorile distanţelor sunt subiectul erorilor stochastice,
astfel încât taxonii vecini aleşi în acest mod, nu sunt întotdeauna adevăraţii taxoni vecini. O dată
identificată o pereche de taxoni vecini, aceşti sunt încadraţi într-un taxon compus, procedura
repetându-se până la producerea arborelui final

Fig.B. Arbore filogenetic în formă de stea

Separarea primilor taxoni vecini (1 şi 2),

Aceste valori sunt determinate prin metoda pătratului minim, pentru actuala topologie a
arborelui. Următorul pas, este calcularea distanţei între noul nod A şi taxonii rămaşi (k;
3≤k≤m)
Separarea nodului A de restul taxonilor

Separarea taxonilor 5 şi 6 prin formarea nodului B

Separarea taxonului 3 prin apariţia nodului C


Separarea taxonului 4 prin apariţia nodului D

Dacă se calculează toate distanţele pe baza acestei valori, vom obţine o nouă matrice de tipul (m-
1)(m-1). Pentru această nouă matrice, putem calcula o nouă sumă Sij, care va fi notată cu Sij`,
deoarece nu include lungimea ramurilor externe pentru prima pereche de taxoni vecini
identificaţi, astfel încât apare ca fiind mai mică decât suma totală (Sij) a lungimii braţelor la acest
nivel al construcţiei arborelui filogenetic. Pentru găsirea unei noi perechi de taxoni vecini,
se ia în considerare din nou perechea cu cea mai mică valoare Sij. Un nou nod B poate fi
creat pentru această nouă pereche de taxoni şi o nouă valoare a matricei distanţei (m-
2)(m-2) este calculată. Această procedură se repetă, până când toţi taxonii sunt grupaţi într-un
singur arbore fără punct de origine (unrooted tree) de tip neighbour joining.

Cu toate acestea, înainte de aplica metoda NJ se recomandă de a testa setul de date , dacă acesta
este conform pentru a fi analizat prin această metodă.

Pentru aceasta din meniul principal MEGA se selectează Distance-------Compute Overal Mean
Distance:
Se selectează documentul in format MEGA (acel pe care l-am creat când am exportat alinierea)

În geamul care se deschide (analysis preferences) la Model/method se selectează Juke-Cantor


model si se tastează Compute
Geamul nou care se deschide conține rezultatul – în cazul nostru valoarea obținută este de 0,129.
Cerinta de aplicabilitate a acestei metode este ca valoare obținută să fie mai mică de 1 . În caz că
valoarea obținută este mai mare de 1, metoda NJ nu poate fi aplicată. Atunci se aplică orice altă
metodă cu excepția UPGMA, care de asemenea este o metodă algoritmică.

Deoarece testul de validitate a metodei NJ este pozitiv, noi vom aplica această metodă pentru
analiza filogenetică.
Din meniul principal MEGA se selectează Phylogeny se selectează Construct/Test Neighborn-
Joining Tree.

În continuare se deschide geamul Analysis Preference, unde putem lasa setările implicite, ori
unde putem interveni in caz de necesitate. Noi vom introduce testul de filogenie (bootstraps, 100
replici) și modelul de substituție – JC:

Obținem rezultatul:

Arborele original
Si arborele bootstrap de consens

În cazul când metoda NJ nu este aplicabilă pentru masivul dat de date, sau dacă dorim să
comparăm rezultatul obținut printr-o metodă algoritmică cu rezultatul obținut printr-o metodă
tree-searching aplicăm următoarea tactică:

1. Se aplică metoda Maximum likelihood.


Metoda verosimilitudinii maxime (maximum likelihood)
Analizele filogenetice tind să deducă istoria evolutivă (sau un set de istorii probabile) care
corespunde cel mai bine setului de date observat (în cazul de fată este vorba de secvenţe
nucleotidice sau de aminoacizi dar poate fi vorba şi de caractere morfologice, frecvenţe ale
genelor, situsuri de restricţie etc.). Necunoscutele problemei sunt ordinea de ramificare şi lungimea
ramurilor a filogeniei. Pentru a aplica metodele ML este nevoie de un model concret de substituţie
ce descrie transformarea unei secvenţe în alta.
Metodele ML de reconstrucţie filogenetică evaluează ipoteza despre istoria evolutivă în
termeni probabilistici (Care este probabilitatea că o anumită istorie evolutivă - topologie şi un
anumit model de substituţie vor da naştere datelor observate). O istorie evolutivă ce are o
probabilitate mai mare de a da naştere datelor observate are prioritate faţă de una cu o probabilitate
mai mică. Această metodă a fost utilizată pentru prima dată în reconstrucţiile filogenetice de către
Cavalli-Sforza şi Edwards în 1967 însă aceşti autori au considerat calculele necesare prea
complicate pentru calculatoarele de la acea vreme şi au dezvoltat metode aproximative ca de
exemplu ME (Huelsenbeck & Crandall, 1997). Felsenstein a utilizat pentru prima dată această
metodă în 1981 pentru analiza filogenetică a secvenţelor de nucleotide, după care metoda a început
să fie din ce în ce mai utilizată. Printre avantajele acestei metode se numără varianţa mică şi
posibilitatea utilizării unui număr minim de parametri. Chiar pentru un număr mic de nucleotide
acest tip de metode depăşesc de multe ori metodele bazate pe distanţe şi cele MP.
Principiul de bază al metodei implică calcularea verosimilitudinii unei filogenii. Deoarece
majoritatea modelelor de substituţie folosite sunt reversibile în timp, verosimilitudinea unei
filogenii este independentă de localizarea rădăcinii. Presupunând că fiecare situs evoluează
independent putem calcula verosimilitudinea fiecărui situs separat şi să combinăm aceste valori
pentru obţinerea unei valori finale.
Pentru a calcula verosimilitudinea unui situs j trebuie să luăm în considerare toate
scenariile posibile prin care starea finală a situsului ar fi putut evolua. Bineînţeles că unele scenarii
sunt mult mai plauzibile decât altele, însă fiecare are o anumită şansă să se fi produs. Spre exemplu
dacă considerăm o filogenie în rădăcină am fi putut avea teoretic oricare din cele 4 nucleotide (A,
G, C, T), pentru oricare alt nod intern este de asemeni posibilă existenţa oricărui nucleotid. Deci
avem un total de 4 X 4 = 16 posibilităţi. Cum oricare dintre aceste 16 scenarii ar fi putut duce la
setul final de date observate, probabilităţile tuturor evenimentelor trebuiesc calculate şi însumate
pentru a obţine probabilitatea unui situs j (această probabilitate depinde după cum am mai
menţionat de topologie şi de modelul de substituţie nucleotidică). Cum am presupus că fiecare
situs evoluează independent de celelalte, probabilitatea unui scenariu evolutiv este egală cu
produsul probabilităţilor tuturor situsurilor 1, 2, 3, … j … n. Pentru că probabilitatea unei singure
observaţii este foarte mică în locul lor se utilizează logaritmii acestora, deci probabilităţile sunt
acumulate ca sumă a logaritmilor verosimilitudinilor fiecărui situs luat în parte.
Din cauza volumului foarte mare de calcule ce trebuiesc efectuate dacă numărul de taxoni
este mai mare ca 10 şi secvenţele utilizate sunt mari au fost dezvoltate o serie de algoritmi de
căutare (ca şi în cazul metodelor MP).
Cum modalitatea reală de substituţie a nucleotidelor este foarte complicată, s-ar putea crede că un
model matematic cu mulţi parametri este mai bun decât un model cu mai puţini parametri. Totuşi
chiar dacă un model cu mai mulţi parametric corespunde datelor mai exact decât unul mai simplu,
numărul mare de parametri îl face mai sensibil la erori. Deci este mai utilă utilizarea unui model
mai simplu atâta timp cât acesta aproximează modul de substituţie al nucleotidelor suficient de
bine.
În cazul metodelor ML corespondenţa dintre model şi date poate fi examinată folosind testul LR
(Likelihood Ratio Test) sau criteriul informaţiei al lui Akaike (AIC – Akaike Information
Criterion). Când avem două modele 1 şi 2 şi modelul 1 este caz particular al modelului 2, iar
topologia corectă este cunoscută putem calcula testul LR după formula
LR=2(lnL2-lnL1)
unde lnL1 şi lnL2 sunt valorile ML pentru modelele 1 şi 2. în acest mod putem testa dacă modelul
2 este semnificativ mai bun decât modelul 1.

2. Pentru a aplica această metodă mai întâi se calculează modelul statistic cel mai conform.
Pentru aceasta din meniul de bază MEGA se selectează Models---------Find the best
DNA/Protein models. În geamul Analysis preference se lasă setările implicite si se
tastează compute.
3. Obținem rezultatul:

Modelul cel mai conform este acel, pentru care s-a calculat cea mai mică valoarea BIC
score (Bauesian Information Criterion). În cazul nostru acesta este modelul K2+G – ceea
ce inseamnă, că modelul de substituție al nucleotidelor, care cel mai bine corespunde
masivului de date este modelul Kimura cu 2 parametri (descifrarea abrevierilor se găsește
sub tabel). Simbolul =G indică, că rada evolutivă nu este dristibuită uniform pe masivul
de date aplicat, iar rada discretă de distribuție Gama descrie mai adecvat filogenia
respectivă.
Aceste date vor fi aplicate la analiza filogenetică ulterioară. Pentru aceasta din meniul de
bază MEGA selectăm Phylogeny------Construct/Test Maximul Likelihood Tree:
Avem grijă ca in geamul Analysis Preferences să fie setați parametrii evidențiati:

Setăm de asemenea si test de filogenie – Bootstrap cu 100 replici

Obținem rezultatul:

Arborele original
Si cel de consens

Descrierea arborilor poate fi obținută prin pastarea Caption din meniul Tree Explorer
Arborele obținut poate fi exportat în format Newick: Pentru aceasta din meniul principal al Tree
Explorer se selectează File ------Export curent tree(Newick).

Sau ca imagine in format PDF, PNG

También podría gustarte