Movatterモバイル変換


[0]ホーム

URL:


Přeskočit na obsah
WikipedieWikipedie: Otevřená encyklopedie
Hledání

UPGMA

Z Wikipedie, otevřené encyklopedie

UPGMA (unweighted pair group method with arithmetic mean; českymetoda neváženého párování s aritmetickým průměrem) je jednoduchá aglomerativníhierarchická shluková metoda (jde o tzv. bottom-up metodu, kdy se nejprve shlukují páry sobě nejpodobnější, které se následně shlukují až do konečné sítě). Metodu představili Sokal a Michener.[1]

Termínnevážená metoda nesouvisí s matematickým výpočtem, ale odkazuje na skutečnost, že všechny distance se podílejí stejnou měrou na výpočtu každého průměru. Metoda UPGMA má i alternativuváženého párování, která se nazýváWPGMA. WPGMA generuje výsledky na základně jednoduchého průměru vzdáleností (nebolidistancí), zatímco u nevážené metody UPGMA se používá k výpočtu proporcionální průměr (vizpracovní příklad).[2]

Algoritmus

[editovat |editovat zdroj]

Algoritmus UPGMA vytváří zakořeněný strom (tzv.dendrogram), který odráží strukturumatice podobností (nebomatice odlišností). V každém kroku jsou dva nejpodobnější klastry sloučeny do klastru vyšší úrovně. Vzdálenost mezi každými dvěma klastryA{\displaystyle {\mathcal {A}}} aB{\displaystyle {\mathcal {B}}} o velikosti (nebolimohutnosti)|A|{\displaystyle {|{\mathcal {A}}|}} a|B|{\displaystyle {|{\mathcal {B}}|}} je vypočítána jako průměr všech vzdálenostíd(x,y){\displaystyle d(x,y)} mezi páry prvkůx{\displaystyle x} vA{\displaystyle {\mathcal {A}}} ay{\displaystyle y} vB{\displaystyle {\mathcal {B}}}, tzn. jako střední vzdálenost mezi prvky každého klastru:

1|A||B|xAyBd(x,y){\displaystyle {1 \over {|{\mathcal {A}}|\cdot |{\mathcal {B}}|}}\sum _{x\in {\mathcal {A}}}\sum _{y\in {\mathcal {B}}}d(x,y)}

Jinými slovy, v každém kroku se aktualizuje vzdálenost mezi nově spojenými klastryAB{\displaystyle {\mathcal {A}}\cup {\mathcal {B}}} a novým clustremX{\displaystyle X}. Aktualizovaná vzdálenost je dána proporcionálním průměrem vzdálenostídA,X{\displaystyle d_{{\mathcal {A}},X}} adB,X{\displaystyle d_{{\mathcal {B}},X}}:

d(AB),X=|A|dA,X+|B|dB,X|A|+|B|{\displaystyle d_{({\mathcal {A}}\cup {\mathcal {B}}),X}={\frac {|{\mathcal {A}}|\cdot d_{{\mathcal {A}},X}+|{\mathcal {B}}|\cdot d_{{\mathcal {B}},X}}{|{\mathcal {A}}|+|{\mathcal {B}}|}}}

Algoritmus UPGMA vytváří zakořeněné dendrogramy, při jejichž tvorbě předpokládá konstantní podíly - to znamená, že předpokládá tzv.ultrametrický strom, ve kterém jsou vzdálenosti od kořene ke konci každé větve stejné. Pokud jsou základem pro tvorbu stromu molekulární data (tj.DNA,RNA neboproteiny) odebraná ve stejný čas,ultrametricita se stane ekvivalentemmolekulárních hodin.

Pracovní příklad

[editovat |editovat zdroj]

Tento pracovní příklad je založen na matici genetických distancí JC69, která je odvozená z alignmentu sekvencí5S ribozomální RNA pěti bakterií:Bacillus subtilis (a{\displaystyle a}),Bacillus stearothermophilus (b{\displaystyle b}),Lactobacillus viridescens (c{\displaystyle c}),Acholeplasma modicum (d{\displaystyle d}) aMicrococcus luteus (e{\displaystyle e}).[3][4]

První krok

[editovat |editovat zdroj]
  • První shlukování (klastrování)

Předpokládejme, že máme pět prvků(a,b,c,d,e){\displaystyle (a,b,c,d,e)} uspořádaných v následující matici párových vzdálenostíD1{\displaystyle D_{1}}:

abcde
a017213123
b170303421
c213002839
d313428043
e232139430

Protože je v této matici je nejmenší hodnotouD1(a,b)=17{\displaystyle D_{1}(a,b)=17}, v prvním kroku spojíme prvkya{\displaystyle a} ab{\displaystyle b}.

  • Odhad délky první větve

Písmenemu{\displaystyle u} označme uzel, ve kterém se nyní spojují prvkya{\displaystyle a} ab{\displaystyle b}. Díky rovniciδ(a,u)=δ(b,u)=D1(a,b)/2{\displaystyle \delta (a,u)=\delta (b,u)=D_{1}(a,b)/2} je zajištěno, že prvkya{\displaystyle a} ab{\displaystyle b} jsou stejně vzdálené odu{\displaystyle u}. To odpovídá hypotézeultrametricity. Větve obou prvkůa{\displaystyle a} ab{\displaystyle b} vedoucí k uzluu{\displaystyle u} tedy mají délkuδ(a,u)=δ(b,u)=17/2=8.5{\displaystyle \delta (a,u)=\delta (b,u)=17/2=8.5} (vizvýsledný dendrogram).

  • První aktualizace matice vzdáleností

Poté přistoupíme k aktualizaci počáteční maticeD1{\displaystyle D_{1}} na novou maticiD2{\displaystyle D_{2}} (viz níže), která bude zmenšená o jeden řádek a jeden sloupec kvůli seskupovánía{\displaystyle a} sb{\displaystyle b} v předchozím kroku. Nové hodnoty vzdáleností odpovídajíprůměru vzdáleností mezi každým prvkem prvního klastru(a,b){\displaystyle (a,b)} a každým ze zbývajících prvků:

D2((a,b),c)=(D1(a,c)×1+D1(b,c)×1)/(1+1)=(21+30)/2=25.5{\displaystyle D_{2}((a,b),c)=(D_{1}(a,c)\times 1+D_{1}(b,c)\times 1)/(1+1)=(21+30)/2=25.5}

D2((a,b),d)=(D1(a,d)+D1(b,d))/2=(31+34)/2=32.5{\displaystyle D_{2}((a,b),d)=(D_{1}(a,d)+D_{1}(b,d))/2=(31+34)/2=32.5}

D2((a,b),e)=(D1(a,e)+D1(b,e))/2=(23+21)/2=22{\displaystyle D_{2}((a,b),e)=(D_{1}(a,e)+D_{1}(b,e))/2=(23+21)/2=22}

Nově vypočtené hodnoty vzdáleností v maticiD2{\displaystyle D_{2}} jsou vyznačeny tučně. Hodnoty psané kurzívou v maticiD2{\displaystyle D_{2}} nebyly změněny oproti původní maticiD1{\displaystyle D_{1}}, protože jde o vzdálenosti mezi prvky, které nebyly zahrnuty do prvního klastru.

Druhý krok

[editovat |editovat zdroj]
  • Druhé shlukování

Nyní zopakujeme tři předchozí kroky, počínaje tvorbou nové matice vzdálenostiD2{\displaystyle D_{2}}

(a, b)cde
(a, b)025.532.522
c25.502839
d32.528043
e2239430

V této matici je nejmenší hodnotouD2((a,b),e)=22{\displaystyle D_{2}((a,b),e)=22}, proto ke klastru(a,b){\displaystyle (a,b)} připojíme prveke{\displaystyle e}.

  • Odhad délky druhé větve

Označme uzel spojující klastr(a,b){\displaystyle (a,b)} a prveke{\displaystyle e} písmenemv{\displaystyle v}. Kvůli ultrametricitě musí mít větve spojující klastr (a{\displaystyle a},b{\displaystyle b}) ae{\displaystyle e} v uzluv{\displaystyle v} stejnou délku:δ(a,v)=δ(b,v)=δ(e,v)=22/2=11{\displaystyle \delta (a,v)=\delta (b,v)=\delta (e,v)=22/2=11}

Délku nové větve vypočteme následovně:δ(u,v)=δ(e,v)δ(a,u)=δ(e,v)δ(b,u)=118.5=2.5{\displaystyle \delta (u,v)=\delta (e,v)-\delta (a,u)=\delta (e,v)-\delta (b,u)=11-8.5=2.5} (vizvýsledný dendrogram)

  • Druhá aktualizace matice vzdáleností

Poté přistoupíme k aktualizaci maticeD2{\displaystyle D_{2}} na novou distanční maticiD3{\displaystyle D_{3}} (viz níže), zmenšenou o jeden řádek a jeden sloupec kvůli vzniku nového klastru(a,b){\displaystyle (a,b)} ae{\displaystyle e}. Tučně zvýrazněné hodnoty vD3{\displaystyle D_{3}} odpovídají novým vzdálenostem, vypočteným na základněproporcionálního průměru:

D3(((a,b),e),c)=(D2((a,b),c)×2+D2(e,c)×1)/(2+1)=(25.5×2+39×1)/3=30{\displaystyle D_{3}(((a,b),e),c)=(D_{2}((a,b),c)\times 2+D_{2}(e,c)\times 1)/(2+1)=(25.5\times 2+39\times 1)/3=30}

Výpočet nové vzdálenosti pomocí proporcionálního průměru umožňuje vzít v potaz větší velikost klastru(a,b{\displaystyle (a,b} - dva prvky) s ohledem nae{\displaystyle e} (jeden prvek). Podobně vypočteme zbývající vzdálenost:

D3(((a,b),e),d)=(D2((a,b),d)×2+D2(e,d)×1)/(2+1)=(32.5×2+43×1)/3=36{\displaystyle D_{3}(((a,b),e),d)=(D_{2}((a,b),d)\times 2+D_{2}(e,d)\times 1)/(2+1)=(32.5\times 2+43\times 1)/3=36}

Proporcionální průměr tedy dává stejnou váhu všem počátečním vzdálenostem maticeD1{\displaystyle D_{1}}. To je důvod, proč je metodanevážená - ne s ohledem na matematický postup, ale s ohledem na počáteční vzdálenosti.

Třetí krok

[editovat |editovat zdroj]
  • Třetí shlukování

Znovu zopakujeme tři předchozí kroky, přičemž nejprve vytvoříme novou matici vzdálenostíD3{\displaystyle D_{3}}.

((a, b), e)cd
((a, b), e)03036
c30028
d36280

Nejmenší hodnotou této matice jeD3(c,d)=28{\displaystyle D_{3}(c,d)=28}, takže spojíme prvkyc{\displaystyle c} ad{\displaystyle d} .

  • Odhad délky třetí větve

Písmenemw{\displaystyle w} označme uzel, který spojuje prvkyc{\displaystyle c} ad{\displaystyle d}. Větve spojujícíc{\displaystyle c} ad{\displaystyle d} v uzluw{\displaystyle w} pak mají délkuδ(c,w)=δ(d,w)=28/2=14{\displaystyle \delta (c,w)=\delta (d,w)=28/2=14} (vizvýsledný dendrogram)

  • Třetí aktualizace matice vzdáleností

Nyní je třeba aktualizovat jen jednu hodnotu, přičemž je třeba mít na paměti, že každý z prvkůc{\displaystyle c} ad{\displaystyle d} přispívají kvýpočtu průměru hodnotou1{\displaystyle 1}:

D4((c,d),((a,b),e))=(D3(c,((a,b),e))×1+D3(d,((a,b),e))×1)/(1+1)=(30×1+36×1)/2=33{\displaystyle D_{4}((c,d),((a,b),e))=(D_{3}(c,((a,b),e))\times 1+D_{3}(d,((a,b),e))\times 1)/(1+1)=(30\times 1+36\times 1)/2=33}

Poslední krok

[editovat |editovat zdroj]

Finální maticeD4{\displaystyle D_{4}} je následující:

((a, b), e)(c,d)
((a, b), e)033
(c,d)330

Spojili jsme tudíž oba klastry((a,b),e){\displaystyle ((a,b),e)} a(c,d){\displaystyle (c,d)}.

Písmenemr{\displaystyle r} označme (kořenový) uzel, ve kterém spojíme klastry((a,b),e){\displaystyle ((a,b),e)} a(c,d){\displaystyle (c,d)}. Větve klastrů((a,b),e){\displaystyle ((a,b),e)} a(c,d){\displaystyle (c,d)} vedoucí k uzlur{\displaystyle r} pak mají délky:

δ(((a,b),e),r)=δ((c,d),r)=33/2=16.5{\displaystyle \delta (((a,b),e),r)=\delta ((c,d),r)=33/2=16.5}

Vypočteme délky dvou zbývajících větví:

δ(v,r)=δ(((a,b),e),r)δ(e,v)=16.511=5.5{\displaystyle \delta (v,r)=\delta (((a,b),e),r)-\delta (e,v)=16.5-11=5.5}

δ(w,r)=δ((c,d),r)δ(c,w)=16.514=2.5{\displaystyle \delta (w,r)=\delta ((c,d),r)-\delta (c,w)=16.5-14=2.5}

Výsledný dendrogram UPGMA

[editovat |editovat zdroj]

Dendrogram je nyní dokončen.[5] Je ultrametrický, protože všechny konce větví (oda{\displaystyle a} poe{\displaystyle e}) jsou stejně vzdálené od uzlur{\displaystyle r}:

δ(a,r)=δ(b,r)=δ(e,r)=δ(c,r)=δ(d,r)=16.5{\displaystyle \delta (a,r)=\delta (b,r)=\delta (e,r)=\delta (c,r)=\delta (d,r)=16.5}

Dendrogram je proto zakořeněn nejhlubším uzlemr{\displaystyle r}, který je nazývánkořen.

Porovnání s jinými algoritmy

[editovat |editovat zdroj]

Alternativní klastrovací schémata zahrnujísingle linkage clustering (metoda nejbližšího souseda, jednospojná metoda),complete linkage clustering (metoda nejvzdálenějšího souseda, všespojná metoda) aWPGMA. Jednotlivé algoritmy se mezi sebou liší použitím jiných postupů při výpočtu vzdáleností mezi klastry v rámci tvorby nové matice. Nevýhodou nejjednodušší metody single linkage clustering je tzv.chaining phenomenon, při kterém dochází ke shlukování klastrů na základě jediného společného charakteru přestože jsou si jednotlivé prvky v klastru obecně nepodobné. Algoritmus Complete linkage clustering dokáže tuto nevýhodu řešit a tvoří klastry o přibližně stejných diametrech.[6]

Porovnání dendrogramů získaných různými shlukovacími metodami na základě stejné distanční matice .
Single-linkage clusteringComplete-linkage clusteringAverage linkage clustering: WPGMAAverage linkage clustering: UPGMA

Použití

[editovat |editovat zdroj]
  • Jde o jednu z nejpopulárnějších metod vekologii. Požívá se pro klasifikaci vzorků (jako jsou např. vegetační snímky) na základě párových podobností jejich vlastností (jako je např. druhové složení).[7] Mimo vegetační data může sloužit také například k pochopení trofické interakce mezi mořskými bakteriemi a protisty.[7]
  • Vbioinformatice se UPGMA používá k tvorběfenetických stromů (fenogramů). Metoda UPGMA byla původně navržena pro studie založené naproteinové elektroforéze, ale v současné době se nejčastěji používá k výpočtu vodících stromů pro sofistikovanější algoritmy. Tento algoritmus se používá například při výpočtualignmentu sekvencí, kdy se na jeho základě tvoří pořadí, ve kterém budou sekvence alignovány. Vodící strom založený na UPGMA seskupuje nejpodobnějších sekvencí bez ohledu na jejich evoluční vývoj nebo fylogenetickou afinitu.[8]
  • Při použití metody UPGMA vefylogenetice se předpokládá konstantní rychlost evoluce (tzv.hypotéza molekulárních hodin) a že všechny vzorky byly odebrány současně. Nicméně se nepovažuje za vhodnou metodu pro odvozování fylogenetických vztahů. Metodu lze použít pouze pokud byly zmíněné předpoklady testovány a dobře zdůvodněny. Je důležité si uvědomit, že strom vytvořený na základě vzorků odebraných v různých časech by neměl vést k ultrametrickému stromu, dokonce i za podmínky „strict clock“.

Časová složitost

[editovat |editovat zdroj]

Základní použití UPGMA algoritmu ke konstrukci stromu má časovou komplexituO(n3){\displaystyle O(n^{3})}. Pokud použijeme pro každý klastrhaldu, abychom jednotlivé klastry udželi ve vzdálenosti od ostatních, redukujeme čas naO(n2logn){\displaystyle O(n^{2}\log n)}. Fionn Murtagh představil nějaké další přístupy pro speciální případy: časový algoritmusO(k3kn2){\displaystyle O(k3^{k}n^{2})} podle Day a Edelsbrunner[9] pro k-dimensionální data, kde je optimálníO(n2){\displaystyle O(n^{2})} pro konstantní k, a další algoritmusO(n2){\displaystyle O(n^{2})} pro omezené vstupy, pokud „shlukovací strategie vyhovuje reducibilitě“.[10]

Odkazy

[editovat |editovat zdroj]

Reference

[editovat |editovat zdroj]

V tomto článku byl použitpřeklad textu z článkuUPGMA na anglické Wikipedii.

  1. Sokal,Michener. A statistical method for evaluating systematic relationships.University of Kansas Science Bulletin. 1958, s. 1409–1438.Dostupné online. Je zde použita šablona{{Cite journal}} označená jako k „pouze dočasnému použití“.
  2. GARCIA S., PUIGBÒ P."DendroUPGMA: A dendrogram construction utility" [online].Dostupné online. [nedostupný zdroj]
  3. Erdmann VA, Wolters J. Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences.Nucleic Acids Research. 1986, s. r1–59.doi:10.1093/nar/14.suppl.r1.PMID2422630. Je zde použita šablona{{Cite journal}} označená jako k „pouze dočasnému použití“.
  4. Olsen GJ. Phylogenetic analysis using ribosomal RNA.Methods in Enzymology. 1988, s. 793–812.doi:10.1016/s0076-6879(88)64084-5.PMID3241556. Je zde použita šablona{{Cite journal}} označená jako k „pouze dočasnému použití“.
  5. SWOFFORD DL, OLSEN GJ, WADDELL PJ, HILLIS DM."Phylogenetic inference". In Hillis DM, Moritz C, Mable BK (eds.). Molecular Systematics. 2. vyd. Sunderland, MA: Sinauer, 1996.Dostupné online.ISBN 9780878932825. S. 407–514. 
  6. EVERITT, B. S.; LANDAU, S.; LEESE, M.Cluster Analysis. 4. vyd. London: Arnold, 2001. S. 62–64. 
  7. abVázquez-Domínguez E, Casamayor EO, Català P, Lebaron P. Different marine heterotrophic nanoflagellates affect differentially the composition of enriched bacterial communities.Microbial Ecology. April 2005, s. 474–85.doi:10.1007/s00248-004-0035-5.PMID16003474.JSTOR25153200. Je zde použita šablona{{Cite journal}} označená jako k „pouze dočasnému použití“.
  8. Wheeler TJ, Kececioglu JD. Multiple alignment by aligning alignments.Bioinformatics. July 2007, s. i559–68.doi:10.1093/bioinformatics/btm226.PMID17646343. Je zde použita šablona{{Cite journal}} označená jako k „pouze dočasnému použití“.
  9. DAY, William H. E.; EDELSBRUNNER, Herbert. Efficient algorithms for agglomerative hierarchical clustering methods.Journal of Classification. 1984-12-01, s. 7–24.ISSN0176-4268.doi:10.1007/BF01890115. Je zde použita šablona{{Cite journal}} označená jako k „pouze dočasnému použití“.
  10. Murtagh F. Complexities of Hierarchic Clustering Algorithms: the state of the art.Computational Statistics Quarterly. 1984, s. 101–113. Je zde použita šablona{{Cite journal}} označená jako k „pouze dočasnému použití“.

Související články

[editovat |editovat zdroj]

Externí odkazy

[editovat |editovat zdroj]
Citováno z „https://cs.wikipedia.org/w/index.php?title=UPGMA&oldid=24302200
Kategorie:
Skryté kategorie:

[8]ページ先頭

©2009-2025 Movatter.jp