Movatterモバイル変換

Hirschberg-Algorithmus

aus Wikipedia, der freien Enzyklopädie

DerHirschberg-Algorithmus berechnet das paarweiseSequenzalignment und hat einen zur Eingabelinearen Speicherbedarf. Der in den 1970er Jahren vonDan Hirschberg entwickelteAlgorithmus verwendet die Methode derDynamischen Programmierung und dasDivide-and-conquer Prinzip.

Allgemeines

[Bearbeiten |Quelltext bearbeiten]

Der Hirschberg-Algorithmus ist ein allgemein einsetzbarer und optimaler Algorithmus zum Auffinden eines Sequenzalignment. Der bekannteBLAST-Algorithmus und derFASTA-Algorithmus sind nur suboptimale Heuristiken. Vergleicht man den Hirschberg-Algorithmus mit demNeedleman-Wunsch-Algorithmus, so handelt es sich beim Hirschberg-Algorithmus weniger um einen komplett neuen Algorithmus, sondern eher um eine clevere Strategie, die den Needleman-Wunsch-Algorithmus geschickt einsetzt, um den Speicherverbrauch zulinearisieren, was auch das Besondere an diesem Algorithmus ist: Die Berechnungen für ein Sequenzalignment benötigen nur linear viel Speicherplatz, womit diePlatzkomplexität des Algorithmus inO(n) liegt. Zur Berechnung eines Alignments zweier Zeichenketten $x {\displaystyle x}$ und $y {\displaystyle y}$ mit $m=|x|$ und $n=|y|$ besitzt der Algorithmus eine Laufzeitvon $\Theta (mn)$ und einen Speicherverbrauch von $\Theta (\min\{m,n\})$ . O.B.d.A soll im Folgenden $n\leq m$ gelten, so dass der Platzbedarf in $\Theta (n)$ liegt.

Anwendung findet der Algorithmus zum Beispiel in derBioinformatik zum Abgleich verschiedenerDNA- oderProteinsequenzen.

In einer leicht abgewandelten Form wird Hirschbergs Algorithmus auch dazu verwendet, um in einemGraphen parallelZusammenhangskomponenten mit Aufwand $\Theta (\log ^{2}n)$ auf $\Theta (n^{2})$ Prozessoren zu berechnen.

Berechnung der Levenshtein-Distanz auf linearem Speicherplatz

[Bearbeiten |Quelltext bearbeiten]

Zum Verständnis des Hirschberg-Algorithmus ist es zunächst wichtig zu verstehen, dass sich dieLevenshtein-Distanz auf linearem Speicherplatz berechnen lässt:

01 $T_{0}$  := 002 for j in 1..n loop03 $T_{j}$  := $T_{j-1}$  + $Ins(y_{j})$ 04 end loop05 for i in 1..m loop06       s := $T_{0}$ 07 $T_{0}$  := $T_{0}$  + $Del(x_{i})$ 08       c := $T_{0}$ 09       for j in 1..n loop10             c := $\min {\begin{cases}s&+Sub(x_{i},y_{j})\\T_{j}&+Del(x_{i})\\c&+Ins(y_{j})\end{cases}}$ 11             s := $T_{j}$ 12 $T_{j}$  := c13       end loop14 end loop

In den Zeilen 1–4 wird das eindimensionale Feld $T {\displaystyle T}$ mit n Plätzen Speicherbedarf initialisiert. In Zeile 6 wird die Initialisierung des ersten Elements $T_{0}$ in $s {\displaystyle s}$ gerettet.Danach wird $T_{0}$ und $c {\displaystyle c}$ mit dem Startwert für die nächste Zeile initialisiert. Die nachfolgende Abbildung zeigt eine Momentaufnahme eines Zeilendurchlaufs.In der inneren Schleife zeigt $c {\displaystyle c}$ immer auf das jeweils zuvor berechnete Ergebnis, während $s {\displaystyle s}$ das noch benötigte Ergebnis der letzten Zeile sichert. Nach Zeile 14steht dieLevenshtein-Distanz als Ergebnis in $T_{n}$ .

ε $y_{1}$  $y_{2}$  $y_{3}$  $y_{4}$  ...ε0  1  2  3  ... $x_{1}$ 1 $x_{2}$ ...

s =0c = $T_{0}$  =1

Es sollte klar sein, dass sich diese Berechnung auch rückwärts durchführen lässt. Dabei wird die gedachte Matrix nicht von links nach rechts und von oben nach unten durchlaufen, sondern von rechts unten nach links oben:

01 $T_{n}$  := 002 for j in n-1..0 loop03 $T_{j}$  := $T_{j+1}$  + $Ins(y_{j+1})$ 04 end loop05 for i in m-1..0 loop06       s := $T_{n}$ 07 $T_{n}$  := $T_{n}$  + $Del(x_{i+1})$ 08       c := $T_{n}$ 09       for j in n-1..0 loop10             c := $\min {\begin{cases}s&+Sub(x_{i+1},y_{j+1})\\T_{j}&+Del(x_{i+1})\\c&+Ins(y_{j+1})\end{cases}}$ 11             s := $T_{j}$ 12 $T_{j}$  := c13       end loop14 end loop

Berechnung des Alignments auf linearem Speicherplatz

[Bearbeiten |Quelltext bearbeiten]

Der Divide-&-Conquer-Algorithmus vonHirschberg berechnet ein Alignment der Zeichenketten $|x|$ und $|y|$ , indem er Vorwärts- und Rückwärtsdurchlauf miteinander kombiniert (Zeilenangaben beziehen sich auf dennachfolgend angegebenen Pseudocode):

1. Wenn $|x|=1$ oder $|y|=1$ liegt eintriviales Alignment-Problem vor (Zeilen 14 – 22). Ein String bestehend aus nur einem Zeichen muss auf einen anderen String ausgerichtet werden und ein Alignment wird zurückgegeben. Ist $|x|>1$ und $|y|>1$ geht man über zu Schritt 2.

2. EinVorwärtsdurchlauf berechnet ein Alignment von $y {\displaystyle y}$ und derersten Hälfte von $x {\displaystyle x}$ (Zeilen 27 – 40). Das Ergebnis des Vorwärtsdurchlaufs ist ein Feld $T^{\ell }$ , dessen Elemente die Kosten für einen Durchlauf von $(0,0)$ bis $(|x|/2,j)$ (mit $0\leq j\leq n$ ) angeben.

3. EinRückwärtsdurchlauf berechnet ein Alignment von $y {\displaystyle y}$ mit derzweiten Hälfte von $x {\displaystyle x}$ (Zeilen 42 – 55). Das Ergebnis ist ein weiteres Feld $T^{r}$ , dessen Elemente die Kosten für einen Durchlauf von $(n,m)$ zurück zu $(|x|/2,j)$ angeben.

4. In den Feldelementen $T^{\ell }(n)$ und $T^{r}(0)$ stehen die beidenLevenshtein-Distanzen für die globalen Alignments von $y {\displaystyle y}$ und den jeweiligen Hälften von $x {\displaystyle x}$ . In den restlichen Elementen von $T^{\ell }$ stehen die Distanzen von der ersten $x {\displaystyle x}$ -Hälfte zu allen Präfixen von $y {\displaystyle y}$ . Entsprechend enthalten die restlichen Elemente von $T^{r}$ die Distanzen von der zweiten $x {\displaystyle x}$ -Hälfte zu allen Suffixen von $y {\displaystyle y}$ .

5. DieLevenshtein-Distanz von $x {\displaystyle x}$ zu $y {\displaystyle y}$ kann nun errechnet werden, indem man entlang der mittleren Zeile der Alignment-Matrix läuft und nach einer kleinsten Summe von korrespondierenden $T^{\ell }$ - und $T^{r}$ -Elementen sucht. Ist eine solche minimale Summe gefunden, hat man eine Position in der mittleren Zeile gefunden, in der das optimale Alignment die mittlere Zeile bzw. die Mitte von $x {\displaystyle x}$ schneidet. An dieser Stelle wird $y {\displaystyle y}$ in zwei Teile zerteilt und damit kann auch das Alignment-Problem in zwei kleinere Alignment-Probleme zerteilt werden (Zeilen 59 – 65).

6. Schritt 1 wird rekursiv auf den beiden Teilen von $x {\displaystyle x}$ und $y {\displaystyle y}$ aufgerufen. Die beiden rekursiven Aufrufe geben Teil-Alignments zurück, die zu einem einzigen Alignment verknüpft werden. Das Alignment wird zurückgegeben (Zeilen 68 und 69).

01 --02 -- DerDivide-&-Conquer-Algorithmus von Hirschberg zur03 -- Berechnung des globalen Alignments auf linearem Speicher.04 --05 -- Bei $m=|x|,n=|y|,n\leq m$  besitzt der Algorithmus eine Laufzeit von $\Theta (nm)$ 06 -- und einen Speicherverbrauch von $\Theta (n)$ .07 --08 function HirschbergAlignment(x,y : string) return A is09        function SubAlignment( $i_{1}$ , $j_{1}$ , $i_{2}$ , $j_{2}$  : integer) return A is10                mitte,cut : integer11                s,c : real12 $T^{\ell },T^{r}$  : array( $j_{1}$ .. $j_{2}$ ) of real13        begin14                if $i_{1}+1=i_{2}$  or $j_{1}=j_{2}$  then15                        -- Konstruiere Matrix T für die Teil-Strings16                        -- x( $i_{1}+1$ .. $i_{2}$ ) und y( $j_{1}+1$ .. $j_{2}$ )17                        -- Achtung: Nur linearer Speicherplatz erforderlich!18                        T := ...19                        -- Berechnetriviales Alignment auf Matrix T20                        -- in linearer Laufzeit21                        return Alignment(T,x( $i_{1}+1$ .. $i_{2}$ ),y( $j_{1}+1$ .. $j_{2}$ ))22                end if2324                mitte := $(i_{1}+i_{2})/2$ 25                -- finde ausgehendvon $(i_{1},j_{1})$  den minimalen Pfad26                -- mit dem Vorwärtsalgorithmus:27 $T^{\ell }(j_{1})$  := 028                for j in $j_{1}+1$ .. $j_{2}$  loop29 $T^{\ell }(j)$  := $T^{\ell }(j-1)+Ins(y_{j})$ 30                end loop31                for i in $i_{1}+1$ ..mitte loop32                        s := $T^{\ell }(j_{1})$ 33                        c := $T^{\ell }(j_{1})+Del(x_{i})$ 34 $T^{\ell }(j_{1})$  := c35                        for j in $j_{1}+1$ .. $j_{2}$  loop36                                c := $\min {\begin{cases}T^{\ell }(j)&+Del(x_{i})\\s&+Sub(x_{i},y_{j})\\c&+Ins(y_{j})\end{cases}}$ 37                                s := $T^{\ell }(j)$ 38 $T^{\ell }(j)$  := c39                        end loop40                end loop41                -- finde minimalen score-pfadnach $(i_{2},j_{2})$ 42 $T^{r}(j_{2})$  := 043                for j in $j_{2}-1$ .. $j_{1}$  loop44 $T^{r}(j)$  := $T^{r}(j+1)+Ins(y_{j+1})$ 45                end loop46                for i in $i_{2}-1$ ..mitte loop47                        s := $T^{r}(j_{2})$ 48                        c := $T^{r}(j_{2})+Del(x_{i+1})$ 49 $T^{r}(j_{2})$  := c;50                        for j in $j_{2}-1$ .. $j_{1}$  loop51                                c := $\min {\begin{cases}T^{r}(j)&+Del(x_{i+1})\\s&+Sub(x_{i+1},y_{j+1})\\c&+Ins(y_{j+1})\end{cases}}$ 52                                s := $T^{r}(j)$ 53 $T^{r}(j)$  := c54                        end loop55                end loop56                -- finde den Punkt aus $j_{1}$ .. $j_{2}$  in dem der Minimale Pfad die57                -- mittlere Zeile schneidet:58                -- $cut:=_{def}{\mbox{argmin}}_{j_{1}\leq j\leq j_{2}}(T^{\ell }(j)+T^{r}(j))$ 59                for j in $j_{1}$ .. $j_{2}$  loop60                        if j= $j_{1}$  then61                                cut := $j_{1}$ 62                        elsif $T^{\ell }(j)+T^{r}(j)<T^{\ell }(cut)+T^{r}(cut)$  then63                                cut := j64                        end if65                end loop66                -- Alignment entsteht durch Konkatenation von linkem und67                -- rechtem Teil-Alignment:68                return SubAlignment( $i_{1}$ , $j_{1}$ ,mitte,cut)69 $\star$  SubAlignment(mitte,cut, $i_{2}$ , $j_{2}$ )70        end SubAlignment71        m,n : integer72 begin73        m := $|x|$ ; n := $|y|$ 74        -- Sonderbehandlung: $x {\displaystyle x}$  ist der leere String und lässt keine Zerteilung zu:75        if m=0 then76                return ${\begin{pmatrix}-\\y_{1}\end{pmatrix}}\star {\begin{pmatrix}-\\y_{2}\end{pmatrix}}\star \cdots \star {\begin{pmatrix}-\\y_{n}\end{pmatrix}}$ 77        else78                return SubAlignment(0,0,m,n)79        end if80 end HirschbergAlignment

Literatur

[Bearbeiten |Quelltext bearbeiten]

D. S. Hirschberg:A linear space algorithm for computing maximal common subsequences. In:Communications of the ACM.Band 18,Nr. 6, 1975,S. 341–343 (englisch,uci.edu [PDF]).
Chao, K.M., Hardison, R.C. and Miller, W.:Recent developments in linear-space alignment methods: a survey. In:Journal of Computational Biology.Nr. 4, 1994,S. 271–291 (englisch,edu.tw [PDF]).

Abgerufen von „https://de.wikipedia.org/w/index.php?title=Hirschberg-Algorithmus&oldid=248887649“

Kategorien:

[8]ページ先頭