Nell'informatica, unparser LR è un parser di tipo Bottom-up pergrammatiche libere da contesto, usate molto di frequente neicompilatori deilinguaggi di programmazione (e degli altri strumenti associati). Un Parser LR legge il proprio input partendo da sinistra (Left) verso destra, producendo una derivazione destra (Rightmost Derivation). A volte questo parser viene anche indicato col nome "Parser LR(k) dovek si riferisce al numero di simboli letti (ma non "consumati") utilizzati per prendere le decisioni di parsing. Tipicamentek ha valore 1 ed è spesso omesso. Una grammatica libera da contesto è chiamata LR(k) se esiste un parser LR(k) adatto ad essa.
Nell'uso tipico, quando ci si riferisce a un parser LR significa che si sta parlando di un particolare parser in grado di riconoscere un linguaggio specifico in una grammatica libera da contesto. Non è tuttavia insolito che ci si riferisca a un parser LR intendendo un programma che, fornita una tabella "ad hoc", sia in grado di produrre un ampio numero di LR distinti.
Il parsing LR ha parecchi benefici:
Creare un parser LR a mano è parecchio difficile; solitamente essi sono creati usando deigeneratori di parser. In base a come la tabella di parsing viene generata, questi parser possono essere ancheparser SLR oLALR. Con questi tipi di parser si ha a che fare con un'ampia varietà di grammatiche aumentate; il parser LALR ad esempio è in grado di riconoscere un numero maggiore di grammatiche rispetto ad un SLR. Il famosoYacc produce parser di tipo LALR.
Il parser è composto da:
Cercando di spiegare il funzionamento con un esempio; si consideri la seguente grammatica:
Le due tabelle di parsing LR(0) per questa grammatica sono:
action | goto | |||||||
state | * | + | 0 | 1 | $ | E | B | |
0 | s1 | s2 | 3 | 4 | ||||
1 | r4 | r4 | r4 | r4 | r4 | |||
2 | r5 | r5 | r5 | r5 | r5 | |||
3 | s5 | s6 | acc | |||||
4 | r3 | r3 | r3 | r3 | r3 | |||
5 | s1 | s2 | 7 | |||||
6 | s1 | s2 | 8 | |||||
7 | r1 | r1 | r1 | r1 | r1 | |||
8 | r2 | r2 | r2 | r2 | r2 |
Nell'Action Table i contenuti delle celle sono determinati dallo stato del parser e di un simbolo terminale (incluso il simbolo terminale speciale $ che indica la fine dell'input) e può contenere tre tipi di azioni:
Nella GoTo Table invece i valori delle celle sono determinati dallo stato del parser e dai simboli non-terminali; il contenuto determina quale sarà il prossimo stato del parser se è stato riconosciuto un non-terminale.
L'Algoritmo di Parsing LR lavora nel seguente modo:
Si può esprimere meglio l'algoritmo con una stringa d'esempio: 1 + 1. La tabella sottostante illustra ogni passo effettuato dal processo, lo stato di riferimento è l'elemento in cima alla pila (ovvero quello più a destra) e l'azione da intraprendere sarà quella determinata dall'action table definita prima. Notare inoltre che il simbolo $ è inserito in fondo alla stringa per segnalare la fine dell'input.
State | Input Stream | Output Stream | Stack | Next Action |
---|---|---|---|---|
0 | 1+1$ | [0] | Shift 2 | |
2 | +1$ | [0,2] | Reduce 5 | |
4 | +1$ | 5 | [0,4] | Reduce 3 |
3 | +1$ | 5,3 | [0,3] | Shift 6 |
6 | 1$ | 5,3 | [0,3,6] | Shift 2 |
2 | $ | 5,3 | [0,3,6,2] | Reduce 5 |
8 | $ | 5,3,5 | [0,3,6,8] | Reduce 2 |
3 | $ | 5,3,5,2 | [0 3] | Accept |
Quando il parsing inizia esso si troverà allo stato iniziale 0 e con la seguente pila:
Il primo terminale che il parser riconosce è '1' e in accordo all'action table si può andare nello stato 2 con la Pila che si trova nel seguente modo:
La testa della pila è la parte più a destra (per comodità si mostra anche il simbolo, terminale o non terminale, per esempio '1' o B, che ha "causato" la transizione allo stato successivo, anche se tale simbolonon appartiene realmente alla pila).
Nello stato 2 l'action table dice che per qualunque terminale si trovi nell'input dovremmo effettuare una riduzione con la regola grammaticale 5. Se la tabella è stata creata correttamente questo significa che il parser ha riconosciuto correttamente il lato destro della regola 5, che è appunto il nostro caso.Si può scrivere così scrivere '5' nello stream in output, fare il 'pop' dello stato sulla pila e poi un 'push' sulla pila dello stato indicato dalla goto table con 0 e B, ovvero 4. La pila risultante sarà:
Tuttavia lo stato 4 dell'action table indica che dovremmo fare una riduzione con la regola n° 3. Si scrive quindi 3 nell'output stream, si fa un'ulteriore 'pop' sulla pila e si trova il nuovo stato nella goto table, indicato da 0 e E, ovvero 3. Di conseguenza:
Il terminale successivo che il parser riconosce è il '+' e seguendo l'action table, si dovrà andare allo stato 6:
Si può notare come la pila sino a qui costruita può essere vista come la storia di unAutoma a stati finiti che ha appena letto un non-terminale E seguito da un terminale '+'. La tabella di transizione di questa automazione è definita dalle azioni di 'shift' dell'action table e le azioni si spostamento nella gogo table.
Il terminale successivo è ora '1' e significa che deve esser effettuato uno "shift and go" allo stato 2:
Come appena fatto il simbolo '1' viene ridotto a B con pila formata nel seguente modo:
Si può notare ancora come la pila ora corrisponda a una lista di stati di un automa a stati finiti che ha letto un non-terminale E, seguito poi da un '+' e un non-terminale B. Nello stato 8 si effettuerà sempre una riduzione con la regola 2. Notare che ora i 3 stati della pila corrispondono ai 3 simboli nel lato destro della regola 2.
Finalmente si trova in lettura il simbolo '$' che, seguendo le regole dell'action table (il cui stato corrente è il 3º), il parser accetta la stringa in input.I numeri delle regole che sono stati scritti negli output stream saranno [5, 3, 5, 2] che è effettivamente underivazione destrorsa della stringa "1+1" al rovescio.
La costruzione di queste tabelle di parsing si basa sulla notazione diLR(0) item che sono regole grammaticali con un punto speciale aggiunto in posizioni precise nel lato destro. Per esempio, la regola E → E + B ha i quattro seguenti oggetti corrispondenti:
Le regole nella formaA → ε hanno un singolo itemA → •. Queste regole saranno usate per denotare lo stato del parser. L'item E → E • + B, ad esempio, indica che il parser ha riconosciuto una stringa corrispondente ad E nell'input stream e ora si aspetta di leggere un '+' seguito da un'altra stringa, corrispondente a B.
Solitamente non è possibile caratterizzare lo stato del parser con un singolo item in quanto non si può sapere in anticipo quali regole verranno usate per la riduzione. Per esempio, se è già presente una regola nella forma E → E * B, allora gli item E → E • + B e E → E • * B verranno entrambi applicati dopo che la stringa corrispondente ad E è stata letta. Di conseguenza si dovranno caratterizzare gli stati del parser tramite un set di item, nel nostro caso il set sarà formato da { E → E • + B, E → E • * B }.
Un item con un punto davanti a un non-terminale, come ad esempio E → E + • B, indica che il parser si aspetta poi di ricevere un non-terminale B. Per assicurarsi che l'insieme di oggetti contenga tutte le possibili regole nelle quali il parser potrebbe trovarsi durante l'esecuzione del suo lavoro, deve includere tutti i termini che descrivano come B stesso debba essere parsato. Questo significa che se c'è una regola come B → 1 e B → 0 allora il set di item dovrà anche includere gli item B → • 1 and B → • 0. In generale questo può essere formulato come segue:
Ogni set di item può essere esteso in modo che soddisfi la seguente regola: Continua semplicemente ad aggiungere gli item appropriati sino a quanto tutti i non-terminali preceduti da punti sono stati presi in considerazione.L'estensione minima viene chiamataclosure di un set di item ed è scrittaclos(I) doveI è un set di item. È questo set di closed item che verranno presi come stati del parser, anche se soltanto quelli che sono realmente raggiungibili dallo stato iniziale saranno inclusi nella tabella.
Prima di cominciare a determinare le transizioni tra gli stati differenti, la grammatica viene sempre aumentata con la seguente regola extra:
dove S è un nuovo simbolo di partenza e E quello vecchio. Il parser userà questa regola per ridurre esattamente quando ha accettato la stringa in input.
Si prenda come esempio la grammatica vista prima:
È tramite questa grammatica aumentata che si determineranno il set di item e le transizioni tra loro.
Il primo passo nella costruzione delle tabelle consiste nel determinare le transizioni tra i set di itemclosed.. Queste transizioni saranno determinate come se noi stessimo considerando un automa a stati finiti che può leggere sia terminali che non-terminali. L'inizio dello stato di questo automa è sempre laclosure del primo item della regola aggiunta, ovvero S → • E:
Il '+' in testa all'item indica che gli item che sono stati aggiunti allaclosure. Gli item originali senza un '+' davanti, vengono chiamatikernel del set di item.
Partendo dallo stato iniziale (S0) si determinano ora tutti gli stati che possono essere raggiunti da questo stato. Le possibili transizioni per un set di item possono essere trovate guardando i simboli (sia terminali che non) presenti a destra del punto; nel caso di set di item 0 questi sono terminali '0' e '1' e non-terminali E e B. Per trovare il set di item a cui conduce un simbolo 'x' dallo stato corrente si segue questa procedura:
Per il terminale '0' questo risulta in:
e per il terminale '1' in:
e per il non-terminale E in:
e per il non-terminale B in:
Notare che in tutti laclosure non aggiunge nessun nuovo item. Si continua così il processo finché nessun nuovo item nel set viene trovato. Per il set di item 1, 2 e 4 non ci sarà nessuna transizione finché il punto non sarà davanti a nessun simbolo. Per il set di item 3 si noti che il punto è davanti ai terminali '*' e '+'. Per '*' la transizione va in:
e per '+' la transizione va in:
Per gli item del set 5 si devono considerare i terminali '0' e '1' e il non-terminale B. Per i terminali si nota che la risultanteclosure del set di item sono uguali a quelli già trovati prima: rispettivamente il set 1 e 2. Per il non-terminale B invece la transizione sarà:
Per il set di item 6 bisogna inoltre considerare il terminale '0' e '1' e il non-terminale B. Come prima, il set di item risultante è eguale al set 1 e 2. Per il non-terminale B la transizione va in:
Si è arrivati all'ultimo set di item che non ha più alcun simbolo dopo il punto e di conseguenza nessun nuovo item viene aggiunto e il lavoro è concluso. La tabella di transizione per l'automa ora sarà la seguente:
Item Set | * | + | 0 | 1 | E | B |
---|---|---|---|---|---|---|
0 | 1 | 2 | 3 | 4 | ||
1 | ||||||
2 | ||||||
3 | 5 | 6 | ||||
4 | ||||||
5 | 1 | 2 | 7 | |||
6 | 1 | 2 | 8 | |||
7 | ||||||
8 |
Da questa tabella e dal set di item appena ricavato, si possono costruire le tabelle nel modo seguente:
Notare che solo lo step 4 delle procedure descritte sopra produce un'azione di riduzione, e quindi tutte le azioni di riduzione devono occupare un'intera riga della tabella. Questo perché un parser LR(0) non guarda al token successivo per decidere quale riduzione bisogna effettuare. Una grammatica che necessita di guardare oltre per risolvere le disambiguità sulle riduzioni richiede che la tabella indichi diverse azioni a seconda dei token successivi in input.
Miglioramenti della procedura per la costruzione di una tabellaLR(0) (come ad esempio i parser SLR e LALR) sono in grado di creare le azioni di riduzione che non occupino l'intera riga. Di conseguenza riescono ad effettuare il parsing di più grammatiche rispetto ai parser LR(0).
Può succedere tuttavia che, quando un'azione di riduzione viene aggiunta all'action table, la cella relativa sia già occupata da un'azione. Quando questo accade, significa semplicemente che non si tratta di una grammatica LR(0). Se il contenuto precedente della cella è uno shift si parla di conflittoshift-reduce; se è una differente azioni di riduzione si parla di conflittoreduce-reduce.
Un esempio di una grammatica non LR(0) con conflitto shift-reduce è:
Un set di item che si trova è:
C'è un conflitto shift-reduce in questo set di item perché nella cella dell'action table per questo set di item e il terminale '1' c'è sia un'azione di shift allo stato 1 sia un'azione di riduzione con regola 2.
Un altro esempio di grammatica non-LR(0) con conflitto reduce-reduce è:
In questo caso si ottiene il seguente set di item
C'è un conflitto di tipo reduce-reduce in questo set di item poiché le celle dell'action table per questo set di item saranno sia per la regola 3 che per la regola 4.
Entrambi gli esempi sopra possono essere risolti lasciando usare al parser il seguente set (vediLL parser) di un non-terminaleA per decidere se è il caso di usare una regola diA per una riduzione; verrà usata la regolaA →w per una riduzione se il simbolo successivo nell'input stream è nel set seguente diA. Questa soluzione è dettaSimple LR parser.
E->E+T/T T->T*F/F F->id
S->AA A->aA/b