Se tutti i compilatori aderissero esattamente allaspecifica del linguaggio, lo stesso programma potrebbe essere compilato senza modifiche da ciascun compilatore, producendo risultatisemanticamente uguali, ovvero programmi che producono lo stesso risultato se sottoposti agli stessidati di ingresso. Nella realtà, molti compilatori implementano il linguaggio in modo incompleto o aggiungono estensioni proprietarie, creando quindi deidialetti del linguaggio principale. Per i linguaggi che adottano uno standard nelladecorazione dei simboli, il codice oggetto generato da compilatori differenti può essere collegato assieme in un unico eseguibile.
A partire dal 1950 vennero sviluppati diversi compilatori sperimentali (tra cui l'A-0 System diGrace Hopper), ma nel 1957 il teamFortran presso l'IBM, guidato daJohn Backus, fu il primo a realizzare un compilatore completo mentre, nel1960, ilCOBOL fu uno dei primi linguaggi a essere compilato su piùarchitetture.[1]
L'idea della compilazione prese velocemente piede e molti dei principi di design dei compilatori vennero sviluppati negli anni sessanta. Un compilatore è esso stesso un programma scritto in un qualche linguaggio e i primi di essi vennero scritti inAssembly. Il primo compilatore auto-compilato, capace cioè di compilare il suo stesso codice, fu creato per il linguaggioLisp da Hart e Levin presso ilMIT nel1962.[2] L'uso di linguaggi ad alto livello per scrivere i compilatori ebbe una accelerazione nei primi anni settanta quando i linguaggiPascal eC furono usati per scrivere compilatori per loro stessi: ossia, ad esempio, furono scritti compilatori per il C scritti a loro volta in C.
Quando un linguaggio di programmazione viene definito per la prima volta, sorge il problema di come realizzare il relativo compilatore. In questo caso esistono due approcci possibili:
scrivere il compilatore in un linguaggio diverso;
oppure - se esiste già un interprete per il nuovo linguaggio - è possibile sfruttarlo per scrivere una prima versione del compilatore, che verrà usata (dandogli in input il codice sorgente di sé stesso) per ottenere un primo compilatore funzionante in linguaggio macchina, che quindi renderà inutile l'uso dell'interprete. Il compilatore così ottenuto potrà essere usato per scrivere a sua volta compilatori migliori, e così via.
Il compilatore prende iningresso unprogramma, il codice sorgente, su cui esegue una serie di operazioni in modo da ottenere, in assenza dierrori, il codice oggetto. In generale i compilatori sono in grado di riconoscere alcune classi di errori presenti nel programma, e in alcuni casi di suggerire in che modo correggerli.
I compilatori attuali dividono l'operazione di compilazione in due stadi principali: ilfront end e ilback end. Nello stadio difront end il compilatore traduce il sorgente in un linguaggio intermedio (di solito interno al compilatore); nello stadio diback end avviene la generazione del codice oggetto.
Analisi lessicale: attraverso unanalizzatore lessicale, spesso chiamatoscanner olexer, il compilatore divide il codice sorgente in tanti pezzetti chiamatitoken. I token sono gli elementi minimi (non ulteriormente divisibili) di un linguaggio, ad esempio parole chiave (for,while), nomi di variabili (pippo), operatori (+,-,«).
Analisi sintattica: l'analisi sintattica prende in ingresso la sequenza di token generata nella fase precedente ed esegue il controllo sintattico. Il controllo sintattico è effettuato attraverso unagrammatica. Il risultato di questa fase è unalbero di sintassi.
Analisi semantica: l'analisi semantica si occupa di controllare il significato delle istruzioni presenti nel codice in ingresso. Controlli tipici di questa fase sono iltype checking (ovvero il controllo di tipo), controllare che gli identificatori siano stati dichiarati prima di essere usati e così via. Come supporto a questa fase viene creata unatabella dei simboli (symbol table) che contiene informazioni su tutti gli elementi simbolici incontrati quali nome,scope, tipo (se presente) etc. Il risultato di questa fase è l'albero sintattico astratto (AST).
Generazione del codice intermedio: dall'albero di sintassi viene generato il codice intermedio.
Generazione del codice target: in questa fase viene generato il codice nella forma del linguaggio target. Spesso il linguaggio target è unlinguaggio macchina.