SMILES (acronimo diSimplified Molecular Input Line Entry System[1]) è un metodo per descrivere la struttura di unamolecola usando una breve stringaASCII.
Le stringhe SMILES vengono importate da gran parte deisoftware per il disegno delle molecole per creare modelli bidimensionali o tridimensionali.
La codifica SMILES è stata sviluppata nel 1980 da Arthur Weininger e David Weininger, poi modificata ed estesa da altri, di cui il maggiore èDaylight Chemical Information Systems Inc. Altre notazioni lineari sono ilWiswesser Line Notation (WLN), ROSDAL and SLN (Tripos Inc). Recentemente laIUPAC ha introdotto l'InChI (International Chemical Identifier) come standard di rappresentazione delle formule.
Il termineSMILES canonico (Canonical SMILES) indica la versione delle specifiche SMILES che detta le regole affinché ogni molecola abbia una sola rappresentazione SMILES. Un'applicazione comune è l'indicizzazione delle molecole in undatabase.
Il termineSMILES isomerico (Isomeric SMILES) indica la versione delle specifiche SMILES che include le regole per specificare gliisomeri, lachiralità e le configurazioni del doppio legame.
In termini di procedure computazionali basate suigrafi, SMILES è unastringa ottenuta per stampa dei simboli dei nodi presenti sul grafo che rappresenta la formula di struttura. Dal grafo vengono prima rimossi gliatomi diidrogeno, quindi i cicli vengono aperti per convertire il grafo in un albero aperto. Dove i cicli sono stati aperti, vengono aggiunti dei suffissi numerici per indicare quali sono i nodi connessi. Le ramificazioni dell'albero sono indicate attraverso l'uso di parentesi.
Gli atomi sono rappresentati utilizzando il loro simbolo chimico chiuso tra parentesi quadre, come [Au] peroro. L'anioneidrossido è [OH-]. Le parentesi quadre possono essere omesse per gli atomi "organici"C,N,O,P,S,Br,Cl eI. Tutti gli altri elementi devono essere racchiusi tra parentesi quadre. Se si omettono le parentesi quadre, si presume che il numero degli atomi di idrogeno sia implicito; per esempio lo SMILES per l'acqua è semplicemente O e per l'etanolo è CCO.
Ilcicloesano è rappresentato come C1CCCCC1, l'idea è che i due uno indicano la stessa posizione nella molecola, formando così un anello con sei atomi di carbonio. Da notare che è il numerale (in questo caso 1) che rappresenta la posizione piuttosto che la combinazione "C1". Ecco la notazione espansa per chiarire: (C1)-(C)-(C)-(C)-(C)-(C)-1 piuttosto che (C1)-(C)-(C)-(C)-(C)-(C)-(C1).
Gli atomi di C, O, S e N aromatici vengono rappresentati con i loro caratteri minuscoli, rispettivamente 'c', 'o', 's' e 'n'.
Le ramificazioni sono rappresentate da parentesi tonde, ad esempio CCC(=O)O per l'acido propionico e C(F)(F)F per ilfluoroformio, che potrebbe anche essere descritto con la formula non canonica: FC(F)F.
Configurazioni del doppio legame sono rappresentate usando i caratteri "/" e "\". Per esempio, F/C=C/F rappresenta iltrans-difluoroetilene, dove gli atomi di fluoro sono dalla parte opposta rispetto al doppio legame, invece F/C=C\F rappresenta ilcis-difluoroetilene, dove gli atomi di fluoro sono dallo stesso lato del doppio legame.
SMARTS è una variante di SMILES che consente l'indicazione di atomi e legami "jolly". Questa funzione è utilizzata ampiamente neglialgoritmi di ricerca in database di dati chimici.