SMILES (ang.Simplified Molecular Input Line Entry Specification) – sposób jednoznacznego zapisu strukturycząsteczekzwiązków chemicznych z wykorzystaniem ciągu znakówASCII.
SMILES jest na tyle jednoznaczny, że można na jego bazie tworzyć oprogramowanie automatycznie przekształcające go w pełne, płaskie wzory strukturalne związków chemicznych i jednocześnie na tyle prosty, że mogą się nim posługiwać bezpośrednio ludzie. SMILES służy do prostej wymiany i zapisu informacji o strukturze związków chemicznych w wielu różnych sytuacjach – od programów rysujących pełnewzory strukturalne po tworzeniebaz danych. SMILES nie ma jednak możliwości zapisu pełnej, trójwymiarowej struktury związków oraz nie można w nim zapisywać struktur z nietypowymiwiązaniami chemicznymi spotykanymi w chemii związkówkoordynacyjnych.
Inne, konkurencyjne liniowe techniki zapisu struktury związków chemicznych toWiswesser Line Notation (WLN),ROSDAL iSLN (Tripos Inc). Na początkuXXI wiekuIUPAC wprowadziła swój własny standard liniowego zapisu struktur chemicznych o nazwieInChI, który jest bardziej uniwersalny od SMILES, ale trudniejszy do stosowania bezpośrednio przez ludzi i mniej intuicyjny. Istnieje także, zgodny ze standardemXMLjęzyk znaczników do zapisu struktury związków chemicznych i przebiegu reakcji o nazwieChemical Markup Language (CML), który w odróżnieniu od SMILES jest dostępny nawolnej licencji.
Terminkanoniczny SMILES odnosi się do wersji SMILES, którego reguły gwarantują, że każdemu związkowi chemicznemu można przypisać jednoznaczny i unikatowy zapis. Kanoniczny SMILES jest stosowany do indeksowania związków chemicznych w bazach danych.
TerminIzomeryczny SMILES odnosi się do wersji SMILES, która umożliwia zapisizotopów orazizomerów optycznych. Izomeryczny SMILES pozwala zatem na rozróżnienie w zapisie dwóchenancjomerów oraz związków znakowanych izotopowo.
Obie wersje SMILES są funkcjonalnie zbliżone do zwykłychwzorów strukturalnych – nie można w nim jednak zapisywaćkonformacji cząsteczek, czy ich rzeczywistej struktury przestrzennej uwzględniającej długości i kąty wiązań. Nie jest też do końca rozwiązany problem zapisuwiązań wodorowych iwiązań koordynacyjnych.
SMARTS to SMILES poszerzony o definicjęwieloznaczników kodujących określone grupy atomów i wiązań chemicznych. SMARTS jest użytecznym narzędziem do wyszukiwania związków chemicznych po ich uogólnionych strukturach w bazach danych. Większość programów używających SMARTS nie stosuje prostego porównywania samych zapisów SMILES ze wzorcem wyszukiwania, lecz stosuje złożone przekształcenia zapisów w matematyczne zapisy grafów i następnie wyszukuje struktury pasujące do wzorca z wykorzystaniem narzędzi porównujących bezpośrednio grafy.
Z matematycznego punktu widzenia każdy wzór strukturalny związku chemicznego można uznać zagraf nieskierowany, którego wierzchołki reprezentująatomy, a krawędzie między nimi reprezentująwiązania chemiczne. Specyfikacja SMILES jest funkcją jednoznacznie przekształcającą graf struktury chemicznej w ciąg znaków ASCII.
Pierwszy etap tego przekształcenia polega na usunięciu z grafu wierzchołków odpowiadających atomomwodoru, gdyż prawie zawsze można je domyślnie uzupełnić. W drugim etapie układy cykliczne występujące w strukturze są przekształcane wgraf acykliczny poprzez ścisłe reguły ich symbolicznego „rozrywania” i przypisywanie atomom, które były połączone przed rozerwaniem wspólnych oznaczeń liczbowych. W trzecim etapie rozpoznawane są węzływiązań wielokrotnych i rozgałęzień struktury, które są zapisywane później poprzez stosowanie nawiasów i znaków symbolizujących wielokrotność wiązań.
Atomy w zapisie SMILES są reprezentowane przez standardowe symbolepierwiastków stosowane wukładzie okresowym i wzorach sumarycznych. Symbole te są zapisywane w nawiasach kwadratowych. Np. [Au] to atomzłota. Dla uproszczenia zapisu tzw.pierwiastki organiczne (B, C, N, O, P, S, F, Cl, Br, I) mogą być zapisywane bez kwadratowych nawiasów. Oprócz tego specyfikacja SMILES umożliwia uproszczony zapis najbardziej popularnychjonów igrup funkcyjnych. Np.anion hydroksylowy można zapisać jako [OH-]. Dla pierwiastków, które wolno zapisywać bez nawiasów kwadratowych pomija się atomy wodoru przyjmując, że należy je uzupełnić tak aby pierwiastek miał typową dla siebie w związkach organicznychwartościowość (jeżeli użyje się nawiasu, atomy wodoru nie są dodawane). Gdy między symbolami pierwiastków nie ma żadnych dodatkowych znaków oznacza to, że są one połączone pojedynczymiwiązaniami chemicznymi.
Wiązania podwójne oznacza się przy pomocy znaku „=”, zaś potrójne przy pomocy znaku „#”. SMILES nie pozwala na zapisywanie wiązań czterokrotnych, które jednak są rzadko spotykane.
Układy cykliczne przedstawia się za pomocą symbolicznego „rozerwania” jednego, wybranego wiązania tworzącego cykl i przypisania połączonym tym wiązaniem atomom tej samej liczby, przy czym liczbę numerującą atomy połączone tym samym wiązaniem, które zostało myślowo „rozerwane” pisze się zawsze po, a nie przed jego symbolem.
Pierścieniezwiązków aromatycznych zapisuje się często z kółkiem symbolizującym zdelokalizowane wiązania π. W zapisie SMILES oddaje się to stosując małe litery jako symbole pierwiastków, np. „c” i „n” zamiast „C” i „N” dla atomów węgla i azotu. Dwuliterowe symbole pierwiastków ujmuje się w takiej sytuacji w nawiasy kwadratowe, np. „[as]” zamiast „As” dla arsenu.
Konfiguracjaizomerów E-Z (cis-trans) jest zapisywana z użyciem znaków „/” i „\”. Zapis „A/X=X/B” oznacza izomertrans, a „A/X=X\B” izomercis.
Np.:
C/C=C/C – oznacza (E)-but-2-en (trans-but-2-en)
C/C=C\C – oznacza (Z)-but-2-en (cis-but-2-en)
Konfiguracja absolutna dlazwiązków chiralnych jest zapisywana za pomocą znaku „@” i „@@”. „@” – znaczy skierowanie występującego za tym znakiem atomu lub podstawnika w stronę do tyłu płaszczyzny głównej wzoru, zaś „@@” – oznacza skierowanie występującego za tym znakiem atomu lub podstawnika przed płaszczyznę główną wzoru, przy czym oznaczenie to powinno odnosić się do podstawnika lub atomu o najmniejszej wadze zgodnie z regułami ważnościCahna-Ingolda-Preloga, a zatem bardzo często odnosi się to do atomu wodoru, który jest w tej sytuacji wyjątkowo jednak nie pomijany.
Anderson, E., G.D. Veith, and D. Weininger. 1987. SMILES: A line notation and computerized interpreter for chemical structures. Report No. EPA/600/M-87/021. U.S. EPA, Environmental Research Laboratory-Duluth, Duluth, MN 55804
DavidD.WeiningerDavidD.,SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, „Journal of Chemical Information and Modeling”, 28 (1),1988, s. 31–36,DOI: 10.1021/ci00057a005 [dostęp 2022-04-20](ang.).
Harold E.H.E.HelsonHarold E.H.E.,Structure Diagram Generation, [w:]Kenny B.K.B.Lipkowitz,Donald B.D.B.Boyd (red.),Reviews in Computational Chemistry. Volume 13, New York, N.Y.: John Wiley & Sons, 1999, s. 313–398,DOI: 10.1002/9780470125908.ch6,ISBN 978-0-470-12617-2,OCLC86222077(ang.).