Movatterモバイル変換


[0]ホーム

URL:


Prijeđi na sadržaj
Wikipedija
Pretraga

SMILES

Izvor: Wikipedija
SMILES
Filename extension.smi
Type of formatHemijski fajl format
SMILES formiranje: Otvori prstenove i zapiši ih kao grane na glavnom atomskom nizu.

SMILES, ili pojednostavljena molekulska specifikacija inputnih linijskih podataka (engleski:simplified molecular input line entry specification), je specifikacija za nedvosmisleno opisivanje strukturehemijskihmolekula koristeći relativno kratkeASCIInizove simbola.[1][2][3][4] SMILES niske se mogu učitati u većinumolekulskih editora za konverziju nazad udvo-dimenzionalne crteže ilitri-dimenzionalne modele molekula.

Originalnu SMILES specifikaciju su razviliArthur Weininger iDavid Weininger kasnih1980-tih godina. Ona je od tada bila modifikovana i proširena od strane drugih, pogotovu od strane kompanijeDaylight Hemijski Informacioni Sistemi Inc.2007. godine,otvoreni standard pod imenomOpenSMILES je razvijen od straneBlue Obelisk slobodni-kod hemijske zajednice. Neke of drugih postojećih 'linearnih' notacija suWiswesser linijska notacija (WLN),ROSDAL iSLN (Tripos Inc).

Augusta2006. godineIUPAC je uveoInChI kao standard za reprezentaciju formula. Za SMILES se generalno smatra da imaju prednost u pogledu lakoće čitanja u odnosu na InChI. Pored toga, SMILES imaju široku bazu softverske podrške sa opsežnom teoretskom (npr.,graf teorija) zaleđinom.

Terminologija

[uredi |uredi kod]

Termin SMILES se odnosi na linijsku notaciju za kodiranje molekulskih struktura. Specifični primeri struktura se striktno zovu SMILES nizovi simbola. Međutim, uobičajeno da se termin SMILES koristi za pojedinačne molekule i za nizove molekula; tačno značenje je očevidno iz konteksta. Terminikanonički iizomerni mogu da dovedu do zabune kad su primenjeni na SMILES. Termini opisuju različite atribute SMILES nizova znakova, i nisu međusobno ekskluzivni.

Tipično, više jednako validnih SMILES može biti napisano za molekul. Na primer, CCO, OCC i C(O)C svi specificiraju struktureetanola. Razvijeni su algoritmi koji omogućavaju da se isti SMILES generiše za molekul nezavisno od redosleda atoma u strukturi. Takvi SMILES su jedinstveni za svaku strukturu, mada su zavisni od korišćenog algoritma za kanonikalizaciju redosleda atoma u toku njihovog generisanja, i oni se nazivajukanonički SMILES. Ti algoritmi prvo konvertuju SMILES u internu reprezentaciju molekulske strukture, i koriste molekularni graf kao bazu za određivanje jedinstvenog redosleda atoma. Oni ne manipulišu neposredno linerane nizove znakova. Različiti algoritmi za generisanjekanoničkih SMILES su razvijeni, uključujući one od straneDaylight Hemijskih Informacionih sistema,OpenEye naučnog softvera,MEDITArhivirano 2010-03-30 naWayback Machine-u iGrupe za hemijsko računarstvo. Univerzalni način primenekanoničkih SMILES je indeksiranje i osiguravanje jedinstvenosti molekula ubazama podataka.

SMILES notacija omogućava specificiranjekonfiguracije na tetraedarskim centrima, i geometrije dvostrukih veza. To su strukturne osobine koje se nemogu specifirati samo na osnovu konektivnosti i SMILES koji kodiraju te informacije se nazivajuizomerni SMILES. Značajna karakteristika ovih pravila je da ona dozvoljavaju rigoroznu delimičnu specifikaciju hiralnosti. Terminizomerni SMILES se isto koristi za SMILES kod kojih suizotopi specificirani.

Graf-bazirana definicija

[uredi |uredi kod]

U smislu graf baziranih računarskih procedura, SMILES je niska koja se formira ispisivanjem simbola čvorova u redosledudubinski prioritizovanepretrage drvetahemijskog grafa. Hemijski graf se pripremi odstranjivanjem vodonikovih atoma, i otvaranjem prstenova tako da se formira grafrazgranatog drveta. Na mestima otvaranja prstenova, povezani čvorovi se obeležavaju numeričkim oznakama. Zagrade se koriste za označavanje grananja stabla.

Primeri

[uredi |uredi kod]

Atomi

[uredi |uredi kod]

Atomi su predstavljeni standardnim oznakamahemijskih elemenata, u uglastim zagradama, npr. [Au] zazlato. Zagrade se mogu izostaviti za "organski pod-skup": B, C, N, O, P, S, F, Cl, Br, i I. Svi drugi elementi moraju biti navedeni u zagradama. Ako su zagrade izostavljene, korektan broj implicitnih vodonikovih atoma se podrazumeva, npr. SMILES zavodu je jednostavno O.

Atom sa jednim ili više električnih naboj(a) se okružava zagradama (nezavisno od atomskog tipa), čemu sledi simbol H ako je atom vezan za jedan ili više atoma vodonika (tome dalje sledi broj vodonika ukoliko ih ima više: NH4 zaamonijum), i iza toga dolazi znak '+' za pozitivni naboj ili '-' za negativni naboj. Broj naboja se specificira posle znaka (ukoliko je veći of jedan); međutim, isto je moguće napisati znak onoliko puta koliko naboja jon sadrži: umesto "Ti+4", može se napisati "Ti++++" (Titanijum IV, Ti4+). Iz ovoj sledi, da sehidroksidanjon predstavlja sa [OH-],oksonijumkatjon sa [OH3+], ikobalt IIIkatjon (Co3+) nože biti [Co+3] ili [Co+++].

Veze

[uredi |uredi kod]

Veze izmeđualifatičnih atoma se podrazumevaju da su jednostruke ukoliko nije drugačije specificirano i one proizilaze iz susednosti atoma u SMILES. Na primer SMILES zaetanol može biti napisan kao CCO. Oznake za zatvaranje prstena se koriste za indiciranje povezanosti između ne-susednih atoma u SMILES, što se zacikloheksan idioksan može napisati kao C1CCCCC1 i O1CCOCC1 respektivno. Za drugi prsten, oznake će biti 2 (naftalin: c1cccc2c1cccc2), itd. Posle 9, oznaka mora biti predhođena sa '%', da be se mogla diferencirati od dve različite oznake vezane za isti atom (~C12~ znači da je atom ugljenika mesto zatvaranja prstenova sa oznakama 1 i 2, dok ~C%12~ indicira samo jednu oznaku, 12). Dvostruke i trostrukeveze se predstavljaju simbolima '=' i '#' respektivno kao što je ilustrovanu sa SMILES O=C=O (karbon dioksid) i C#N (cijanovodonik).

Aromatičnost

[uredi |uredi kod]

Aromatični C, O, S i N atomi se pišu malim slovima 'c', 'o', 's' i 'n' respektivno.Benzen,piridin ifuran se mogu predstaviti sa: c1ccccc1, n1ccccc1 i o1cccc1. Veze između aromatičnih atoma se podrazumevaju da su aromatične, mada se one mogu eksplicitno specifirati koristeći ':' simbol. Aromatični atomi mogu biti jednostruko vezani jedan s drugim, ibifenil se može zapisati kao c1ccccc1-c2ccccc2. Aromatični azot vezan za vodonik, kao što se nalazi upirolu mora biti reprezentiran kao [nH], iimidazol se piše u SMILES notaciji kao n1c[nH]cc1.

Daylight iOpenEye algoritmi za generisanje kanoničkih SMILES se razlikuju u njihovom tretmanu aromatičnosti.

Vizualizacija 3-cijanoanizol kao COc(c1)cccc1C#N.

Grananje

[uredi |uredi kod]

Grananje se opisuje zagradama, kao u CCC(=O)Opropionsku kiselinu i C(F)(F)F zafluoroform. Supstituisani prstenovi se mogu napisati sa tačkom granja na ringu kao što je ilustrovano sa SMILES COc(c1)cccc1C#N (pogledajte prikazArhivirano 2013-05-22 naWayback Machine-u) i COc(cc1)ccc1C#N (pogledajte prikazArhivirano 2013-05-22 naWayback Machine-u) koji kodiraju 3 i 4-cijanoanizol izomere. Zapisivanje SMILES za supstituisane prstenove na ovaj način čini ih lakšim za čitanje.

Stereohemija

[uredi |uredi kod]

Konfiguracija oko dvostruke veze se specificira koristeći znakove "/" i "\". Na primer, F/C=C/F (pogledajte prikazArhivirano 2013-05-22 naWayback Machine-u) je reprezentacijatrans-difloroetena, kod koje su atomi flora na suprotnim stranama dvostruke veze, dok F/C=C\F (pogledajte prikazArhivirano 2013-05-22 naWayback Machine-u) je jedna of mogućih reprezentacijacis-difloroetena, kod koje su F atomi na istoj strani dvostruke veze, kao što je prikazano na slici.

Konfiguracija na tetrahedralnom ugljeniku se specificira sa @ ili @@. L-alanin, rasprostranjenijienantiomeraminokiselinealanin se može zapisati kao N[C@@H](C)C(=O)O (pogledajte prikazArhivirano 2013-07-04 naWayback Machine-u). Oznaka @@ ukazuje da, kad se posmatra od azota duž veze ka hiralnom centru, sekvenca supstituenata je vodonik (H), metil (C) i karboksilat (C(=O)O) u smeru kazaljki na satu. D-Alanin se može napisati kao N[C@H](C)C(=O)O (pogledajte prikazArhivirano 2013-05-22 naWayback Machine-u). Redosled supstituenata u SMILES niski je veoma važan i D-alanin se isto tako može kodirati sa N[C@@H](C(=O)O)C (pogledajte prikazArhivirano 2013-05-22 naWayback Machine-u).

Izotopi

[uredi |uredi kod]

Izotopi se specificiraju sa brojem jednakim celobrojnoj izotopskoj masi ispred atomskog simbola.Benzen u kome je jedan atomugljenik-14 se piše kao [14c]1ccccc1 ideuterohloroform je [2H]C(Cl)(Cl)Cl.

Primeri primene

[uredi |uredi kod]
MolekulStrukturaSMILES Formula
DiazotN≡NN#N
Metil izocijanat (MIC)CH3–N=C=OCN=C=O
Bakar(II) sulfatCu2+ SO42-[Cu+2].[O-]S(=O)(=O)[O-]
Oenantotoksin (C17H22O2)Molekularna struktura oenantotoksinaCCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Piretrin II (C21H28O3)Molecular structure of pyrethrin IICOC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
Aflatoksin B1 (C17H12O6)Molecular structure of aflatoxin B1O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glukoza (glukopiranoza) (C6H12O6)Molecular structure of glucopyranoseOC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
Kuskutin iliBergenin (rezin) (C14H16O9)Molecular structure of cuscutine (bergenin)OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Feromon kalifornijkihštitastih vaši(3Z,6R)-3-methyl-6-(prop-1-en-2-yl)deca-3,9-dien-1-yl acetateCC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-halkogran :feromonpotkorne bubePityogenes chalcographus[5](2S,5R)-2-ethyl-1,6-dioxaspiro[4.4]nonaneCC[C@H](O1)CC[C@@]12CCCO2
VanilinMolecular structure of vanillinO=Cc1ccc(O)c(OC)c1
Melatonin (C13H16N2O2)Molecular structure of melatoninCC(=O)NCCC1=CNc2c1cc(OC)cc2
Flavopereirin (C17H15N2)Molecular structure of flavopereirinCCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Nikotin (C10H14N2)Molecular structure of nicotineCN1CCC[C@H]1c2cccnc2
Alfa-tujone (C10H16O)Molecular structure of thujoneCC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamin (C12H17ClN4OS+)
(vitamine B1)
SMolecular structure of thiaminOCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

Ilustracija molekula sa više od 9 prstenova,Cefalostatin-1[6] (steroidni trisdeka cikličnipirazin saempirijskom formulom C54H74N2O10 izolovanog izIndijskog Okeana izhemichordataCephalodiscus gilchristi):

Molecular structure of céphalostatin-1

Počevši od metil radikala na levoj strani slike dobija se:

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

(Obratite pažnju na '%' ispred indeksa oznaka zatvaranja prstenova iznad 9, pogledajte paragraf "Veze", iznad).

Drugi SMILES primeri

[uredi |uredi kod]

SMILES notacija je ekstenzivno opisana uSMILES teorijskom uputstvu koje je objavila kompanijaDaylight Hemijski Informacioni Sistemi, i brojni ilustrovani primeri su dati. Daylightoruđe za prikazArhivirano 2001-12-02 naWayback Machine-u pruža mogućnost korisnicima da provere njihove SMILES primere, i vredno je edukativno sredstvo.

Ekstenzije

[uredi |uredi kod]

SMARTS (engleski:SMILES arbitrary target specification) je linijska notacija za specifikaciju podstrukturnih obrazaca molekula. Dok ona koristi većinom iste simbole kao SMILES, ona takođe dozvoljava specifikacijudžoker atoma i veza, koji se mogu koristiti za definisanje podstrukturnih upita za pretraguhemijskih baza podataka. Jedna česta miskoncepcija je da se SMARTS-bazirana podstrukturna pretraga sastoji od podudaranja SMILES i SMARTS niski. Zapravo, SMILES i SMARTS niske se prvo konvertuju u internu graf reprezentaciju koja se pretražuje zapodgrafizomorfizam.SMIRKS je linijska notacija za specificiranje reakcionih transformacija.

Konverzija

[uredi |uredi kod]

SMILES se mogu konvertovati nazad u 2-dimenzionu reprezentaciju koristeći algoritam za generisanje strukturnog dijagrama (Helson, 1999). Ta konverzija nije uvek nedvosmislena. Konverzija u 3-dimenzionu reprezentaciju se može ostariti putem energijsko minimizacionih pristupa. Postoje mnogi dostupni programi i veb-bazirani konverzioni servisi.

Povezano

[uredi |uredi kod]

Literatura

[uredi |uredi kod]
  1. Anderson, E.; Veith, G.D; Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures (Report No. EPA/600/M-87/021 izd.). U.S. EPA, Environmental Research Laboratory-Duluth, Duluth, MN 55804. 
  2. Weininger, D. (1988). „SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules”. J. Chem. Inf. Comput. Sci. 28 (31-36). DOI:10.1021/ci00057a005. 
  3. Weininger, D.; Weininger, A.; Weininger, J.L. (1989). „SMILES. 2. Algorithm for generation of unique SMILES notation”. J. Chem. Inf. Comput. Sci. 29: 97-101. DOI:10.1021/ci00062a008. 
  4. Helson, H.E. (1999). „Structure Diagram Generation”. Rev. Comput. Chem. edited by Lipkowitz, K. B. and Boyd, D. B. Wiley-VCH, New York: 313-398. 
  5. ISOLATION OF PHEROMONE SYNERGISTS OF BARK BEETLE, Pityogenes chalcographus, FROM COMPLEX INSECT-PLANT ODORS BY FRACTIONATION AND SUBTRACTIVE-COMBINATION BIOASSAY
  6. PubChem Compound CID=183413 (Cephalostatin-1)

Vanjske veze

[uredi |uredi kod]

Specifikacije

[uredi |uredi kod]

SMILES vezane softverske servisi

[uredi |uredi kod]
Izvor:https://sh.wikipedia.org/w/index.php?title=SMILES&oldid=42495418
Kategorije:
Sakrivena kategorija:

[8]ページ先頭

©2009-2025 Movatter.jp