Γενικά | |
---|---|
Διανομή | |
Έκδοση | 1.07.3 (25 Φεβρουάριος 2025)[1] |
Λειτουργικά | |
Ανάπτυξη | |
Πλατφόρμα | IA-32 καιx86-64 |
Κατάσταση | Ενεργή |
Άδεια χρήσης | IUPAC / InChI Trust Licence |
Σύνδεσμοι | |
Επίσημος ιστότοπος | |
https://www.inchi-trust.org/download-latest-inchi-standard-software/ | |
Αποθετήριο κώδικα | |
https://github.com/IUPAC-InChI/InChI | |
ΤοΔιεθνές χημικό αναγνωριστικό IUPAC (IUPAC International Chemical Identifier) (InChI) είναι κειμενικό αναγνωριστικό γιαχημικές ουσίες, που σχεδιάστηκε για να δώσει έναν πρότυπο τρόπο κωδικοποίησης μοριακών πληροφοριών, που να είναι αναγνώσιμος από ανθρώπους και να διευκολύνει την αναζήτηση τέτοιων πληροφοριών σε βάσεις δεδομένων και στον ιστό. Αρχικά αναπτύχθηκε από τηνIUPAC και το Διεθνές ίδρυμα προτύπων και τεχνολογίας (National Institute of Standards and Technology) (NIST) κατά τη διάρκεια του 2000–2005, η μορφή και οι αλγόριθμοι δεν είναι ιδιοταγείς.Η συνεχιζόμενη ανάπτυξη του προτύπου έχει υποστηριχθεί από το 2010 από το μη κερδοσκοπικό ίδρυμα InChI Trust, που είναι μέλος της IUPAC. Η τρέχουσα έκδοση είναι η 1.04 και εκδόθηκε τον Σεπτέμβριο του 2011.
Πριν την έκδοση 1.04, το λογισμικό ήταν ελύθερα διαθέσιμο κάτω από την άδειαανοικτού κώδικα LGPL ,[2]αλλά τώρα χρησιμοποιεί μια προσαρμοσμένη άδεια, που λέγεται IUPAC-InChI Trust License.[3]
Τα αναγνωριστικά περιγράφουν χημικές ουσίες με όρουςστρώσεων πληροφοριών — για τα άτομα και τον τρόπο σύνδεσης των δεσμών, για τηνταυτομέρεια, για ταισότοπα, για τηστερεοχημεία και για το ηλεκτρικό φορτίο.Δεν είναι αναγκαίο να παρέχονται όλες οι στρώσεις· παραδείγματος χάρη, η στρώση ταυτομέρειας μπορεί να παραληφθεί αν αυτός ο τύπος πληροφοριών δεν είναι σχετικός με τη συγκεκριμένη εφαρμογή.
Τα InChIs διαφέρουν από τους ευρέως χρησιμοποιούμενουςαριθμούς CAS σε τρεις όψεις:
Τα InChIs μπορούν συνεπώς να ιδωθούν ως παρόμοια με μια γενική και ιδιαίτερα τυποποιημένη έκδοσηονομάτων IUPAC. Μπορούν να εκφράσουν περισσότερες πληροφορίες από την πιο απλή σημειογραφίαSMILES και διαφέρουν στο ότι κάθε δομή έχει μια μοναδική συμβολοσειρά InChI, που είναι σημαντική στις εφαρμογές βάσεων δεδομένων. Πληροφορίες για τις τρισδιάστατες συντεταγμένες των ατόμων δεν εμφανίζονται στο InChI· για αυτόν τον σκοπό μια μορφή όπως μια μορφή αρχείου τράπεζας δεδομένων των πρωτεϊνών (PDB) μπορεί να χρησιμοποιηθεί.
Ο αλγόριθμος InChI μετατρέπει τις εισαγόμενες δομικές πληροφορίες σε ένα μοναδικό αναγνωριστικό InChI με μια διαδικασία τριών βημάτων: ομαλοποίηση (για αφαίρεση περιττών πληροφοριών), κανονικοποίηση (για τη δημιουργία μιας μοναδικής ετικέτας αριθμού για κάθε άτομο) και σειριοποίηση (για τη παραγωγή μιας συμβολοσειράς χαρακτήρων).
ΤοInChIKey, που μερικές φορές αναφέρεται ωςκατακερματισμένο InChI, είναι σταθερό μήκος (25 χαρακτήρων) συμπυκνωμένης ψηφιακής αναπαράστασης του InChI που δεν κατανοείται από τους ανθρώπους. Η προδιαγραφή του InChIKey εκδόθηκε τον Σεπτέμβριο του 2007 για να διευκολύνει τις διαδικτυακές αναζητήσεις για χημικές ενώσεις, επειδή αυτές ήταν προβληματικές με το πλήρες μήκος InChI.[4] Θα πρέπει να σημειωθεί ότι, αντίθετα με το InChI, το InChIKey δεν είναι μοναδικό: αν και συγκρούσεις συμβαίνουν σπάνια, υπάρχουν.[5]
Τον Ιανουάριο του 2009 εκδόθηκε η τελική έκδοση 1.02 του λογισμικού InChI. Αυτή παρέχει ένα μέσο δημιουργίας του λεγόμενουπροτύπου InChI, που δεν επιτρέπει στον χρήστη επιλέξιμες προτιμήσεις στην αντιμετώπιση των στερεοχημικών και ταυτομερικών στρώσεων της συμβολοσειράς InChI. Το πρότυπο InChIKey είναι η κατακερματισμένη έκδοση της τυπικής συμβολοσειράς InChI. Το τυπικό InChI απλοποιεί τη σύγκριση των συμβολοσειρών InChI και των δημιουργούμενων κλειδιών από διαφορετικές ομάδες και συνεπώς μπορούν να προσπελαστούν μέσα από διάφορες πηγές όπως βάσεις δεδομένων και διαδικτυακές πηγές.
Τύπος διαδικτυακού μέσου | chemical/x-inchi |
---|---|
Τύπος φορμά | χημική μορφή αρχείου |
Κάθε InChI ξεκινά με τη συμβολοσειρά "InChI=" ακολουθούμενη από τον αριθμό της έκδοσης, προς το παρόν 1. Αυτός ακολουθείται από το γράμμα S για το πρότυπο InChIs. Οι εναπομένουσες πληροφορίες δομούνται ως μια σειρά στρώσεων και υποστρώσεων, με κάθε στρώση να παρέχει έναν συγκεκριμένο τύπο πληροφορίας. Οι στρώσεις και οι υποστρώσεις διαχωρίζονται από τον οριοθέτη "/" και αρχίζουν με ένα χαρακτηριστικό γράμμα προθήματος (εκτός από τον χημικό τύπο υποστρώσης της κύριας στρώσης). Οι έξι στρώσεις με σημαντικές υποστρώσεις είναι:
Η μορφή προθήματος οριοθέτη έχει το πλεονέκτημα ότι ο χρήστης μπορεί εύκολα να χρησιμοποιήσει έναν χαρακτήρα υποκατάστασης (Wildcard character) αναζήτησης για να βρει αναγνωριστικά που ταιριάζουν μόνο σε συγκεκριμένες στρώσεις.
CH3CH2OH αιθανόλη | InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (πρότυπο InChI) |
![]() L-ασκορβικό οξύ | InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (πρότυπο InChI) |
Το συνεπτυγμένο, τυπικό InChIKey με 27 χαρακτήρες είναι μια έκδοσησυνάρτησης κατακερματισμού του πλήρους προτύπου InChI (χρησιμοποιώντας τον αλγόριθμο SHA-256), που σχεδιάστηκε για να επιτρέπει εύκολες διαδικτυακές αναζητήσεις χημικών ενώσεων.[4] Οι περισσότερες χημικές δομές στον ιστό μέχρι το 2007 έχουν αναπαρασταθεί ωςαρχεία GIF, που δεν αναζητήσιμες για χημικό περιεχόμενο. Το πλήρες InChI αποδείχτηκε ότι είναι υπερβολικά μακρύ για εύκολη αναζήτηση και ως αποτέλεσμα αναπτύχθηκε το InChIKey. Υπάρχει μια πολλή μικρή, αλλά όχι μηδενική πιθανότητα δύο διαφορετικά μόρια να έχουν το ίδιο InChIKey, αλλά η πιθανότητα διπλότυπου από μόνο τους πρώτους 14 χαρακτήρες έχει εκτιμηθεί ως μόνο ένα διπλότυπο σε 75 βάσεις δεδομένων που η καθεμιά τους περιέχει ένα δισεκατομμύριο μοναδικές δομές. Με όλες τις βάσεις δεδομένων να έχουν μέχρι τώρα κάτω από 50 εκατομμύρια δομές, ένα τέτοιο διπλότυπο φαίνεται απίθανο προς το παρόν. Μια πρόσφατη πιο εκτεταμένη έρευνα που μελετά την εύρεση του ρυθμού συγκρούσεων βρήκε ότι ο πειραματικός ρυθμός σύγκρουσης είναι σε συμφωνία με τα θεωρητικά αναμενόμενα.[6]
Τα InChIKeys αποτελούνται από 14 χαρακτήρες ως αποτέλεσμα ενός κατακερματισμού των πληροφοριών σύνδεσης του InChI, ακολουθούμενα από ένα ενωτικό, από 9 χαρακτήρες ως αποτέλεσμα ενός κατακερματισμού των υπολειπόμενων στρώσεων του InChI, από έναν απλό χαρακτήρα που δείχνει την χρησιμοποιούμενη έκδοση του InChI, από ένα άλλο ενωτικό, από έναν μοναδικό χαρακτήρα αθροίσματος ελέγχου.
Παράδειγμα: Ημορφίνη έχει τη δομή που εμφανίζεται στα δεξιά. Το πρότυπο InChI για τη μορφίνη είναιInChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1και το πρότυπο InChIKey για τη μορφίνη είναι BQJCRHHNABKAKU-KBQPJGBKSA-N.[7]
Επειδή το InChI δεν μπορεί να ανακατασκευαστεί από το InChIKey, ένα InChIKey χρειάζεται πάντα να συνδεθεί με το αρχικό InChI για να επιστραφεί η αρχική δομή. Οι επιλυτές InChI δρουν ως υπηρεσία αναζήτησης για να κάνει αυτούς τους συνδέσμους και οι υπηρεσίες πρωτοτύπου είναι διαθέσιμες από τα NCI,PubChem καιChemSpider
Η μορφή αρχικά ονομάστηκεIChI (Χημικό αναγνωριστικό IUPAC - IUPAC Chemical Identifier), έπειτα μετονομάστηκε τον Ιούλιο του 2004 σεINChI (Χημικό αναγνωριστικό IUPAC-NIST - IUPAC-NIST Chemical Identifier) και μετονομάστηκε ξανά σε τον Νοέμβριο του 2004 σεInChI (Διεθνές χημικό αναγνωριστικό IUPAC - IUPAC International Chemical Identifier), ένα σήμα κατατεθέν της IUPAC.
Η επιστημονική κατεύθυνση του προτύπου InChI εκτελείται από την IUPAC και η χρηματοδότηση των υποομάδων έρευνας καθώς και ο ορισμός της επέκτασης του προτύπου εκτελείται από τουςIUPAC και InChI Trust. Η InChI Trust χρηματοδοτεί την ανάπτυξη, δοκιμή και τεκμηρίωση του InChI. Οι τρέχουσες επεκτάσεις ορίζονται για να επεξεργάζονταιπολυμερή καιμείγματα, δομές Μάρκους (Markush structure), αντιδράσεις και οργανομεταλλικά και όταν γίνουν αποδεκτά θα προστεθούν στον αλγόριθμο.
Το InChI έχει γίνει αποδεκτό από πολλές μεγαλύτερες και μικρότερες βάσεις δεδομένων, συμπεριλαμβανομένων τωνChemSpider καιPubChem. Όμως, η αποδοχή δεν είναι ξεκάθαρη και πολλές βάσεις δεδομένων εμφανίζουν μια διαφορά μεταξύ των χημικών δομών και του περιεχόμενου InChI, που είναι ένα πρόβλημα για τη σύνδεση βάσεων δεδομένων.[8]