EinArray ([əˈɹeɪ],englischfür Areal, Bereich, Anordnung, Aufstellung u. a.) ist in derInformatik eineDatenstruktur-Variante, mit deren Verwendung „viele gleichartig strukturierte Daten […] verarbeitet werden sollen“.[1] Der Zugriff auf bestimmte Inhalte des Arrays erfolgt mit Hilfe vonIndizes.
Zum Teil wird für Arrays auch der AusdruckFeld (ausenglisch‚field‘, eine weitere mögliche Bedeutung von ‚Array‘) verwendet.
Dieser Ausdruck (wie auchDatenfeld) gilt jedochim Allgemeinen als elementares, Daten beschreibendes Konstrukt; es wird imQuelltext einesComputerprogramms zur Definition von oder Bezugnahme auf benannten Speicherplatz verwendet. Ein Feld in diesem Sinnist kein Datentyp, sondern eshat einen Datentyp, und es ist unerheblich, ob es Teil eines Arrays oder einer übergeordneten Datenstruktur, z. B.Verbund oder Record ist oder ein singulär definierter Speicherbereich.
Diese beiden sich wesentlich unterscheidenden Bedeutungen von ‚Feld‘ sind und waren immer wieder Anlass zu zum Teil heftigen Diskussionen.[2]
„Der englische und gängigere Begriff ist Array“.[3]
Gleichbedeutende Synonyme für Array sind, im Wesentlichen geprägt aus dem Einsatz in verschiedenenProgrammiersprachen, deren Terminologie und Entstehungsgeschichte oder durch Übersetzung aus dem Englischen:Tabelle (Table), Vektor, Reihe, Reihung, Aufstellung, Bereich, Gate Array, Matrix u. a.
Auch die verschiedenen Elemente eines Arrays werden mit unterschiedlichen Ausdrücken bezeichnet: Element, Komponente, Unterfeld, Feldelement, indizierte Variable – und zum Teil ebenfalls Feld oder Datenfeld. Dabei können als Untermenge des Arrays entweder die über einen bestimmtenIndexwert adressierten Daten verstanden werden (oft als ‚vertikale‘ Dimension des Arrays bezeichnet) oder innerhalb einer solchenStruktur definierte Datenfelder (‚horizontale‘ Sicht).
‚Assoziative Arrays‘ erlauben dagegen die Verwendung von beliebigen, nicht notwendigerweise numerischen, aber eindeutigen Schlüsselwerten als Indizes.
Beimehrdimensionalen Arrays gibt es für jede Dimension einen unabhängigen Index und eine unabhängige Länge.
Bei streng strukturierten Programmiersprachen wird die Zulässigkeit eines Indexes zur Laufzeit geprüft, damit der Zugriff auf ungültige Speicherbereiche unterbunden wird.
Grundsätzlich können Arrays in den meistenProgrammiersprachen angelegt und verarbeitet werden. Neben den unterschiedlichen Ausdrücken, die sich in einzelnen Sprachen entwickelt haben, werden Arrays von denCompilern der Programmiersprachen, zum Teil auch in verschiedenen Sprachversionen, unterschiedlich umgesetzt und unterstützt. Beispiele:
Unterscheidung Standardarray / assoziatives Array / nur Listen durch den Compiler der Programmiersprache
Anzahl der möglichen Dimensionen (in-sich mehrdimensionale Arrays, Array-in-Array)
Maximale Array-Größe
Adressierung der Elemente (ab 0, ab 1 oder ab einem beliebigen Index, gegebenenfalls auch beginnend mit einem negativen Index)
Anzahl der Unterfelder: fix, dynamisch/variabel je Dimension
Format und Länge der Elementarfelder: einheitlich im ganzen Array, einheitlich je Dimension/Variable, individuell
Unterstützung für Operationen auf Datenmengen im Array: nur auf Elemente, beliebige Strukturen, ganze Dimension, ganzes Array
Wertzuweisung für Array-Elemente: Per Deklaration, durch Zuweisungsbefehle
Adressierungsverfahren:
Der Index ist eine Ganzzahl-Variable (die konkrete Adresse im Array wird bei Bezugnahme berechnet)
Der Index ist ein Direktwert (die Adresse im Array wird zur Compilezeit berechnet)
Der Index enthält den relativen Abstand zum Array-Beginn
Der Index ist ein Suchschlüssel
Zugehörige Berechnungen können manuell programmiert werden oder werden durch denCompiler teilweise oder vollständig automatisch durchgeführt.
In den meistenAssemblersprachen ist die Verarbeitung von Arrays zwar möglich, sie wird abersyntaktisch meist nicht speziell unterstützt und muss vom Programmierer explizit „nachgebaut“ werden: DerProgrammiererimplementiert Array-Elemente so wie auch andere Variablen, reserviert zusätzlich denSpeicherplatz für n weitere Ausprägungen. Zur Verarbeitung ermittelt er die Position relevanter Elemente mit geeignetenAlgorithmen, zum Beispiel in einemIndexregister, undadressiert sie mit aufgabenspezifischen – nicht speziell auf die Array-Verarbeitung ausgerichteten – Anweisungen.
BeimDeklarieren werden Arrays in einer sprachspezifischenSyntax formuliert. Beispiele:
NameX (100) (Datenname plus Anzahl der Array-Elemente in runder Klammer):PL/I
NameX [100,...] (Datenname plus je Dimension die Anzahl der Array-Elemente in einer eckigen Klammer):C#[4]
NameX [100][][] (Datenname plus je Dimension in eckigen Klammern die Anzahl der Array-Elemente):C/C++,[5]Java[6]
NameX array (100) (Schlüsselwort 'array' plus Anzahl der Elemente in runder Klammer):Modula-2
NameX occurs 100. (Schlüsselwort 'OCCURS' plus Anzahl der Elemente plus ggf. Klausel ‚Indexed by‘):Cobol
Dim NameX (100,...) (Schlüsselwort 'Dim' plus Variablenname plus Anzahl Elemente je Dimension (in einer runden Klammer)):VBA, 'Dimension' beiFortran90/95
Mit Hilfe eines Arrays können die Daten eines üblicherweise einheitlichenDatentyps so imSpeicher einesComputers abgelegt werden, dass ein Zugriff auf die Daten über Indizes möglich wird. Das Standard-Array ist im Gegensatz zum assoziativen Array aufganzzahlige Indizes zur Adressierung festgelegt. Ein Index beginnt, bei einem (eindimensionalen) Array mit N Elementen, standardmäßig je nachProgrammiersprache bei0 (C++: 0,1,2,…,N-1) oder1 (Fortran: 1,2,3,…,N), kann jedoch oftmals auch frei gewählt werden (42,43,44,…,N+41).
Ein dynamisches Array ist nicht dasselbe wie ein dynamisch zugewiesenes Array, bei dem es sich um ein Array handelt, dessen Größe bei der Zuweisung des Arrays festgelegt wird, obwohl ein dynamisches Array ein solches Array mit fester Größe möglicherweise als Back-End verwendet.
Ein einfaches dynamisches Array kann durch Zuweisen eines Arrays mit fester Größe erstellt werden, das normalerweise größer ist als die Anzahl der unmittelbar erforderlichen Elemente. Die Elemente des dynamischen Arrays werden am Anfang des zugrunde liegenden Arrays zusammenhängend gespeichert, und die verbleibenden Positionen gegen Ende des zugrunde liegenden Arrays werden reserviert oder nicht verwendet. Elemente können am Ende eines dynamischen Arrays in konstanterLaufzeit unter Verwendung des reservierten Speicherplatzes hinzugefügt werden, bis dieserSpeicherplatz vollständig belegt ist.
Wenn der gesamteSpeicherplatz belegt ist und ein zusätzliches Element hinzugefügt werden soll, muss das zugrunde liegende Array mit fester Größe vergrößert werden. Normalerweise ist die Größenänderung teuer, da ein neues zugrunde liegendes Array zugewiesen und jedes Element aus dem ursprünglichen Array kopiert werden muss. Elemente können in konstanter Zeit vom Ende eines dynamischen Arrays entfernt werden, da keine Größenänderung erforderlich ist. Die Anzahl der Elemente, die vom Inhalt des dynamischen Arrays verwendet werden, ist seinelogische Größe, während die Größe des zugrunde liegenden Arrays alsKapazität oderphysische Größe des dynamischen Arrays bezeichnet wird. Dies ist die maximale mögliche Größe, die verwendet werden kann, ohne Daten zu verschieben.
Ein dynamisches Array wird benötigt, wenn die maximale logische Größe nicht festgelegt ist oder nicht berechnet werden kann, bevor der Speicherplatz für das Array reserviert wird.
Eine Sonderform bildet das „assoziative Array“, auch „Zuordnungstabelle“ genannt. Es verwendet keine notwendigerweiseganzzahligen numerischen Indizes, sondernSchlüssel zur Adressierung der Elemente. Diese Schlüssel können prinzipiell beliebigen Typs sein, zum BeispielZeichenketten, müssen aber ein Elementeindeutigidentifizieren. Beispiel: Die Produktnummer ist der Index, mit dem Daten zu einem bestimmten Produkt in einer Produkttabelle indiziert werden, z. B.:Produkt = ProdBezeichn (ProdNr).
„Assoziativ“ werden solche Arrays nur genannt, wenn der die tatsächliche Datenadresse berechnendeSuchalgorithmus von der Programmiersprache automatisch generiert wird. Am häufigsten werden assoziative Felder alsHashtabelle umgesetzt.
In den meistenProgrammiersprachen kann ein Array – und damit die darin gespeicherten Daten – nicht nur ein-, sondern mehrdimensional sein. Bei mehrdimensionalen Feldern wird zur Adressierung ihrer Elemente für jede Dimension ein eigener Index verwendet. Zum Begriff der Dimension können die nachfolgenden Varianten unterschieden werden. In den Beispielen wird ein symbolischer Beispielcode verwendet, der Startindex sei 1.
Die Feldelemente werden wie in einerListe als elementares Datenfeld oder alsVerbund mit mehreren untergeordneten Elementarfeldern geführt. Der Zugriff auf die Informationen erfolgt über 'ArrayName (Index)'.
Beispiele
1. eindimensional (wie eine ‚Liste‘)
Vektor := array(3) of float // Deklaration einer 1-dimensionalen Liste namens „Vektor“ mit 3 ‚freien Plätzen‘ Vektor := (0.5, 1.7, -0.2) // der Punkt (x=0.5 ; y=1.7 ; z=-0.2) im ℝ³
Vektor[2] liefert so die y-Komponente mit dem Wert1.7.
2. eindimensional (mit Verbund-Datentyp):
Produkt := array(100) of structure{ ProdNr := Text[6] // Text mit max. 6 Stellen Einkaufspreis := FixPunktZahl[4;2] // Kommazahl mit 4 Stellen vor, 2 Stellen nach dem Komma Verkaufspreis := FixPunktZahl[4;2] // dito Lagerbestand := Integer[6] // Ganzzahl mit 6 Stellen } // end structure
Produkt(Index).ProdNr, Produkt(Index).Einkaufspreis liefern die genannten Werte für das Produkt, auf das der Index zeigt.
Mit dieser Variante lassen sich Informationen wie Elemente einerzweidimensionalen Fläche oder einesdreidimensionalen Würfels vorstellen. Dabei „beinhaltet nur die letzte Dimension die Elemente,“[7] jede Einzelinformation ist somitallen Dimensionen, z. B. Breite, Höhe, Tiefe, gleichermaßen zuzurechnen. Der Zugriff erfolgt unter Angabe aller Indizes ('<AttrName>(i1,i2,...)'). ISO_IEC 11404 nennt diese Arrays unter den ‚General Purpose Datatypes‘ „inhärent mehrdimensional“. Diese mehrdimensionalen Arrays werden, vor allem im Bereich desDeep Learning, nach ihrer mathematischen Entsprechung auch alsTensoren bezeichnet.[8]
Beispiele
1. zweidimensional (wie eine Matrix oder eine Tabelle):
In einer Matrix werden die waagerechten Einträge (Felder,Zellen) alsZeilen, die Senkrechten alsSpalten bezeichnet. Ein einzelnes Element ist also durch Nennung von Zeile und Spalte eindeutig bezeichnet (adressiert). Üblich ist die Adressierung über einTupel (0,0) oder A1 für Spalte A, Zeile 1.
Schachbrett := array(8,8) of String
array deklariertSchachbrett als Array („Feld“) mit 8 mal 8 Einträgen,of deklariert den Typ des Eintrags, hierString.
Die vorstehende Zuweisung legt die Start-Anordnung der Figuren fest,w_=weiß,s_=schwarz. D. h. oben sitzt der Spieler der weißen Figuren und unten der der schwarzen.
Im Beispiel läuft der Spaltenindex von links nach rechts, der Zeilenindex von oben nach unten. Im Folgenden sei der Zeilenindex der erste und der Spaltenindex der zweite Index, die Indizierung alsoSchachbrett[Zeilenindex,Spaltenindex]. Der Spaltenindex „läuft schneller“.
BeimSchach werden die Spalten alsLinien bezeichnet und mit den Kleinbuchstaben „a“–„h“ adressiert, die Zeilen alsReihen, adressiert per „1“–„8“. Somit entsprichtSchachbrett[z,s] dem Feld („a“–„h“)[9-s]z.
Die BeispielanweisungenSchachbrett[5,4]*1 := Schachbrett[5,2]*2 undSchachbrett[5,2]*1 := "" liefern den Eröffnungszug „d2–d4“.
*1: oder [NachZeile,NachSpalte] *2: oder [VonZeile,VonSpalte]
2. mehrdimensional (hier mit 4 Dimensionen):
Für einen Brennraum (x;y;z) (z. B. eines Motors),
wobei x, y und z in Millimeter jeweils von 1 bis 50 angegeben seien,
sei an jeder Stelle, und über den Zeitraum einer Sekunde für jede Millisekunde, eine Temperaturangabe gespeichert:
temperatur := array(50,50,50,1000) of float
→ 4-dimensionales Array (x,y,z,zeit)
Wie heiß war es an der Stelle (x=7;y=12;z=48) zum Zeitpunkt t=617 ms?
Hierbei enthält ein Array als Element – neben meist anderen Datenfeldern – wiederum ein Array usw. mit gegebenenfalls weiteren Stufen. Diese Variante wird auchverzweigtes Array genannt.[9][10] Im Array gespeicherte Informationen gehören dabei jeweils zugenau einer Dimension, und zu genau einer ihrer Indexausprägungen. Die Anzahl der Dimensionen ergibt sich aus der „Schachtelungstiefe“ des innersten Arrays. ISO_IEC 11404 nennt diese Arrays „induziert mehrdimensional“. Zugriffe auf Informationen im äußeren Array erfolgen zum Beispiel mit '<Attr_in_Dim1>(i)', auf Informationen im inneren Array (z. B. bei dreidimensional) mit '<Attr_in_Dim3>(i1,i2,i3)'.
Beispiel ‚Daten für ein Lagerregal‘
Regal: // umfasst das ganze Regal Regalboden := array(10) // Es gibt 10 Regalböden = Array der 1. Dimension RB_Bezei := Text(20) // wie der jeweilige Regalboden genannt/beschriftet wird … // ggf. weitere Daten je Regalboden, z. B. max. Gesamtgewicht WZ_Box := array(5) // Je Regalboden max. 5 Werkzeugboxen, 2. Dimension WZ_Bezei := Text(20) // Bezeichnung der Werkzeuge, die in der Box gelagert bzw. zu lagern sind WZ_Anz := numeric(4) // die Anzahl der darin gelagerten Werkzeuge … // ggf. weitere Daten je WZ-Box, u. U. weiteres Array 3. Dim.
// liefert die Werkzeug-Bezeichnung und ihre Anzahl, die in einer bestimmten Box // (Regalboden und Box-Nr) gelagert sind.
'RB_Bezei (I1)' // liefert die Bezeichnung des Regalbodens.
'WZ_Bezei (I1,I2) = "Rohrzangen", WZ_Anz (I1, I2) = 10' legt eine neue WZ-Box mit 10 Rohrzangen an.
'WZ_Anz (I1,I2) -1 aktualisiert die Anzahl bei Entnahme eines Werkzeugs aus der Box.
In den Anweisungen sind Indizes für die inneren Dimension(en) (> 1) nur anzugeben, wenn aus ihnen Informationen angesprochen/abgerufen werden, z. B. RB_Bezei(x) oder WZ_Bezei(x,y).
Sollte das Lager aus mehreren (z. B. 4) Regalen bestehen, müsste vor 'Regalboden' eine weitere Dimension 'Regal := array (4)' – optional mit ‚eigenen‘ Info-Elementen (wie etwa Breite) – definiert und bei Zugriffen der Index für diese neue Dimension 1 zusätzlich spezifiziert werden.
Die Speicheradresse eines durch einen Index bezeichneten Inhalts wird, ausgehend von der für das erste Element festgelegten Speicheradresse plus indexabhängige Distanz (berechnet über den aktuellen Index-Inhalt minus Index-Erstwert, multipliziert mit der Länge des Inhalts der Array-Datengruppe) gebildet.
Trotz der meist räumlich dargestellten Inhalte von Arrays, besonders bei mehrdimensionalen, werden auch die in einem Array gespeicherten Elemente in einemlinearen Speicher abgelegt. Die Elemente eines eindimensionalen Vektors werden hintereinander im Speicher abgelegt, bei einer zweidimensionalen Matrix werden die Elemente entweder als Zeilen- oder als Spaltenvektoren hintereinander abgelegt, bei einem dreidimensionalen Array werden entsprechend viele Matrizen hintereinander abgelegt usw.
Zwei Varianten der Anordnung eines zweidimensionalen Arrays im Hauptspeicher
EinProgramm, das auf Elemente eines Arrays zugreifen will, muss derenSpeicheradresse errechnen.
Beispiel
Gegeben: Ein 2-dimensionales Array mit 4 Zeilen (1..4) und 7 Spalten (1..7). Jedes Element sei 4 Byte groß. Es soll zugegriffen werden auf das Element an (Zeile = 3, Spalte = 6). Das Array beginne bei Speicheradressebase.
Da auf ein Element der Zeile 3 zugegriffen wird, müssen 2 Zeilen „übersprungen“ werden:
2 (Zeilen überspringen) * 7 (Elemente pro Zeile) * 4 (Byte pro Element) = 56(= Beginn der 3. Zeile im Array)
In der Zeile 3 soll auf Spalte 6 zugegriffen werden, also sind zusätzlich 5 Elemente zu „überspringen“:
5 (Spalten überspringen) * 4 (Byte pro Element) = 20(= Beginn der 6. Spalte in Zeile 3)
Das gewünschte Element beginnt also an Adresse (base + 56 + 20) = (base + 76) und ist 4 Byte lang.
Allgemein
In einem-dimensionalen Array wird die Adresse eines Elements beispielsweise mit Hilfe der Formel berechnet. Man nennt diese Formel auchSpeicherabbildungsfunktion.
Die dargestellte Formel ist nur eine von mindestens zwei Alternativen, je nachdem, in welcher Reihenfolge die Indizes zu Speicherblöcken zusammengefasst werden, vom Ersten hin zum Letzten oder gerade umgekehrt. Im Englischen unterscheidet man hierRow-major order (zeilenweise Anordnung) undColumn-major order (spaltenweise Anordnung).
Es ist normalerweise Sache derLaufzeitumgebung des jeweiligenCompilers, diese Berechnungen vorzunehmen und im jeweiligen Befehl zu verwenden, egal nach welcher Variante.
Da die Produkte in obiger Formel konstant sind, können sie einmalig berechnet werden. Der daraus resultierendeDope-Vektord ermöglicht anschließend über die Formel eine sehr schnelle Berechnung der Adresse eines jeden gespeicherten Elements.
Die Verarbeitung von Daten innerhalb eines Arrays erfordert – im Gegensatz zu ohne Index adressierbaren Datenfeldern – zusätzlichen Aufwand zur Berechnung der tatsächlichenSpeicheradresse verwendeter Datenfelder. Die dazu nötigen, meist von einemCompiler erzeugten Berechnungsbefehle kann der Programmierer zum Teil beeinflussen und optimieren – sofern dies nicht bereits durch den Compiler geschieht. Die folgenden Beispiele nennen Details, deren Anwendung zu effizienteremCode führen kann, Details und weitere Beispiele siehe.[11]
BeiLiteralen als Index berechnet derCompiler dieSpeicheradresse meist zurCompilezeit. Manche Compiler stellen fest, ob der Index von Variablen abhängt, deren Stand zur Compilezeit bereits bestimmt werden kann.
Verwenden voninternen Datenformaten für die Indexvariable, damit im Rahmen der Adressierungsberechnung nicht auch noch eine Formatkonvertierung erforderlich ist.
Wiederverwenden bereits berechneter Zugriffsadressen, anstatt sie für jeden Befehl erneut zu berechnen. Je nach Compiler können dazu geeignete Adressierungsmethoden gewählt werden, zum Teil stellen Compiler diese Wiederverwendung fest und erzeugen automatisch optimierten Code.
Eine geeignete Wahl derReihenfolge der Dimensionen: Wenn in einem Computer ein Array imRAM gehalten wird, erfolgen Zugriffe auf Arrayelemente in der Regel am schnellsten, wenn direkt aufeinander folgende Adressen abgerufen werden (Lokalität ermöglichtCaching). Der Programmierer ist also gehalten, die Reihenfolge der Indizes im Array so festzulegen, dass dies in der innersten Schleife ebenso erfolgt. Da die Speicherabbildungsfunktion vom Compiler abhängt, sollte sich der Programmierer über diese Details informieren und dann im Programm den in der innersten Schleife durchlaufenen Index so definieren, dass er im RAM aufeinanderfolgenden Elementen entspricht.
ÜbergeordneteVerbundstruktur ansprechen anstatt vieler elementarer Datenfelder, zum Beispiel beim Verschieben oder Sortieren von Array-Einträgen; die Adressberechnung findet dabei nur einmal je Verbund statt – dagegen bei Bezug auf einzelne Elemente des Verbunds je Verbund-Element.
Auslagern von Array-Inhalten bei (ort-/zeitlokal) mehreren/vielen Zugriffen mit gleichem Index in einen eigenen, direkt adressierbaren Speicherbereich. Beispiel: Ein 100er Array mitDim(101) definieren, Vor der Verarbeitung Inhalt(index) dorthin übertragen und in Einzelbefehlen Elemente mit Index-Direktwert‚101‘ adressieren: Dabei ist die Adressberechnung nur einmal erforderlich.
Die Zweckmäßigkeit oder Notwendigkeit derartiger Effizienzmaßnahmen, die aus Gründen der Lesbarkeit eines Programms stets gut dokumentiert sein sollten, hängt von verschiedenen Faktoren ab: Nicht relevant sind sie, wenn der verwendeteCompiler entsprechende Optimierungen automatisch vornimmt, weniger relevant zum Beispiel, wenn dasProgramm nur selten ausgeführt wird, wenn es jeweils nur eine kurzeLaufzeit hat, wenn die Array-bezogenen Befehle nur einen geringen Teil der Gesamtverarbeitung ausmachen.