
Tensor Processing Units (TPUs), auchTensor-Prozessoren, sindanwendungsspezifische Chips zur Beschleunigung vonmaschinellem Lernen. TPUs werden vor allem genutzt, um Daten inkünstlichen neuronalen Netzen zu verarbeiten (sieheDeep Learning).
Die vonGoogle entwickelten TPUs wurden speziell für die SoftwaresammlungTensorFlow[1] entworfen. TPUs sind die Basis für alle Google Services, die maschinelles Lernen einsetzen, und wurden auch in denAlphaGo-Maschine-vs.-Mensch-Wettkämpfen gegenLee Sedol, einen der weltbestenGo-Spieler, eingesetzt.[2]
Im November 2025 kündigte Google an, seine Chips zum Verkauf anzubieten, unter anderem an Meta, womit das Unternehmen in direkte Konkurrenz zu Nvidia tritt.[3]
Die erste Generation von Googles TPU wurde auf derGoogle I/O 2016 vorgestellt und speziell entworfen, um die Anwendung eines bereits trainiertenkünstlichen neuronalen Netzwerks zu unterstützen bzw. zu beschleunigen.[4] Dies wurde u. a. durch eine geringere Präzision im Vergleich zu normalenCPUs oderGPUs und eine Spezialisierung auf Matrizenoperationen erreicht.
Die TPU besteht aus einemsystolischen Array mit einer 256×256-8-Bit-Matrizenmultiplikationseinheit (MMU), welche von einem Mikroprozessor mit einemCISC-Befehlsatz angesteuert wird. Der Chip wurde in einem 28-nm-Prozess gefertigt und taktet mit 700 MHz bei einerThermal Design Power von 28 bis 40 W. Die TPU besitzt 28 MiB Arbeitsspeicher am Chip. Zudem sind 4-MiB-32-Bit-Akkumulatoren verbaut, welche die Ergebnisse der Matrizenmultiplikationseinheit übernehmen. Die TPU kannMatrizenmultiplikationen,Faltungen undAktivierungsfunktionen sowie Datentransfer zum Hostsystem überPCIe 3.0 oder zum DDR3 DRAM, welcher sich am Board befindet, ausführen.
Die zweite Generation von Googles TPU (TPUv2) wurde auf derGoogle I/O 2017 vorgestellt. Diese soll nicht nur die Anwendung von neuronalen Netzwerken (Inferenz), sondern auch das Training dieser Netzwerke beschleunigen. Diese TPUs besitzen zwei „Matrizenausführungseinheiten“ (Matrix Execution Unit;MXU) mit je 8 GiB Arbeitsspeicher.[5] Jede MXU weist eine Rechenleistung von 22,5 TFLOPS auf, wobei jedoch derbfloat16-Datentyp zum Einsatz kommt, welcher nichtIEEE 754 entspricht.[5] Ein TPU-Board mit vier TPUs kommt somit auf 180 TFLOPS.
Die TPUs werden zu einem „Pod“ mit 11,5 PFLOPS zusammengeschaltet, einemRechnerverbund (Cluster-Systemarchitektur) von 256 TPUs und 128 Server-CPUs. Die TPUs sind hierbei in einer sphärenförmigen (2D-Torus) Netzwerktopologie von je 8×8 TPUs zusammengeschaltet. Zur Verbindung der CPUs mit den TPUs kommtPCI-Express 3.0 mit 32 Lanes (8 Lanes je TPU) zum Einsatz.[5]
Die TPUs der zweiten Generation sind in Form derGoogle Compute Engine, einemCloud-Angebot von Google, nutzbar.
Um die Speicherbandbreite der Architektur zu erhöhen, kommtHBM-Speicher zum Einsatz.[6]

Die dritte Generation von Googles TPU (TPU 3.0) wurde auf derGoogle I/O 2018 vorgestellt. Die TPUs besitzen 4 MXUs mit je 8 GiB Arbeitsspeicher (32 GiB je TPU).[5] Die Netzwerktopologie der TPUs ist ebenfalls in Form eines 2D-Torus ausgelegt. Die Racks besitzen zudem eineWasserkühlung, mit der die TPUs gekühlt werden.[5] TPU 3.0-Pods bestehen aus 8 Racks mit insgesamt 1024 TPUs und 256 Server-CPUs. Die Rechenleistung eines Pod liegt bei knapp über 100 PFLOPS.[5]
Die vierte Generation von Googles TPU (TPU v4) wurde von Google im Dezember 2021 vorgestellt.[7]
Mit den sogenannten SparseCores und Optical Circuit Switches (OCS) kann der TPU v4 interne Verbindungen dynamisch rekonfigurieren und skalieren. Das optische Netzwerk kann außerdem an die Struktur des berechneten KI-Modells angepasst werden. Die Sicherheit soll durch die Trennung der Racks auf Netzwerkebene erhöht werden. Der OCS ist verhältnismäßig günstig, da er unter fünf Prozent der Gesamtkosten der TPU ausmacht. Bei der Leistungsaufnahme schlägt das optische Netzwerk mit unter drei Prozent ebenfalls kaum zu Buche.[8]
Die TPU v4 hat dank einer Umstellung auf eine 7-nm-Fertigung und einer Transistorzahl von 22 Milliarden eine mehr als doppelt so hohe Rechenleistung von 275 TFLOPS beibfloat16 undint8. Trotzdem ist sie mit einer Größe von nur 600 mm² kleiner und verbraucht maximal 192 Watt, was im Vergleich zur TPU v3 eine Einsparung darstellt.[9]
| TPU v1 | TPU v2 | TPU v3 | TPU v4 | Edge v1 | |
|---|---|---|---|---|---|
| Einführungsdatum | 2016 | 2017 | 2018 | 2021 | 2018 |
| Technologieknoten | 28 nm | 16 nm | 7 nm | ||
| Die-Größe (mm2) | 331 | < 625 | < 700 | < 400 | |
| On-Chip-Speicher (MiB) | 28 | 32 | 144 | ||
| Taktgeschwindigkeit (MHz) | 700 | 940 | 1050 | ||
| Speicher | 8 GiBDDR3 | 16 GiBHBM | 32 GiB HBM | ||
| Speicherbandbreite | 34 GB/s | 600 GB/s | 900 GB/s | 1200 GB/s | |
| Thermal Design Power (W) | 75 | 280 | 220 | 170 | 2 |
| TFLOPS | 23 | 45 | 123 | 275 | 4 |
| TFLOPS/W | 0.31 | 0.16 | 0.56 | 1.62 | 2 |