Was kostet der Cloudbetrieb von ChatGPT?
Die Faszination von ChatGPT
Das ganze Internet ist fasziniert von ChatGPT, aber was kostet so etwas eigentlich im Betrieb und warum kann ein Sprachmodell mit so vielen Parametern nur bei einem Hyperscaler funktionieren? Finden wir es mit Annahmen und unter Zuhilfenahme einer bereits getätigten Rechnung eines Professors von der Universität von Maryland heraus.
Die Kosten der Cloud Infrastruktur von ChatGPT
Zunächst muss man festhalten, dass exakte Details der Cloudinfrastruktur von ChatGPT nicht bekannt sind und wir in diesem Beitrag viele Annahmen treffen müssen. Sucht man im Internet nach Informationen oder fragt ChatGPT selbst nach entsprechenden Details bekommt man aber dennoch einige sehr interessante Informationen, die wir als Basis für eine Berechnung verwenden können. Das KI-Modell GPT-3 Large hat 175 Milliarden Parameter und es wird in Form von ChatGPT von OpenAI in der Microsoft Azure Cloud bereitgestellt. Folgt man der Argumentationskette von Tom Goldstein, einem Professor für künstliche Intelligenz an der University of Maryland, kann ein Modell mit 3-Milliarden Parametern einen Token, also ein Wort oder Satzzeichen, in 6-ms auf einer NVIDA A100 GPU vorhersagen. Rechnet man diesen Wert auf die 175 Milliarden hoch dürfte die Vorhersage eines Tokens in ChatGPT 350ms dauern. Da das trainierte Sprachmodell viel zu groß für eine einzelne A100 GPU ist, muss für eine Vorhersage aber ein ganzes Cluster für das Inferencing verwendet werden. ChatGPT produziert in etwa 15-20 Wörter pro Sekunde, dies könnte bei der Verwendung von A100 GPUs über einen 8-GPU Server in der Azure Cloud erreicht werden. Eine A100 GPU kostet in der Azure Cloud Stand heute in den USA 4,50 EUR pro Stunde. Rechnet man 8 Server mit GPUs für 20 Wörter pro Sekunde so erhält man ungefähr einen Preis von 0.0005 EUR pro vorgeschlagenes Wort. Hier reden wir aber wie gesagt nur vom Inferencing, also dem Ausliefern von Daten bei einem bereits fertig trainierten Modell. Für das Training eines Modells mit 175 Milliarden Parametern werden wahrscheinlich weitere GPU-Cluster mit hunderten GPUs benötigt. Gehen wir davon aus, dass das Training abgeschlossen ist und wir uns nur mit der aktiven Vorhersage beschäftigen, muss man als nächstes betrachten wie viele User ChatGPT bereits erreicht hat. Allein in den ersten 5 Tagen haben sich über eine Millionen User für ChatGPT registriert. Seit einigen Tagen steht in der Demo häufig die Meldung: „We’re experiencing exceptionally high demand. Please hang tight as we work on scaling our systems“. Dementsprechend dürften seit dem Launch am 30.11.2022 (also vor 41 Tagen) mittlerweile noch viele weitere Millionen User hinzugekommen sein. Gehen wir analog zu der Rechnung von Tom Goldstein am 06.12.2022 heute einmal von 10 Millionen anstatt von 1 Millionen Usern aus, die jeweils 10 Anfragen pro Tag produzieren, deren Antwort im Schnitt 30 Wörter enthält. Dies würde bedeuten, dass täglich 100 Millionen Anfragen verarbeitet und im Schnitt 3 Mrd. Tokens vorgeschlagen werden müssen. Multipliziert man sehr stark vereinfach diese 3 Mrd. Token mit unseren 0.0005 EUR erhält Kosten von 1,5 Millionen EUR pro Tag. (Anmerkung: In der Rechnung von Tom Goldstein mit alten Azure Preisen und 1 Millionen Usern wurden 100.000$ pro Tag geschätzt) Es ist davon auszugehen, dass OpenAI durch die enge Partnerschaft mit Microsoft aber deutlich weniger bezahlen muss. Des Weiteren geht diese sehr stark einfache Rechnung von einer kontinuierlichen Verteilung aus und berücksichtigt nicht das die GPUs in einem Cluster nicht zu 100% effizient sind oder das es je nach Last zu Up- und Downscaling in der Cloud kommt. Eine genaue Zahl wird wohl nur OpenAI liefern, dennoch ist davon auszugehen, dass der Betrieb und auch das Training mehrere Millionen EUR kosten wird. Wir sind gespannt, ob OpenAI diesbezüglich offizielle Zahlen veröffentlichen wird und was das die nächste Generation GPT-4 im Laufe des Jahres bringen wird.
An diesem sehr extremen AI Beispiel sieht man aber sehr schön, dass dies nur durch einen Hyperscaler ermöglicht werden kann. Kaum ein Unternehmen hat die Möglichkeit so viele A100 Grafikkarten auf Dauer bereitzustellen, wenn man bedenkt, dass diese Grafikkarte über 10.000 EUR in der Anschaffung kostet.
Wie viel kostete das Training und wie viel Strom wurde verbraucht?
Diese Information lässt im Internet auf LinkedIn auf einer ChatGPT Fokusseite finden, auch wenn die Informationen nicht von OpenAI verifiziert wurden. In einer wissenschaftlichen Schätzung geht man davon aus, dass 1024x A100 GPUs für 34 Tage für das Training verwendet wurden. Dies bedeutet dass OpenAI $4.6 Mio. zum Trainieren benötigt hat. Auch wenn der Energieverbrauch nicht offiziell bestätigt wurde, schätzt man das das Training 936 MWh verbraucht hat. Dies entspricht dem Verbraucht von knapp 100.000 Durchschnittshaushalten in Europa pro Tag.
Was würde der minimale Betrieb von GPT-3 kosten?
Es gibt viele Quellen die sich bereits vor der Veröffentlichung von ChatGPT mit GPT-3 oder GPT-2 beschäftigt haben. LambdaLabs hat so zum Beispiel sehr vereinfacht ausgerechnet, dass das Training von GPT-3 mit allen 175 Milliarden Parametern mit nur einer V100 GPU (Anmerkung innFactory: A100 GPUs sind neuer und schneller) über 350 Jahre dauern würde. Theoretisch lässt sich das trainierte Modell dann auch mit nur einer V100 GPU ausliefern, allerdings funktioniert es erst mit 350 GB VRAM flüssig. Bei AWS gibt es beispielsweise eine EC2 Instanz vom Typ p4de.24xlarge die dem Job gewachsen wäre. Für diese müsste ein normales Unternehmen ohne spezielle Konditionen allerdings pro Monat über 30.000 EUR bezahlen und wir reden auch hier nur vom Betrieb nicht vom Training des KI-Modells.
GPT-4 vs. LaMDA: Was bringen uns KI Sprachmodelle in der Zukunft?
ChatGPT basiert derzeit auf GPT-3, einem KI-Modell das schon Mitte letztes Jahr veröffentlicht wurde. Es ist davon auszugehen, dass das nachfolgende Modell GPT-4 noch weit besser wird. Im neuen Modell sollen nicht 175 Milliarden, sondern 100 Billionen Parameter berücksichtigt verwendet werden. (Update 22.01.2023: OpenAI hat der online kursierenden Parameter von GPT-4 widersprochen. Die Leistung sollte dennoch signifikant besser werden.) Die Leistung sollte dadurch nochmal verbessert werden. Aber auch Google schläft nicht. Google arbeitet an LaMDA und stellt es schon bald als BARD der breiten Masse zur Verfügung. Auch dieses Modell verspricht unglaubliche Leistungen, denn ein ehemaliger Google Ingenieur ist in die Schlagzeilen geraten, als er öffentlich sagte, dass er glaube, LaMDA hätte ein menschliches Bewusstsein entwickelt hat. BARD soll im Gegensatz zu GPT auch auf aktuelle Informationen zugreifen können und wird sehr zeitnah direkt in die Googlesuche integriert werden. GPT-3 vs. LaMDA bzw. GPT-4 vs LaMDA wir sind gespannt. Aus unserer Sicht werden solche Sprachmodelle unser nächstes Jahrzehnt massiv prägen. Auch die Umwandlung von Text in flüssige Sprache wird ein schier unglaubliches Niveau erreichen. So arbeitet Google beispielsweise im AI-Bereich an Tacotron 2 oder Microsoft an VALL-E, das es ermöglicht eine Stimme nach nur 3 Sekunden imitieren zu können. Es gibt bereits andere Dienste, mit denen man sehr einfach AI Videos erstellen kann. Im nachfolgenden Beispiel habe ich den Text mit GPT-3 schreiben lassen und die Stimme, sowie das Video von einer anderen generativen AI (D-ID) generieren lassen. Das ganze ist noch etwas holprig, allerdings hatte die AI auch genau nur 1 Foto von mir als Basis.
Sie suchen einen Keynote Speaker für künstliche Intelligenz – zum Beispiel zu generativen Modellen wie ChatGPT?
Weitere Informationen zu Tobias Jonas als Keynote Speaker für KI finden Sie unter: tobias-jonas.de. Darüber hinaus berät das Tochterunternehmen der innFactory, die innFactory AI Consulting den Mittelstand zu Themen der künstlichen Intelligenz und bildet ihre Mitarbeiter zu KI-Managern aus.
Nachfolgend noch der Twitter Post von Tom Goldstein und weitere Quellen.
Zu GPT-3 findet man einige Quellen im Internet.