Das Cloud-Geschäft ist für Google ein immer größeres Geschäft und kann trotz starker Konkurrenz sehr viele prominente Kunden vorweisen – unter anderem den Streamingdienst Spotify. Spotify hat schon vor einigen Jahren sehr viele Kapazitäten in die Google Cloud ausgelagert und scheint die Server dabei auch schon mal ans Limit zu bringen. Ende 2019 wurde für den Jahresrückblick sogar der größte jemals ausgeführte Dataflow Job angestoßen.
Es gibt unzählige Plattformen jeder Größe im Web, die mit großen Datenmengen jonglieren und in ihren jeweiligen Branchen oder Nischen sehr erfolgreich sind, aber dennoch keine eigenen Rechenzentren betreiben müssen. Stattdessen liegen und laufen große Teile des Webs heute auf Servern der Clouddienste wie Amazon AWS, Microsofts Azure oder eben in der Google Cloud. Auch Spotify benötigt nur wenig eigene Kapazitäten, weil große Teile des eigenen Angebots in der Google Cloud gehostet und von dort ausgeliefert werden.
Google Maps & Google Lens: Die Augen des Google Assistant empfehlen nun Gerichte im Restaurant
Spotify veröffentlicht schon seit einigen Jahren am Ende jedes Jahres einen Rückblick auf die musikalischen letzten 12 Monate und stellt somit ganz persönliche und auch globale Jahresrückblicke zusammen. Bei weit über 250 Millionen Nutzern ist das natürlich keine kleine Aufgabe. Ende 2019 hatte man zum Ausklang des Jahrzehnts sogar noch weiter zurückgeblickt und wollte die populärsten Songs der 10er Jahre präsentieren. Das ist dank Google Cloud auch gelungen.
Alle Streams der letzten zehn Jahre von über 250 Millionen Nutzern (natürlich waren es zum Anfang des Jahrzehnts deutlich weniger) auszuwerten ist eine echte Mammutaufgabe, die selbst die Server der Google Cloud an das Limit bringen kann. Für diese Aufgabe hat sich Spotify für das Cloud Dataflow-Angebot der Google Cloud entschieden und die riesigen Datenmengen in mehrere Bereiche geteilt und auswerten lassen.
Bei diesen enormen Datenmengen sind solche Berechnungen natürlich auch eine finanzielle Belastung, sodass ein solcher Vorgang sehr gut geplant sein will und nicht einfach von vorne gestartet werden kann. Google Cloud berechnet je nach Tarif nach Stunden oder Datenmengen. Beides war in diesem Fall gigantisch.
Laut eigenen Angaben hat Spotify mit den Berechnungen für den Jahresrückblick den größten Cloud Dataflow Job angestoßen, den die Google Cloud bisher bewältigen musste – und das nicht zum ersten Mal. Wie das Unternehmen dies bewerkstelligt hat und wie die Zusammenarbeit mit Google für das optimale Ergebnis gesorgt hat, hat der zuständige Technik-Chef von Spotify nun recht ausführlich in einem Interview verraten.
With this type of global scale, complexity is a natural consequence. By working closely with Google Cloud’s engineering teams and specialists and drawing learnings from previous years, we were able to run one of the most sophisticated Dataflow jobs ever written.
Ich kann und möchte die Abläufe an dieser Stelle nicht zusammenfassen, denn technisch versierte und interessierte finden viele Informationen mit jeder Menge technischer Details direkt bei TechCrunch. Auch eine Abwägung der verschiedenen Google Cloud-Angebote von Dataflow bis Datacore wird tiefer erklärt. Für den einen oder anderen Leser sicher eine interessante Lektüre.
Spotify gehört übrigens zu den größten Google Cloud-Kunden und zahlt für diese Dienste etwa 150 Millionen Dollar pro Jahr an Google.