Riesiger Sprung für AMD im Vergleich zur vorherigen Generation und darüber hinaus, in vielen Bereichen. Ich werde mich nicht so sehr auf Benchmark-Tests konzentrieren, jeder, der möchte, kann online nachsehen (siehe Phoronix) und selbst sehen, wie gut diese Prozessoren in dieser Generation abschneiden.
Der Hauptgrund, warum ich vom 2990wx auf den 3970x umgestiegen bin (meiner Meinung nach das größte Upgrade), ist die Beseitigung der eigenartigen NUMA-Architektur, die sein Vorgänger hatte (4 NUMA-Knoten / 2 CCX pro Knoten / 4 Kerne pro CCX - 2 Knoten mit Dual-Channel-Speicher - 2 Knoten ohne Speicherkanal überhaupt). Die oben genannte Architektur führte aufgrund von Speicherlatenz zu inkonsistenter Leistung in verschiedenen Workloads (nicht CPU-gebunden), und oft sah ich sogar den 1700 besser abschneiden! Das offensichtlichste Beispiel in meinem Fall war die Virtualisierung. Während die verschachtelte Virtualisierung auf dem 1700 problemlos lief, bemerkte ich beim 2990wx mit denselben VMs eine hohe Steal-Zeit (die vCPU wartet darauf, dass die reguläre CPU andere vCPUs bedient). Selbst nach vielen Stunden der Optimierung auf Betriebssystem-, VM- oder BIOS-Ebene (Speicherinterleaving, Speicheraffinität, numactl, CPU-Pinning usw.) konnte ich nicht die gewünschten Ergebnisse erzielen. Am Ende war die einzige Möglichkeit, die Leistung zu verbessern, das Deaktivieren von SMT, was enttäuschend war. Das vorherige Problem tritt nicht nur bei der Virtualisierung auf, sondern auch bei allen Arten von Multicore-Workloads, die empfindlich auf Speicherlatenz reagieren.
Zusammenfassend komme ich zu dem Schluss, dass der 2990wx ein sehr leistungsstarker Prozessor ist, der seine wahre Leistung nur in CPU-gebundenen Workloads (Content-Erstellung, Videobearbeitung usw.) zeigt. Diejenigen, die solche Anwendungen ausführen und auf die 3. Generation Threadripper aufrüsten möchten, werden theoretisch keine Verbesserung von mehr als 10-15% in der Leistung sehen (das ist der IPC-Gewinn zwischen der 2. und 3. Generation).
Mit der neuen Generation Threadripper gehören jedoch alle diese Eigenheiten der Vergangenheit an. Neben den vielen neuen Funktionen, die die Leistung sowohl in Einzel- als auch in Multicore-Szenarien verbessern, erscheinen alle Kerne dem Betriebssystem als eine einheitliche Gruppe (UMA) mit gleichen Abständen zwischen ihnen und den Speichercontrollern. Mit dieser Architektur wird eine konsistente Leistung über alle Kerne hinweg für jede Art von Workload erreicht, und das sogar ohne zusätzliche Parametrierung. Einfach ausgedrückt: echte Leistung von 32 Kernen/64 Threads ohne Kompromisse.
In Bezug auf meinen Fall, jetzt mit dem 3970x, abgesehen davon, dass die Steal-Zeit in allen virtualisierten Workloads, die ich ausgeführt habe, immer bei 0 liegt, beobachte ich auch eine enorme Verbesserung bei den Zeiten für VM-Bereitstellungen, Kernel-Kompilierung, Spark-Jobs und Gromacs, bis zu 70%!
Was die thermische/energetische Leistung betrifft, leistet AMD wieder Wunder. Nein, die 280W, die es als TDP hat (besonders im All-Core-Boost), sind nicht viel, im Gegenteil. Es hat das beste Verhältnis von Leistung/Watt, Watt/Kern, Watt/Thread auf dem Markt (siehe AnandTech, Phoronix). Es sind 32 Kerne und wenn man bedenkt, dass es fast 2-mal so viele Kerne wie der 3950x hat, mit einer höheren Basistaktfrequenz von 200 MHz und 40 zusätzlichen PCIe4-Lanes, scheint die TDP klein. Was die Temperaturen betrifft, beobachte ich 35°C im Leerlauf, durchschnittlich 40°C und maximal 69°C bei einem Belastungstest mit einem 560mm-Kühler, NFA14 3000-Lüftern und einem EK-Velocity-Wasserkühler. Es ist wichtig zu erwähnen, dass die Temperaturen real sind und es keinen Offset wie beim alten Threadripper gibt (27°C). Die oben genannten Zahlen beziehen sich nur auf die Standardeinstellungen. Jeder, der versucht, durch Erhöhung der Leistung zu übertakten, wird feststellen, dass der Leistungsgewinn völlig unverhältnismäßig zum Stromverbrauch und den tatsächlich explodierenden Temperaturen ist. Außerdem ist das Übertakten auf Threadripper-Prozessoren nicht durch die Garantie von AMD abgedeckt.
AMD behauptet derzeit, den leistungsstärksten Desktop-Prozessor zu haben, der jemals gebaut wurde. Die Zahlen zeigen, dass sie die Wahrheit sagen (siehe guru3d, anandtech, phoronix, techspot, usw.). Die einzige Ausnahme, in der Intel sie übertrifft, sind wissenschaftliche Anwendungen, die AVX-512 für die Matrixmultiplikation umfangreich nutzen. Es sollte beachtet werden, dass dieser bestimmte Prozessor in vielen multithreaded Workloads genauso gut oder sogar besser abschneidet als 40.000€ Multisocket-Systeme (siehe Passmark, openbenchmarking.org, usw.). Es ist eine enorme Leistung, dass nun jeder verschiedene Arten von Workloads zu Hause ausführen/ausprobieren kann, was in der Vergangenheit entweder das Warten in Forschungseinrichtungen erforderte oder exorbitante Beträge für den Zugang zu Hochleistungsrechnern zahlte.
Τεράστιο άλμα για την AMD συγκριτικά με την προηγούμενη γενιά και όχι μόνο, σε πάρα πολλούς τομείς. Δεν θα εστιάσω τόσο σε benchmarks, όποιος θέλει μπορεί να κοιτάξει online (βλ. phoronix) και να διαπιστώσει μόνος του για το πόσο καλά αποδίδουν αυτής της γενιάς οι επεξεργαστές.
Ο κύριος λόγος που πήρα την απόφαση να μεταβώ απο τον 2990wx στον 3970x (κατά τη γνώμη μου είναι και το μεγαλύτερο upgrade), είναι η κατάργηση της ιδιόρρυθμης numa αρχιτεκτονικής που είχε ο προκάτοχός του ( 4 numa nodes / 2 CCX per node / 4cores per CCX – 2 nodes with dual channel memory each – 2 nodes with no memory channel at all). Η παραπάνω αρχιτεκτονική είχε σαν αποτελέσμα να παρατηρώ inconsistent performance σε διάφορα workloads ( οχι cpu bound ) λόγω του memory latency και πολλές φορές να βλέπω ακόμη και τον 1700 να αποδίδει καλύτερα! Το πιο οφθαλμοφανές παράδειγμα για την περιπτωσή μου ηταν στο Virtualization. Ενώ στον 1700 το nested virtualization έτρεχε χωρίς προβλήματα, με τα ίδια vms στον 2990wx παρατηρούσα μεγάλο steal time (η vcpu περιμένει την κανονική cpu να εξυπηρετήσει άλλες vcpus). Ακόμη και μετά από πάρα πολλές ώρες optimization είτε σε επίπεδο λειτουργικού, VM είτε bios ( memory interleaving, memory affinity , numactl, cpu pinning κτλ. ) δεν κατάφερνα να δω τα επιθυμητά αποτελέσματα. Εν τέλει, ο μόνος τρόπος για να βελτιώσω το performance ηταν να απενεργοποιήσω το SMT, που ήταν απογοητευτικό. Το προηγούμενο πρόβλημα δεν εμφανίζεται μονο στο virtualization αλλά και σε όλων των ειδών multicore workloads τα οποία είναι sensitive στο memory latency.
Συνοψίζοντας, καταλήγω στο γεγονός οτι ο 2990wx είναι ένας πάρα πολύ ισχυρός επεξεργαστής που όμως δείχνει την πραγματική του ισχύ μόνο σε cpu bound workloads (content creation, video editing κτλ.). Όσοι τρέχουν τέτοιου είδους εφαρμογές και θέλουν να αναβαθμιστούν σε 3rd Gen Threadripper θεωρητικά δεν πρόκειται να δουν πάνω από 10-15% στην αποδόση (τόσο είναι και το IPC gain μεταξύ 2ης και 3ης γενιας).
Ωστόσο, με την νέα γενιά threadripper όλες αυτές οι ιδιαιτερότητες ανήκουν στο παρελθόν. Εκτός των πολλών νέων χαρακτηριστικών που βελτιώνουν την απόδοση είτε σε single είτε σε multicore, όλοι οι πυρήνες φαίνονται στο λειτουργικό σύστημα, σαν ενα ενοποιήμενο group ( UMA ) ίσων αποστάσεων μεταξύ αυτών και των ελλεκτών μνήμης. Με την αρχιτεκτονική αυτή επιτυγχάνεται consistent performance κατα μήκος όλων των πυρήνων, για κάθε τύπο workload και μάλιστα out of the box χωρίς επιπλέον παραμετροποίηση. Με απλά λόγια, πραγματική ισχύς 32 cores/64 threads χωρίς ψιλά γράμματα.
Όσον αφορά τη περίπτωση μου, πλέον με τον 3970x εκτός του ότι το steal time είναι πάντα στο 0 σε όλα τα virtualized workloads που έχω τρέξει, παρατηρώ επίσης τεράστια βελτίωση στους χρόνους των vm deployments, kernel compilation, spark jobs και gromacs που φτάνει μέχρι και 70%!
Σχετικά με την θερμική/ενεργειακή απόδοση πάλι η AMD κάνει μαγικά. Όχι, τα 280W που έχει σαν TDP (σημειωτέον στο all core boost) δεν είναι πολλά, αντιθέτως. Έχει τον υψηλότερο λόγο performance/watt, watt/core, watt/thread στην αγορά ( βλ. anandtech, phoronix ) . Είναι 32 cores και αν αναλογιστεί κανείς ότι ειναι σχεδόν 2 φορές ο 3950x με μεγαλύτερο base clock κατά 200 MHZ και 40 επιπλέον pcie4 lanes το TDP φαίνεται μικρό. Σχετικά με τις θερμοκρασίες, παρατηρώ 35 idle, 40 average, 69 max under stress test με 560mm Ψυγείο, NFA14 3000 fans, και ek-velocity waterblock. Σημαντικό να αναφερθεί ότι οι θερμοκρασίες είναι πραγματικές και δεν υπάρχει το offset που υπήρχε στους παλιούς threadripper (27C). Τα παραπάνω νούμερα αφορούν μονο stock settings. Όποιος προσπαθήσει να κάνει οverclock ανεβάζοντας το ρεύμα θα συνειδητοποιήσει πως τo performance gain είναι τελείως δυσανάλογο από την κατανάλωση ρεύματος και τις θερμοκρασίες που πραγματικά εκτοξεύονται στα ύψη. Επίσης το overclocking στους threadripper δεν καλύπτεται από την εγγύηση της AMD.
Η AMD αυτή τη στιγμή υποστηρίζει πως έχει τον πιο ισχυρό desktop επεξεργαστή που έχει κατασκευαστεί ποτέ. Τα νούμερα δείχνουν ότι λέει την αλήθεια(βλ. guru3d, anandtech, phoronix, techspot κτλ. ). Μοναδική εξαίρεση που υπερτερεί κατά κράτος η Intel είναι σε επιστημονικές εφαρμογές που κάνουν εκτεταμένη χρηση του AVX-512 για πολλαπλασιασμό μητρώων. Να αναφερώ, οτι ο συγκεκριμένος επεργαστής σε πάρα πολλά multithreaded workloads αποδίδει ίδια ή και καλύτερα από multisocket συστήματα των 40000€ ( βλ. Passmark, openbenchmarking.org κτλ. ). Είναι τεράστιο επίτευγμα το να μπορέι πλέον ο καθένας να τρέχει/δοκιμάζει διαφόρων ειδών workloads στο σπίτι του, που στο παρελθόν για να μπορούσε θα έπρεπε είτε να μπαίνει σε αναμονή σε ερευνητικά ιδρύματα είτε να πληρώνει υπέρογκα ποσά για να έχει πρόσβαση στο high performance computing.