Bruteforce Benchmark (Update V0.11 released )

Janchu88 · 25.03.2020

Im Falle Passmark wird aber auch AVX-512 integriert, welches quasi doppelt so große Vektoren unterstützt und momentan nur von Intel CPUs Supported wird. Den Befehlssatz unterstützt .net core (noch) nicht!

Ist btw auch ein cooler nebeneffekt der Architektur, grundätzlich könnte ein neuerer JIT Compiler dazu führen, dass der Befehlssatz mal genutzt wird, ohne das der Quellcode als solcher angepasst werden würde

Kullberg · 25.03.2020

Die Version, die Du mir geschickt hast, stürzt nach wenigen Sekunden ab und erkennt nur 32 Cores

Bullseye13 · 25.03.2020

Neues Ergebnis:

143,891

Ryzen 2700

4,2GHz @ 1,4V mit WaKü

4 x 8GB DDR3600 CL15

3533MHz 14-15-14-30-44

Bullseye13

AG1M · 25.03.2020

Yeah satte 11 Punkte mehr mit der neuen Version 0.11

111,097

i7 8700K

5 GHz @ 1,336v (load) mit WaKü

2 x 16GB DDR4 3200 CL15

3800MHz CL16-17-17-32

AG1M

matthias80 · 25.03.2020

Nein das meinte ich nicht.
Fand das auch ehr fragwürdig was passmark da gemacht hat...
War für mich immer eine Anlaufstelle um Single thread Leistung zu vergleichen.
Hier denke ich, habe es so verstanden das im besten Fall immer die beste Technologie der CPU genutzt wird. Kann nirgens beeinflusst werden. Die Werte sind so gut über takt und Speicher vergleichbar. Ist ja auch mal ein richtiger multi thread test!

Mfg

Phantomias88 · 25.03.2020

Janchu88 schrieb:
Im Falle Passmark wird aber auch AVX-512 integriert, welches quasi doppelt so große Vektoren unterstützt und momentan nur von Intel CPUs Supported wird. Den Befehlssatz unterstützt .net core (noch) nicht!

Ist btw auch ein cooler nebeneffekt der Architektur, grundätzlich könnte ein neuerer JIT Compiler dazu führen, dass der Befehlssatz mal genutzt wird, ohne das der Quellcode als solcher angepasst werden würde

Ist den AVX512 stark genug um mit GPUs gleich zu ziehen?
Kannst du den Bench auch Fit für GPU Nutzung machen?

FX-8350 @ HPC Mode 4x DDR3-1866 unbuffered ECC enabled

Finished after 1529,03 sec
Average Speed: 50,606 Mega Hashes per Second

Janchu88 · 25.03.2020

matthias80 schrieb:
Nein das meinte ich nicht.
Fand das auch ehr fragwürdig was passmark da gemacht hat...
War für mich immer eine Anlaufstelle um Single thread Leistung zu vergleichen.
Hier denke ich, habe es so verstanden das im besten Fall immer die beste Technologie der CPU genutzt wird. Kann nirgens beeinflusst werden. Die Werte sind so gut über takt und Speicher vergleichbar. Ist ja auch mal ein richtiger multi thread test!

Mfg

Kann schon beeinflusst werden, dafür müsste ich aber ekantante Teile neu schreiben und die Nutzung manuell festschreiben - sehe ich keinen Sinn drin

Phantomias88 schrieb:
Ist den AVX512 stark genug um mit GPUs gleich zu ziehen?
Kannst du den Bench auch Fit für GPU Nutzung machen?

Durch diese enorme Parallelisierung geht es auf jeden Fall etwas in Richtung einer Fähigkeit die eigentlich GPUs vorbehalten ist. Wenn die CPUs in Zukunft noch stärker in Richtung Multithreading gehen und zusätzlich solche Befehlssätze implementiert werden, könnte es je nach Anwendungsfall tatsächlich Interessant werden wofür man sich entscheidet. Momentan sehe ich die GPUs dort aber noch klar vorne. Just my 2 cents.

Wenn dann würde ich ein eigenständiges Modul draus machen, dass die selbe Aufgabe erfüllt und den CPU Part unangetastet lassen. Grundsätzlich ist das auf jeden Fall möglich, aber ich habe noch nie mit OpenCL gearbeitet und erachte es auch nicht als ganz trivial auf Basis dessen was ich bisher zur Implementierung gelesen habe. Das wären mehrere Tage Arbeit um erstmal in die Grundlagen einzusteigen, die habe ich momentan leider nicht über.

Edit: Btw hat hier jemand ein ARM basiertes Tablet mit Windows? Könnte dafür auch ne Version bereitstellen. Würde mich mal interessieren, wie sich das ganze im Vergleich dann so schlägt

Janchu88 · 26.03.2020

Interessiert hats mich ja schon lange... hier erste Gehversuche mit OpenCL. Ist über eine in C geschriebene API eingebunden. Spiele etwas mit der API herum, um zu gucken was ich so an Performance darüber raus bekomme und die Ergebnisse sind viel versprechend

De Operationen sind hochgradig trivial, im Endeffekt nur einfache Additionen mit den entsprechenden Datentypen, aber paar Interessante Erkenntnisse für mich gewonnen, wie zum beispielsweise welche Größe an von CPU an GPU übergeben Daten zu einer guten Auslastung führt etc. GPU geht sauber auf 100% Load und taktet auch hoch etc.

Warum die Double Geschwindigkeit so extrem in den Keller geht ist mir ein Rätsel, entweder liegt es an meiner rudimentären Implementierung (sehr wahrscheinlich) oder an der API (eher unwahrscheinlich)... ist für eine potentielle Implementierung aber zweitrangig, da ich primär mit Ganzzahlen arbeite. Mal gucken, ob ich darauf aufbauend was sinnvolles stricken kann.

Holzmann · 26.03.2020

@Janchu88

Du könntest dich mit diesem User mal unterhalten wegen opencl

https://www.hardwareluxx.de/community/threads/mrh-opencl-benchmark-1-1-065.1256345/

Kullberg · 26.03.2020

Sind übrigens diese RAMs, die aufgrund des Tests von Reous kaufen musste

Das Gigabyte TRX40 Aourus Master macht übrigens keine Freude - deshalb kein OC.

Janchu88 · 26.03.2020

Wow, danke für den Beitrag

freut mich, dass die Skalierung sich nochmal so arg verbessert hat. Kann mal ein 3950X Besitzer nen Vergleichsrun mit 3,9GHz machen? Würde mich mal interessieren.

Ich hab parallel den ganzen Tag mit OpenCL zugebracht. Die potentielle Performance ist schon krass, die Herausforderung ist aber der super schmale Befehlssatz. Letztendlich muss man alles bis auf kleinste herunterbrechen. Ist als wolle man ein Auto bauen und hat nur nen Hammer und nen Schraubenzieher, sowie jede Menge Rohmetall zur Verfügung.

Die Kryptographischen Funktionen müssen demnach auch von Grund auf neu geschrieben werden... Unter enormen Zeitaufwand wäre das für einzelne Funktionen evtl machbar. Allerdings fehlt dann jegliche Optimierung... Ich versuche gerade aus nem GitHub Repository was zu übersetzen... ob das klappt, keine Ahnung

Kullberg · 27.03.2020

Ich hab es nochmal beobachtet - er fängt mit 4 GHz an und geht dann mit steigender Temperatur auf 3,925 GHz runter. Durchschnittlich sind es ca. 3,95 GHz. VCore liegt durchschnittlich bei 1,22 V. Der Taskmanager zeigt 100% Auslastung an - also viel besser als bei der ersten Version.
Die Version, die Du mir zuletzt geschickt hast, stürzt übrigens auch auf dem 32 Core Threadripper ab. Kann es sein, dass Du für bitMask ne 32 Bit Variable genommen hast? Die muss 64 Bit haben.

Phantomias88 · 27.03.2020

Janchu88 schrieb:
Warum die Double Geschwindigkeit so extrem in den Keller geht ist mir ein Rätsel, entweder liegt es an meiner rudimentären Implementierung (sehr wahrscheinlich) oder an der API (eher unwahrscheinlich)... ist für eine potentielle Implementierung aber zweitrangig, da ich primär mit Ganzzahlen arbeite. Mal gucken, ob ich darauf aufbauend was sinnvolles stricken kann.

Bei nvidia sind es bei Double precision 1:32 gegenüber Single precision, das ist Hardwareseitig gelockt, nur die Quadro Reihe kann 1:2.

Meine zwei Tahiti haben jeweils 1TFlops Double Precision

Das liegt also nicht an deinem Code.

Kullberg · 27.03.2020

Und so sieht ein 3990X ohne SMT bei 3,6 GHz aus:
809 MH/s | Threadripper 3990X | 3600 MHz @ 0.968V Lukü | 4x16 GB DDR4 3200 CL22 | 3200 IF 1:1

Janchu88 · 27.03.2020

Liste updated

Könnte mir gut vorstellen, dass der mit HT jenseits der 900MH/s landet

Aber einfach krass, was für eine rohe Compute Power die Dinger haben. Btw hat man einfach so 3970X und 3990X rumliegen? Wenn ja wo sind meine?! :fresse:

Holzmann · 27.03.2020

@Kullberg
Dein Ergebnis mit dem 3990X ist atemberaubend! :hail:

Kullberg · 27.03.2020

@Janchu88
Ich habe als kleine Nebentätigkeit ein Gewerbe, was sich mit Computerschach beschäftigt. Und da zählt nur maximale Rechenleistung. Ich hab 2 3970X und 4 3990X. Und einige 2 Sockel Xeons. Und einige CUDA Rechner. Wenn Interesse besteht, kann ich mal den Benchmark auf ein paar Xeons laufen lassen.

Helle53 · 28.03.2020

@Janchu88: Bevor die "Mega Hashes per Second"-Werte durch die Decke schießen ersetze mal bei der Berechnung "100000" durch "1000000"

!

sonnyboy · 28.03.2020

Kullberg schrieb:
@Janchu88
Ich habe als kleine Nebentätigkeit ein Gewerbe, was sich mit Computerschach beschäftigt. Und da zählt nur maximale Rechenleistung. Ich hab 2 3970X und 4 3990X. Und einige 2 Sockel Xeons. Und einige CUDA Rechner. Wenn Interesse besteht, kann ich mal den Benchmark auf ein paar Xeons laufen lassen.

Du hast rund 20.000 Euro (nur) in CPUs investiert für ein kleines Nebengewerbe??? Hut ab! :eek:

Kullberg · 28.03.2020

Naja, es waren ca. 19000, oder ca. 16000 ohne MWSt. Dafür werde ich den Rest des Jahres keine CPUs mehr kaufen, höchstens noch nen Schwung Grakas 3080 Ti, falls die auf den Markt kommen und gut für CUDA sind. Einnahmen hatte ich im ersten Quartal von 14000 incl. MWSt. Das war allerdings positiv beeinflusst durch das Kandidatenturnier für die Schach WM, was gestern allerdings leider wegen Corona abgebrochen wurde. Viel Gewinn bleibt allerdings übers Jahr betrachtet nicht. Von daher ist es eine kleine Nebentätigkeit trotz gar nicht so kleiner Umsätze.

Janchu88 · 28.03.2020

Helle53 schrieb:
@Janchu88: Bevor die "Mega Hashes per Second"-Werte durch die Decke schießen ersetze mal bei der Berechnung "100000" durch "1000000" !

Hahaha... Ja...

The benefits of open source :fresse:

Bin die nächsten Tage unterwegs, aber werde das bei nächster Gelegenheit korrigieren. Liste anpassen sollte nicht so schwer sein

sonnyboy · 29.03.2020

Kullberg schrieb:
Naja, es waren ca. 19000, oder ca. 16000 ohne MWSt. Dafür werde ich den Rest des Jahres keine CPUs mehr kaufen, höchstens noch nen Schwung Grakas 3080 Ti, falls die auf den Markt kommen und gut für CUDA sind. Einnahmen hatte ich im ersten Quartal von 14000 incl. MWSt. Das war allerdings positiv beeinflusst durch das Kandidatenturnier für die Schach WM, was gestern allerdings leider wegen Corona abgebrochen wurde. Viel Gewinn bleibt allerdings übers Jahr betrachtet nicht. Von daher ist es eine kleine Nebentätigkeit trotz gar nicht so kleiner Umsätze.

Danke für die Info! Hätt ich so nicht gedacht. :wink:

CubeZero3485656 · 29.03.2020

102,156

Ryzen 1700

3,0GHz @ 0,9V @ Noctua NH-D15

2 x 8GB DDR3200 CL16

2933MHz 16-18-18-38-69

CubeZero3485656

def · 02.04.2020

121,159

Ryzen 3600

4200 MHz @ 1.100V Noctua NH-D15

2x8 GB DDR4 3600 16-16-16-36

1800 IF 1:1

def

mal mit meinem 24/7 setup gebenched

Kullberg · 03.04.2020

Kann das sein, dass der Benchmark auf Windows 7 nicht läuft? Meine E5 Xeons haben alle W7 - und ich hab ihn da nicht zum Laufen bekommen.

Kenaz · 04.04.2020

48,888

I7 6700K

4600 MHz

2x8GB DDR4-2400 CL15

3000 MHz CL15

Kenaz

Haldi · 04.04.2020

Mal kleinen run gemacht, dazu noch Firefox im hintergrund offen der Musik abspielt.

227.538

Ryzen 3900X

4,1GHz @ 1,25 mit WaKü

2 x 8GB DDR3600 CL16

3600MHz IF 1:1

Haldi

Holzmann schrieb:
@the_patchelor
Warum schaffst du mit 4.3 mehr als ich mit 4.425??, das kann doch nicht sein, da ist doch was faul??
Oder geht der bench so dermaßen mit den RAM Timings ab??

Das ist ne sehr gute frage.... wenn ich da schon auf 227 komme mit 4.1ghz und die anderen 3900X mit 4.5ghz nur auf 229 ^^

Edit: Zweiten durchgang auf 3800MHz IF1900 gemacht, nicht soo nen grossen unterschied. Mal sehen ob ich mehr als 4.1ghz Allcore hinbekomme... hab PBO auf 190W erhöht und komme iwie nie auf meh mhz.

228.844

Ryzen 3900X

4,1GHz @ 1,25 mit WaKü

2 x 8GB DDR3800 CL16

3800MHz IF 1:1

Haldi

Edit2: Allcore Turbo 4.3ghz:

238.194

Ryzen 3900X

4,3GHz @ 1,232V mit WaKü

2 x 8GB DDR3800 CL16

3800MHz IF 1:1

Haldi

Holzmann · 04.04.2020

Denke das meine CPU nicht so gut ist und bei dem Takt einfach nicht mehr stabil läuft. /:

sonnyboy · 04.04.2020

Kenaz schrieb:
48,888 I7 6700K 4600 MHz 2x8GB DDR4-2400 CL15 3000 MHz CL15 Kenaz

Anhang anzeigen 498071

Dein Wert kommt mir arg niedrig vor - gerade bei 4,6 GHz. Leider hab ich grad keinen 4700K zur Hand, sonst hätte ich das mal gegengetestet.

Phantomias88 · 05.04.2020

Kleines Update mit OC: https://abload.de/img/bruteforce1.1_4.9ghzz9kkp.jpg

61,898

FX-8350

@4.9GHz

4x 8GByte DDR3-1866 unbuffered ECC

Autom.

Phantomias88

Hashcat funktioniert auch mit den GPUs (SHA512)

Bruteforce Benchmark (Update V0.11 released )

Kapitän zur See , HWLUXX Vize-Superstar

Computer Schach Freak

Enthusiast

Legende

Enthusiast

Banned

Kapitän zur See , HWLUXX Vize-Superstar

Kapitän zur See , HWLUXX Vize-Superstar

The Saint

Computer Schach Freak

Kapitän zur See , HWLUXX Vize-Superstar

Computer Schach Freak

Banned

Computer Schach Freak

Kapitän zur See , HWLUXX Vize-Superstar

The Saint

Computer Schach Freak

Neuling

Ü35 - Waküclub

Computer Schach Freak

Kapitän zur See , HWLUXX Vize-Superstar

Ü35 - Waküclub

Neuling

Legende

Anhänge

Computer Schach Freak

Experte

Enthusiast

The Saint

Ü35 - Waküclub

Banned