[Sammelthread] Der Gehalts- und Arbeitsplatzthread

@Geforce3M3
Stark vereinfacht steht ihr doch vor folgender Herausforderung:
Du / Ihr schreibt code. Dieser Code muss irgendwo ausgefuehrt werden, damit hinten ein Ergebnis rausfaellt.

Und genau diese ausfuehrende Umgebung ist in so nem CI/CD Konstrukt nichtmehr dein eigener Rechner, sondern ein remote-rechner, der genau fuer diese Aufgabe maßgeschneidert ist.

Das einzige was du als User tust: Du pushed und commitest deinen Code in ein Repository. Danach rennt die Pipeline los, checked den Code aus und fuehrt ihn auf dem Buildagent aus.
Diesen Buildagent zu bauen kostet am Anfang recht viel Zeit und Aufwand. Doch danach profitierst du nur noch.
Der Agent kann beispielsweise nen bare-metal Server sein (macht man heute nichtmehr) auf dem python, alle dependencies etc.. installiert sind - quasi wie dein eigener Computer.
Du kannst de Agenten aber auch in nen Docker Container packen (diese lassen sich dann auch fuer eure unterschiedlichen Anforderungen parametrisieren/unterschiedlich voneinander gestalten).


Aber es ist halt super flexibel und du musst dich nichtmehr mit den eigenen User-Umgebungen herumschlagen. Kann naemlich sein dass bei dir der Code laeuft und bei deinem Kollegen halt nich, weil ihm ne env-variable oder sonstwas fehlt. Und dann muss man halt immer rumfrickeln.

Weitere Vorteile sind: Es ist egal ob du nen Mac nutzt und dein Kollege ne Windows buechse. Ihr braucht nur ne Entwicklungsumgebung auf euren Maschinen, das ist alles. Der Rest passiert wo anders - standardisiert, fuer alle gleich.

Soll nicht belehrend sein hier, evtl. hilfts dir ja weiter :)

//edit: Je mehr User damit arbeiten oder je hoeher die Fluktuation der Kollegen ist, desto mehr lohnt es sich sich mit dem Thema auseinanderzusetzen.
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
@p4n0. Erst einmal danke für die Erklärung.

Soll nicht belehrend sein hier, evtl. hilfts dir ja weiter :)
Keine Sorge, habe ich so nicht verstanden, freue mich über Feedback.

Das allgemeine Problem ist folgendes:
1. Die Daten (input für den Code) sind nie exakt gleich. Code A funktioniert bei Person/Gehirn X. Bei Person Y (anderes Gehirn) benötigt du Code A1.
Beispiel: du hast 40 Personen in einer Studie gescannt. Bei 20 Personen funktioniert der Code. Bei anderen 20 kommt Unsinn bei raus. D.h. Code muss individuell je nach Person angepasst werden.

2. Die genauen Ziele der Analyse sind immer anders. Was heißt das? Das heißt dass du, wenn du erstmal brauchbare Ergebnisse hast, am Ende die gesamte Pipeline von A bis Z auf deine spezifische Analyse anpasst/tailorst! Alleine das gesamte Preprocessing der Daten, d.h. die Vorverarbeitung/Aufbereitung bevor du die eigentlichen Analysen beginnst musst du individuell auf die Analysen anpassen die du nacher eben anstellen willst.
Welche Preprocessing Schritte sind optimal für Messung X oder Y? Da scheiden sich je nach Fall schon die Geister. Bei manchen Schritten stimmen alle überein, bei anderen gibts Diskussionen und unterschiedliche Ansichten.

D.h. es kann keine Codepipeline geben die allgemein zu guten oder sehr guten Ergebnissen führt. Die ganze Pipeline hängt von individuellen Analysen und Zielen ab. Dazu von Eigenschaften des Datasets. Mit welchen Scannersettings wurde aufgenommen etc? All das und viel mehr beeinflusst den notwendigen Code.

Und was in welchem Fall ideal ist kann man a priori nicht vollständig sagen da auch viel trial and error dabei ist. Stattdessen muss du immer wieder neu coden und anpassen. Ansonsten könnte ich natürlich einfach Code auf github und co hochladen oder sogar wie du sagst eine ideale "workenvironment" auf einen Server schaffen.

Jetzt verstanden? Oder reden wir aneinander vorbei und ich verstehe dich nicht?

Das Problem ist weniger dass die Software hier und da mal "verkackt" weil beispielsweise ne dependency fehlt, sondern weil die Daten die verarbeitet werden komplex sind und individuelle Handhabung benötigen, quasi no one code to rule them all.
 
1. Die Daten (input für den Code) sind nie exakt gleich. Code A funktioniert bei Person/Gehirn X. Bei Person Y (anderes Gehirn) benötigt du Code A1.
Beispiel: du hast 40 Personen in einer Studie gescannt. Bei 20 Personen funktioniert der Code. Bei anderen 20 kommt Unsinn bei raus. D.h. Code muss individuell je nach Person angepasst werden.
Das ist kein Problem. Gesondertes Repo, Forks, Staging Branches etc.. Kann man mit nem passendem GitHub Setup abbilden.
Die Pipeline laesst sich parametrisieren durch welchen 'Compiler' dein Input-Code durchgenudelt wird.

Alleine das gesamte Preprocessing der Daten, d.h. die Vorverarbeitung/Aufbereitung bevor du die eigentlichen Analysen beginnst musst du individuell auf die Analysen anpassen die du nacher eben anstellen willst.
Welche Preprocessing Schritte sind optimal für Messung X oder Y? Da scheiden sich je nach Fall schon die Geister. Bei manchen Schritten stimmen alle überein, bei anderen gibts Diskussionen und unterschiedliche Ansichten.
Ich verstehe zwar nicht ganz im Detail was ihr da genau tut aber auch hier ist ne Pipeline parametrisierbar in unterschiedliche Stages.
Du kannst unterschiedliche Pipelines bauen (Kannst du dir wie ein Kochbuch vorstellen).

Um das etwas zu veranschaulichen:
1.) Code auschecken. Das sollte fuer alle Faelle allgemeingueltig sein.
2.) Pre-Processing. Hier kann es sein, dass das eine Gericht erst kochendes Wasser braucht. Also wird die Pipeline erst den Herd einschalten damit das Wasser kocht.
Dieser 2. Schritt MUSS nicht in jeder Pipeline vorkommen. Bei ner anderen Pipeline kann der Code direkt durch den Compiler gejagt werden.
etc. etc..

Diese Schritte koennen aber auch generelle Themen wie Codeanalysis, securitychecks oder sonstwas sein. z.B: Pruefen ob sich jeder an eure Programmier-Regeln haelt etc. Unit tests etc..

Ich glaube schon langsam zu verstehen dass ihr recht flexible Anforderungen an eure 'Build-Umgebung' habt. Warscheinlich waere das in deinem Fall mit Kanonen auf Spatzen geschossen. Steckt wohl zuviel Arbeit dahinter das sauber zu 'Verpipe-Linen'.
 
Das ist kein Problem. Gesondertes Repo, Forks, Staging Branches etc.. Kann man mit nem passendem GitHub Setup abbilden.
Die Pipeline laesst sich parametrisieren durch welchen 'Compiler' dein Input-Code durchgenudelt wird.
Ich versteh was du meinst, hab damit ja auch täglich zu tun, aber ich versuchs trotzdem mal extremst zu vereinfachen, damit "Fachfremde" das einfach verstehen können.

Man stelle sich n Trichter an einer Maschine vor, dort kann man unterschiedliche Ergebnisse reinwerfen. Für die variablen Sachen kann man zwei drei Hebel an der Maschine verstellen, der Rest funktioniert automatisch.

Diese Maschine mit den Hebeln zu bauen ist dass was mit Pipeline, Scripts, etc. gemeint ist. Trichter ist dann dein "Commit der Daten auf einen Branch ins Repository" :P
 
Das ist kein Problem. Gesondertes Repo, Forks, Staging Branches etc.. Kann man mit nem passendem GitHub Setup abbilden.
Die Pipeline laesst sich parametrisieren durch welchen 'Compiler' dein Input-Code durchgenudelt wird.


Ich verstehe zwar nicht ganz im Detail was ihr da genau tut aber auch hier ist ne Pipeline parametrisierbar in unterschiedliche Stages.
Ich weiß, das ist mir klar. Ich drücke das mal als Laie wie folgt aus. Man kann eine Pipeline über zig "if elif else" stages variabel anpassen lassen. Das meinst du, korrekt?
Ich glaube schon langsam zu verstehen dass ihr recht flexible Anforderungen an eure 'Build-Umgebung' habt.
Genau, das ist das Problem. Und ich habe gerade eine Wall of Text geschrieben um zu erklären wie verdammt flexibel das sein muss und man das eben nicht über nen paar parametisierbare Pipelines schaffen kann. Aber dann habe ich den ganzen Text wieder gelöscht weils einfach too much ist und hier eh die wenigsten interessiert. Deshalb glaube mir einfach dass es zu komplex ist und jede Analyse im Endeffekt einzigartig ist, d.h. nicht standardisierbar ist. Ich habe für jede Studie neue Scripts, da ist fast nichts was ich einfach plug and play wieder nutze, auch nicht mit nen paar geänderten Parametersettings. Das ist immer eine endlose Anpassung bis man die Daten so durchgemelkt hat dass man gute Ergebnisse erzielt. Was in dataset A gut funktioniert verkackt in dataset B vollkommen. Klar, bei der Vorverarbeitung der Daten kann einiges ähnlich sein, da kann man eher noch gewisse variable Pipelines bauen wie du sagst, das stimmt. Aber wenn es nacher auf die einzelnen Messungen zugeht wird das sowas von individuell, da ist quasi fast alles immer anders.
 
Wie funktioniert das in Deutschland eigentlich mit den Steuerklassen zum Bruttogehalt vereinfacht, ohne das man 1 Woche am nachlesen ist?
 
Also am einfachsten ist es eine Woche nachzulesen. Es besteht allerdings die Gefahr, danach blöder zu sein, als vorher.
 
Es gibt nen Freibetrag pro Arbeitnehmer im Jahr. Auf diesen bezahlt man keine Steuern. Wenn man verheiratet ist, kann man sich gemeinsam veranlagen, dabei werden beide Einkommen und beide Freibeträge zusammengerechnet. Verdient eine Person sehr wenig oder gar nichts, ist das von Vorteil da die zweite Person dann quasi den zweiten Freibetrag mit "aufbrauchen" kann und weniger Steuern zahlt. Die Steuerklassen sind dafür gar nicht so relevant weil das nur regelt ob man diesen Abzug sofort bekommt (also bei der Berechnung vom Arbeitgeber für das Gehalt direkt mehr ausbezahlt wird), oder erst mit der Steuererklärung im nächsten Jahr.

*edit*
Falls du es nicht wusstest, als Single bist du in DE in Stkl1. Nur zur Info, falls du nen Bruttorechner nutzen willst und das da abgefragt wird.
 
OK und wie ist das mit dem 13. und 14. geregelt wie es in Österreich Standard ist?
 
In Deutschland gibt es das 13. und 14. Monatsgehalt nicht verpflichtend und auch diese (ich glaube 6%) vergünstigte Besteuerung wie in Österreich daher nicht.
Es wird einfach dein Bruttojahresgehalt angeschaut und nach Lohnsteuertabelle versteuert (natürlich nach Abzug von allen Freibeträgen etc.).
 
OK und wie ist das mit dem 13. und 14. geregelt wie es in Österreich Standard ist?
Für dich ist das uu. Standard, in Österreich ist das grundsätzlich nicht Standard. Die meisten Branchen haben einfach einen KV, der das regelt und für die Unternehmen, die keinen KV haben, wird es vermutlich in den Verträgen selbst geregelt. Aber nein, es gibt einige Branchen ohne 13/14. Gehalt
 
Du scheinst in einer Niesche zu arbeiten wo es keine Gewerkschaft bzw. KV dafür gibt, nahezu jeder andere Job der über KV geregelt ist, hat den 13. & 14.

Daher ist das dennoch im Großteil von Österreich Standard.
 
Ich hab nicht gesagt, dass ich kein 13. oder 14. bekomme, sondern dass es durchaus einige Branchen gibt, bei denen das eben nicht so geregelt ist.

Somit hast du grundsätzlich Recht, es ist durchaus Standard, aber nicht selbstverständlich 👌
 
EDIT 2024-03-07: Jetzt hab' ich hier iwie die History kaputt gemacht, wollte eigentlich einen neuen Post hinzufügen, hab's ungefähr Nachgebaut

<ungefähr das stand hier ursprünglich drin>
Die meiste in der Wissenschaft verwendete Software hat sehr hässliche Abhängigkeiten

Die meisten Anwender sind vollkommen überfordert und heutzutage u.U. auch nicht wirklich das, was man sich unter Wissenschaftler vorstellt...

Theoretisch kann man Container bauen, gute Leute (in US-Nationallabs, bei Tech-Konzernen in der Forschung) tun das auch, die überforderten schaffen es dann nicht, die Container upzudaten:

<und das sollte in einen neuen Post>


Noch ergänzend zu gestern, weil ich das Thema auch am Arbeitsplatz hatte (Chemie-Juniorprofessor mit Elite-Uni Stallgeruch fand den von seinem Unterling erstellten BS aber so toll, dass er 2h Meeting brauchte, um einen Doppelbruch zu kürzen (einfachste Möglichkeit, den in 10 Slides wissenschaftlich dargestellen BS zu beerdigen) und festzustellen, dass das BS ist, weil es doch so schön in seine Hypothese passt :)).

Ein Grund ist da man in allen möglichen Einstellungen zig Details an die eigene Hardware und an die eigenen Analyseziele anpassen muss. D.h. eine Einstellung die für alle User dann passt gibt es nicht. Man kann da auch schlecht "preconfigured" settings anbieten, denn was wie wo passt muss auch immer neu entdeckt werden – eben je nach neuer Analyse.
Kann man auch in einen Container stecken. Siehe voriger Beitrag.

Und genau diese ausfuehrende Umgebung ist in so nem CI/CD Konstrukt nichtmehr dein eigener Rechner, sondern ein remote-rechner, der genau fuer diese Aufgabe maßgeschneidert ist.
Und welchen Vorteil hat das? Den Remote-Rechner muss man genauso verwalten wie den eigenen Rechner auch. Den meisten Anwendern fehlen die Basics, vielen auch die nötige Abstraktionsfähigkeit :fresse:

Aber es ist halt super flexibel und du musst dich nichtmehr mit den eigenen User-Umgebungen herumschlagen. Kann naemlich sein dass bei dir der Code laeuft und bei deinem Kollegen halt nich, weil ihm ne env-variable oder sonstwas fehlt. Und dann muss man halt immer rumfrickeln.
Genauso wenn dein Kollege nicht auf deinen Cloud-Rechner darf (andere Uni). Die meisten Leute, die etwas kompetent sind, stellen sich eine Workstation iwo hin und lassen ihre Studenten dann dort "ihre" Entwicklungsversion nutzen. So hatte ich das vor ~9a in Erasmus bei einem Forschungs-Feature-Entwickler für eine nicht ganz unbekannte Molekulardynamik-Software festgestellt. Der hatte einen Nehalem-Xeon unter dem Schreibtisch, da bekam ich ein Passwort und konnte mich bis kurz nach Corona noch einloggen (hatte eine öffentlich IP) :fresse2:
Bei 20 Personen funktioniert der Code. Bei anderen 20 kommt Unsinn bei raus. D.h. Code muss individuell je nach Person angepasst werden.
Mal eine kurze Frage: Wieso ist das Unsinn was da raus kommt? Weil es nicht den Erwartungen entspricht? Dahin anschließend:

Die Pipeline laesst sich parametrisieren durch welchen 'Compiler' dein Input-Code durchgenudelt wird.
Die Pipeline lässt sich natürlich parametrisieren. Bei dem, was manche iwo sicher unter Wissenschaft verstehen, ist das auch erstrebenswert, wenn man allerdings aus jedem Datensatz Erkenntnis in Form einer Publikation erzeugen muss, will man vmtl. alles anpassen können... Der gesellschaftliche Mehrwert dieses Vorgehens erschließt sich mir nicht, ist aber gelebte Realität. Geforce3M3 scheint damit besser klarzukommen als ich und ist sich dessen wohl zumindest in der tlw. Anonymität hier auch bewusst - 80% seiner Kollegen sind entweder zu dumm oder böswillig nicht interessiert (siehe den Mensch mit dem Doppelbruch). Mit den gesamtgesellschaftlichen Trends wird das aber leider nicht besser und mittlerweile machen diese Leute LLMs für die Wissenschaft :shot:

Anderes Beispiel dazu aus dem Erasmus; ein Praktikum: "bitte verwende Jet als Colormap, da sieht man das besser" - "aber es gibt ja nichts zu sehen, das sieht man doch gut mit Viridis" (Kontext: https://stats.stackexchange.com/questions/223315/why-use-colormap-viridis-over-jet) - "ich nehme immer Jet, da sieht man das". Bei uns (Top 50 im QS-Ranking) gingen solch ehrlichen Reports i.d.R. durch (hättet ihr vmtl. besser messen müssen, aber sauber gemacht, Theorie könnt ihr auch, passt), dort (Top 200 im QS-Ranking, Skandinavien) hab' ich es dann aufgegeben (wollte ja auch was von meinem Erasmus haben...).
 
Zuletzt bearbeitet:
(ich denke nur an unser Hochschulrechenzentrum - immer wieder in den TOP500)
Das zieht sich bei allen Schulen in anderen Bereichen genauso hin, Berufsschule:
A) Auto CAD
B) Solidworks
C) Siemens NX

usw.

Geht dann weiter bei 2D CAD, in der Schule Metallix , keine sau verwendet das doch der regional größte AG.
Der andere große hat WICAM.
 
Mal eine kurze Frage: Wieso ist das Unsinn was da raus kommt? Weil es nicht den Erwartungen entspricht?
Das Gehirn kann z.B. verformt sein, also krumm und schief. Daher muss der Code angepasst werden und ein neuer Anlauf ist notwendig.

Dahin anschließend:


Die Pipeline lässt sich natürlich parametrisieren. Bei dem, was manche iwo sicher unter Wissenschaft verstehen, ist das auch erstrebenswert, wenn man allerdings aus jedem Datensatz Erkenntnis in Form einer Publikation erzeugen muss, will man vmtl. alles anpassen können... Der gesellschaftliche Mehrwert dieses Vorgehens erschließt sich mir nicht, ist aber gelebte Realität. Geforce3M3 scheint damit besser klarzukommen als ich und ist sich dessen wohl zumindest in der tlw. Anonymität hier auch bewusst
Falsche Annahme. Jede Messung bzw. jedes Ziel bedarf dass man alle vorherigen Schritte genau anpasst. Nur ein Beispiel von unendlich vielen: sagen wir ich berechne eine Fourier Transform für einen gesamten Run der viele Minuten lang ist. Dann kann ich bis auf 0.01 Hz runtergehen (0.01 Hz = 100 Sekunden).

Wenn ich eine sliding window analyse auf eine time-series lege, also z.B. immer in 30 Sekunden Fenstern den Messwert neu berechne, dann ist die langsamste Frequenz in dem Fenster 1/30 = 0.033 Hz. Und wenn ich dann wenigstens 3 cycles für ne bessere Amplitudenbestimmung haben möchte sind es 0.033 Hz * 3 = 0.099 Hz als niedrigstes Limit. Und so zieht sich das durch den kompletten Code durch. Hat nix mit "cheaten" zutun. Also bitte nicht gleich mir unterstellen dass ich Ergebnisse fake.

"80% seiner Kollegen sind entweder zu dumm oder böswillig nicht interessiert"

Puhhh, wenn ich sowas lese... Das Problem ist dass hier zuviele Klugscheisser sind die meinen alles zu wissen (aber eigentlich keinen Plan haben). Sorry.
 
Zuletzt bearbeitet:
Das Gehirn kann z.B. verformt sein, also krumm und schief. Daher muss der Code angepasst werden und ein neuer Anlauf ist notwendig.
und das kann man nicht parametrisieren? Oder am Besten automatisch fitten? - machen Bereiche, die in den 90ern groß geworden sind auch automatisch. https://www.ks.uiuc.edu/Research/vmd/current/ug/node201.html

Deine Daten sind sicher komplexer als das https://github.com/rafcc/pytorch-bsf, aber sicher auch nicht unmöglich.
jedes Ziel bedarf dass man alle vorherigen Schritte genau anpasst
ooook. Du passt also iterativ Deine Datenanalyse so an, dass du zum gewünschten Ergebnis kommst. Und immer anders. Das riecht für mich sehr nach p-Hacking.

Wenn ich eine sliding window analyse auf eine time-series lege, also z.B. immer in 30 Sekunden Fenstern den Messwert neu berechne, dann ist die langsamste Frequenz in dem Fenster 1/30 = 0.033 Hz. Und wenn ich dann wenigstens 3 cycles für ne bessere Amplitudenbestimmung haben möchte sind es 0.033 Hz * 3 = 0.099 Hz als niedrigstes Limit. Und so zieht sich das durch den kompletten Code durch
Glückwunsch, Parameter 1 gefunden. Dann kannst du den anpassen und sicher erklären, warum man ihn über Studien verändern kann und wie man dann Studien mit verschiedenen Signalen miteinander vergleichen kann. Dann kann man irgendwann auch versuchen Zusammenhänge über Samplesize 1 zu finden. Und versteh' mich nicht falsch: das mäandernde Daten sammeln und korrelieren gehört auch zur Wissenschaft. Aber wenn kaum jemand mehr versucht die Dinge zu strukturieren (geht halt auch nicht im 2-Jahresrhythmus) und 80% im wesentlich immer qualitativ ähnliche, kaum reproduzierbaren Experimente machen, ohne sich im geringsten um quantitative Verwertung zu scheren, ist das Mist.

Hat nix mit "cheaten" zutun. Also bitte nicht gleich mir unterstellen dass ich Ergebnisse fake.
Geforce3M3 scheint damit besser klarzukommen als ich und ist sich dessen wohl zumindest in der tlw. Anonymität hier auch bewusst - 80% seiner Kollegen
Du spielst das Spiel, das man da spielt. Wo hab' ich eigentlich gesagt, dass du Ergebnisse fakest? Ich bin bisher davon ausgegangen, dass du halt deine Experimente machst und dann halt irgendwelche Paper schreibst. Wenn du jedes Experiment anders auswertest und die Daten in ein opaques PDF steckst, bringt das das Feld genau wie weiter? Aber sehr interessant, deine Reaktion.

Puhhh, wenn ich sowas lese... Das Problem ist dass hier zuviele Klugscheisser sind die meinen alles zu wissen (aber eigentlich keinen Plan haben). Sorry.
ich hab' das 5 Jahre gemacht und hab' das ab Jahr 2 nur so lange gemacht, dass ich bei sowas iwann (hab' mich jetzt abgesetzt, was das jetzt deutlich verzögert) sagen kann "du, ich bin genauso qualifiziert wie du" ;). Hab' vmtl. mehr Erfolg gehabt, als Reviewer Mist zu rejecten, als als Wissenschaftler mich selbst zu promoten.

Hab' das oben ja schon beschrieben. Wenn man über 4+ Universitäten und 3 Bubbles in seiner "Karriere" folgendes mitbekommt, darf man glaub' ich in einem Forum auch mal über seine "Kollegen" pauschalisieren:
- Postdocs, die sich als Experten gerieren, eine proprietäre Software "können", dort händisch für jedes Experiment Input-Files erstellen und dann nicht feststellen, wenn diese Inputfiles kaputt sind (...). Hab' dann in beiden Fällen mit dem Wissen aus meiner Masterarbeit die Input-Files auch fachlich (!) angepasst und die Performance um den Faktor 10 erhöht (schadet nicht, wenn man ein bisserl Theorie kennt und weiß, wie das die Software macht...) (2x) Dem einen hab' ich dann versucht zu erklären, dass er seine (Parameter-Sweep)-Experimente auch automatisieren kann, dann durfte ich 2 Wochen später ChatGPT-Skripte korrigieren. Hab's dann aufgegeben. Immer noch im Rennen :).
- ein Doktorand, der 5000 Simulationen gefahren hat (teils für einen anderen Doktoranden, der die Zeit dann zum Networking genutzt hat und jetzt bald Prof. ist :)), nur waren die Parameter noch hart ins Programm einzukompilieren, d.h. er hat 5000 Kopien des Quellcodes angelegt (inkl. Boost im Folder). Hab' dann das Makefile angepasst, weil der Netzwerkspeicher vollief. Kollege hat die Idee genommen und 5 Jahre neuimplementiert (und jetzt ist das Thema nicht mehr in, d.h. er ist jetzt C++-Experte im Rüstungssektor :)). Hat dabei u.a. festgestellt, dass ein paar Bugs in der alten Version waren, sprich' ein großteil der publizierten Ergebnisse für die Tonne ist...
- der erwähnte Doktorand an der renommierten skandinavischen Uni hat mir sehr klar gemacht, dass sein Ziel nicht eine neutrale Auswertung der Daten war, sondern seine Hypothese zu bestätigen...
- PV-Forschung: Leute machen im wesentlichen Experimente, die man in der Küche machen kann (bis auf das Blei). Ohne Plan, ohne Reproduzierbarkeit. Dann große Konferenzen/Proklamationen: wir standardisieren die Umgebungsbedingungen! Das Nature Communications-Paper dazu "Luftfeuchte: das können wir nicht kontrollierbar machen"
- der Juniorprofessor, der einen Postdoc hat, der Slides macht, die seine Hypothese unterstützen, dann seinen Namen draufschreibt und dann ewig rumeiert, wenn man ihm sagt: "das macht keinen Sinn, du behauptest der Doppelbruch gibt eine vorher-nachher-Relation an - das 'nachher' kann man aber rauskürzen..."
- ein Paper von einem Menschen, der schon relativ lang in Los Alamos forscht: tolles Machine-Learning-Modell, "weil es so gut funktioniert haben wir jetzt nur einen Test mit der Hälfte des Testsets gemacht" - 2 Reviewer "super", ich: "wenn ich das Testset zufällig auswähle, ist die Selektion schon ein sehr großer Zufall".
- schau dir mal Leute an, die Zellsegmentierung mit ML machen. Da nimmt man U-Nets. 80% der Leute haben aber nicht die Loss-Funktion des Original-Papers implementiert (sondern halt irgendein Einsteiger-Tutorial) und daher eher suboptimale Ergbenisse...............

Da kann man bei der Analyse schon zum Ergebnis kommen, dass heute im akademischen Umfeld die Bewertungsmaßstäbe und Auswahlkriterien schon sehr von dem abweichen, was man dort gesellschaftlich erwartet... Mein persönlicher Eindruck ist, dass dort in der Breite (80%) v.a. verschiedene Manipulatoren und die, die sonst nix finden überbleiben - um die Sache geht es denen nicht wirklich. Die, die wirklich gute Arbeit machen, haben entweder das Glück, einen Förderer zu haben, der ihnen 5-8a einen Arbeitsplatz bietet und genügend Einfluss hat, dass das Ergebnis dann noch jemanden interessiert, sind extrem krass organisiert (1 Woche nach der Entbindung ist man wieder im Call fürs Paper...) oder gehen zu Konzernen in die Forschungsabteilung - ein paar Idealisten gibt's sicher auch noch ;). Gesellschaftlich eine sehr ungünstige Dynamik und wie ich den etwas ungläubigen Beiträgen von p4no, tundor und Co. entnehmen würde, ist das noch nicht überall angekommen, was heutzutage leider der niedrige Standard des wissenschaftlichen Arbeitens ist.

//edit: Je mehr User damit arbeiten oder je hoeher die Fluktuation der Kollegen ist, desto mehr lohnt es sich sich mit dem Thema auseinanderzusetzen.
ja. Aber warum sollte man als Fürst im Feudalstaat mit ausreichend verfügbaren Leibeigenen was an der Sache ändern?
 
ja. Aber warum sollte man als Fürst im Feudalstaat mit ausreichend verfügbaren Leibeigenen was an der Sache ändern?
Du bist eine Labertasche und dein gesamter Beitrag zeigt mal wieder dass du gar keine Ahnung von den Analysen hast die ich mache.

Und weißt du was? Dass du genau SO eine Antwort geben wirst nachdem ich schon deine erste Reaktion gelesen habe war mir sowas von klar. Es hat keinen Sinn mit Leuten wie dir zu diskutieren.

"ooook. Du passt also iterativ Deine Datenanalyse so an, dass du zum gewünschten Ergebnis kommst. Und immer anders. Das riecht für mich sehr nach p-Hacking."

Allein dieser Satz. Es ist nur schade dass hier wahrscheinlich genügend Laien sind die den Unsinn den du schreibst noch glauben. Ich vermute mal dass du absolut keine Ahnung von time-series Analysis hast.. ."p-hacking", lol. Es tut mir leid aber es macht halt keinen Sinn auf Augenhöhe zu diskutieren wenn es dir nur darum geht dein Gegenüber als "depp" darzustellen und dich versuchst gleichzeitig zu profilieren.
 
Zuletzt bearbeitet:
Und dann ich, der p-hacking erstmal googeln muss… :fresse:
Vor allem hat p-hacking gar nichts mit einer ordentlichen Anpassung der Datenanalyse zutun. Wenn ich diese Seite hier Kollegen schicke lachen die sich kaputt darüber was hier wieder geschrieben wird.

Sowas kann man nur schreiben bzw. annehmen wenn man die Zusammenhänge gar nicht versteht, ja wenn Grundlagenwissen vollkommen fehlt. Das liest sich halt für mich so als ob man sein Gegenüber für dumm verkauft oder darstellen will. Erst heißt es die Kollegen sind alle doof und man würde die Analyse quasi manipulieren. Dann wird einem p-hacking unterstellt.

Ich bin da raus an dieser Stelle... Abgesehen davon: wer so Analysen manipuliert und wenn das rauskommt verliert man den Job und hat eventuell weitere legale Probleme. Solche Unterstellungen sind zwar in einem offtopic egal, aber im realen Leben kann man damit Leuten Existenzprobleme machen wenn sie ihren Job verlieren und es gibt schon genügend schlimme Leute in der Wissenschaft die über Leichen gehen. Schade dass ich hier sowas nun auch noch mir gegenüber lesen muss...
 
dass du gar keine Ahnung von den Analysen hast die ich mache.
vmtl. sowas, oder : http://prefrontal.org/files/posters/Bennett-Salmon-2009.pdf ;). Scheint auch heute nicht das Gelbe vom Ei zu sein: https://en.wikipedia.org/wiki/Functional_magnetic_resonance_imaging#Criticism Und ja, du kannst gerne Deine Daten erheben und publizieren - ich glaube sogar, dass du das (du machst es wohl gern), gewissenhaft machst. Aber erzähl' mir nicht, dass dort nicht genauso viel Grütze rumfliegt, wie woanders.

Ich vermute mal dass du absolut keine Ahnung von time-series Analysis hast.. ."p-hacking", lol.
es ist richtig, ich weiß nicht, was du tust. Ich glaube nur, dass das, was du tust, nicht notwendigerweise allgemeine Erkenntnisse liefert, was auch damit zusammenhängen kann, dass du das gar nicht wünschst. Bin mit der Ansicht im Übrigen nicht allein: https://news.ycombinator.com/item?id=27244311

Nur ein Beispiel von unendlich vielen: sagen wir ich berechne eine Fourier Transform für einen gesamten Run der viele Minuten lang ist. Dann kann ich bis auf 0.01 Hz runtergehen (0.01 Hz = 100 Sekunden).

Wenn ich eine sliding window analyse auf eine time-series lege, also z.B. immer in 30 Sekunden Fenstern den Messwert neu berechne, dann ist die langsamste Frequenz in dem Fenster 1/30 = 0.033 Hz. Und wenn ich dann wenigstens 3 cycles für ne bessere Amplitudenbestimmung haben möchte sind es 0.033 Hz * 3 = 0.099 Hz als niedrigstes Limit. Und so zieht sich das durch den kompletten Code durch. Hat nix mit "cheaten" zutun. Also bitte nicht gleich mir unterstellen dass ich Ergebnisse fake.

Und die Logik hier kann man automatisieren ;). EDIT: Siehe auch hier: https://fmriprep.org/en/stable/installation.html

Erst heißt es die Kollegen sind alle doof und man würde die Analyse quasi manipulieren. Dann wird einem p-hacking unterstellt.

Ich bin da raus an dieser Stelle... Abgesehen davon: wer so Analysen manipuliert und wenn das rauskommt verliert man den Job und hat eventuell weitere legale Probleme. Solche Unterstellungen sind zwar in einem offtopic egal, aber im realen Leben kann man damit Leuten Existenzprobleme machen wenn sie ihren Job verlieren und es gibt schon genügend schlimme Leute in der Wissenschaft die über Leichen gehen. Schade dass ich hier sowas nun auch noch mir gegenüber lesen muss...

Scheint dich sehr zu aufzuregen. Relativ klar scheint: Moderne Wissenschaft ist von Manipulation und bereitwillig hingenommener Schluderei verseucht. Das wird auch in Deinem Gebiet so sein, einfach weil es billiger ist, damit zu den gewünschten Ergebnissen zu kommen. Finde es relativ krass, dass du das noch nicht wahrgenommen hast?


Jaja, die Konsequenzen ...

EDIT: wieviele Daten wirfst du eigentlich weg, weil du nichts findest?
 
Zuletzt bearbeitet:
sind wir hier eigentlich noch im thema? :confused:
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh