's Avatar

@suessmaus2001

9
Followers
12
Following
4
Posts
20.02.2025
Joined
Posts Following

Latest posts by @suessmaus2001

„Highly processed“ ist ja aber eigentlich eine ziemlich arbiträre und schlecht definierte Kategorie, oder?

17.11.2025 17:17 👍 1 🔁 0 💬 1 📌 0

wenn ich ein eineiiger zwilling wäre, würde ich nicht arbeiten und mich stattdessen von der forschung bezahlen lassen (meinem zwilling könnte ich das bestimmt auch schmackhaft machen)

31.10.2025 16:16 👍 0 🔁 0 💬 0 📌 0
Post image

Können wir KI-Zusammenfassungen trauen? Antwort: Na ja...

Europäische Sender haben das untersucht, hier die wichtigsten Ergebnisse:

22.10.2025 10:22 👍 129 🔁 40 💬 8 📌 2
Deckblatt der Masterarbeit:
Master’s Thesis for the Degree of Master of Science

Titel: From Detection to Correction: A Hybrid Rule–NLP Approach to
Misinterpretations of Nonsignificant p Values

by Raphael Torben Pascal Merz

Deckblatt der Masterarbeit: Master’s Thesis for the Degree of Master of Science Titel: From Detection to Correction: A Hybrid Rule–NLP Approach to Misinterpretations of Nonsignificant p Values by Raphael Torben Pascal Merz

Abstract der Masterarbeit:

Misinterpretations of p values remain widespread in scientific reporting, despite decades of educational efforts and reform initiatives. A common and consequential error is interpreting a statistically nonsignificant result (e.g., p > .05) as evidence for the absence of an effect — a conclusion not supported by null hypothesis significance testing (NHST). This article adopts a human factors perspective, suggesting that automation can help mitigate such persistent errors, much like word processors assist with grammar and spelling. I propose an automated, three-step pipeline that detects, classifies, and optionally corrects misinterpretations of nonsignificant results. The evaluation of each of these steps highlights the promise of such an automated approach: In a validation set of 25 articles, the automatic detection identified 73% of manually extracted statements. Two easily resolvable issues in the search pattern were found which, once addressed, would increase reliability to 93%. For the classification, three BERT-based models were trained on 930 hand-labeled statements, with the standard BERT model achieving the highest macro-F1 score of .92. Finally, the optional correction step proved effective, with 93 of 100 statements from a validation set being correctly phrased after LLM-revision. While improvements remain possible at each step, results suggest that such a system could substantially reduce the prevalence of this misinterpretation. However, risks remain, particularly regarding the automated correction step, which could inadvertently encourage overreliance on AI suggestions. Qualitative user studies will be critical for determining how authors engage with the tool and how it should be implemented. In the long run, this approach has the potential to help authors improve their statistical reporting and to inform large-scale meta-scientific analyses.

Keywords: p value, misinterpretation, automated checks, RegEx, BERT, LLMs

Abstract der Masterarbeit: Misinterpretations of p values remain widespread in scientific reporting, despite decades of educational efforts and reform initiatives. A common and consequential error is interpreting a statistically nonsignificant result (e.g., p > .05) as evidence for the absence of an effect — a conclusion not supported by null hypothesis significance testing (NHST). This article adopts a human factors perspective, suggesting that automation can help mitigate such persistent errors, much like word processors assist with grammar and spelling. I propose an automated, three-step pipeline that detects, classifies, and optionally corrects misinterpretations of nonsignificant results. The evaluation of each of these steps highlights the promise of such an automated approach: In a validation set of 25 articles, the automatic detection identified 73% of manually extracted statements. Two easily resolvable issues in the search pattern were found which, once addressed, would increase reliability to 93%. For the classification, three BERT-based models were trained on 930 hand-labeled statements, with the standard BERT model achieving the highest macro-F1 score of .92. Finally, the optional correction step proved effective, with 93 of 100 statements from a validation set being correctly phrased after LLM-revision. While improvements remain possible at each step, results suggest that such a system could substantially reduce the prevalence of this misinterpretation. However, risks remain, particularly regarding the automated correction step, which could inadvertently encourage overreliance on AI suggestions. Qualitative user studies will be critical for determining how authors engage with the tool and how it should be implemented. In the long run, this approach has the potential to help authors improve their statistical reporting and to inform large-scale meta-scientific analyses. Keywords: p value, misinterpretation, automated checks, RegEx, BERT, LLMs

In meiner Masterarbeit habe ich das Projekt, von dem ich euch heute Vormittag erzählt habe, fortgesetzt. Ich wollte herausfinden, ob man dieses Problem automatisch erkennen und korrigieren kann - ähnlich wie Word und Co. Rechtschreib- und Grammatikfehler erkennen und Korrekturen vorschlagen. 🧠💡

19.10.2025 13:47 👍 11 🔁 2 💬 1 📌 0
Drake Meme: „When p > .05“ (also wenn ein Testergebnis nicht signifikant ist)
Don‘t say: „There is no effect“
Instead say: „My Study is underpowered to find small effects“ (die Studie sollte also mit mehr Versuchspersonen wiederholt werden)

Drake Meme: „When p > .05“ (also wenn ein Testergebnis nicht signifikant ist) Don‘t say: „There is no effect“ Instead say: „My Study is underpowered to find small effects“ (die Studie sollte also mit mehr Versuchspersonen wiederholt werden)

So, da habt ihr die Zusammenfassung des Papers in einem (leider gar nicht so kurzen Thead, sorry!)! Ich hoffe ihr fandet es spannend! :)

19.10.2025 09:05 👍 31 🔁 6 💬 2 📌 0
Balkendiagramm der Prävalenz der Fehlinterpretation für die drei Messzeitpunkte. Die Prävalenz liegt in 2009 und 2015 bei etwas über 80% und in 2021 etwas darunter.

Balkendiagramm der Prävalenz der Fehlinterpretation für die drei Messzeitpunkte. Die Prävalenz liegt in 2009 und 2015 bei etwas über 80% und in 2021 etwas darunter.

Und hier unsere Ergebnisse!
Wir haben noch zwischen zwei Stufen der Fehlinterpretation unterschieden, nämlich ob die falsche Aussage auf die eine Studie und ihre Stichprobe bezogen ist („X hatte keinen Effekt auf Y“) oder generellere Aussagen („Der Effekt ist gleich bei Männern & Frauen“ trifft.

19.10.2025 09:05 👍 7 🔁 1 💬 1 📌 0
Preview
Nonsignificance misinterpreted as an effect’s absence in psychology: prevalence and temporal analyses | Royal Society Open Science Nonsignificant findings in psychological research are frequently misinterpreted as reflecting the effect’s absence. However, this issue’s exact prevalence remains unclear, as does whether this issue i...

Guten Morgen! Heute möchte ich euch noch ein letztes Mal von ein paar spannenden MetaScience Projekten erzählen!

Angefangen mit meinem ersten Projekt in diesem Bereich:
doi.org/10.1098/rsos...

19.10.2025 09:05 👍 26 🔁 7 💬 1 📌 0

Weniger als 0,1% der Menschen im sind unmittelbar ausreisepflichtig.

Wer das Stadtbild also mit Abschiebungen ändern will, muss auch viele Menschen meinen, die sich total legal hier aufhalten.

Dass die CDU solche rassistischen Remigrationsphantasien auch noch verteidigt, lässt sehr tief blicken.

18.10.2025 18:26 👍 1112 🔁 321 💬 23 📌 7

Bevor ich morgen dann wirklich (versprochen!) mehr zu meinem PhD erzähle, möchte ich heute nochmal ein paar statistische Konzepte, die dafür wichtig sind, zusammenfassen: 📈

15.10.2025 18:19 👍 29 🔁 6 💬 1 📌 0
OSF

Aus dieser Idee sind Lehrmaterialien entstanden, die dabei helfen sollen, den Prozess rund um (Ko-)Autor:innenschaften transparenter und insgesamt fairer zu machen.
Wenn ihr das spannend findet, könnt ihr unsere Dokumente hier finden: osf.io/tygsp/!

13.10.2025 11:56 👍 5 🔁 1 💬 1 📌 0

In vielen Disziplinen (z. B. der Psychologie) werden Effekte häufig binär interpretiert: Ein Effekt ist also entweder da oder nicht da.
Das klingt schön einfach, aber man merkt schnell, dass die Welt so nicht funktioniert.

14.10.2025 07:49 👍 12 🔁 2 💬 1 📌 0

huh that all-billionaires-are-evil thing keeps being true.

11.09.2025 01:51 👍 504 🔁 93 💬 13 📌 1

Absätze setzen ist eine wirklich hohe Kunst

28.08.2025 14:25 👍 1 🔁 0 💬 0 📌 0

ich glaube es gibt in ganz europa nur einen einzigen anbieter der diese piep-dinger an den türen von zügen einbaut

22.07.2025 16:59 👍 1 🔁 0 💬 0 📌 0