„Highly processed“ ist ja aber eigentlich eine ziemlich arbiträre und schlecht definierte Kategorie, oder?
„Highly processed“ ist ja aber eigentlich eine ziemlich arbiträre und schlecht definierte Kategorie, oder?
wenn ich ein eineiiger zwilling wäre, würde ich nicht arbeiten und mich stattdessen von der forschung bezahlen lassen (meinem zwilling könnte ich das bestimmt auch schmackhaft machen)
Können wir KI-Zusammenfassungen trauen? Antwort: Na ja...
Europäische Sender haben das untersucht, hier die wichtigsten Ergebnisse:
Deckblatt der Masterarbeit: Master’s Thesis for the Degree of Master of Science Titel: From Detection to Correction: A Hybrid Rule–NLP Approach to Misinterpretations of Nonsignificant p Values by Raphael Torben Pascal Merz
Abstract der Masterarbeit: Misinterpretations of p values remain widespread in scientific reporting, despite decades of educational efforts and reform initiatives. A common and consequential error is interpreting a statistically nonsignificant result (e.g., p > .05) as evidence for the absence of an effect — a conclusion not supported by null hypothesis significance testing (NHST). This article adopts a human factors perspective, suggesting that automation can help mitigate such persistent errors, much like word processors assist with grammar and spelling. I propose an automated, three-step pipeline that detects, classifies, and optionally corrects misinterpretations of nonsignificant results. The evaluation of each of these steps highlights the promise of such an automated approach: In a validation set of 25 articles, the automatic detection identified 73% of manually extracted statements. Two easily resolvable issues in the search pattern were found which, once addressed, would increase reliability to 93%. For the classification, three BERT-based models were trained on 930 hand-labeled statements, with the standard BERT model achieving the highest macro-F1 score of .92. Finally, the optional correction step proved effective, with 93 of 100 statements from a validation set being correctly phrased after LLM-revision. While improvements remain possible at each step, results suggest that such a system could substantially reduce the prevalence of this misinterpretation. However, risks remain, particularly regarding the automated correction step, which could inadvertently encourage overreliance on AI suggestions. Qualitative user studies will be critical for determining how authors engage with the tool and how it should be implemented. In the long run, this approach has the potential to help authors improve their statistical reporting and to inform large-scale meta-scientific analyses. Keywords: p value, misinterpretation, automated checks, RegEx, BERT, LLMs
In meiner Masterarbeit habe ich das Projekt, von dem ich euch heute Vormittag erzählt habe, fortgesetzt. Ich wollte herausfinden, ob man dieses Problem automatisch erkennen und korrigieren kann - ähnlich wie Word und Co. Rechtschreib- und Grammatikfehler erkennen und Korrekturen vorschlagen. 🧠💡
Drake Meme: „When p > .05“ (also wenn ein Testergebnis nicht signifikant ist) Don‘t say: „There is no effect“ Instead say: „My Study is underpowered to find small effects“ (die Studie sollte also mit mehr Versuchspersonen wiederholt werden)
So, da habt ihr die Zusammenfassung des Papers in einem (leider gar nicht so kurzen Thead, sorry!)! Ich hoffe ihr fandet es spannend! :)
Balkendiagramm der Prävalenz der Fehlinterpretation für die drei Messzeitpunkte. Die Prävalenz liegt in 2009 und 2015 bei etwas über 80% und in 2021 etwas darunter.
Und hier unsere Ergebnisse!
Wir haben noch zwischen zwei Stufen der Fehlinterpretation unterschieden, nämlich ob die falsche Aussage auf die eine Studie und ihre Stichprobe bezogen ist („X hatte keinen Effekt auf Y“) oder generellere Aussagen („Der Effekt ist gleich bei Männern & Frauen“ trifft.
Guten Morgen! Heute möchte ich euch noch ein letztes Mal von ein paar spannenden MetaScience Projekten erzählen!
Angefangen mit meinem ersten Projekt in diesem Bereich:
doi.org/10.1098/rsos...
Weniger als 0,1% der Menschen im sind unmittelbar ausreisepflichtig.
Wer das Stadtbild also mit Abschiebungen ändern will, muss auch viele Menschen meinen, die sich total legal hier aufhalten.
Dass die CDU solche rassistischen Remigrationsphantasien auch noch verteidigt, lässt sehr tief blicken.
Bevor ich morgen dann wirklich (versprochen!) mehr zu meinem PhD erzähle, möchte ich heute nochmal ein paar statistische Konzepte, die dafür wichtig sind, zusammenfassen: 📈
Aus dieser Idee sind Lehrmaterialien entstanden, die dabei helfen sollen, den Prozess rund um (Ko-)Autor:innenschaften transparenter und insgesamt fairer zu machen.
Wenn ihr das spannend findet, könnt ihr unsere Dokumente hier finden: osf.io/tygsp/!
In vielen Disziplinen (z. B. der Psychologie) werden Effekte häufig binär interpretiert: Ein Effekt ist also entweder da oder nicht da.
Das klingt schön einfach, aber man merkt schnell, dass die Welt so nicht funktioniert.
huh that all-billionaires-are-evil thing keeps being true.
Absätze setzen ist eine wirklich hohe Kunst
ich glaube es gibt in ganz europa nur einen einzigen anbieter der diese piep-dinger an den türen von zügen einbaut