← Zurück | IRT-Simulation starten

Psychometrie-Referenz

PISA-Datenpipeline · IRT vs. Machine Learning · Vollständiger Überblick

Inhaltsverzeichnis

1. PISA-Datenpipeline (Programme for International Student Assessment) 2. Psychometrische Modelle vs. klassische ML für Bildungstests 3. Drei Ebenen: Software · Psychometrie · Fairness

1. PISA-Datenpipeline — wie internationale Studien tatsächlich arbeiten

PISA und ähnliche Studien (TIMSS, PIRLS) betreiben eine hochautomatisierte Pipeline von der Erhebung bis zum internationalen Bericht.

1.1 Erhebungsdesign: Matrix Sampling

Jede Person beantwortet nur einen Teil der Items (z.B. 2–3 Testhefte à ~20 Items). Insgesamt existieren Hunderte von Items.

Person P1 → Block A+B | Person P2 → Block B+C | Person P3 → C+D

Vorteil: Große Itembank, geringe Belastung pro Person. Herausforderung: Unsichere Fähigkeitsschätzung pro Person.

1.2 Datenerfassung und -validierung

Schritt 1: Antwortdaten aus Testplattform (JSON/CSV). Validierung: fehlende Werte, Antwortcodes, Item-IDs.
Schritt 2: Bereinigung — zu schnelle Antworten, Random Responding, Ausreißer identifizieren.

1.3 Dimensionalitätsanalyse

Vor der IRT-Kalibrierung: EFA, CFA, Parallel Analysis, Residualkorrelationen (z.B. Yen's Q3). Ziel: Prüfen ob Test unidimensional ist.

1.4 IRT-Kalibrierung

PISA nutzt mehrere Modelle parallel:

Software: IRTPRO, Dexter, TAM, mirt (R).

1.5 Plausible Values (PV)

Da jede Person nur wenige Items beantwortet, ist eine einzelne θ-Schätzung instabil. Lösung: Statt einem Score werden 5–10 Zufallswerte aus der Posteriorverteilung gezogen:

P(θ|X) ∝ P(X|θ) · P(θ) → PV1, PV2, PV3, PV4, PV5

Analysen laufen für jede PV separat; Ergebnisse werden mit Rubin's Rules kombiniert → unverzerrte Populationsschätzungen.

1.6 Skalierung und Normierung

θ wird in interpretierbare Skalen transformiert (z.B. Mittelwert 500, SD 100). Internationale Vergleichbarkeit über Messinvarianzprüfung.

1.7 DIF-Analyse

Automatisch für Gruppen: Geschlecht, Land, Sprache. Uniform/non-uniform DIF. Items mit starkem DIF werden überarbeitet oder entfernt.

1.8 Berichterstattung

Automatisierte Reports: Skalenwerte, Trendanalysen, Subgruppenvergleiche. CI/CD-artige Pipelines für Scoring und Report-Generierung.

2. Psychometrische Modelle vs. klassische ML für Bildungstests

Beide Ansätze haben Stärken. In der Bildungsmessung dominiert IRT aus guten Gründen.

AspektPsychometrie (IRT)Klassische ML (RF, XGBoost, NN)
InterpretierbarkeitItemparameter (a, b) direkt deutbar: Schwierigkeit, DiskriminationBlackbox, schwer zu interpretieren
Personenfähigkeitθ auf absoluter Skala, vergleichbar über Tests und StichprobenScore oft nur relativ, nicht person-invariant
StandardfehlerSE(θ) = 1/√I(θ) — präzise Angabe der MessunsicherheitOft keine saubere Fehlertheorie
Adaptive TestsCAT algorithmisch sauber: maximale InformationAdaptivität ad-hoc, keine optimale Itemauswahl
Fairness/DIFEtablierte Methoden, Messinvarianz prüfbarBias schwer zu kontrollieren
DatenbedarfIRT: oft schon mit 200–500 Personen sinnvollML: typisch 1000+ für stabile Modelle
ValidierungItemfit, Modellfit, Reliabilität standardisiertValidierung projektabhängig

Wann IRT genauer/besser ist

Wann ML sinnvoll ergänzt

Praktisch: Beide produzieren können bedeutet — IRT für Scoring und Berichterstattung, ML für Vorverarbeitung und Zusatzanalysen. Moderne Systeme kombinieren beides.

3. Drei Ebenen psychometrischer Systeme

Ebene 1 — Software: Unit Tests, Integration Tests, Regression Tests, Parameter-Recovery-Simulationen, numerische Reproduzierbarkeit
Ebene 2 — Psychometrie: IRT-Kalibrierung, Dimensionalität, Modellfit, Reliabilität, Testinformation
Ebene 3 — Fairness: DIF (uniform/non-uniform), Bias, Messinvarianz (configural, metric, scalar)

Weiterführend

→ IRT-Simulation (2PL) im Browser — Datengenerierung, Parameter-Recovery, Fähigkeitsschätzung.

→ MDSP Forschungs-Auswertung — Cronbach Alpha, Item-Stats, CSV-Export.