Psychometrie-Referenz

1. PISA-Datenpipeline — wie internationale Studien tatsächlich arbeiten

PISA und ähnliche Studien (TIMSS, PIRLS) betreiben eine hochautomatisierte Pipeline von der Erhebung bis zum internationalen Bericht.

1.1 Erhebungsdesign: Matrix Sampling

Jede Person beantwortet nur einen Teil der Items (z.B. 2–3 Testhefte à ~20 Items). Insgesamt existieren Hunderte von Items.

Person P1 → Block A+B | Person P2 → Block B+C | Person P3 → C+D

Vorteil: Große Itembank, geringe Belastung pro Person. Herausforderung: Unsichere Fähigkeitsschätzung pro Person.

1.2 Datenerfassung und -validierung

Schritt 1: Antwortdaten aus Testplattform (JSON/CSV). Validierung: fehlende Werte, Antwortcodes, Item-IDs.

Schritt 2: Bereinigung — zu schnelle Antworten, Random Responding, Ausreißer identifizieren.

1.3 Dimensionalitätsanalyse

Vor der IRT-Kalibrierung: EFA, CFA, Parallel Analysis, Residualkorrelationen (z.B. Yen's Q3). Ziel: Prüfen ob Test unidimensional ist.

1.4 IRT-Kalibrierung

PISA nutzt mehrere Modelle parallel:

Rasch/1PL für dichotome Items
2PL (Diskrimination + Schwierigkeit)
Partial Credit Model für Aufgaben mit Teilpunkten

Software: IRTPRO, Dexter, TAM, mirt (R).

1.5 Plausible Values (PV)

Da jede Person nur wenige Items beantwortet, ist eine einzelne θ-Schätzung instabil. Lösung: Statt einem Score werden 5–10 Zufallswerte aus der Posteriorverteilung gezogen:

P(θ|X) ∝ P(X|θ) · P(θ) → PV1, PV2, PV3, PV4, PV5

Analysen laufen für jede PV separat; Ergebnisse werden mit Rubin's Rules kombiniert → unverzerrte Populationsschätzungen.

1.6 Skalierung und Normierung

θ wird in interpretierbare Skalen transformiert (z.B. Mittelwert 500, SD 100). Internationale Vergleichbarkeit über Messinvarianzprüfung.

1.7 DIF-Analyse

Automatisch für Gruppen: Geschlecht, Land, Sprache. Uniform/non-uniform DIF. Items mit starkem DIF werden überarbeitet oder entfernt.

1.8 Berichterstattung

Automatisierte Reports: Skalenwerte, Trendanalysen, Subgruppenvergleiche. CI/CD-artige Pipelines für Scoring und Report-Generierung.

2. Psychometrische Modelle vs. klassische ML für Bildungstests

Beide Ansätze haben Stärken. In der Bildungsmessung dominiert IRT aus guten Gründen.

Aspekt	Psychometrie (IRT)	Klassische ML (RF, XGBoost, NN)
Interpretierbarkeit	Itemparameter (a, b) direkt deutbar: Schwierigkeit, Diskrimination	Blackbox, schwer zu interpretieren
Personenfähigkeit	θ auf absoluter Skala, vergleichbar über Tests und Stichproben	Score oft nur relativ, nicht person-invariant
Standardfehler	SE(θ) = 1/√I(θ) — präzise Angabe der Messunsicherheit	Oft keine saubere Fehlertheorie
Adaptive Tests	CAT algorithmisch sauber: maximale Information	Adaptivität ad-hoc, keine optimale Itemauswahl
Fairness/DIF	Etablierte Methoden, Messinvarianz prüfbar	Bias schwer zu kontrollieren
Datenbedarf	IRT: oft schon mit 200–500 Personen sinnvoll	ML: typisch 1000+ für stabile Modelle
Validierung	Itemfit, Modellfit, Reliabilität standardisiert	Validierung projektabhängig

Wann IRT genauer/besser ist

Fähigkeitsmessung mit interpretierbaren Skalen
Adaptive Testsysteme
Internationale Vergleiche (Messinvarianz)
Kleine bis mittlere Stichproben mit guter Itementwicklung

Wann ML sinnvoll ergänzt

Automatische Itemgenerierung (AIG) mit LLMs
Komplexe Muster (z.B. Textantworten, Verhaltensdaten)
Prädiktion von Lernverlauf (Knowledge Tracing)

Praktisch: Beide produzieren können bedeutet — IRT für Scoring und Berichterstattung, ML für Vorverarbeitung und Zusatzanalysen. Moderne Systeme kombinieren beides.

3. Drei Ebenen psychometrischer Systeme

Ebene 1 — Software: Unit Tests, Integration Tests, Regression Tests, Parameter-Recovery-Simulationen, numerische Reproduzierbarkeit

Ebene 2 — Psychometrie: IRT-Kalibrierung, Dimensionalität, Modellfit, Reliabilität, Testinformation

Ebene 3 — Fairness: DIF (uniform/non-uniform), Bias, Messinvarianz (configural, metric, scalar)

Weiterführend

→ IRT-Simulation (2PL) im Browser — Datengenerierung, Parameter-Recovery, Fähigkeitsschätzung.

→ MDSP Forschungs-Auswertung — Cronbach Alpha, Item-Stats, CSV-Export.

Inhaltsverzeichnis