← Zurück | IRT-Simulation starten
PISA-Datenpipeline · IRT vs. Machine Learning · Vollständiger Überblick
PISA und ähnliche Studien (TIMSS, PIRLS) betreiben eine hochautomatisierte Pipeline von der Erhebung bis zum internationalen Bericht.
Jede Person beantwortet nur einen Teil der Items (z.B. 2–3 Testhefte à ~20 Items). Insgesamt existieren Hunderte von Items.
Vorteil: Große Itembank, geringe Belastung pro Person. Herausforderung: Unsichere Fähigkeitsschätzung pro Person.
Vor der IRT-Kalibrierung: EFA, CFA, Parallel Analysis, Residualkorrelationen (z.B. Yen's Q3). Ziel: Prüfen ob Test unidimensional ist.
PISA nutzt mehrere Modelle parallel:
Software: IRTPRO, Dexter, TAM, mirt (R).
Da jede Person nur wenige Items beantwortet, ist eine einzelne θ-Schätzung instabil. Lösung: Statt einem Score werden 5–10 Zufallswerte aus der Posteriorverteilung gezogen:
Analysen laufen für jede PV separat; Ergebnisse werden mit Rubin's Rules kombiniert → unverzerrte Populationsschätzungen.
θ wird in interpretierbare Skalen transformiert (z.B. Mittelwert 500, SD 100). Internationale Vergleichbarkeit über Messinvarianzprüfung.
Automatisch für Gruppen: Geschlecht, Land, Sprache. Uniform/non-uniform DIF. Items mit starkem DIF werden überarbeitet oder entfernt.
Automatisierte Reports: Skalenwerte, Trendanalysen, Subgruppenvergleiche. CI/CD-artige Pipelines für Scoring und Report-Generierung.
Beide Ansätze haben Stärken. In der Bildungsmessung dominiert IRT aus guten Gründen.
| Aspekt | Psychometrie (IRT) | Klassische ML (RF, XGBoost, NN) |
|---|---|---|
| Interpretierbarkeit | Itemparameter (a, b) direkt deutbar: Schwierigkeit, Diskrimination | Blackbox, schwer zu interpretieren |
| Personenfähigkeit | θ auf absoluter Skala, vergleichbar über Tests und Stichproben | Score oft nur relativ, nicht person-invariant |
| Standardfehler | SE(θ) = 1/√I(θ) — präzise Angabe der Messunsicherheit | Oft keine saubere Fehlertheorie |
| Adaptive Tests | CAT algorithmisch sauber: maximale Information | Adaptivität ad-hoc, keine optimale Itemauswahl |
| Fairness/DIF | Etablierte Methoden, Messinvarianz prüfbar | Bias schwer zu kontrollieren |
| Datenbedarf | IRT: oft schon mit 200–500 Personen sinnvoll | ML: typisch 1000+ für stabile Modelle |
| Validierung | Itemfit, Modellfit, Reliabilität standardisiert | Validierung projektabhängig |
Praktisch: Beide produzieren können bedeutet — IRT für Scoring und Berichterstattung, ML für Vorverarbeitung und Zusatzanalysen. Moderne Systeme kombinieren beides.
→ IRT-Simulation (2PL) im Browser — Datengenerierung, Parameter-Recovery, Fähigkeitsschätzung.
→ MDSP Forschungs-Auswertung — Cronbach Alpha, Item-Stats, CSV-Export.