Interrater-Reliabilität von AMSTAR - die Anzahl der Bewerter macht den Unterschied

Hintergrund und Fragestellung: Für die Qualitätsbewertung von Systematischen Reviews (SRs) wird häufig das Instrument AMSTAR (Assessing the Methodological Quality of Systematic Reviews) genutzt, welches aus 11 Items besteht. Bereits publizierte Daten zu einem wichtigen Gütekriterium, der Interrater-Reliabilität, lassen auf eine hohe Übereinstimmung der Reviewer bei der Bewertung mit AMSTAR schließen. In diesen Reliabilitätsstudien wird in der Regel die Übereinstimmung von zwei Bewertern gemessen. Es bleibt allerdings fraglich, wie verlässlich die Informationen zur Interrater-Reliabilität sind, wenn die Ergebnisse auf den Bewertungen von lediglich zwei Personen beruhen. Ziel der Untersuchung war es daher zu prüfen, wie hoch die Interrater-Reliabilität von AMSTAR auf Basis der Bewertungen von fünf Reviewern ist und wie groß die Unterschiede zwischen den einzelnen Bewerterpaaren ausfallen.

Methoden: Es wurden 16 zufällig ausgewählte SRs aus dem Bereich Arbeitsmedizin via Medline identifiziert. Nach einer Kalibrierungsphase wurden die eingeschlossenen Reviews von fünf Reviewern unabhängig voneinander mit AMSTAR bewertet. Die Antwortkategorien wurden anschließend dichotomisiert ("yes" vs. "no"/"can't answer"/"not applicable") und die Übereinstimmungskoeffizienten nach Holsti (r) und Cohen (κ) für alle zehn möglichen Bewerterpaare berechnet.

Ergebnisse: Bezogen auf das Gesamtinstrument AMSTAR variierten die Übereinstimmungskoeffizienten der Bewerterpaare nach Holsti zwischen 0,83 und 0,98 bei einem Median von 0,88; die Kappa-Werte lagen zwischen 0,55 und 0,84 bei einem Median von 0,64. Bei den einzelnen Items war der Grad der Übereinstimmung zwischen den Bewertern sehr unterschiedlich. Die größte Differenz der Übereinstimmungskoeffizienten gab es bei den Items 4 und 11 (Δr=0,47), bzw. bei Item 8 (Δκ=0,82). Bei Item 1 stimmten dagegen alle fünf Reviewer in ihren Bewertungen überein, so dass die Koeffizienten bei allen Paarungen 1 betrugen.

Schlussfolgerung: Einzelne Items von AMSTAR können sehr unterschiedlich interpretiert werden. Die Wahl des Bewerterpaares als aber auch des Reliabilitätskoeffizienten hat einen wesentlichen Einfluss auf die Interrater-Reliabilität. Qualitätsbewertungen von Studien, bei denen lediglich zwei Reviewer mitgewirkt haben, können sehr selektive Ergebnisse ergeben. Aus diesem Grund sollten insbesondere in Reliabilitätsstudien möglichst mehr als zwei Beurteiler beteiligt sein. Ferner sollten Angaben zum Erfahrungsstand angegeben werden.

Der gesamte Artikel kann über die Internetseite des Journals "German Medical Science", 2016 bezogen werden: "Interrater-Reliabilität von AMSTAR - die Anzahl der Bewerter macht den Unterschied" (ggfs. kostenpflichtig).

Bibliografische Angaben

Titel:  Interrater-Reliabilität von AMSTAR - die Anzahl der Bewerter macht den Unterschied. 

Verfasst von:  U. Wegewitz, A. Jacobs, B. Weikert, A. Fishta, D. Pieper

in: Gemeinsam informiert entscheiden. 17. Jahrestagung des Deutschen Netzwerks Evidenzbasierte Medizin. 03.-05.03.2016, Köln / German Medical Science GMS Publishing House (Hrsg.) Düsseldorf: , 2016.  Seiten: 31-39, DOI: 10.3205/16ebm029

Weitere Informationen