Logo + Home
 
   BQS Qualitätsreport    BQS Outcome    BQS Qualitätsindikatoren Datenbank    BQS Register 140d

Reliabilität

Eine wichtige Voraussetzung für eine hohe Reliabilität sind klare und eindeutige Definitionen. Die beiden Gütekriterien Klarheit der Definitionen und Reliabilität zeigen also Wechselwirkungen.

Definition
Die Messung ist reproduzierbar bei definierter Messmethode (Datenerhebung und Auswertung). Die Reliabilität ist ein Maß für die Zuverlässigkeit der Messmethode.

Zwei Verfahren werden üblicherweise unterschieden:
Test-Retest-Verfahren: Das Messverfahren wird zweimal an denselben Messobjekten angewendet. Die Übereinstimmung beider Ergebnisreihen quantifiziert die Retest-Reliabilität.

Inter-Rater-Verfahren: Das Messverfahren wird durch unterschiedliche Bewerter in einer unabhängigen Messung an denselben Messobjekten angewendet. Die Übereinstimmung beider Ergebnisreihen quantifiziert die Inter-Rater-Reliabilität.

Kernaussage
Folgende Aussage wird bewertet: "Es handelt sich um eine reliable Messung.“

Informationsgrundlage für die Bewertung
Die direkte Bestimmung der Reliabilität eines Qualitätsindikators kann als Test-Retest-Reliabilität und als Inter-Rater-Reliabilität erfolgen und setzt in jedem Fall das Vorliegen mindestens zweier Messungen pro Messobjekt voraus. Als Informationsgrundlage für dieses Gütekriterium dienen die aus der klinischen Versorgung gewonnenen Daten. In der Regel werden Patientenakten verwendet. Sofern vorhanden, kann auch auf Ergebnisse eines Datenabgleichs aus abgeschlossenen Datenvalidierungsverfahren zurückgegriffen werden. Bei der Datenvalidierung wird geprüft, in wie weit die in der Dokumentationsmaske für die Qualitätsbewertung erfassten Angaben die Aktenlage widerspiegeln.

Zur methodischen Bewertung von Qualitätsindikatoren stehen beim BQS-Verfahren jedoch nicht immer zwei Messungen pro Messobjekt zur Verfügung, so dass die Reliabilität der Qualitätsindikatoren nicht mit den bekannten Methoden bestimmt werden kann. Daher wurde für QUALIFY ein zusätzliches Verfahren entwickelt, das erlaubt, auf Basis der vorliegenden Daten ohne Mehrfacherhebung eine Abschätzung der Reliabilität vorzunehmen. Die Bestimmung der Reliabilität der Qualitätsindikatoren erfolgt bei dieser Methode über eine Analyse der Variabilität der Ergebnisse einzelner Einrichtungen zwischen konsekutiven Zeitintervallen. Der Indikator wird als reliabel messbar bewertet, wenn seine Ausprägungen in aufeinander folgenden Quartalen sich nicht statistisch signifikant unterscheiden (Cave: Der Umkehrschluss gilt nicht, denn eine Veränderung der Ausprägung kann auch auf eine Veränderung des zu messenden Qualitätsmerkmals zurückzuführen sein.)
Konkret werden für jedes Krankenhaus getrennt die Mittelwerte pro Quartal über möglichst zwei Jahre berechnet. Anschließend werden für jedes Krankenhaus die Mittelwertunterschiede aufeinander folgender Quartale auf Signifikanz hin überprüft. Dazu werden 75%-Konfidenzintervalle berechnet und auf Überlappungen überprüft. Das entspricht jeweils einem Alpha-Fehlerniveau von 25%, das in dieser Höhe gewählt wird, da es in diesem Fall darum geht Nullhypothesen (die hier lauten: Es bestehen keine Unterschiede zwischen den betrachteten Stichproben) zu bestätigen. Liegen für einen Qualitätsindikator z.B. Daten von 1.000 Krankenhäusern von jeweils acht Quartalen vor, dann werden mit dieser Methode insgesamt 7.000 Signifikanztestergebnisse ermittelt. Grundgedanke dieses Ansatzes ist: Je weniger Quartalsvergleiche signifikant ausfallen, desto eher kann das als Hinweis für die Reliabilität des betrachteten Qualitätsindikators gewertet werden.

Bewertungsprozess
Stehen Ergebnisse eines Datenabgleichs aus abgeschlossenen Datenvalidierungsverfahren zur Verfügung, erfolgt der Bewertungsprozess wie folgt:
Zeigen sich im Vergleich der Datensätze in den Ergebnissen der Qualitätsindikatoren keine oder nur wenige Unterschiede zwischen den Daten der QS-Dokumentation und den Daten der Zweiterfassung in der Datenvalidierung, so wird das als Hinweis auf eine reliable Erfassung der Qualitätsindikatoren gewertet. Je höher jedoch der Anteil an Unterschieden ausfällt, desto niedriger ist die Reliabilität zu bewerten. Von der BQS wird folgende Stufung vorgeschlagen: Danach messen Qualitätsindikatoren reliabel, wenn bei nicht mehr als 5% der Vergleiche Unterschiede festgestellt werden. Liegt der Anteil über 5% und bis zu 10%, dann misst der Qualitätsindikator eher reliabel. Reicht der Anteil über 10% und bis zu 20%, so wird er als eher nicht reliabel bewertet. Überschreitet der Anteil gefundener Unterschiede 20%, dann handelt es sich um einen nicht reliabel messenden Qualitätsindikator.

Im Rahmen des Ersatzverfahrens erfolgt der Bewertungsprozess wie folgt:
Auf Basis der Ergebnisse der Quartalsvergleiche werden folgende Bewertungsstufen vorgeschlagen: Liegt der Anteil signifikanter Quartalsvergleiche über 10%, so handelt es sich eher nicht um einen reliablen Qualitätsindikator. Bewegt sich der Anteil zwischen 5 und 10%, kann der Qualitätsindikator als eher reliabel betrachtet werden. Ein Qualitätsindikator wird dagegen als reliabel eingestuft, wenn 5% aller Quartalsvergleiche oder weniger signifikant ausfallen. Für jeden einzelnen Qualitätsindikator wurde diese Reliabilitätsabschätzung den Bewertern als Vorschlag vorgelegt. Bei diesem Bewertungsverfahren werden zusätzlich die Datenfelder und deren Definitionen aufgeführt, die zur Messung des Qualitätsindikators benötigt werden. Es wird ausdrücklich darauf hingewiesen, dass bei diesem Vorgehen die Expertise der Fachexperten besonders berücksichtigt werden soll.
Nachdem alle Bewerter die Informationsgrundlagen zur Kenntnis genommen und verstanden haben, bewerten sie abschließend die Kernaussage. Der Prozess ist detailliert in der Anlage 1 beschrieben.

Bewertungsstufen
1 = trifft nicht zu
2 = trifft eher nicht zu
3 = trifft eher zu
4 = trifft zu
Enthaltung

Kommentare
Das von der BQS entwickelte Ersatzverfahren zur Abschätzung der Reliabilität erfordert eine indikatorspezifische Interpretation. Zwischen Beobachtungszeiträumen wechselnde Indikatorausprägungen können auch durch Veränderungen in den Qualitätsmerkmalen begründet sein. Da die Analyse auf der Basis der  einzelnen Einrichtung erfolgt, kann man zwar davon ausgehen, dass sich dieser Effekt nur in einzelnen Einrichtungen zeigt und durch die Mehrzahl der anderen Einrichtungen dann aufgehoben wird. Endgültige Aussagen zur Wertigkeit dieser Methode können derzeit nicht getroffen werden, da dazu die Methode mit dem Goldstandard der direkten Prüfverfahren verglichen werden müsste.