Womit kann ich meinen Schlaf genau tracken?
Wearables können uns dabei helfen unseren Lebensstil zu verbessern, allerdings ist die Voraussetzung hierfür, dass man sich auf die Daten, die ein solches Gerät erhebt, verlassen kann.
Validität ist die zentrale Größe, um die es geht. Sie unterscheidet Kaffeesatzlesen von verlässlichen Informationen, die uns dabei helfen können, beispielsweise:
-
- unsere Kalorienbilanz besser zu verstehen
-
- unsere Herzfrequenz zu kontrollieren
-
- unsere Tagesschritte zu erfassen
-
- unsere Schlafqualität festzustellen und zu optimieren
Hauptsächlich um Letzteres ging es mir bei der Anschaffung eines Oura-Rings. Für mich spielt Schlaf eine zentrale Rolle zum Erhalt von Gesundheit, sowie körperlicher und geistiger Leistungsfähigkeit.
Den Daten meines Oura Rings zur Folge, habe ich (egal welche Maßnahmen ich ergreife) regelmäßig wiederkehrend zu wenig Tiefschlaf. Veränderungen der Gewohnheiten vor dem zu Bett gehen sowie der Einsatz diverser Substanzen hat an diesem Umstand in den vergangenen Monaten nichts nennenswert verändert. Zuletzt habe ich die Validität des Oura Rings in Frage gestellt, mitunter auch, da ich subjektiv ausgeruht und geistig frisch aus dem Bett komme und sich ein fortwährender Mangel an Tiefschlaf hier bemerkbar machen sollte. Ich habe beschlossen mir einen zweites Ring-Wearable anzuschaffen, RingConn. RingConn hat mir von Tag 1 an bis heute regelmäßig sehr viel bessere Werte bei Tief- und auch REM-Schlaf bescheinigt. Da ich nun zwei unterschiedliche Einschätzungen von zwei Wearables hatte, beschloss ich einen Parallel-Test aufzubauen, um herauszufinden, welches Wearable zuverlässiger meinen Schlaf wiedergibt.
Die Ergebnisse dieses-Tests Oura vs. RingConn teile ich heute mit euch und hoffe, dass ich vielen Anwendern unter euch damit nützliche Einblicke geben kann.
Basics
Wearables messen Schlafphasen nicht direkt wie ein Schlaflabor (EEG/PSG), sondern schätzen sie aus Bewegung und Herz-/HRV-Mustern.
Dieser Test vergleicht zwei gängige Ring-Tracker (Oura und RingConn) unter denselben Bedingungen:
-
- gleiche Person
-
- gleiche Nächte
-
- paralleles Tragen
Ziel: Transparente Darstellung, wie stark sich beide Tools bei (a) Gesamtschlafzeit und (b) Schlafarchitektur (Phasen) unterscheiden.
Datengrundlage und Vorgehen
-
- Exportierte Minuten pro Phase (Wach, REM, Leicht, Tief) je Nacht.
-
- Zeitraum: 31 Nächte; beide Geräte haben für alle Datenpunkte Werte geliefert.
Vergleichslogik:
-
- Differenz (Minuten) pro Phase: RingConn – Oura
-
- Abweichung (Minuten): RingConn − Oura
-
- Abweichung in % (gewichtet): (Summe |Diff|) / (Summe Oura) × 100.
Die Prozentzahl sagt: Wie groß ist die Gesamtabweichung relativ zur Oura-Gesamtsumme, ohne dass einzelne Nächte mit sehr kleinen Phasenwerten die Prozentwerte sprengen.
Begriffe kurz erklärt
Wach
Als wach erkannte Zeit im Bett (Einschlaf-/Aufwachphase, kurze Wachmomente).
REM-Schlaf
Traumphase; physiologisch oft mit variabler Herzfrequenz und schnellen Augenbewegungen verbunden.
Leicht-Schlaf
Der größte Anteil einer typischen Nacht. Übergangs-/ und oder Stabilisierungsschlaf.
Tief-Schlaf
Körperbetonter, erholsamer Schlaf; oft stärker im ersten Nachtdrittel.
Gesamtabweichung pro Nacht
Die folgende Grafik zeigt die Summe der absoluten Abweichungen über alle vier Phasen pro Nacht. Je höher der Wert, desto stärker unterscheiden sich die Geräte in der Phasenaufteilung.
Abbildung 1: Gesamtabweichung pro Nacht (Summe |RingConn − Oura| über Wach/REM/Leicht/Tief).
| Bester Tag (kleinste Abweichung): 2026-01-03 → 85 Minuten (≈ 20.0%). |
| Schlechtester Tag (größte Abweichung): 2026-01-18 → 351 Minuten (≈ 71.2%). |
Abweichungen je Schlafphase (gesamter Zeitraum)
Hier wird die Abweichung über alle 31 Nächte je Phase zusammengefasst. Einmal als absolutes Minuten (Summe |Diff|) und einmal als gewichtete Prozentzahl relativ zu Oura.
Abbildung 3: Abweichung je Phase – Summe in Minuten (links) und gewichtet in Prozent (rechts).
Wir nutzen Oura als Referenz für die Prozentnormierung, weil Oura in der Literatur PSG-validiert ist; das macht die Prozentzahl stabil interpretierbar.
Kennzahlen je Phase (31 Nächte)

Interpretation der Zahlen in Klartext
-
- Leichtschlaf wird am ähnlichsten erfasst (≈14% gewichtet)
- Wach, REM und Tief weichen stark ab (≈79%, ≈81%, ≈96% gewichtet). Das bedeutet: Beide Geräte erzählen bei diesen Phasen eine deutlich andere Schlafarchitektur.
Wer zeichnet welche Phasen mehr/weniger auf?
Die nächste Grafik zeigt den systematischen Bias als Durchschnitt pro Nacht (RingConn − Oura).
-
- Positive Werte = RingConn meldet mehr Minuten als Oura
-
- Negative Werte = RingConn meldet weniger Minuten als Oura
Abbildung 5: Verteilung der Differenzen je Phase
Über alle Nächte ergibt sich ein stabiles Muster:
-
- RingConn meldet im Mittel deutlich weniger Wachzeit.
-
- RingConn meldet im Mittel mehr REM und mehr Tiefschlaf.
-
- RingConn weist tendenziell weniger Leichtschlaf aus
Das ist eine echte Umverteilung zwischen Kategorien, nicht nur ein Zufallsrauschen.
Beste vs. schlechteste Nacht (Phasen im Detail)
Die folgende Gegenüberstellung zeigt, wie stark sich die Phasenverteilung zwischen den Geräten an der besten und der schlechtesten Nacht unterscheidet.
Konkrete Abweichungen am bestenTag (2026-01-03):
| Phase | Oura (min) | RingConn (min) | |Diff| (min) | |Diff| (%) vs Oura |
| Wach | 61 | 15 | 46 | 75.4% |
| REM | 32 | 45 | 13 | 40.6% |
| Leicht | 291 | 285 | 6 | 2.1% |
| Tief | 40 | 60 | 20 | 50.0% |
| Phase | Oura (min) | RingConn (min) | |Diff| (min) | |Diff| (%) vs Oura |
| Wach | 59 | 16 | 43 | 72.9% |
| REM | 39 | 122 | 83 | 212.8% |
| Leicht | 381 | 242 | 139 | 36.5% |
| Tief | 14 | 100 | 86 | 614.3% |
Selbst am besten Tag haben wurden Abweichungen um 50% bei Tiefschlaf und um 40,6% bei REM-Schlaf ermittelt.
Qualitative Sicht: Hypnogramm-Beispiele aus den Screenshots
Anbei die tatsächlichen Trackingergebnisse einmal am besten und am schlechtesten Tag zur Verdeutlichung der Unterschiede:
Gesamtzeit vs. Schlafarchitektur – wozu taugen Wearables?
Gesamtschlafdauer (Summe aller Phasen):
-
- Ø absolute Abweichung pro Nacht: 21.7 Minuten
-
- Gewichtet über den Zeitraum: 4.65% (Summe |Total-Diff| / Oura-Total)
Das ist für Wearables relativ nah und erklärt, warum beide Ringe für Lifestyle-Fragen („Schlafe ich mehr/weniger?“, Regelmäßigkeit) brauchbar sind.
Schlafarchitektur (Phasen):
Die Abweichungen in Wach/REM/Tief sind hingegen groß. Die Daten zeigen, dass beide Systeme die gleiche Nacht unterschiedlich „labeln“. Ohne Referenzmessung (Schlaflabor) lässt sich nicht entscheiden, welches Gerät „richtig“ oder „richtiger“ misst!
Fazit meines Parallel-Tests
Ohne Schönreden- Für mich als bekennender Befürworter von Wearables eine Enttäuschung. Ich habe mir keine identischen Ergebnisse erhofft, allerdings auch nicht derart starke und auch durchgehende Abweichungen.
In manchen Datensätzen erkennt man nur über das Schlafzeitfenster und die Schlafdauer, dass es sich um eine und dieselbe Nacht handelt. Enorme Abweichungen in einzelnen Schlafphasen erinnern mehr an Kaffeesatzlesen als an eine verlässlich valide Messung.
Nun wissen wir, dass wir von beiden Ringen mit Ausnahme der Gesamtschlafdauer stark unterschiedliche Ergebnisse bekommen. Was wir aber noch nicht wissen ist, welcher Ring verglichen mit Referenzmessungen aus dem Schlaflabor verlässlichere Werte liefert. Da ich nicht mit beiden Ringen im Schlaflabor war, müssen wir hierzu die zur Verfügung stehende Literatur sichten.
Das sagen Studien zu RingConn
Bei RingConn kann man sich relativ kurzfassen. Mit Ausnahme einer Studie, die sich mit der Erkennung von Schlafapnoe befasst, findet sich keine spezifische Arbeit zur Validität des Schlaf Trackings verglichen mit Goldstandardbedingungen.
Die IEEE-AICAS-Studie „OSAHS Detection Capabilities of RingConn Smart Ring: A Feasibility Study“ (1) untersucht, ob der RingConn-Ring Schlafapnoe (OSAHS) im Vergleich zum Goldstandard Polysomnographie (PSG) erkennen kann. Laut Konferenzangaben wurden 58 Personen jeweils eine Nacht parallel mit PSG und RingConn gemessen. Ziel ist eine OSAHS-Schätzung/Erkennung aus den Ringsignalen mit einem neu vorgeschlagenen Modell. Im Abstract wird eine hohe Übereinstimmung zur PSG berichtet mit Korrelationskoeffizient r = 0,93. Sekundär zusammengefasste Kennzahlen deuten ebenfalls auf eine brauchbare Screening-Tauglichkeit hin, allerdings hinterlässt die Arbeit auch etliche offene Fragen, weshalb die Studie eher als Machbarkeitsnachweis und nicht als klinischer Diagnose-Ersatz zu bewerten ist.
Das sagen Studien zu Oura
Goldstandard vs. Wearable: Was wird überhaupt verglichen?
PSG klassifiziert Schlafstadien anhand von EEG/EOG/EMG (Hirn‑, Augen‑ und Muskelaktivität) und weiteren Signalen. Der Oura Ring hat kein EEG. Er schätzt Stadien indirekt (Bewegung, Pulswellen‑Signal/PPG, HRV, Temperatur).
Das heißt: Ein Wearable kann bei der Gesamtschlafzeit nah am Goldstandard sein und trotzdem das Hypnogramm (die genaue Abfolge und Dauer einzelner Stadien) teilweise falsch labeln.
Was sagen Studien konkret zu den Abweichungen?
Unten sind drei belastbare Datenpunkte zusammengefasst:
(a) eine systematische Review & Meta‑Analyse über mehrere Studien (3)
(b) eine große Multi‑Night‑Validierung in einer überwiegend gesunden Kohorte (5)
(c) eine Schlaflabor‑Studie in einer klinischen Patientenkohorte. (4)
Die Werte sind als mittlere Abweichung (Bias) in Minuten angegeben:
-
- positiv bedeutet, Oura meldet mehr Minuten als PSG
-
- negativ bedeutet, Oura meldet weniger Minuten als PSG

|
Wie werden die Tabellen interpretiert: Ein Bias von −14% bei WASO heißt z. B., dass Oura in dieser Studie im Mittel ~14% weniger Wachzeit nach dem Einschlafen ausweist als die PSG. |
Über- oder Unterbewertung – gibt es ein Muster?
Bei den Summenwerten ist Oura im Mittel oft „nah dran“, aber die Richtung der Abweichung hängt von Population und Nacht ab.
Zwei Muster tauchen in den Studien wiederholt auf:
-
- Wachzeit (WASO) wird tendenziell zu niedrig geschätzt, besonders wenn eine Person viel wach ist. In der klinischen Kohorte wurde WASO im Mittel um 8.56 Minuten unterschätzt (≈ −14%). Das passt zu einem generellen Problem vieler Wearables. Kurze Wachphasen werden als „leichter Schlaf“ eingeordnet.
-
- Leicht- und Tiefschlaf sind im Mittel oft nur wenige Minuten daneben, aber die Streuung pro Individuum kann sehr groß sein. In der klinischen Schlaflabor‑Studie lagen die individuellen Fehler bei Leichtschlaf z. B. in einer Spannweite von −162 bis +234.5 Minuten und bei Tiefschlaf von −211.5 bis +141.5 Minuten. Das bedeutet: Durchschnittswerte können gut aussehen. Einzelne Nächte können trotzdem massiv danebenliegen.
Was bedeutet das für „Schlafarchitektur“ in der Praxis?
Schlafarchitektur meint nicht nur „wie viel Schlaf insgesamt“, sondern wie sich die Nacht in Stadien aufteilt (Wach/Leicht/Tief/REM) und wie diese über die Nacht verteilt sind.
Genau hier wird es bei Wearables heikel:
-
- In der Multi‑Night‑PSG‑Validierung (Svensson) wird gezeigt, dass Oura zwar gute Gesamt‑Kennzahlen liefert, aber typische Fehlzuordnungen auftreten (z. B. ein Teil von PSG‑Wach als Leichtschlaf oder ein Teil von PSG‑Tief als Leichtschlaf).
-
- Das erklärt, warum zwei Geräte dieselbe Nacht sehr unterschiedlich „aufschlüsseln“ können, obwohl die Gesamtschlafzeit ähnlich ist.
Was sagt das nun über meinen Parallel-Test aus?
In meiner Parallel‑Datenerhebung (gleiche Person, gleiche Nächte) war die Gesamtschlafdauer zwischen Oura und RingConn relativ nah beieinander (Ø absolute Abweichung ~21.7 Minuten; gewichtet ~4.65%).
Bei der Schlafarchitektur gab es aber große Abweichungen, vor allem bei Wach, REM- und Tief-schlaf. Hier wurde auch ein klares Muster sichtbar. RingConn meldet im Mittel deutlich weniger Wachzeit, dafür mehr REM und mehr Tief.
Wenn man externe Evidenz hinzunimmt, ist der entscheidende Punkt:
-
- Für Oura gibt es mehrere PSG‑Validierungen und sogar eine Meta‑Analyse.
-
- Für RingConn existiert (Stand der im Dossier verwendeten Literatur) keine vergleichbare, publizierte PSG‑Validierung der Schlafstadien.
Das heißt nicht automatisch, dass RingConn schlechter ist aber die Beleglage für „Schlafarchitektur‑Genauigkeit“ ist bei Oura deutlich stärker.
Womit kann ich meinen Schlaf genau tracken?
Antwort: WEDER MIT OURA NOCH MIT RINGCONN
-
- Beide Wearables liefern im Parallel-Datensatz eine ähnliche Gesamtschlafzeit, daher sind sie für Lifestyle-Tracking (Trend über viele Nächte) grundsätzlich brauchbar.
-
- Oura ist im Vergleich zu PSG in Studien für die Gesamtschlafzeit meist nahe am Goldstandard. Bei Schlafstadien/ „Schlafarchitektur“ sind die Durchschnittswerte teils ordentlich, aber die Abweichungen können je nach Nacht und Person deutlich schwanken. Werte zu Schlafphasen eignen sich daher eher als Trendindikatoren und weniger als exakte Messwerte einzelner Nächte.
-
- Für RingConn gibt es (Stand heute) keine vergleichbar etablierte, peer-reviewte PSG-Validierung des Sleep-Staging (Wach/REM/Leicht/Tief). Der Parallel-Test zeigt zudem, dass RingConn und Oura die Phasen (besonders REM und Tief) systematisch unterschiedlich zuordnen. Welche näher am Goldstandard liegt, lässt sich ohne PSG nicht entscheiden. Evidenzseitig ist Oura aktuell besser abgesichert.
-
- Oura und RingConn sind nicht ohne Weiteres als Wearables gegeneinander austauschbar!

Quellen
(1)
H. Guo et al., „OSAHS Detection Capabilities of RingConn Smart Ring: A Feasibility Study,“ 2024 IEEE 6th International Conference on AI Circuits and Systems (AICAS), Abu Dhabi, United Arab Emirates, 2024, pp. 597-601, doi: 10.1109/AICAS59952.2024.10595903. keywords: {Performance evaluation;Deep learning;Wrist;Feature extraction;Photoplethysmography;Sleep apnea;Robustness;smart ring;obstructive sleep apnea-hypopnea syndrome;transformer},
(2)
Khan S, Ibrahim AF, Vasudevan SS, Quatela OE, Nanu DP, Carr MM. The Oura Ring Versus Medical-Grade Sleep Studies: A Systematic Review and Meta-Analysis. OTO Open. 2025 Nov 10;9(4):e70181. doi: 10.1002/oto2.70181. PMID: 41230431; PMCID: PMC12602993.
(3)
Herberger, S., Aurnhammer, C., Bauerfeind, S. et al. Performance of wearable finger ring trackers for diagnostic sleep measurement in the clinical context. Sci Rep 15, 9461 (2025). https://doi.org/10.1038/s41598-025-93774-z
(4)
Svensson T, Madhawa K, Nt H, Chung UI, Svensson AK. Validity and reliability of the Oura Ring Generation 3 (Gen3) with Oura sleep staging algorithm 2.0 (OSSA 2.0) when compared to multi-night ambulatory polysomnography: A validation study of 96 participants and 421,045 epochs. Sleep Med. 2024 Mar;115:251-263. doi: 10.1016/j.sleep.2024.01.020. Epub 2024 Jan 26. PMID: 38382312.









