Die komplexe Welt der Metadaten: Ein Blick auf Datenschutz und Privatsphäre

​1. EinleitungMetadaten

Kaum ein Fall von Überwachung versus Grundrechte beschäftigt den Europäischen Gerichtshof (EuGH) so sehr wie die Vorratsdatenspeicherung. Urteile dazu ergingen in den Jahren 2014, 2016, 2020 und 2022. Unter Vorratsdatenspeicherung versteht man Gesetzesvorhaben, die eine anlasslose und massenhafte Speicherung (»Data Retention«) von Verbindungsdaten öffentlicher Kommunikationsdienste vorsehen. Dies geschieht für einen bestimmten Zeitraum (»auf Vorrat«) zum Zwecke der späteren Strafverfolgung. Immer wieder hat der EuGH Regelungen zur Vorratsdatenspeicherung gekippt. Dabei gerät fast in den Hintergrund, was eigentlich auf Vorrat gespeichert werden soll. Meist heißt es in einem Halbsatz, es handele sich um »Verkehrsdaten« oder »Metadaten«. Steter Begleiter dieses Begriffs ist häufig die vorangestellte Verharmlosung »nur«. Als ob mit der nebulösen Aussage »wir verarbeiten nur Metadaten« schon alles erklärt wäre. Dem ist aber nicht so. In diesem Beitrag soll versucht werden, den Nebelschleier um den Begriff »Metadaten« etwas zu lichten.

Obwohl der Begriff häufig im Zusammenhang mit staatlicher Massenüberwachung verwendet wird, sind Metainformationen auch eine Grundlage für Tracking-Geschäftsmodelle. Der Social Graph von Meta (Facebook) würde ohne Metadaten über soziale Beziehungen nicht funktionieren.

Wir werden uns daher auch damit beschäftigen, wie das in Metadaten enthaltene Wissen nutzbar gemacht werden kann.

Gastbeitrag von lacrosse

Lacrosse ist betrieblicher Datenschutzbeauftragter in der Konzerndatenschutzorganisation einer deutschen Unternehmensgruppe. In seiner Freizeit engagiert er sich ehrenamtlich, um gemeinnützigen Vereinen bei der Umsetzung der DSGVO zu helfen.

Feedback und Fragen können direkt an ihn gerichtet werden. Spenden für seine Arbeit möchte er direkt dem Kuketz-Blog zukommen lassen. Ihr könnt also direkt an den Kuketz-Blog spenden.

2. Metadaten: A big ball of wibbly wobbly meta stuff?

Metadaten oder Metainformationen sind strukturierte Daten, die Informationen über Merkmale anderer Daten enthalten.

Quelle: Wikipedia-Autoren. (2003). Metadaten. de.wikipedia.org.

In der politischen Diskussion taucht der Begriff »Metadaten« meist nur indirekt und häufig im Zusammenhang z.B. mit der Telekommunikationsüberwachung auf. Die Befürworter der Überwachung argumentieren primär mit der Abgrenzung vom (Gesprächs-)Inhalt einer Kommunikation, um die vermeintliche Unbedenklichkeit der Überwachungsmaßnahme zu belegen.

Niemand hört Ihre Telefonanrufe ab. (…) Was die Geheimdienste tun, ist die Überprüfung von Telefonnummern und der Dauer von Anrufen. Sie schauen nicht auf die Namen der Menschen und sie schauen nicht auf den Inhalt. Durch die Durchsicht dieser sogenannten Metadaten (…)

Quelle: Associated Press. (2013, 7. Juni). Obama: »Nobody Is Listening to Your Phone Calls« [Video]. YouTube. Übersetzung durch den Autor.

Entscheidend für das Verständnis von Kommunikationsmetadaten ist, dass selbst dann, wenn der Inhalt einer Kommunikation vertraulich bleiben sollte, die Umstände der Kommunikation unweigerlich offengelegt werden. Da staatliche Überwachungsmaßnahmen in der Regel kommerzielle Kommunikationsdienste betreffen, kann für diese nichts anderes gelten. Dienste wie WhatsApp betonen medienwirksam die Ende-zu-Ende-Verschlüsselung von Nachrichten und setzen damit Verschlüsselung mit dem Schutz der Privatsphäre gleich.

Wir können nicht die Nachrichten lesen, die sich Nutzer untereinander schicken.

Quelle: Krempl, S. (2021, 28. September). WhatsApp-Chef: Sammeln Metadaten nicht im großen Stil heise online.

Trennlinien zwischen dem Inhalt einer Nachricht und den Umständen ihrer Übermittlung zu ziehen, ist eine willkürliche Unterscheidung. Dies führt dazu, dass Metadaten vorwiegend dadurch definiert werden, was sie nicht sind. Nämlich der Inhalt einer Nachricht. Mit der Propagierung von Ende-zu-Ende-Verschlüsselung wird gleichzeitig der Eindruck erweckt, dass das Vertrauliche (Inhalt) geschützt wird und »alles andere« nicht schützenswert ist.

Es gibt keine klare Unterscheidung zwischen Metadaten und Inhalt. Es ist eher ein zusammenhängendes Ganzes.

Quelle: Conle, C. (2014). Metadata: Piecing together a privacy solution. ACLU of Northern CA. Übersetzung durch den Autor. Übersetzung, Hervorhebung durch den Autor.

Du kannst den Blog aktiv unterstützen!

Unabhängig. Kritisch. Informativ. Praxisnah. Verständlich.

Die Arbeit von kuketz-blog.de wird vollständig durch Spenden unserer Leserschaft finanziert. Sei Teil unserer Community und unterstütze unsere Arbeit mit einer Spende.

Mitmachen ➡

2.1 Technische Definitionen von Metadaten

Es gibt zahlreiche Definitionen, die Metadaten anhand ihrer spezifischen technischen Anwendung erklären. Dabei kristallisiert sich ein wichtiges Merkmal heraus, das Datenanalysen in großem Umfang ermöglicht: die Strukturiertheit. Voraussetzung dafür ist eine Standardisierung der technischen Abläufe.

Die Internetkommunikation vermittelt Pakete und »verschachtelt« diese Pakete nach einem strukturierten Schichtenmodell. Höhere Schichten nutzen Funktionalitäten niedrigerer Schichten, Schnittstellen verbinden die verschiedenen Schichten. Schichtenmodelle sind die Grundlage dafür, dass digitale Kommunikation zwischen unterschiedlichen technischen Systemen standardisiert funktioniert.

Die Verwendung von Schichtmodellen ist für die technische Bestimmung des Metadaten-Begriffes erheblich, denn welche Informationen Kommunikationsinhalt bzw. Kommunikationsumstände (…) darstellen, hängt von der betrachteten Schicht ab.

Quelle: Leibniz-Institut für Informationsinfrastruktur, Universität Innsbruck, Karlsruher Institut für Technologie, Boehm, F., Böhme, R. & Andrees, M. (2017). Sachverständigengutachten zur Anhörung des 1. Untersuchungsausschusses des Deutschen Bundestages der 18. Wahlperiode zum Thema: Wie bzw. auf welche unterschiedliche Art und Weise wird der Begriff der Verkehrs- und Nutzungsdaten wissenschaftlich im technischen und juristischen Kontext gebraucht? Wie ist dieser vom Begriff der Metadaten abzugrenzen? Deutscher Bundestag.

Wird z.B. eine E-Mail versandt, wird das Übertragungsprotokoll Simple Mail Transfer Protocol (SMTP) verwendet. Für die technischen Standards (Internet) sind die RFC-Dokumente der Internet Engineering Task Force eine Referenz, wie z.B. die Dokumente 5321 und 5322. Daraus leiten sich die technischen Strukturen ab. E-Mails werden in inhaltsbeschreibende Daten (Header; Headerfelder) und den Nachrichteninhalt (Textkörper) strukturiert. Diese Strukturierung erfolgt jedoch, um technische Prozesse durchführen zu können – sie ist keine Kategorisierung in bedenkliche und unbedenkliche Daten.

Es bleibt festzuhalten, dass aus technischer Sicht eine scharfe Abgrenzung zwischen Metadaten und Inhaltsdaten, die sich auf alle Arten elektronischer Kommunikation verallgemeinern ließe, nicht möglich ist.

Quelle: ebd.

Strukturen verleiten zu der Annahme, dass eine Definition allgemeingültig ist. Dies ist bei Metadaten nicht der Fall, da ihre Definitionen anwendungsspezifisch sind.

2.1.1 E-Mail

E-Mails bestehen aus drei Bestandteilen: dem Umschlag (Envelope) mit den technischen Informationen für die Zustellung der E-Mail (z.B. SMTP), dem E-Mail-Header (Kopfzeile) und dem Nachrichtentext. Der Nachrichtentext (Textkörper) entspricht dem Inhalt der Nachricht. Envelope und Header-Felder entsprechen »inhaltsbeschreibenden« Daten und sind somit Metadaten.

Die durch das RFC 5322 festgelegten Headerfelder sind:

  • Absender,
  • Empfänger,
  • weitere Empfänger (Cc, Bcc),
  • Betreff,
  • Erstellungszeitpunkt.

Es ist zu beachten, dass Metadaten einen Personenbezug aufweisen können (z.B. personalisierte E-Mail, IP-Adresse).

Der Betreff ist eine kurze Beschreibung des Nachrichtentextes. Es ist nicht ungewöhnlich, dass z.B. Reisedetails wie Reisezeiten oder Reiseziele bereits im Betreff enthalten sind. Metadaten haben also auch einen inhaltlichen Bezug.

2.1.2 Telekommunikationsdaten, wie Call Detail Record (CDR) oder Einzelverbindungsnachweis

In der Telekommunikation (TK) dokumentieren Telekommunikationsmetadaten wie der Call Detail Record (CDR), in Deutschland als Einzelverbindungsnachweis bekannt, automatisch die Umstände einer TK-Verbindung (u.a. Grundlage für die Abrechnung).

Unsere heutige Telekommunikationsnutzung ist ein Mix aus Mobil- und Festnetzkommunikation und ist weder auf Telefongespräche beschränkt, noch werden Gespräche immer mit den gleichen technischen Verfahren geführt (z.B. Voice over IP). Dementsprechend entstehen Metadaten aus einer Schnittmenge dieser Nutzungsanlässe, sei es z.B. E-Mail, mobiles Surfen oder Telefonie.

Geräte- oder Kartenkennungen, wie z. B. eine IMEI oder eine IMSI, können Personen eindeutig identifizieren.

2.1.3 Internet

Tim Berners-Lee, der Begründer des World Wide Web, sieht das Kriterium »maschinenlesbar« als Kern von Metainformationen an (im Kontext des Semantic Web).

Metadaten sind maschinenlesbare Informationen über Webressourcen oder andere Dinge (…) Der Ausdruck »maschinenlesbar« ist entscheidend. (…) Metadaten sind Daten.

Quelle: Berners-Lee, T. (1997, Januar). Axioms of Web Architecture: Metadata. Web architecture: Metadata.  Übersetzung, Hervorhebung durch den Autor.

Um diese Anforderung zu erfüllen, bedarf es wiederum Kriterien, Struktur und Standardisierung – siehe hierzu RFC 3896. Nach der Definition von Berners-Lee fallen maschinenlesbare Informationen im Internet unter den Begriff Metadaten. Darunter fallen Ressourcen unterschiedlicher Art:

  • Webseite,
  • Wo man sich auf einer Webseite befinden (Pfad),
  • Webservice,
  • Dateien wie z.B. Dokumente, Bilder usw.,
  • IP-Adressen,
  • Nutzer*innen (RFC 3896 Punkt 3.2.1),
  • (…).

2.1.4 Metadaten in Dateiformaten

Metadaten können auch in Dateiformaten enthalten sein. Das Exchangeable Image File Format (Exif) definiert Metadaten für Bildformate wie JPEG:

  • Datum, Uhrzeit und Geo-Koordinaten der Aufnahme,
  • Geräte- und Einstellungsinformationen,
  • (…).

Menschen haben bei der Nutzung von Technik eine Absicht oder einen Zweck vor Augen. Beispielsweise folgt auf eine Fotoaufnahme ggf. ein Upload in ein Cloud-System. D.h. Fotoaufnahme und Upload erzeugen Metadaten, die mit einer Zweckerreichung verbunden sind. Es handelt sich nicht um getrennte Nutzungsvorgänge, vielmehr gehen diese ineinander über.

2.2 Metadaten und soziale Identität

Meredith Whittaker, Präsidentin der Signal Foundation, gibt in einem Interview eine Einordnung von Metadaten (im Kontext von Instant Messaging). Whittaker versteht Instant Messaging Metadaten als Informationen zur Identität (Name, Profilinformationen) von Nutzer*innen (»wer Sie sind«). Sie stellt diese Identität jedoch in einen sozialen Kontext (Kontaktliste, Mitglieder eines Gruppenchats). In diesem Sinne ist »wer Sie sind« auch ein »wer Ihre Freunde sind«. Das bedeutet einerseits, dass Metadaten nicht nur isolierte Einzelinformationen sein können, sondern auch soziale Beziehungen abbilden. Andererseits sind die Metadaten einer Person immer auch Informationen über andere Personen.

Wir verschlüsseln nicht nur den Inhalt der Nachrichten, also das, was Sie sagen, sondern auch die Informationen dar­über, wer Sie sind, also die Metadaten: Ihren Namen, Ihre Profilinformationen, Ihre Kontaktliste und die Mitglieder Ihrer Gruppenchats. Wir sind nicht in der Lage, diese Informationen zur Verfügung zu stellen, da wir sie nicht besitzen.

Quelle: Grob, R. (2023, 4. September). »Künstliche Intelligenz wird meist zur Überwachung eingesetzt«. Schweizer Monat. Übersetzung, Hervorhebungen durch den Autor.

Die Signal-Präsidentin beschreibt den Inhalt der Nachricht als das, »was Sie sagen«. Damit wird zwar zwischen Inhalts- und Metadaten unterschieden. Die Verschlüsselung beider Komponenten ist jedoch ein starkes Indiz dafür, dass Signal Meta- und Inhaltsdaten als ein zusammenhängendes Ganzes betrachtet. Dennoch muss gesagt werden: Signal verschlüsselt zwar Metadaten mit Sealed Sender, hinterlässt aber einzelne Metadatenpunkte in der technischen Infrastruktur.

2.2.1 Verkettung von Massendaten

WhatsApp verwendet das Signalprotokoll zur Verschlüsselung von Nachrichteninhalten, nicht aber zur Verschlüsselung von Metadaten. Und wie wir wissen, sind Metadaten ausserordentlich [sic] aufschlussreich. Und seien wir ehrlich, es gehört zu Meta. Es ist also nicht undenkbar, dass es die Metadaten und andere Informationen, über die es verfügt, mit den ausserordentlich [sic] invasiven Überwachungsdaten kombinieren könnte, die von anderen Meta-Eigentümern wie Facebook oder Instagram gesammelt werden.

Quelle: Quelle: Grob, R. (2023, 4. September). »Künstliche Intelligenz wird meist zur Überwachung eingesetzt«. Schweizer Monat. Übersetzung, Hervorhebungen durch den Autor.

Ferner weist Whittaker auf die Möglichkeit der Verkettung unterschiedlicher Informationen hin. Für eine effektive Kombination (und anschließende Auswertung mit Erkenntnisgewinn) bedarf es einer bekannten Voraussetzung: Die Informationsmassen müssen strukturiert sein.

2.3 Rechtliche Definitionen

Rechtsbegriffe, die als Metadaten verstanden werden können, sind immer im Regelungsbereich der jeweiligen Gesetze zu verstehen. Sie sind wie technische Definitionen immer anwendungsspezifisch.

2.3.1 Europäischer Gerichtshof (EuGH)

Im deutschen Telekommunikations- und Telemedienrecht sind Metadaten kein anerkannter Begriff. Der EuGH (C-311/18) verwendet den Begriff – im Zusammenhang mit der Überwachung von Kommunikation – in der bekannten Form der Nicht-Inhalte.

Im Rahmen des UPSTREAM-Programms (…) habe die NSA Zugriff sowohl auf die Metadaten als auch auf den Inhalt der betreffenden Kommunikation.

Quelle: URTEIL DES GERICHTSHOFS (Große Kammer) Data Protection Commissioner gegen Facebook Ireland Ltd, Maximillian Schrems, (C‑311/18). (2020).

Der Generalanwalt Giovanni Giulio Pitruzzella wendet sich in seiner Argumentation (C-817/19) jedoch gegen eine mögliche Unschädlichkeit von Metadaten. Vielmehr sieht Pitruzzella Meta- und Inhaltsdaten in der bisherigen Rechtsprechung des EuGH ausdrücklich als zusammengehöriges Schutzgut an.

Der Gerichtshof hat mehrmals betont, dass  nicht nur der Inhalt der elektronischen Kommunikationen, sondern auch die Metadaten Informationen »über eine Vielzahl von Aspekten des Privatlebens der Betroffenen« enthalten können, »einschließlich sensibler Informationen wie sexuelle Orientierung, politische Meinungen, religiöse, philosophische, gesellschaftliche oder andere Überzeugungen sowie den Gesundheitszustand«, dass aus der Gesamtheit dieser Daten »sehr genaue Schlüsse auf das Privatleben der Personen, deren Daten gespeichert wurden, gezogen werden [können], etwa auf Gewohnheiten des täglichen Lebens, ständige oder vorübergehende Aufenthaltsorte, tägliche oder in anderem Rhythmus erfolgende Ortsveränderungen, ausgeübte Tätigkeiten, soziale Beziehungen dieser Personen und das soziale Umfeld, in dem sie verkehren«, und dass die Daten die Erstellung »eines Profils der Betroffenen [ermöglichen], das im Hinblick auf das Recht auf Achtung des Privatlebens eine ebenso sensible Information darstellt wie der Inhalt der Kommunikationen selbst.«

Quelle: SCHLUSSANTRÄGE DES GENERALANWALTS  GIOVANNI PITRUZZELLA Ligue des droits humains gegen Ministerrat (C‑817/19). (2022). Hervorhebung durch den Autor.

2.3.2 Deutsches Recht

Was der EuGH unter Metadaten versteht, überschneidet sich z.B. mit den »Verkehrsdaten« des Telekommunikationsgesetzes.

2.3.2.1 Verkehrsdaten

Verkehrsdaten sind nach § 3 Nr. 70 des deutschen Telekommunikationsgesetzes (TKG; zuletzt geändert 2021) »Daten, deren Erhebung, Verarbeitung oder Nutzung für die Erbringung eines Telekommunikationsdienstes erforderlich ist«. Unter diese Legaldefinition fallen nach § 176 TKG:

  • E-Mail-Adresse,
  • Rufnummer oder Kennung (z.B. IMSI, IMEI) beteiligter Telefon-Anschlüsse,
  • Datum und Uhrzeit (Beginn und Ende),
  • Routing-Informationen und Angaben über IP-Adressen und MAC-Adressen,
  • Mobilfunkverbindungen Standortdaten (Funkzellen),
  • (…).

Nicht zu den Verkehrsdaten gehören bei E-Mails inhaltsbezogene Daten wie die Bezeichnung eines Dateianhangs sowie die Betreffzeile. Hier zeigt sich der Widerspruch zwischen rechtlicher und technischer Definition (Header-Felder).

§ 176 TKG ist eine ausgesetzte Regelung zur Vorratsdatenspeicherung. Das Bundesverwaltungsgericht hat in den Entscheidungen BVerwG 6 C 6.22 und BVerwG 6 C 7.22 (2023) erneut die Rechtswidrigkeit festgestellt. Eine Auflistung aller Datenkategorien, die einer Vorratsdatenspeicherung unterliegen würden, hat der Verein Digitale Gesellschaft erstellt.

2.3.2.2 Nutzungsdaten

Nutzungsdaten sind nach § 2 Nr. 3 TTDSG personenbezogene Daten eines Nutzers von Telemedien (z.B. Website, App), deren Verarbeitung erforderlich ist, um die Inanspruchnahme von Telemedien zu ermöglichen und abzurechnen. Die Gesetzesbegründung gibt wenig Aufschluss darüber, welche Daten genau darunter fallen. Auch die nicht abschließende Aufzählung in den Buchstaben a) bis c) ist wenig aussagekräftig. Diese Unklarheit führt zu Abgrenzungsproblemen zu den Verkehrsdaten.

Klar ist hingegen, dass Nutzungs- und Verkehrsdaten eine Schnittmenge hinsichtlich der erfassten Datenkategorien aufweisen müssen.

Am Beispiel einer IP-Adresse zeigt sich, dass ein und dasselbe Datum sowohl Nutzungs- als auch Verkehrsdatum sein kann. Umgekehrt ist beispielsweise ein Login-Datum bestehend aus Nutzerkennung und Passwort für ein Telemedium lediglich ein Nutzungsdatum.

Quelle: Leibniz-Institut für Informationsinfrastruktur, Universität Innsbruck, Karlsruher Institut für Technologie, Boehm, F., Böhme, R. & Andrees, M. (2017). Sachverständigengutachten zur Anhörung des 1. Untersuchungsausschusses des Deutschen Bundestages der 18. Wahlperiode zum Thema: Wie bzw. auf welche unterschiedliche Art und Weise wird der Begriff der Verkehrs- und Nutzungsdaten wissenschaftlich im technischen und juristischen Kontext gebraucht? Wie ist dieser vom Begriff der Metadaten abzugrenzen? Deutscher Bundestag.

Allerdings kann bereits die Tatsache, dass ein Telemediendienst (Menstruations-App, Forum zu einer bestimmten Krankheit, Online-Glücksspiel etc.) genutzt wird, Rückschlüsse auf sensible Sachverhalte zulassen.

Nutzungsdaten können eine große Nähe zu den Kommunikationsinhalten aufweisen und deswegen die Verkehrsdaten in ihrer Sensitivität noch übertreffen.

Quelle: ebd.

Die Nutzung eines bestimmten Telekommunikationsdienstes (z.B. Vodafone) ist zunächst inhaltsferner. Dagegen kann die Nutzung eines bestimmten Telemediendienstes (z.B. www.anonyme-alkoholiker.de) bereits inhaltsnäher sein.

2.3 Metadaten: A big ball of wibbly wobbly semantic stuff!

Die Gesamtschau lässt nur diesen Schluss zu: Metadaten sind kein bestimmter Datentyp. Es handelt sich vielmehr um einen Oberbegriff.

Damit wird bereits deutlich, dass Metadaten eine Übermenge der Verkehrs- und Nutzungsdaten darstellen und mit diesen Kategorien nur dann zusammenfallen, wenn sie durch genauere Bestimmung eingeschränkt sind. (…)

Umgekehrt ist den Sachverständigen kein Verkehrs- oder Nutzungsdatum bekannt, welches sich nicht als Metadatum bezeichnen ließe.

Quelle: ebd.

Daher gilt: Wenn von Metadaten gesprochen wird, ist es in der Regel unwahrscheinlich, dass tatsächlich neutrale, technische »Nicht-Inhalte« gemeint sind. Die anlasslose, massenhafte Speicherung von Kommunikationsumständen muss daher zwangsläufig mit Grundrechten kollidieren. Die künstliche Aufspaltung einer Nachricht in »was Sie sagen« und »wer Sie sind« ist politische Taktik.

Mit dieser gedanklichen Trennlinie soll in den Hintergrund gedrängt werden, dass ein zusammenhängendes Ganzes nicht einfach zerstückelt werden kann. Wenn aber eine Konstruktion ihren eigentlichen Zweck verletzt, muss sie erst recht als fehlerhaft angesehen werden. Anders ist es nicht zu erklären, dass der Inhalt einer SMS technisch nicht von den inhaltsbeschreibenden Daten getrennt werden konnte. Dennoch unterlagen SMS der Vorratsdatenspeicherung.

Treten in einer Konstruktion Widersprüche auf, ist dies ein weiteres Indiz für deren Fehlerhaftigkeit. Wie sonst ist eine Regelung für bedenkliche Nicht-Inhalte in § 176 (1) TKG (Verweis auf § 11 (5) TTDSG) zu verstehen? Mit § 176 (1) TKG sollen z.B. Rufnummern wie die der Telefonseelsorge von der Vorratsdatenspeicherung ausgenommen werden. Dabei handelt es sich jedoch um ein grundrechtliches Feigenblatt. Denn die Ausnahme ist als bürokratische Bringschuld ausgestaltet und wird auf die Zivilgesellschaft abgewälzt.

3.  Angriff auf die Privatsphäre

Eine Frage haben wir noch nicht gestellt. Warum wecken vermeintlich harmlose, neutrale Metadaten die Begehrlichkeiten von Strafverfolgern, Geheimdiensten und Unternehmen?

1. Allgegenwärtige Beobachtung mit technischen Hilfsmitteln ist ein umfassender Angriff auf die Privatssphäre

Allgegenwärtige Beobachtung mit technischen Hilfsmitteln (…) ist eine umfassende (und häufig verdeckte) Überwachung durch eine übergriffige Erfassung von Protokoll-bestandteilen, einschließlich Anwendungsinhalten oder Protokollmetadaten wie Headern. (…) zeichnet sich dadurch aus, dass es anlasslos und in großem Maßstab stattfindet (…).

Quelle: Farrell, S. & Tschofenig, H. (2014). Pervasive monitoring is an attack. RFC 7258. Übersetzung, Hervorhebung (Text) durch den Autor.

Dabei ist zunächst zu berücksichtigen, dass Metainformationen inhaltliche Rückschlüsse zulassen. Wenn z.B. aus den Geo-Koordinaten und der zeitlichen Abfolge von Fotodateien hervorgeht, dass es sich bei den Aufnahmeorten um eine katholische Kirche und ein Standesamt handelt, dann kann daraus auf das Ereignis und sogar auf die Religionszugehörigkeit geschlossen werden. Man kann also davon ausgehen, dass die Kenntnis des Inhalts eigentlich nicht notwendig ist. Denn es lassen sich eine Fülle von Metainformationen auswerten, ableiten und verknüpfen, die eine viel umfassendere Wissensgenerierung ermöglichen.

In den folgenden Abschnitten wird die Graphentheorie verwendet, um den Angriff auf die Privatsphäre durch Metadaten zu veranschaulichen. Es kann hilfreich sein, den Beitrag Topographie der Daten: Eine Blackbox für den Nutzer (2020) zu lesen.

Graphen können als strukturierte Beschreibung von Wissen und Information verstanden werden. Graphen setzen sich aus Knoten und Kanten zusammen. Ein anschauliches Beispiel für Graphen sind U-Bahn-Pläne. Jeder U-Bahnhof ist ein Knoten. Die U-Bahn-Linie bzw. die Verbindung zwischen zwei Stationen entspricht einer Kante.

3.1 Masse

Das Attribut »Masse« für Metadaten wurde bereits erwähnt. Zur Speicherung von Verbindungsdaten gibt es unterschiedliche Angaben. Im deutschen Geheimdienst-Untersuchungsausschuss 2014 ist von einer Speicherung bis zur fünften Ebene die Rede (Kontakte der Ursprungsnummer, Kontakte dieser Kontakte usw.). In der Gerichtsentscheidung United States v. Moalin (2020) erfahren wir, dass in den USA Verbindungen bis zu drei »Hops« gespeichert werden. Das bedeutet, dass, wenn eine Person 100 Kontakte hat (und jeder dieser Kontakte wiederum 100 Kontakte hat usw.), man bei drei Ebenen auf eine Million Verbindungsmetadaten käme.

3.2 Soziale Verbindungen

»Zeige mir deine sozialen Beziehungen und ich sage dir, wer du bist«. Dies ist einer der Grundgedanken der sozialen Netzwerkanalyse.

Zur Veranschaulichung wird ein ungerichteter Graph mit Kantengewichten verwendet. Die Werte der Kantengewichte entsprechen der Anzahl der sozialen Verbindungen zwischen den Akteuren.

Jeder Akteur wird durch einen Knoten repräsentiert. Wie wir gezeigt haben, können Metadaten verkettet werden und Wissen generieren. Beispielsweise verwenden Ärzte aussagekräftige E-Mail-Adressen – Informationen über die Fachrichtung oder den Ort sind keine Seltenheit. So haben einige Akteure bereits aussagekräftige Namen. Eine soziale Verknüpfung kann in unserem Beispiel jede Art von digitaler Kommunikation zwischen den Akteuren sein.

Digitale Kommunikation

Quelle: Durch den Autor erstellt.

In sozialen Netzwerken gibt es neben einzelnen Knoten auch Gruppen von Knoten. Eine Gruppe kann jede Art von sozialem Zusammenschluss oder Interesse darstellen (Freundeskreis, Familie, Kollegen, Sportverein usw.). Aufgrund von Interaktionen und Verhaltensmustern können Knoten bestimmten Gruppen zugeordnet werden oder auch nicht.

Das Anrufverhalten von Familienmitgliedern (…) weist auf starke soziale Bindungen zwischen ihnen hin, was sich in der Gesamtzahl der Anrufe und der Häufigkeit der Anrufe widerspiegelt.

Quelle: Motahari, S. (2012). The impact of social affinity on phone calling patterns: Categorizing social ties from call data records. Übersetzung, Hervorhebung durch den Autor.

Bereits eine oberflächliche Analyse der Akteure und Gruppen liefert Erkenntnisse. Möglichkeiten zur Berechnung weiterer Merkmale finden sich hier.

  • Cathy und Dennis sind wichtig. Ohne sie würden zwei getrennte Teilgraphen entstehen und der Knoten Hausarzt würde seine Verbindung verlieren,
  • Gruppe Cathy, Edwin, Beate, Michael sind fast alle verbunden und ihre Kantengewichte sind hoch,
  • Gruppe Dennis, Gudrun, Ingo, Julian sind alle verbunden und ihre Kantengewichte sind meist hoch,
  • Beide Gruppen weisen starke soziale Bindungen auf. Es handelt sich wahrscheinlich um Familien,
  • Cathy und Dennis verbinden die beiden Gruppen. Es handelt sich wahrscheinlich um ein Ehepaar. Diese Schlussfolgerung wird durch die Verbindung mit dem Knoten Hausarzt unterstützt,
  • Dennis hat eine Verbindung zum Knoten Anwalt für Familienrecht,
  • Ingo zeigt die geringste soziale Interaktion in seiner Gruppe,
  • Julian und Dennis haben eine Verbindung zum Akteur Krankenhaus
  • (…).

Die Anzahl der sozialen Verbindungen kann in einer maschinenlesbaren Adjazenzmatrix dargestellt werden. Algorithmen können damit z.B. die kürzeste Verbindung in einem Netzwerk, den niedrigsten Preis oder die Intensität der sozialen Interaktion berechnen. Dazu werden die Kantengewichte in eine Matrix übertragen. Die Buchstaben entsprechen den Akteuren (C=Cathy).

Adjazenzmatrix

3.2.1 Grundrauschen, Muster und Abweichungen

Unsere tägliche Routine erzeugt eine Art »Datengrundrauschen«. Daher können Abweichungen von bestehenden Mustern aufschlussreich sein. Eine Familie zeichnet sich durch starke soziale Bindungen aus. In dem vorliegenden Graphen kann dies zur Identifizierung von Gruppenmitgliedern dienen. Es ist aber auch ein Muster, aus dem Abweichungen hervorstechen.

In unserem Beispiel ist der Knoten Krankenhaus eine solche Abweichung. Das Kantengewicht zu anderen Akteuren ist durchschnittlich hoch. Aber höher als zu anderen peripheren Akteuren.

Digitale Kommunikation (minimiert)

Quelle: Durch den Autor erstellt.

Würden nun der Knoten Ingo – der im Gruppenvergleich eine ungewöhnlich geringe Verbindungsstärke aufweist – und der Akteur Krankenhaus aus dem Graphen verschwinden, wären dies weitere Auffälligkeiten. Setzt man diese Auffälligkeiten in Beziehung, so wäre eine wahrscheinliche Interpretation, dass Ingo verstorben ist.

Unser Alltag ist geprägt von immer wiederkehrenden Abläufen und daher längst nicht so einzigartig, wie wir gerne glauben. Unser »Datengrundrauschen« ist mit dem anderer Menschen vergleichbar – das gilt auch für Gruppen. Unsere sozialen Beziehungen sind messbar, segmentierbar und zerlegbar geworden. So muss auch der Kontakt zu einem Anwalt für Familienrecht auffallen, weil er aus dem gewohnten Muster fällt. Manchmal sind es nicht die Gewohnheiten des Alltags, die uns verraten, sondern die Abweichungen davon. Entscheidend ist, dass derjenige, der die Verfügungsgewalt über die sozialen Metadaten hat, auch die Wissensmacht über uns erlangt. Ihm obliegen auch die Interpretationen und Schlussfolgerungen aus diesem Wissen.

4. Aufspüren und Identifizieren

Deutlicher als jede Kategorisierung kennzeichnen Metadaten ihre Eigenschaften. Metadaten haben viele Gesichter – sie können personenbezogen, sensibel und inhaltsbezogen sein.

Ihre Masse wurzelt in der Unvermeidbarkeit ihrer automatischen Generierung. Unsere heutigen Kommunikationsgewohnheiten erzeugen unbewusst massenhaft Metadaten. Diese Datenmassen werden durch Strukturen erschlossen, die Informationen maschinenlesbar machen und unsere digitale Kommunikation ermöglichen.

Durch ihre Strukturiertheit werden Metainformationen verknüpfbar und generieren bisher unbekanntes Wissen. Wenn wir die Entstehung dieser Daten nicht bemerken, haben wir auch keine Ahnung von der Entstehung neuen Wissens über uns selbst.

Willkürliche rhetorische Trennlinien zwischen Inhalt und Nicht-Inhalt sollen lediglich den Anschein erwecken, eine anlasslose Vorratsdatenspeicherung könne irgendwie verhältnismäßig und damit grundrechtskonform sein.

Bei diesen Daten handelt es sich um technische Daten – nicht um Inhalte der Kommunikation.

Quelle: Anfragen an das BKA. (o. D.). Vorratsdatenspeicherung Fragen & Antworten). Bundeskriminalamt.

Ein Paradebeispiel für diese rhetorische Verharmlosung von Überwachung ist die Behauptung, Metadaten seien etwas technisch Neutrales – so zu finden auf der Homepage des BKA – und damit unbedenklich. Wären Metadaten tatsächlich neutral, wären sie für Überwachungsmaßnahmen nutzlos. Dass dem nicht so sein kann, sehen wir an der europäischen Richtlinie zur Vorratsdatenspeicherung (2002/58/EG). Dort finden sich nämlich die verräterischen Begriffe »Trace and Identify« oder »Aufspüren und Identifizieren«.

Versteht man Überwachung als Kontroll- und Überprüfungshandlung, so ist das »Aufspüren und Identifizieren« eine praktische Tätigkeit, die sich aus dieser Handlung ergibt. Metadaten wären dann das Mittel zum »Aufspüren und Identifizieren« und müssen daher das Gegenteil von harmlos sein. Denn der Zweck ist letztlich nicht die Überwachung selbst, sondern die Repression im Sinne staatlicher Strafverfolgung. Repressive Strafverfolgung ist aber in einem Rechtsstaat an Voraussetzungen gebunden. Es muss also eine Umdeutung des Anlasslosen und Massenhaften in das Spezifische und Zielgerichtete stattfinden. Der gesamte »Cyberspace« ist Tatort, jeder, der sich dort aufhält, ist verdächtig. Es braucht diese narrativen Hütchenspielertricks, damit auch neue Überwachungsfieberträume wie die Chatkontrolle den Anschein von Verhältnismäßigkeit erwecken können.

In Wirklichkeit sind sie ein Angriff auf die Grund- und Freiheitsrechte. Dass Metadaten dafür das geeignete Mittel sind, sollte für sich sprechen.

Über den Autor | Gastbeitrag

Gastbeiträge werden von Autoren verfasst, die nicht zum festen Redaktionsteam des Kuketz-Blogs gehören. Bevor ein Gastbeitrag veröffentlicht wird, findet eine inhaltliche Abstimmung mit mir statt. Dabei übernehme ich die redaktionelle Bearbeitung des Textes, prüfe den Inhalt und bereite den Beitrag sorgfältig für die Veröffentlichung im Blog vor.

Gastbeitrag ➡

SpendeUnterstützen

Die Arbeit von kuketz-blog.de wird zu 100% durch Spenden unserer Leserinnen und Leser finanziert. Werde Teil dieser Community und unterstütze auch du unsere Arbeit mit deiner Spende.

Folge dem Blog

Wenn du über aktuelle Beiträge informiert werden möchtest, hast du verschiedene Möglichkeiten, dem Blog zu folgen:

Bleib aktuell ➡


Diskussion

Ich freue mich auf Deine Beteiligung zum Artikel

HilfeWenn du Ergänzungen oder konkrete Fragen zum Beitrag hast, besuche das offizielle Forum. Dort kann der Beitrag diskutiert werden. Oder besuche den Chat, um dein Anliegen zu besprechen. zur Diskussion ➡

Abschließender Hinweis

Blog-Beiträge erheben nicht den Anspruch auf ständige Aktualität und Richtigkeit wie Lexikoneinträge (z.B. Wikipedia), sondern beziehen sich wie Zeitungsartikel auf den Informationsstand zum Zeitpunkt des Redaktionsschlusses.

Kritik, Anregungen oder Korrekturvorschläge zu den Beiträgen nehme ich gerne per E-Mail entgegen.