Datenschutzfreundliche LLM-Inferenz

KI-Fortschritt und die Datenfrage

In der aktuellen Transformer-Ära skaliert die Qualität von LLMs vor allem mit drei Dingen: Parametern, Daten und Rechenleistung. Parameter und Rechenleistung sind teuer, aber unkompliziert: mehr Chips kaufen und das Training verlängern. Daten sind ein komplexerer Engpass. Das Internet wurde bereits durchforstet, gefiltert und wiederverwertet. Die nächste Grenze sind nicht einfach größere Modelle, sondern bessere Daten.

Woher kommen sie also?

Das aktuelle Wettrennen um AGI wird von einer Handvoll führender KI-Unternehmen dominiert. Sie verfügen über Kapital, Rechenleistung, Talent und einen starken Anreiz, so viele hochwertige Trainingsdaten wie möglich zu sammeln.

Bessere Daten verbessern Modelle. Bessere Modelle könnten irgendwann helfen, sich selbst zu verbessern. Wenn mehr nützliche Daten die Chance erhöhen, leistungsfähigere Modelle zu bauen, dann beginnt jedes private Dokument, jeder Chat und jede Wissensdatenbank eines Unternehmens wie Treibstoff auszusehen.

Es steht enorm viel auf dem Spiel. Diese Unternehmen verkaufen nicht nur KI-Produkte. Sie konkurrieren darum, die Standardschnittstelle zu werden, über die Menschen und Unternehmen maschinelle Intelligenz nutzen.

Vielleicht müssen wir das nicht.

In diesem Artikel geht es um datenschutzfreundliche KI-Inferenz, einen Teil des übergeordneten Felds der Privacy-Enhancing Technologies.

On-Device- oder lokale Inferenz

Aus Datenschutzsicht ist das die sauberste Option. Sie kaufen die Hardware, betreiben das Inferenz-Backend in Ihrer eigenen Umgebung und halten die Daten in Ihrem eigenen Netzwerk. Kein Prompt überschreitet die Grenze zu einem Dritten.

Der Preis dafür sind Kosten und Komplexität. Nützliche lokale Inferenz erfordert KI-Beschleuniger, Speicher, Betrieb und Leute, die den Stack betreiben können. Wenn Sie breite, universelle KI-Fähigkeiten brauchen, wollen Sie in der Regel führende Modelle. Und diese benötigen erhebliche Rechenleistung.

Wartung ist das zweite Problem. Der KI-Markt bewegt sich schnell. Ständig erscheinen neue Modelle, Runtimes, Quantisierungsmethoden, Serving-Frameworks und Sicherheitspatches. KI lokal zu betreiben gibt Ihnen Kontrolle, aber Kontrolle ist nicht umsonst. Jemand muss das System nützlich, aktuell und sicher halten.

Fully Homomorphic Encryption (FHE)

Fully Homomorphic Encryption klingt kompliziert. Zugleich bietet sie die sauberste Sicherheitsbasis für vertrauliche Cloud-Inferenz. Der Server rechnet vollständig auf verschlüsselten Daten und sieht die Eingabe nie im Klartext. Die Idee ist einfach:

Lokale Verschlüsselung:

$enc_prompt \leftarrow ENC (prompt)$

Verarbeitung in der Cloud:

$enc_response \leftarrow INFERENC E_{FHE} (enc_prompt)$

Lokale Entschlüsselung:

$response \leftarrow DEC (enc_response)$

Die Cloud verarbeitet nur Chiffretext. Der Prompt wird verschlüsselt, bevor er den Client verlässt, und die Antwort wird erst nach ihrer Rückkehr entschlüsselt. Das ist der Reiz. Die Vertraulichkeit beruht nicht auf einem Versprechen des Anbieters oder einer Zugriffsrichtlinie. Nicht einmal auf Vertrauen in Hardware und Architektur. Sie beruht auf soliden kryptografischen Annahmen.

Das Problem ist die Praktikabilität. FHE-basierte Berechnungen sind teuer, und LLMs stecken voller Operationen, die sich darauf nicht sauber abbilden lassen. Attention, Nichtlinearitäten und autoregressives Decoding treiben den Overhead in die Höhe. Für die Inferenz großer LLMs ist FHE daher noch überwiegend eine Forschungsrichtung und nichts, was man heute für normale Chat-Latenzen einsetzt.

Multi-Party Computation (MPC)

Multi-Party Computation geht einen anderen Weg. Der Prompt wird nicht für einen Server verschlüsselt. Er wird in geheime Shares aufgeteilt und von mehreren Parteien verarbeitet. Jeder Share ist für sich allein nutzlos. Ohne die anderen Shares verrät er nichts über den Prompt. Die Grundidee sieht so aus:

Lokales Aufteilen:

$prompt_{1}, prompt_{2} \leftarrow SHARE (prompt)$

Gemeinsame Verarbeitung in der Cloud:

$res_{1}, res_{2} \leftarrow INFERENCE_{MPC} (prompt_{1}, prompt_{2})$

Lokale Rekonstruktion:

$response \leftarrow UNSHARE (res_{1}, res_{2}$ )

Keine einzelne Rechenpartei sieht den Prompt oder die Antwort im Klartext. Um nutzbare Daten zu rekonstruieren, müssten die Parteien zusammenwirken oder die Protokollannahmen brechen. Damit bietet MPC eine starke Vertraulichkeit.

Der Preis ist Komplexität. Inferenz ist nicht mehr nur Matrixmultiplikation auf einem Server. Sie wird zu einem kryptografischen Protokoll mit Kommunikation zwischen den Parteien. Für große Sprachmodelle bedeutet das in der Regel hohe Latenz, hohen Entwicklungsaufwand und ein Setup, das für den normalen Produktivbetrieb noch zu umständlich ist.

Split Inference

Split Inference setzt ebenfalls auf das Aufteilen der Berechnung. Es zerlegt das Modell in zwei Teile:

$INFERENCE (prompt) = INFERENCE_{2} (INFERENCE_{1} (prompt))$

Der erste Teil läuft lokal. Er ist klein genug, um auf dem Client ausgeführt zu werden. Der zweite Teil läuft in der Cloud, wo die teure Berechnung stattfindet. Auf den ersten Blick wirkt das attraktiv. Der rohe Prompt verlässt das Gerät nie. Das Problem ist, dass die Cloud dennoch eine Zwischenrepräsentation erhält:

$cloud_input \leftarrow INFERENCE_{1} (prompt)$

Diese Repräsentation ist keine Verschlüsselung. Sie ist nur die Ausgabe des ersten Modellteils. Sie verrät weiterhin viel über den ursprünglichen Prompt.

Das macht Split Inference aus Vertraulichkeitssicht zu einem der schwächeren Ansätze. Es kann die Offenlegung verringern, bietet aber keine starken kryptografischen Garantien. Für sensible Daten sollte es nicht als vollständige Datenschutzlösung betrachtet werden.

Confidential Computing

Die Idee von Confidential Computing ist nicht, Daten während der gesamten Berechnung verschlüsselt zu halten, wie bei FHE. Stattdessen werden Daten nur innerhalb einer geschützten Ausführungsumgebung während der Verarbeitung entschlüsselt. Konstruktionsbedingt kann der Cloud-Anbieter sie nicht im Klartext einsehen.

Ursprünglich war das vor allem eine CPU-Geschichte. Heute hält dieselbe Idee Einzug in KI-Beschleuniger und GPU-basierte Inferenz. Das ist wichtig, weil große Sprachmodelle auf CPUs nicht in brauchbarer Geschwindigkeit laufen. Sie benötigen Beschleuniger.

Das ist die Kernidee hinter Confidential AI: KI-Inferenz in hardwareisolierten Umgebungen auszuführen und mit Remote Attestation zu überprüfen, was die Daten verarbeitet.

Remote Attestation ist das Schlüsselelement. Bevor sensible Daten gesendet werden, kann der Client überprüfen, was auf dem Server läuft: die Hardware, die Laufzeitumgebung, den Modelldienst und idealerweise den genauen Software-Stack. Nur wenn die Messung mit dem erwarteten Deployment übereinstimmt, gibt der Client Daten frei.

Das verschiebt die Vertrauensgrenze. Der Nutzer muss dem Cloud-Anbieter oder dem Betreiber des KI-Dienstes nicht mehr vollständig vertrauen. Stattdessen verlagert sich das Vertrauen hin zum Hardware-Hersteller, zur Firmware und zur Attestierungskette. Confidential Computing ist keine reine Kryptografie. Anders als FHE hält Confidential Computing Daten nicht während der gesamten Berechnung verschlüsselt. Die Daten werden während der Verarbeitung entschlüsselt, aber nur innerhalb einer hardwareisolierten Umgebung. Die Vertraulichkeit hängt daher weiterhin von zusätzlichen Faktoren ab: der Prozessorarchitektur, dem Beschleuniger, der Firmware, der Laufzeitumgebung, dem Attestierungs-Setup und dem Fehlen oder der Eindämmung relevanter Seitenkanäle.

Auch die Qualität des konkreten Setups spielt eine große Rolle. Eine Confidential-Computing-Umgebung mit einem intransparenten Software-Stack ist nicht dasselbe wie eine durchgehend attestierbare und reproduzierbare Umgebung.

Der praktische Vorteil ist jedoch schwer zu ignorieren. Anders als FHE und MPC kann Confidential Computing große Modelle mit gewöhnlicher Inferenzleistung im Produktivbetrieb ausführen. Für große, in der Cloud gehostete LLMs ist Confidential Computing derzeit der praktischste Weg zu vertraulicher Inferenz mit produktionsreifer Leistung.

Prompt-Schwärzung und Pseudonymisierung

Prompt-Schwärzung geht einen Weg, der nicht direkt auf der Vertraulichkeit des Prompts beruht. Sensible Daten werden entfernt, ersetzt oder pseudonymisiert, bevor der Prompt an das Modell gesendet wird. Das kann über statische Regeln, klassische PII-Erkennung oder dedizierte kleinere Modelle wie OpenAIs Privacy Filter geschehen.

Die Idee ist einfach:

Lokale Schwärzung:

$redacted_prompt, mapping \leftarrow REDACT (prompt)$

Verarbeitung in der Cloud:

$redacted_response \leftarrow INFERENCE (redacted_prompt)$

Lokale Wiederherstellung:

$response \leftarrow RESTORE (redacted_response, mapping)$

Schwärzung und Pseudonymisierung erfolgen lokal. Der Modellanbieter sieht nur die geschwärzte Version. Namen, Adressen, Kundennummern, Vertragsdetails oder andere sensible Felder können durch Platzhalter ersetzt werden, bevor sie den Client verlassen.

Das Problem ist die Zuverlässigkeit. Echte Prompts sind chaotisch. Sensible Informationen sehen nicht immer aus wie ein Name, eine E-Mail-Adresse oder eine Telefonnummer. Sie können sich im Kontext verbergen, in seltenen Kennungen, technischen Details, kundenspezifischer Terminologie oder Kombinationen ansonsten harmloser Fakten.

Das macht Schwärzung nützlich, aber fragil. Sie kann die Offenlegung verringern, offensichtliche Lecks abfangen und eine wertvolle Schicht in einer umfassenderen Datenschutzstrategie sein. Sie sollte aber nicht die einzige Schutzmaßnahme sein.

Fazit

Datenschutzfreundliche KI-Inferenz ist nicht eine einzelne Technologie. Sie ist ein Spektrum.

Am einen Ende stehen rein kryptografische Ansätze wie FHE und MPC. Sie bieten starke Vertraulichkeitsgarantien, sind aber für große LLMs im gewöhnlichen Produktivbetrieb noch nicht praktikabel genug.

Am anderen Ende stehen pragmatische Maßnahmen wie Schwärzung und Pseudonymisierung. Sie verringern die Offenlegung, sind aber fragil: Reale Prompts sind unübersichtlich, und sensible Informationen verbergen sich oft in Randfällen.

Confidential Computing ist eine praktikable Richtung. Es ist keine reine Kryptografie. Daten werden während der Verarbeitung weiterhin entschlüsselt, aber nur innerhalb einer hardwaregestützten und isolierten Ausführungsumgebung. Doch es ist praktikabel genug, um große Modelle in der Cloud auszuführen und dabei weniger Vertrauen in den Cloud-Anbieter und den Betreiber des KI-Dienstes vorauszusetzen. Das macht es heute zum realistischsten Weg für vertrauliche KI-Inferenz.