KI und Datenschutz II: Unsere Daten

Erstellt mit krea.ai

Hinweis: Alles ändert sich in diesem Bereich so schnell, dass das eine oder andere Detail abweichen kann.

Hardware

Kennen Sie „Friend“ oder „Omi“. Knuffig aussehende Anhänger, die Sie an einer Kette um den Hals tragen können. Sie zeichnen den ganzen Tag alles auf, was Sie sprechen, auch das, was Ihr Gegenüber zu Ihnen sagt. Ein Mikrofon, dass immer angeschaltet und mit dem Internet verbunden ist. Beim Bäcker, im Büro, mit Ihrem Partner, … Das Gerät sendet das Gesagte in die Cloud, wo die dazugehörige Software die Worte transkribiert und an Sie zurück sendet. So haben Sie eine komplette Historie all Ihrer Gespräche der letzten Stunden, Tage, Monate, … Aber nicht nur das. Die dahinterliegende KI erkennt, wenn Sie mit jemandem einen Kinobesuch oder ein Dinner vereinbaren und trägt das entsprechend in Ihren Kalender ein. Sie müssen sich nicht mehr erinnern und ggf. beschämt nachfragen, wann der Termin nochmal war oder in welchem Restaurant Sie sich treffen wollten. Erledigt.

In Deutschland ist das, obwohl ich kein Anwalt bin, wohl illegal. Aber wenn Sie nicht merken, dass Ihr Gegenüber so eine Kette mit Anhänger um den Hals trägt? Oder wenn es ein neues Gerät ist, dass Sie nicht kennen? Ich bin kein Anwalt, bleiben wir beim Datenschutz.

Google hat vor Jahren eine Brille vorgestellt, Google Glass. Diese hat sich nicht durchgesetzt. Jetzt kommt Meta, die zusammen mit Ray-Ban an einer hippen intelligenten Brille arbeiten. Dazu empfehle ich Ihnen das Buch von Marc Elsberg, Zero. Die Brille zeigt Ihnen vielleicht an, das ein mutmasslicher Mörder neben Ihnen steht oder auch ein möglicherweise illegaler Asylant. Oder den Namen und die Telefonnummer der hübschen Dame auf der gegenüberliegenden Straße. Wer weiß.

Um die gesammelten Informationen für Kunden nützlich zu machen, hilft KI. Gesichtserkennung, Spracherkennung, Umfelderkennung, … E-Mails, Chats und anderes erscheinen in der Brille oder werden vorgelesen, Sie können mit natürlicher Sprache antworten uvm. Super bequem, super einfach, aber aus meiner Sicht ein Albtraum, was den Datenschutz angeht.

Start-Ups in den USA

Wenn Sie momentan im Internet nach KI suchen, finden Sie sehr viele Firmen, die bestimmte KIs anbieten, z.B. um Bilder oder Musik zu erzeugen. Manche angesehene YouTuber empfehlen Ihnen vielleicht krea.ai, weil es wirklich gute Bilder erstellt. Dann hatten Sie Ihren Spaß und wollen die Daten löschen. Sehr aufwändig und schwierig. Danach wollen Sie Ihr Konto löschen. Unmöglich. Wenn Sie dann nach Kontaktinformationen oder dem Impressum suchen? Fehlanzeige. Auf einem Discord-Server beschweren sich auch andere darüber, dass die Konten nicht gelöscht werden können. DSGVo? Fehlanzeige. Von diesen Firmen gibt es viele und was diese mit Ihren Daten machen weiß niemand. Also vorsicht.

Grundgedanken

Am Ende gilt hier, wie bei allem Digitalen: Welche Risiken sehen Sie für sich und welchen Nutzen? Ich habe regelmässig mit einem guten Freund dazu Diskussionen. Er versteht wahnsinnig viel von IT, Datenschutz und Sicherheit. Trotzdem haben wir völlig unterschiedliche Sichtweisen. Er nutzt Facebook und macht sich auch sonst wenig Gedanken, denn er ist ja nur einer unter vielen, so sagt er. Mit denselben Informationen komme ich zu einem anderen Schluss. Er versteht mich nicht, ich ihn nicht oder nur sehr eingeschränkt. Aber genau so ist das. Sie, und nur Sie, müssen abwägen. Ich verwende kein WhatsApp, er schon. Bitte tolerieren Sie, wenn andere nicht mitmachen wollen.

Fun Fact: Es gibt einen Artikel, dass den KI-Anbietern bis 2026 die Trainingsdaten ausgehen könnten. Ein neuer Artikel in einer Zeitung oder einem Blog, oder ein neues Buch von einem Autor erhöhen die Qualität der Trainingsdaten nur marginal. Wenn die Firmen das gesamte Internet abgegrast haben, stellt man fest, so viel neues kommt nicht dazu. Gary Marcus, ein bekannter KI Forscher und Experte, hat dazu auch etwas geschrieben. Er beschreibt, dass die KI-Systeme mit mehr Daten nicht automatisch schneller besser werden, sondern im Gegenteil, das Mehr (oder Meer) an Daten nur mehr Strom und Rechenleistung kostet, ohne Effekt auf die Qualität der KIs. Natürlich verbessern die Firmen ihre Algorithmen, aber den grossen Sprung scheinen wir hinter uns zu haben, was die Frage aufwirft, ob das aktuell meist verwendet Transformer Modell wirklich das Beste und Richtige ist? Was dann? Ich gehe davon aus, das bis dahin spätestens, wenn es überhaupt soweit kommt, die Firmen noch aggressiver an unsere wirklich intimen und privaten Daten kommen wollen und auch werden. Da die Nutzer nachlässig und desinteressiert sind, sammeln die Firmen die privatesten Informationen. Alexa im Schlafzimmer, wieso nicht? Wie sie an die Daten kommen? Dazu komme ich später.

Machine/Deep Learning (die Basis der generativen künstlichen Intelligenz und der Bilderkennung) lernt mit sehr sehr vielen Vergangenheits-Internet-Daten. Außerdem, wenn Sie es nicht verbieten, auch aus dem, was Sie an Anfragen stellen oder auch an Dokumenten hochladen oder Bilder die Sie erstellen lassen. Kriminelle nehmen noch die Daten aus dem Darknet dazu.

Zur Info: Es gibt 14,2 Mrd Konten, die schon gehackt wurden (Stand 7.11.2024).

Datenqualität und Gründe für Preisgabe

Doch sind diese Daten im Internet nicht immer von höchster Güte. Glauben Sie nicht? Fragen Sie sich einfach: Würden Sie Ihr Kind oder Enkel nur mit dem Internet lernen lassen, ohne Lehrer und eigener Anteilnahme am Lernprozess der Kinder? In dem Wissen, dass die korrekte Antwortrate bei aktuellen Chatbots mit ChatGPT und anderen nur bei 40% liegt?

Ansonsten fragen Sie Jonathan Turley, den ChatGPT der sexuellen Übergriffe denunziert hat.
Oder sprechen Sie mit Radiomoderator Dave Fanning, den eine KI als Kinderschänder verleumdet hat.
Wenn Sie es einfacher halten wollen, KI hat einem Journalisten empfohlen, sich von seiner Frau zu trennen.

Unablässig laufen sog. Crawler durch das Internet und sammeln wie ein Staubsauger alles auf, derer sie habhaft werden können. Google und andere Suchmaschinenanbieter aber auch darauf spezialisierte Firmen machen das schon lange, oder woher glauben Sie, kann Google Ihre Suchanfragen so gut beantworten?

Zu welcher Zeit Sie Ihre Daten zu welchem Zweck auf welcher Seite oder Plattform preisgegeben oder öffentlich gemacht haben, sei es ein Blog, ein Leserbrief, ein Posting auf Facebook public, ist egal. Es wird genommen, was am Wegesrand liegt. Gleichgültig ob Gold oder Müll. Hinzu kommt, dass z. B. Bloganbieter nicht sagen können, KI soll die Daten der Seite nicht für KI sammeln. Er kann es nur pro KI in einer sog. robots.txt einstellen. Natürlich will ich, dass meine Seite von Google und anderen gefunden wird, aber zum Trainieren der KIs will ich es nicht. Um auf dem Laufenden zu bleiben, müsste ich jede neue KI, die aus diesen Daten lernt, kennen, in der Datei eintragen und hoffen, dass der Crawler erst danach vorbei schaut. Aus meiner Sicht unrealistisch. Außerdem halten sich die Firmen nicht immer daran, wie Perplexity gezeigt hat. Damit können Sie nicht darauf vertrauen, dass Sie Möglichkeiten zum Schutz haben.

Wenn der Crawler durch das Netz läuft, findet er auch persönliche Daten (sog. PII, Personal Identifiable Information). Zum Beispiel steht auf vielen Webseiten von Sportvereinen ein Trainer mit seiner Handynummer und einem Foto. Ich hatte mehrere Diskussionen mit meinem Verein und meinen Trainerkollegen, als ich das abgelehnt habe.

Berechtigung für die Datensammelei?

Die Annahme der Crawler und BigTech ist: Alles was im Internet steht ist öffentlich und darf daher zu jedwedem Zweck genutzt werden. Davon ging auch Clearview AI aus, bis man ihnen mitteilte, dass diese Einstellung falsch ist und zu €20 Mio Strafe verdonnerte. Aber das ist eine kleine Firma und kein Google oder Apple.

Bisher haben die Firmen damit argumentiert: Wir leben von Werbung, daher haben wir ein „berechtigtes Interesse“ Daten zu sammeln, die wir für die Werbung und unser Geschäftsmodell benötigen. Lange sind sie damit gut gefahren, aber langsam scheint sich das Blatt zu wenden. Hoffen wir, dass der Trend so bleibt.

Aber: Vergessen Sie nicht, dass Sie bei Gmail, Facebook, Instagram und anderen zugestimmt haben, dass BigTech Ihre Daten verwenden darf. D.h. Facebook, Google, Apple etc. lernen nicht nur mit den öffentlich verfügbaren Daten, sondern auch mit den Daten, die sie konkret über Sie als Person haben. Wenn nicht, schieben Sie Ihnen einfach eine neue AGB unter, die liest sowieso niemand und jeder stimmt ihr zu. Manche machen das, ohne die Kunden zu informieren.

Mit all diesen Daten (und selbst ohne die speziellen persönlichen Daten) kann eine KI Sie leicht in den Trainingsdaten identifizieren. Selbst, wenn sie vielleicht gar nicht speziell darauf ausgelegt ist.

Das bedeutet zweierlei:

Mit den persönlichen Daten von Ihnen und denen aus dem Internet kann die KI ein sehr umfassendes Profil von Ihnen erstellen. Noch besser und unfassender, als alles, was die Firmen bisher generiert und monetarisiert haben. Wenn KI eines wirklich gut kann: Aus enorm vielen Daten Muster und Zusammenhänge erkennen.
Selbst wenn nur die öffentlichen Daten zugängig sind, kann KI daraus Profile erstellen. Es reichen tatsächlich wenig Datenpunkte um einen Menschen weltweit eindeutig zu identifizieren. Die Browserhersteller haben viel Erfahrung mit dem Fingerprinting. Das hilft der Werbe- und KI-Industrie. Jetzt fassen die Firmen die Daten aus verschiedenen Bereichen zusammen, was bisher nicht oder nur eingeschränkt möglich war.

Daten von anderen

Ein anderes Problem, dass sich meiner Ansicht nach nicht so leicht lösen lässt: Was ist, wenn jemand Daten über Sie in das Prompt (das Eingabefeld für die Anfrage an die KI) eingibt? Viele KIs sind so eingestellt, dass sie aus den eingegebenen Daten lernen. Wenn Sie Informationen zu Ihrem Nachbarn über die KI suchen und dazu seine Adresse und vielleicht noch sein Geburtsdatum eingeben, dann ist das zwar verboten, weil der Nachbar dieser personenbezogenen Verarbeitung von Daten zustimmen muss, aber wie soll er es erfahren? Sagen Sie ihm es? Sagt der alte weisse Singlemann, der hübschen Singlenachbarin, dass er sie gegoogelt hat? Wohl er nicht.

Aber nun ist der Schaden geschehen, was jetzt? Wie können Sie die Daten löschen, oder wie kann das Ihr Nachbar? Laut DSGVo haben Sie ein Anrecht auf Auskunft und Löschung. Probieren Sie das bei Google oder Apple. Dann legen Sie eine Datenschutzbeschwerde ein, die landet bei der DPC in Irland und dann? Bisher hat die DPC 99,93% aller Beschwerden ungeöffnet in den Mülleimer gekippt. Das scheint zwar besser zu werden, seit Helen Dixon, die Chefin, gegangen ist und die DPC Mitarbeiter aufgebaut hat, aber ich habe für die nächste Zeit keine große Hoffnung.

Privatere Daten

Die letzten Jahre haben Nutzer wie verrückt ihre Daten ins Internet gesellt. Selbst diese zu löschen ist so gut wie unmöglich. Doch jetzt reden wir über unsere gesundheitlichen Probleme mit Chatbots, teilen unseren Liebeskummer mit pi.ai oder suchen uns eine virtuelle Freundin bei replika.ai. Was glauben Sie, was Teenager, die das erste Mal Liebeskummer haben, machen? Mit den Eltern reden? Kommunikation wird immer weniger und der Chatbot ist echt ein Netter, der uns versteht und hilft. Wir laden den Arztbericht hoch, weil wir ihn nicht verstehen und die KI ihn für uns Nicht-Mediziner so schön zusammenfassen kann. Puh, doch kein Krebst, sagt die KI (die zu 60% lügt, wie wir gesehen haben, was wir bei KI halluzinieren nennen, wir wollen der KI ja nichts Böses).

Die Trainnigs der Modelle finden nicht in der EU statt oder nur wenig. OpenAI, Microsoft, Apple und andere trainieren ihre Modelle in den USA oder Asien, wo immer der Strom günstig und die Rechenleistung hoch ist. Mit Glück vielleicht in Island. D.h., die meisten Daten landen in den USA, auch wenn ich dafür keine Beweise finde.

Künstler

Aktuell diskutieren wir u.a. auch über Künstler, Michael Jackson, der Heavy Metal singt oder Maler, die geklont werden. Aber was weniger diskutiert wird: Künstler, die regional, lokal agieren und dem Verein ein Bild oder Logo designen, der Stadt bei einem Event helfen und diese Ergebnisse zu Werbezwecken auf die eigene Webseite stellen, um neue Aufträge zu erhalten. Mit diesen Bildern lernt die KI und die Stadt oder der Verein sagt der KI, er möchte ein Bild im Stile des lokalen Künstlers. Vielleicht fehlt ein wenig der Charme, aber es ist kostenlos und „gut genug“. Ein arbeitsloser Künstler mehr.

Manipulation

Ein weiteres Datenschutzrisiko sehe ich in der Manipulation von Nutzern. Wenn ich mit einem Chatbot spreche und dieser mir dann ein Produkt empfiehlt, weiss ich dann immer, ob das Werbung ist oder ob der Chatbot auf Grund seiner Daten das wirklich beste Produkt vorschlägt? Wenn ich das mit Stimme oder gar Video mache, kann die KI erkennen, ob ich gerade empfänglich für eine Werbung bin und das Produkt daher eher kaufe. Das rezeptfreie (und womöglich nutzlose) Anti-Depressivum mit einem Klick bei Amazon bestellen, kein Problem. Sie lächeln vielleicht, aber was macht Ihr Teenager, der das erste Mal Liebeskummer hat?

Was passiert, wenn die gelernten privaten Daten nicht sehr gut geschützt werden und Angreifer Zugriff bekommen? Das Ray AI Framework wurde Opfer. Es passiert also.

Mit all diesen gesammelten Daten erstellen die Firmen in den Rechenzentren Profile, analysieren Ihr Verhalten, überwachen Ihre Persönlichkeit. Wir werden davon nichts mitbekommen. Wir haben den Punkt erreicht, wo die Technologie und die Daten in einer Kombination vorhanden sind, dass Unmengen von Daten nahezu perfekt analysiert werden können. Um Ihr Nutzererlebnis und das Bankkonto von BigTech zu optimieren. Wenn die Daten fehlerhaft sind, na und, passt schon.

KI Agenten

Ein immer offensichtlicheres Thema ist die Verwendung von KI Agenten. Nicht verwechseln mit HI Agent James Bond (Human Intelligence). Wir stehen noch am Anfang, aber es ist sichtbar, was es bedeutet. Kleine KI-Agenten, die sehr spezielle Fähigkeiten haben, werden überall Einzug erhalten. Sie werden selbstständig eigene Aufgaben erfüllen können. Sie werden sich zu Netzwerken verbinden, so dass sie wirklich einen hohen Mehrwert für die Nutzer haben und komplexe Aufgaben lösen können.

Ein Beispiel:

Sie sagen Ihrem Chatbot, dass Sie in den Urlaub fahren wollen. Dann instruiert er einen Agenten, in Ihren Kalender zu schauen, wann Sie Urlaub eingetragen haben oder wann es am sinnvollsten ist, basierend auf Feiertagen, anderen Terminen, Geburtstagen oder Preisgestaltung und Reisezeiten. Dann schaut er in Ihren Wiso Steuer oder anderen Daten, wieviel Sie normalerweise ausgeben, in Ihrer Fotosammlung, ob Sie Strand oder Meer bevorzugen, ob die Kinder mitkommen usw. Mit diesen Informationen geht ein anderer Agent ins Internet und sucht die Reiseportale (was ist in Ihrem Browserverlauf, von welchen Anbietern haben Sie Rechnungen erhalten, …), gibt Termine ein und sucht nach Flügen und Hotels. Daraus erstellt wiederum ein anderer Agent für Sie drei Angebote oder, so Sie wollen, bucht für Sie gleich mit Ihrer Kreditkarte.

Das ist super bequem und viele Menschen werden solche Dienste mit Freude nutzen. KI kann heute schon vieles davon. Sie sprechen mit jemandem, lassen das aufzeichnen, eine KI transkribiert das, erkennt, dass Sie einen Termin fürs Kino abgemacht haben und trägt das in Ihren Kalender ein und schickt eine Einladung an das Gegenüber. Siehe oben Hardware.

Um dies zu erreichen, muss der Nutzer ein sehr intimes Vertrauensverhältnis mit der KI haben. Nur wenn die KI Zugriff auf all diese Daten hat, kann Sie einen wirklichen grossen Mehrwert liefern. Apple hat das erkannt und macht daher den ganzen Hype um Chatbots nicht mit, sondern sucht sehr gezielt Anwendungsfälle, wo KI dem Nutzer real und jetzt einen echten Mehrwert liefert. Daher wird Apple Intelligence auf viele Daten zugreifen (Apple kann das heute schon in vielen Bereichen) und Ihnen dann einen wirklich exzellenten Service anbieten. Aber dafür wird Apple noch mehr Daten benötigen.

Ob Apple oder andere Firmen wie Microsoft oder Google mit Ihren Daten dabei sorgfältig umgehen oder nicht, kann ich nicht beurteilen. Meine Erfahrung zeigt mir aber, dass das gerade bei Google, Meta und Microsoft nicht so oft der Fall war. Apple sammelt auch viele Daten, lebt aber (noch) nicht davon und hat mit der Private Cloud Compute sicher vieles richtig gemacht.

Agenten können aber auch kritische Aktivitäten ausführen, z. B. automatisch Webseiten angreifen und übernehmen oder Ihre Daten manipulieren etc.

Microsoft Recall

Microsoft Recall hat gezeigt, wohin der Zug fährt. Alle paar Sekunden macht Microsoft ein Bild von Ihrem Bildschirm, erkennt die Inhalte, transkribiert sie und speichert sie lokal ab. Nachdem Microsoft am Anfang jeden auch nur theoretisch möglichen Schutz und Sicherheit für Anwender hat vermissen lassen, haben Sie es zurückgezogen und nachgebessert. Angeblich ist jetzt alles gut. Daher verschieben sie es immer wieder. Jetzt auf Dezember. Sicher, nur Sie haben Zugriff, Sie können es sogar löschen und müssen es bewusst aktivieren, wenn Sie diese Art der Überwachung wollen. Kritisch fand ich die Aussage von Microsoft, dass Recall so sicher wie Windows sein soll. Ich bin skeptisch! Es ist die Firma, die Ihre Mailpasswörter in Klartext und Ihre ganzen E-Mails auf den eigenen Servern speichert. Auch die Passwörter und Mails von Mail-Anbietern wie GMX, GMAIL etc., die mit Outlook Ihre Mails auswertet und mit fast 800 (manche Nutzer zeigen Screenshots wo 871 zu sehen ist) Partnern teilt.

DSGVo

Die DSGVo schreibt vor, dass Unternehmen Kunden transparent über die Nutzung ihrer Daten informieren müssen. Ausdrückliche Zustimmung des Nutzers (Opt-in) ist von ihr gefordert. Viele Nutzer haben der Nutzung für alles mögliche zugestimmt, aber auch dem Training mit KI? Daher versuchen Firmen jetzt, diese Zustimmung nachträglich einzuholen, auch mit sog. Dark Patterns.

Sie wollen Ihre Daten. Punkt. Alle. Zur Gewinnmaximierung. Ohne Rücksicht.

Die DSGVo sagt auch, dass die Datensammlung zweckgebunden ist. KI ist keine App, sondern eine Basistechnologie, die für ganz viele Anwendungsfälle genutzt werden kann. Da bleibt den Unternehmen und somit auch Ihnen nur die Wahl: Alles erlauben oder alles verbieten. Wenn es nach BigTech geht, ist alles erlaubt.

Die DSGVo verlangt weiterhin den Schutz vor Weitergabe, unbefugter Nutzung der Daten und vor Diebstahl. Können das alle KI Anbieter gewährleisten? Google, Microsoft usw. vielleicht. Wobei Microsoft in den letzten 12 Monaten mit chinesischen und russischen Hackern zu kämpfen hatte. Da Google Ihre Daten mit über 1000 Partnern teilt, die teilweise in Russland und China sitzen, ist das nur fair.

Laut DSGVo sollten automatisierte Entscheidungen erklärbar sein und auf das Ersuchen der Nutzer sollte eine menschliche Person eingreifen (können). Spätestens hier sehen wir einen offensichtlichen Konflikt. Wie KI zu seinen Antworten kommt, ist nicht nachvollziehbar. Versuchen Sie einen Menschen von Google, Apple oder gerade den kleineren Start-Ups zu finden, dem Sie sich anvertrauen können. Schwierig.

Sie haben das Recht, Ihre Daten im Internet löschen zu lassen. Das ist bei lernenden KI Systemen schwierig, wenn auch nicht unmöglich. Auf jeden Fall wollen die Firmen das nicht. Entsprechend schwer oder unmöglich machen Sie es einem, die Daten zu löschen oder auch nur das Nicht-Lernen mit Ihren Prompts zu ermöglichen. Dazu in einem späteren Artikel mehr.

Die meisten Unternehmen fügen die Probleme hinzu, weil sie wissen, dass die Leute nicht danach suchen werden. Opt-in wäre eine gezielte Aktion, im Gegensatz zum Opt-out, bei dem man wissen muss, dass es da ist.“

Thorin Klosowski, ein Sicherheits- und Datenschutzaktivist bei der Electronic Frontier Foundation

Fazit

KI lebt von Daten, von Ihren Daten. Sie und die Firmen scheren sich dabei wenig um Ihre Rechte. Die DSGVo ist darauf nicht vorbereitet und muss dringend angepasst werden. Der Dämon ist aus der Lampe, daher müssen Sie handeln. Heißt das, KI zu verteufeln und komplett, soweit möglich, zu ignorieren, oder gibt es nicht doch Wege, für Menschen mit Datenschutzfokus, KI zu nutzen?

Was Sie tun können, beschreibe ich im nächsten Artikel.