Schöne neue Big-Data-Welt

07/02/2014 § Hinterlasse einen Kommentar

Muster lassen sich mit Hilfe von Mathematik begreifen, mit diesen Mustern lässt sich nicht nur verstehen, was gerade passiert, sondern auch was passieren wird!

Wir reden über Petabytes, Yottabytes, Zettabytes und gleiten dabei in die schöne neue Big-Data-Welt!

CC-BY Marc Smith

Big Data ermöglicht „einen tieferen Einblick, indem es z. B. Kundeninformationen durchforstet“. Deine Bank hat mitbekommen, dass Du in der letzten Zeit mehrfach Geld für Haushaltsgegenstände ausgegeben hast. Die Bank kennt Dein Ausgabeverhalten, Einkommen, Deine Kreditwürdigkeit und durch Dein Social-Media-Verhalten weiß das Geldhaus außerdem, dass Du gerne kochst und in Gourmet-Restaurants gehst. Du wünscht Dir einen neuen Herd. Deine Bank weiß, welchen Du gerne hättst. Sie erhöht Deinen Dispokredit, damit Du Dir das teure Stück auch leisten kannst. Ist doch prima, nicht wahr?

Nun gehst Du zum Arzt in der schönen neuen „Big-Data-Welt“. Natürlich hat Dein “ Dr.“ einen „360 Grad Überblick über Deine Krankheitsgeschichte“. Mit Deinem Tablet-PC meldest Du Dich im Fitnessstudio an. Dort notiert ein Trainer Deine Vitalfunktionen und andere „relevante“ Daten in dem von deinem „Dr.“ empfohlenen „Wellness“-System. Eine App überwacht Deine Trainingserfolge. In diese hat natürlich auch Dein Arzt Einsicht. „Gratuliere!“, schreibt er Dir. „Jetzt solltest du anfangen, Vitaminpräparate zu nehmen.“ Natürlich machst Du Dich gleich auf den Weg zu Deiner Apotheke –
Immer noch glücklich?

Grrrrrrrrrrrr

Ja so ist es mit der schönen neuen Welt. Mal handeln die Big-Data-Erzählungen von Bankgeschäften und Börsenkursen, mal von Tennis, Logistik oder der sogenannten „Sentiment Analysis“. Oft geht es um „Muster“, „Echtzeit“, „Vorhersagen“ , aber immer um rasant wachsende Datenmassen.

Bis 2020 soll sich das weltweite Datenvolumen alle zwei Jahre verdoppeln, schätzen die Marktbeobachter der International Data Cooperation (IDC). Bis 2020 werden die Maschinen, die uns umgeben, mal mehr und mal weniger durch unser Zutun, also Fotos, Klimadaten, Bewegungsprofile, Text, Kontonummern, Programmcode, Informationen über Verkehrsströme und Stromverbrauch mit einem Volumen von 40 Zettabyte erzeugt haben.

Im Zeitalter dieser explosionsartigen Byte-Vermehrung eröffnet Big Data einen völlig neuartigen Zugang zum Thema empirischer Erkenntnis.

Der IT-Branchenverband Bitkom spricht von den „V3“-Kriterien: Volume, Velocity, Variety. Bei Big Data geht es also darum große, unstrukturierte Datenmengen in eine Form zu bringen, die Zusammenhänge offenlegt.

„Echtzeit“ und viele verschiedene Formate, wie Tweets, Texte, Fotos, Protokolldaten und Ähnliches ermöglichen so das „Erkennen von Bedeutungen, Mustern, Vorhersagen“.

Manchmal wird noch ein viertes „V“-Kriterium angefügt: Veracity. „Wahrhaftigkeit“,
was hier bedeutet, dass mittlerweile Mechanismen möglich sein sollen, die sehr viele Daten auf ihre „Richtigkeit“ und „Vertrauenswürdigkeit“ hin prüfen können.

Und hier wird es besonders brisant!

„Von jetzt an kann man auf das Geständnis eines Angeklagten völlig verzichten, der über sein Verbrechen weniger weiß [sic] als der Computer“, schrieb der Geschwindigkeits-Theoretiker Paul Virilio schon 1980 über die Anfänge der Rasterfahndung. Reichlich 30 Jahre später macht „Predictive Policing“ Virilios Statement zur visionären Aussage: „Wer nicht mehr über die „Wahrheit“ verfügt, hat nichts mehr zu gestehen.“

Aber gehen wir lieber mal zuIBM. Mit einem jährlichen Umsatz von etwa 100 Milliarden US-Dollar und Nettogewinnen von rund 16 Milliarden, ist der US-Konzern globaler Marktführer im Hard- und Softwarebereich. Auch mit seinen Angeboten zur Auswertung von Verkehrs-, Kriminalitäts- und sonstigen Datenbergen liegt das Unternehmen weit vorn.
Game-changing soll die schöne neue Welt werden. Das war allerdings schon die Geheimdienst-Affäre.

Spätestens seit einige Medien Einsichten in die Snowden-Dokumente haben, wissen wir, dass wir nicht nur in einer Überwachungs-, sondern auch in einer „Berechnungsgesellschaft“ leben.

Das Problem in dieser schönen neuen Welt ist, dass Du keine Ahnung mehr hast, was sie über Dich „wissen“, was da berechnet und als erwartungskonform betrachtet wird. Es ist wie beim Therapeuten, dem man Einblicke in die Grundstruktur des eigenen Unterbewußtseins ermöglicht hat, der „weiß“ auch Dinge, von denen man erstmals keine Ahnung hat. Nur der hat Schweigepflicht!
In der schönen neuen Big-Data-Welt braucht man einen Informatikexperten, der sich im Bereich „Informationssysteme“, zu „Data-Profiling“, „Data-Fusion“ und „Maschinelles Lernen“ auskennt ummüberhaupt mitzubekommen, was da über einem im Umlauf ist. Von Schweigepflicht ist da keine Spur. Die Informationen werden bestimmen, ob wir den neun Job bekommen oder als Terorist vertächigt werden.

Hört sich paradox an? Das könnte man meinen, schließlich sollte man selbst doch als erstes merken, wann und ob man militante Ideen entwickelt. Weit gefehlt. Sie spüren Außenseiter trifftig auf. Hinzu kommt allerdings, dass sich diese Tools natürlich auch irren können. Fatale Rechenfehler haben manche schon bitter zu spüren bekommen.

Etwa der Kanadier Saad Allami, der durch den Begriff „wegsprengen“ in einer SMS völlig ungerechtfertigt „Opfer der US-amerikanischen Rasterfahndung modernster Ausprägung“ wurde.

Der Vertriebsmanager eines kanadischen Telekommunikationsunternehmens wollte durch das französische Wort „exploser“ nur seine Kollegen motivieren, eine möglichst durchschlagende Präsentation zu halten. Zu einem Terror-Anschlag wollte er hingegen niemanden anstiften. Aber die „Echtzeit-Analyse des US-amerikanischen Auslandsgeheimdiensts konstruierte offensichtlich aus der marokkanischen Herkunft, der abgefangenen SMS mit dem Begriff „explodieren“ und einer Truppe Einreisender als Empfänger der Nachricht eine Terrorwarnung“.

Ein Algorithmus hatte also nicht nur ein einzelnes Keyword gefunden, sondern ein Muster aus Herkunft, Adressaten und Sprache gebastelt. Ja sogent das. Dummerweise war es diesmal nicht hinreichend.

An dem Beispiel wird klar, dass Big Data eigentlich die Kunst des computergestützten Lückenfüllens ist.
Wenn bei einer großen Zahl von Personen immer wieder die Fakten A, B, C, D und E zutreffen (und die „Data-Mining“-Software dieses Muster erkennt), rechnet das Programm bei der nächsten Person (oder Kreditkartentransaktion, Verkehrsaufkommen, kollidierende Atomkerne) auf die A bis D zutrifft fest damit, dass auch E stimmt. Egal ob E in der Gegenwart (sexuelle Orientierung, politische Einstellung, psychische Krankheiten) oder in der Zukunft (Kaufabsicht, Krebsrisiko) liegt.

Nun es ist schon so, das Füllen der Erkenntnis-Leerstellen geht mittlerweile ziemlich gut.
Das hat schon Frank Schirmacher in ein paar seiner Bücher schon vor einiger Zeit aufgezeigt und geht bis zu lernenden Robortern, die Evolution nachspielen.

Die sog. „genetischen“ oder „evolutionären“ Algorithmen werden dadurch erzeugt, dass der Ausgangscode anhand einer „Aufgabe“ erst geprüft, dann verworfen oder weiterverwendet wird. Das, was sich durchgesetzt hat, löst die Aufgabe erneut, wird erneut bewertet und wieder aussortiert. Das geschieht über viele „Generationen“. Was zum Schluss in der x-ten Variante herauskommt, fährt – im Fall des Roboters – nicht mehr ständig gegen Wände. Oder es schlägt mir bei Facebook die Personen vor, die ich kennen könnte. Es sucht einfach nach zusammen auftretenden Informationensmustern.

Weil die Programme durch Auslese erzeugt werden, weiß zum Schluss allerdings „niemand mehr im Ansatz, wie diese Korrelation entsteht“.
Wer ist noch für die Richtigkeit dieser Annahmen verantwortlich?

Diese Dinge greifen tief in unser Rechtsverständnis ein.
„Worin liegt z. b. der Freiheitsgrad unserer Privatsphäre in der schönen neuen Big-Data-Welt?
Und vor allem: Was passiert, wenn der Schutz der Unsichtbarkeit völlig wegfällt?“

Denn Anonymität gibt es im Big-Universum nicht mehr, diese läßt sich aus den angehäuften Datenbergen potentiell immer wieder rausrechnen. Das nennen sie dann „De-Anonymisierung“ und ist natürlich für Firmen, Geheimdienste und Forscher ungemein praktisch.

Der Grund dafür ist, dass Big Data nur im Kontxt funktioniert.

Und dieser Kontext ist der Datenhaufen.

Vor einigen Wochen hat Lance Bennett von der University of Washington an der Freien Universität Berlin einen Gastvortrag gehalten. Es ging um seine Forschungen zu Occupy Wall Street. Der Politikwissenschaftler hat den Protest auch mit Big Data-Technik erforscht, natürlich nur mit pseudonymisierten Daten. Big Data habe seine Forschung völlig verändert, sagte der Politikwissenschaftler damals. Wenn allerdings das FBI irgendwann vor den Universitätstüren stehen würde, müsste man wohl die Server vernichten, gab Bennett zu. Anonymität ist bei Big Data eine Frage der Rechenkapazität. Besonders wenn man Daten von Twitter auswertet.
Na super!

Tagged:, ,

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

Was ist das?

Du liest momentan Schöne neue Big-Data-Welt auf Kirke's Blog.

Meta