Cloudera und Intel: gemeinsam stark

Big DataData & Storage

Cloudera hat seine Hadoop-Plattform zwar nicht allein auf IoT ausgelegt, doch bilden IoT-Anwendungen ein Haupteinsatzfeld – hier arbeitet der Softwarespezialist eng mit Intel zusammen. silicon.de betrachtet die Partnerschaft näher und gibt einen Überblick.

In Intels IoT-Demolab in Feldkirchen bei München laufen zahlreiche innovative Anwendungen, die zeigen, was mit IoT-Technologien alles möglich ist. “Als Datenplattform dient dabei Cloudera Enterprise”, sagt Rüdiger Schickhaus, Presales Engineer bei Cloudera. Intel und Cloudera sind Kooperationspartner.

Dass es sich für Intel nicht um eine von vielen, sondern um eine sehr wichtige Partnerschaft handelt, zeigt sich an einer 740-Millionen-Dollar-Beteiligung. Mit ihr verleibte sich der Chipriese im März 2014 18 Prozent an dem privat gehaltenen Cloudera ein. Die Arbeit an einer eigenen IoT-Plattform hat Intel seit dem Cloudera-Deal eingestellt.

Rüdiger Schickhaus, Presales Engineer bei Cloudera (Bild: Cloudera)
“In 50 bis 60 Prozent unserer Anwendungen ist IoT im Spiel”, erklärt Rüdiger Schickhaus, Presales Engineer, Cloudera Deutschland (Bild: Cloudera)

Tatsächlich bietet die Zusammenarbeit für beide Seiten Vielversprechendes: Intel kann seine Chips in Endgeräten, seine Gateways und andere Produkte beisteuern, die sich im Edge einer IoT-Installation befinden oder die Connectivity bereitstellen. Cloudera, das seit kurzem auch mit einem Büro in Deutschland vertreten ist, hat mit seiner konsequent auf die Open-Community zugeschnittenen Hadoop-Edition die nötig Software auf Lager. Gemeinsam können die beiden Firmen interessierte Kunden mit IoT-Rundumlösungen bedienen, was ihnen jeweils allein kaum möglich wäre.

“Wir gehen gemeinsam zu Kunden und pflegen eine intensive Zusammenarbeit auch bei Innovationen”, erklärt Schickaus. Er führt die Verschlüsselung an, die Intel inzwischen so unterstützt, dass sie die CPU nur noch zu 1 bis 7 Prozent belastet. Gerade angesichts jüngst bekannt gewordener IoT-Hacks ist dieses Thema im Internet der Dinge von höchster Brisanz.

Wie viele der insgesamt 1400 Cloudera-Mitarbeiter weltweit (20 davon in Deutschland) sich vor allem mit IoT beschäftigen, kann Schickhaus nicht sagen. “Die Entwicklung findet weitgehend in Palo Alto statt, eine eigene Task Force IoT gibt es aber meines Wissens dort nicht”, sagt er. Fokussiert sei die Entwicklung auf leichte Nutzbarkeit und die diversen Cloud-Varianten. Auch ein spezielles IoT-Produkt steckt nicht im Cloudera-Programm, doch bildet seine Datenplattform Cloudera Enterprise das Herz vieler IoT-Anwendungen.

Der Aufbau der Datenplattform Cloudera Enterprise, die im Kern vieler IoT-Applikationen steckt (Grafik: Cloudera)
Der Aufbau der Datenplattform Cloudera Enterprise, die im Kern vieler IoT-Applikationen steckt (Grafik: Cloudera)

An Drittsoftware kommt allerdings niemand vorbei, der bei IoT auf Cloudera setzt. Der Hersteller liefert kein Visualisierungsfrontend, keine Connectivity-Komponenten wie ein IoT-Gateway, keine Endgeräte und auch keine speziellen Analytik-Anwendungen. Software beliebiger Drittanbieter lässt sich aber über ein SDK einbinden.

Audit-Trail lässt sich nicht abschalten

Die Cloudera-Plattform, die auch für IoT-Kunden verwendet wird, besitzt zwei übergreifende Komponenten und eine Reihe in mehreren Schichten implementierter Module (siehe Grafik). Übergreifend arbeiten Datenmanagement und Betriebsmanagement der Plattform. Letzteres fußt auf zwei Modulen. Der Cloudera Director wird nur gebraucht, wenn zunächst ein Cluster in der Cloud aufzubauen ist. Anschließend tritt Cloudera Manager in Aktion, der dann diesen neu definierten oder einen bereits vorhandenen Cluster verwaltet.

Ausgewähltes Whitepaper

Fünf wichtige Aspekte bei der Auswahl eines Wide Area Networks

Erfolgreiches Netz-Design kann die Produktivität deutlich verbessern und neue Chancen für die digitale Geschäftsentwicklung eröffnen. Ein unzureichend dimensioniertes WAN hemmt dagegen das produktive Arbeiten und führt zu Frustration bei Mitarbeitern, Lieferanten und Kunden. In diesem Whitepaper erfahren Sie, worauf es zu achten gilt.

Hier werden zum Beispiel Dashboards gestaltet, die das Geschehen im Gesamtsystem anzeigen. Auch Berechtigungen und andere Regeln kann man hier festlegen. Cloudera Manager lässt sich auch in übergreifende Managementsysteme integrieren und wird im Übrigen kostenlos mitgeliefert.

Das Modul für das Datenmanagement besteht aus Cloudera Navigator, Verschlüsselungs- und Schlüsselmanagement-Funktionen. Cloudera Navigator besitzt eine nicht abschaltbare Auditing-Funktion, jede Aktion auf den Daten wird also mitgeschrieben. Das sichert der Gesamtlösung die PCI (Payment Card Initiative)-Compliance, sie darf also im Zusammenhang mit Online-Zahlungsvorgängen eingesetzt werden.

Mehr zum Thema

IoT: Eine neue Standard-Welt entsteht

Im Bereich IoT gibt es zahlreiche Initiativen und Konsortien, bislang laufen diese Bestrebungen jedoch überwiegend parallel nebeneinander her. Doch damit dies alles überhaupt funktionieren kann, braucht man neben neuen Produkten auch neue Standards – insbesondere für die Kommunikation der Geräte untereinander und für die Sicherheit. silicon.de gibt einen Überblick.

In der laufenden Mitschrift der Aktionen ohne Umgehungsmöglichkeit sieht Cloudera ein wichtiges Unterscheidungsmerkmal von anderen Lösungen. “Häufig gibt es zwar einen Audit-Trail, doch kann man diesen abschalten, wenn man will, dass eine Aktion unentdeckt bleibt”, sagt Schickhaus. Gemeinsam mit dem Sicherheitsmodul auf der Serviceebene übernimmt das Datenmanagement zudem den Schutz von Daten und vor unberechtigten Systemzugriffen.

Die unterste von Cloudera verantwortete Ebene des Anwendungs-Stacks ist die Integrationsebene. Hier werden Batch-Daten mit dem Apache-Produkt Sqoop in Cloudera Enterprise hereingeholt, dazu kommen Kafka und Flume, ebenfalls offene Entwicklungen im Rahmen von Apache. Dabei ist Kafka eher für Messaging-basierende Datenformate zuständig, Flume beispielsweise für Log-Dateien.

Ist der Ingest abgeschlossen, gilt es, die Daten zu speichern. Dies erfolgt je nach Datentyp mittels HDFS (Hadoop-Filesystem, relativ unveränderliche Daten), Kudu (relationale Daten, die immer wieder aktualisiert werden) oder HBase (No-SQL, unstrukturierte Daten, die laufend hereinkommen). Die Entwicklung von Kudu startete Cloudera vor drei Jahren. Im Herbst 2015 übergab der Hersteller die fertige Arbeit wieder der Apache-Foundation.

Gemeinsam haben Intel und Cloudera eine vollständige IoT-Plattform vorzuweisen. (Grafik: Intel)
Gemeinsam haben Intel und Cloudera eine vollständige IoT-Plattform vorzuweisen. (Grafik: Intel)

Über den Daten liegen Management- und Sicherheitsdienste. Das Ressourcen-Management wird mit Yarn realisiert, das in Hadoop 2.0 dazugekommen ist (nicht zu verwechseln mit dem gleichnamigen Package Manager für JavaScript, den Facebook, Exponent, Google und Tilde im Herbst vorgestellt haben). “Es hat sich herausgestellt, dass in Hadoop-Systemen die faire Verteilung der vorhandenen Ressourcen wichtig ist, damit nicht wenige aufwändige Aufgaben alles blockieren und der Rest leer ausgeht”, sagt Schickhaus. Genau dafür sei Yarn da.

Für die Sicherheit ist Sentry zuständig, das alle zum System gehörenden Komponenten und ihre Aktivitäten überwacht. Dazu kommt mit dem Record-Service ein Zugriffsschutz, dessen Regeln in den Operations- oder Management-Modulen definiert und hier durchgesetzt werden.

Von oben greifen unterschiedliche Module für die weitere Verarbeitung, die Analyse oder die Anbindung an Drittlösungen auf die mit den Services gesicherten und verwalteten Daten zu. Es sind Module für die Batch-, Stream- und SQL-Verarbeitung vorhanden. Dazu kommt mit Solr ein Google-ähnliches Suchsystem für die Freitextrecherche und das oben schon erwähnte Software Development Kit zum Andocken beispielsweise von Visualisierungslösungen.

Mehr zum Thema

Die IoT-Strategien der großen Anbieter

Ungeahnte Möglichkeiten bietet das Internet der Dinge. Beinahe jede Branche kann davon profitieren. Die großen Anbieter gehen diesen Riesenmarkt mit jeweils ganz eigenen Ansätzen an. Wir stellen die wichtigsten vor.

Eine besondere Rolle spielt Spark, ein Tool, das eigentlich für die Batch-Verarbeitung gedacht war, nun aber immer mehr andere Komponenten integriert. Beispielsweise bringt Spark eigene MapReduce-Mechanismen mit. Noch ist allerdings Pig MapReduce komfortabler und schneller als der Spark-interne Mechanismus und wird deshalb mitgeliefert. Inzwischen hat Spark auch eine eigene Datenbank, so dass Hive nicht mehr unbedingt nötig ist. Cloudera hat von Anfang an stark in die Spark-Entwicklung investiert und sieht sich hier im Markt weit vorn.

Anwendungen: Kooperation mit vielen Partnern

Hinsichtlich der Anwendungen arbeitet Cloudera mit vielen Partnern zusammen, beispielsweise mit Fahrzeugherstellern im Bereich Connected Car. “Wichtigstes Anwendungsfeld ist für uns die vorbeugende Wartung”, sagt Schickhaus. Auf diesem Gebiet hat Cloudera beispielsweise eine Lösung für ein deutsches Maschinenbauunternehmen realisiert, das unter anderem große Turbinen für teils sehr abgelegene Wasserkraftwerke baut. “Fällt eine solche Turbine unerwartet aus, dann dauert es oft schon sehr lange, bis überhaupt jemand vor Ort sein kann, denn dort ist häufig niemand stationiert”, berichtet Schickhaus. Durch die Auswertung der Sensordaten, die die Sensoren an den Turbinen liefern, gelinge es nun, bevorstehende Ausfälle zu bemerken, rechtzeitig einen Wartungsspezialisten loszuschicken und damit kostspielige Ausfälle zu verhindern.

Auch mit einem großen Automobilzulieferer kooperiert Cloudera. “Das Unternehmen möchte bis 2018 alle Devices in seinen mehr als 400 Fabriken angebunden haben. Wir stecken im Kern der geplanten umfassenden IoT-Lösung”, sagt Schickhaus. Zudem ist man bei den Telematik-Lösungen diverser Versicherer mit im Boot. “In 50 bis 60 Prozent unserer Kundenanwendungen steckt IoT-Technik”, freut sich Schickhaus. Angesichts der vielfältigen Möglichkeiten dürfte dieser Anteil höchstens noch steigen.