Categories: Cloud

10 Big-Data-Technologien, die Sie kennen sollten

Big-Data-Bestände gehören zu den wichtigsten Ressourcen vieler Unternehmen, aus denen sich Erkenntnisse für die Entwicklung neuer Geschäftsmodelle, Produkte und Strategien ziehen lassen. Im Moment stehen die meisten Unternehmen jedoch vor der Aufgabe, ein geeignetes Big-Data-Konzept und die Use Cases für sich zu identifizieren. Je nach Anwendungsszenario kommen dabei verschiedene, meist individualisierte Technologiekonzepte aus dem Big-Data-Umfeld zum Einsatz. Hier sind die zehn wichtigsten im Überblick.

Stefan Müller, der Autor dieses Gastbeitrags für silicon.de, ist Director Business Intelligence & Big Data bei it-novum (Bild: it-novum).

1. Hadoop – ein bewährtes Konzept

Hadoop ist ein in Java geschriebenes Open-Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Im Big Data-Bereich spielt Hadoop mittlerweile bei vielen Lösungen eine zentrale Rolle. Besonders geeignet ist Hadoop für Datenauswertungen, bei denen aufwendige Analysen durchgeführt werden müssen.

2. Cloudera – alles aus einer Hand

Cloudera bietet eine eigene Hadoop-Distribution, die zu den mittlerweile beliebtesten gehört. Cloudera umfasst ein breites Portfolio an geprüften Open Source Big Data-Anwendungen, die über den Cloudera Cluster Manager auf einer Weboberfläche einfach verwaltet und installiert werden können. Unternehmen profitieren davon, dass sie auf bewährte Lösungen zurückgreifen und flexibel neue Big Data-Technologien in bestehende Prozesse implementieren können.

3. Apache Hive – das Data Warehouse für Hadoop

Eine Herausforderung für Unternehmen ist die Verlagerung ihrer Daten nach Hadoop, weil die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query Language (SQL) gespeichert sind. Unterstützung bietet hier das Open Source-Data-Warehouse-System Apache Hive. Die Hauptfunktionen von Hive sind die Datenzusammenfassung, die Datenabfrage und die Datenanalyse.

4. Cloudera Impala – die Lösung für Echtzeitabfragen

Der Hadoop-Spezialist Cloudera entwickelte mit Impala eine Technologie, mit der Echtzeitabfragen in Hadoop oder HBase durchgeführt werden können. Die Hauptfunktion von Impala besteht darin, ein skalierbares und verteiltes Datenabfrage-Tool für Hadoop bereitzustellen.

5. MongoDB – die Datenbank für alle Fälle

MongoDB ist eine der marktführenden NoSQL-Datenbanken aus dem Open-Source-Bereich. Als “Allzweckdatenbank” eignet sich MongoDB bestens für die heutige IT-Landschaft mit ihren großen und teilweise unstrukturierten Datenmengen. Die Datenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit bei ihren Anwendungen.

6. Pentaho – flexible Business Intelligence Plattform
Die Strategie von Pentaho ist es, verschiedene bewährte Einzellösungen zu einem kompletten Framework zusammenzufassen und den Support dafür aus einer Hand zu liefern. So können zum Beispiel Datenentwickler und Analysten mit Pentaho Data Integration (PDI) gemeinsam an der Erstellung neuer Datensätze arbeiten, indem sie das gleiche Produkt sowohl für die Entwicklung als auch für die Visualisierung der Daten verwenden.

7. Infobright – MySQL-Engine mit effektiver Datenkompression

Das explosionsartige Datenwachstum setzt die etablierten Datenmanagementlösungen unter Druck, da ihre Flexibilität beschränkt ist. Aus diesem Grund wurden spaltenbasierte Datenbanken entwickelt. Mit der MySQL-Engine Infobright hat sich in der jüngeren Vergangenheit ein neues Open Source-System etabliert, das für Datenmengen ab 500 Gigabyte geeignet ist. Infobright kombiniert eine spaltenbasierte Datenbank mit einer sich selbst verwaltenden Knowledge Grid-Architektur.

8. Apache Spark – ein Framework zur Echtzeitanalyse

Viele Unternehmen möchten ihre Daten nutzen, um schnelle und fundierte Entscheidungen treffen zu können, zum Beispiel die Optimierung von Produkten oder das Identifizieren von Einsparmöglichkeiten. Eine Technologie, die dafür herangezogen werden kann, ist Apache Spark. Dabei handelt es sich um ein parallel arbeitendes Framework aus dem Open Source-Bereich, das die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht.

9. Splunk – Big Data vereinfachen

Splunk Enterprise ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Splunk übernimmt dabei die Integration der unterschiedlichen Daten, sodass sie sinnvoll ausgewertet werden können. Der große Vorteil von Splunk ist, dass damit fast alle Arten von Dateien indiziert, verarbeitet und ausgewertet werden können.

10. Apache Storm – Big Data-Analyse auf Echtzeitbasis

Apache Storm ist ein fehlertolerantes, skalierbares System zu Echtzeitverarbeitung von Datenströmen. Die Technologie stellt eine Komponente des Hadoop-Ökosystems dar und arbeitet unabhängig von Programmiersprachen.

Fazit

Bald wird es normal sein, Big-Data-Analysen zur Unterstützung von Entscheidungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht einführen, riskieren Wettbewerbsnachteile. Es ist daher wichtig, ein geeignetes Big Data-Konzept für sich zu identifizieren und auf Basis der individuellen Bedürfnisse die richtigen Technologien einzuführen. Wer sich mit den beschriebenen Technologien ausführlicher auseinandersetzen möchte, findet umfangreichere Beschreibungen im Whitepaper “Die 10 wichtigsten Big Data-Technologien”.

Redaktion

Recent Posts

Bausteine für den verantwortungsvollen Einsatz von KI

Drei Bausteine bilden die Grundlage für eine KI-Governance: Dokumentation von KI-Projekten, Model Evaluation und Monitoring…

21 Stunden ago

Sicheres Identity Proofing im Remote-Betrieb

Eine Harmonisierung der Vorschriften für RIDP-Prozesse wird dazu beitragen, Angriffe künftig besser abwehren zu können,…

21 Stunden ago

Proalpha kauft holländischen ERP-Spezialisten

Die Übernahme der Metaal Kennis Groep soll den Zugang zur Metallindustrie verbessern. Im Fokus stehen…

1 Tag ago

Jobsorgen durch KI: Deutsche eher gelassen

EY hat Mitarbeitende in neun europäischen Ländern dazu befragt, wie stark KI ihren Arbeitsalltag verändert.

2 Tagen ago

DePIN: Ein neues Paradigma für Europas Cloud-Infrastruktur

Kann die Privatwirtschaft mit DePINs – dezentralen, physischen Infrastrukturnetzwerken – erreichen, was Gaia-X bislang vergeblich…

2 Tagen ago

Implementierung und Nutzung entscheidend für MFA-Sicherheit

Analyse zur Anfälligkeit von MFA auf Basis von 15.000 Push-basierten Angriffen. Größte Schwachstelle ist die…

2 Tagen ago