Das ganze Potenzial von KI erschließen

Veraltete Rechenzentrumsinfrastruktur verhindern den vollen Einsatz von KI-Anwendungen, sagt Sven Breuner von VAST.

Generative KI und Large Language Models (LLMs) haben ihr Potenzial bereits gezeigt. LLMs beschränken sich jedoch auf Routineaufgaben wie Geschäftsberichte oder das Aufsagen bereits bekannter Informationen. Das wahre Versprechen der KI wird sich erfüllen, wenn Maschinen den Prozess der Entdeckung durch Erfassen, Synthetisieren und Lernen aus Daten nachbilden können. Die KI würde in wenigen Tagen ein Spezialisierungsniveau erreichen, für das früher Jahrzehnte nötig waren.

Unternehmen, die vom KI-Potenzial profitieren wollen, benötigen eine Datenplattform, die die Datenverwaltung und -verarbeitung in einem einheitlichen Stack vereinfacht. Die nächste Generation der KI-Infrastruktur muss parallelen Dateizugriff, GPU-optimierte Leistung für das Training neuronaler Netze und Inferenzen auf unstrukturierten Daten sowie einen globalen Namensraum bieten, der hybride Multi-Cloud- und Edge-Umgebungen abdeckt.

Infrastrukturkompromisse lassen sich überwinden

Technische Kompromisse haben KI-Anwendungen bisher daran gehindert, Datensammlungen aus globalen Infrastrukturen in Echtzeit zu verarbeiten und zu verstehen. Eine zeitgemäße Datenplattform muss das gesamte Datenspektrum natürlicher Daten abdecken – unstrukturierte und strukturierte Datentypen in Form von Videos, Bildern, freiem Text, Datenströmen und Instrumentendaten. Ziel ist es, Daten, die aus der ganzen Welt stammen, in Echtzeit mit einem globalen Datenkorpus zu verarbeiten. So gelingt es, die Lücke zwischen ereignis- und datengesteuerten Architekturen zu schließen und Folgendes zu ermöglichen:

Zugriff und Verarbeitung von Daten in jedem Private- oder großen Public-Cloud-Rechenzentrum.
Natürliche Daten zu verstehen, indem eine abfragbare semantische Schicht in die Daten selbst eingebettet wird.
Kontinuierliche und rekursive Berechnung von Daten in Echtzeit, die sich mit jeder Interaktion weiterentwickelt.

Eine moderne Distributed-Systems-Architektur basierend auf dem Disaggregated Shared-Everything (DASE)-Ansatz schafft die Datengrundlage für Deep Learning, indem sie Kompromisse in Bezug auf Leistung, Kapazität, Skalierung, Einfachheit und Ausfallsicherheit beseitigt. Dadurch wird das Trainieren von Modellen auf allen Daten eines Unternehmens möglich. Ergänzt mit Logik können Maschinen kontinuierlich und rekursiv Daten aus der natürlichen Welt anreichern und verstehen.

Globaler Datenspeicher, Datenbank und KI-Computing-Engine

Um Daten aus der natürlichen Welt zu erfassen und bereitzustellen, ist eine skalierbare Speicherarchitektur für unstrukturierte Daten nötig, die kein Storage Tiering erfordert. Eine Enterprise-NAS-Plattform mit Datei- und Objektspeicher-Schnittstellen wird den Anforderungen der heutigen leistungsstarken KI-Computing-Architekturen sowie Big-Data- und HPC-Plattformen gerecht.

Schon lange deutete alles darauf hin, dass die gegenüber älteren Speichertechnologien hinsichtlich Energie- und Platzbedarf wesentlich effizientere Flash-Technologie für KI unverzichtbar sein wird. Flash war lange Zeit jedoch zu kostenintensiv für den Einsatz in großem Stil. Dies hat sich nun grundlegend geändert. Angesichts steigender Energiekosten und Nachhaltigkeitsanforderungen kann Flash nun auch betriebswirtschaftlich seine Effizienzkarte ausspielen. Dies war entscheidend, um die Grundlage für Deep Learning für Unternehmen zu schaffen, die Modelle auf ihren eigenen Datenbeständen trainieren wollen.

Unstrukturierte natürliche Daten strukturieren

Mit einer semantischen Datenbankschicht, die nativ in die Datenplattform integriert ist, lassen sich unstrukturierte natürliche Daten strukturieren. Durch die Vereinfachung strukturierter Daten gelingt es, die Kompromisse zwischen Transaktionen, zur Erfassung und Katalogisierung natürlicher Daten in Echtzeit, und Analysen, zur Korrelation von Daten in Echtzeit, zu lösen. Hierbei sind die Eigenschaften einer Datenbank, eines Data Warehouse und eines Data Lake in einem einfachen, verteilten und einheitlichen Managementsystem kombiniert. Eine KI-fähige Datenbank dieser Art ist für eine schnelle Datenerfassung und schnelle Abfragen in beliebigem Umfang konzipiert. Damit ist es möglich, die Grenzen der Echtzeitanalyse vom Ereignisstrom bis hin zum Archiv zu durchbrechen.

Als weiteres Element einer KI-Datenplattform wird es ein globaler Namensraum künftig ermöglichen, Daten von jedem Standort aus mit hoher Leistung zu speichern, abzurufen und zu verarbeiten. Dies soll bei gleichzeitig strenger Konsistenz über jeden Zugriffspunkt hinweg erfolgen. Dadurch wäre eine solche Datenplattform in lokalen Rechenzentren, Edge-Umgebungen sowie in Kombination mit den großen marktdominierenden Public-Cloud-Plattformen einsetzbar. Der Übergang vom KI-Hype und KI-Boom zur spürbaren KI-Revolution rückt damit ein entscheidendes Stück näher.

Sven Breuner

Field CTO International VAST Data.

Lesen Sie auch : KI in der Medizin: Mit Ursache und Wirkung rechnen