CTERA hat Fusion Direct vorgestellt, eine föderierte Datenarchitektur, die die seit Langem bestehende Lücke zwischen Dateisystemen und Objektspeichern in Unternehmen schließt. Das neue Angebot erweitert die CTERA Fusion-Familie, zu der bereits CTERA Fusion Gateway gehört, und ist als Kernkomponente der CTERA Intelligent Data Platform positioniert. Ziel ist es, eine einheitliche, leistungsstarke Dateninfrastruktur bereitzustellen, die sowohl benutzerzentrierte Dateiworkloads als auch KI-gestützte Pipelines ohne Datenduplizierung oder Anwendungsrefactoring unterstützt.
Zusammenführung von Dateien und Objekten unter einem Namensraum
Traditionell waren IT-Teams in Unternehmen gezwungen, zwei separate Speicherdomänen zu betreiben. NAS-Systeme bieten SMB- und NFS-Zugriff für die Zusammenarbeit von Benutzern sowie für ältere oder branchenspezifische Anwendungen. Objektspeicher, typischerweise über S3 zugänglich, wird für umfangreiche, Cloud-native und Analyse-Workloads genutzt. Die Verbindung dieser Umgebungen erforderte häufig den Aufbau paralleler Infrastrukturen, das Kopieren von Daten zwischen ihnen oder den Einsatz von Gateways, die Dateizugriffe in Objekt-APIs übersetzen. Diese Übersetzungsschichten können insbesondere bei großen Datenmengen zusätzliche Latenz, Komplexität und Betriebsrisiken verursachen.
Fusion Direct löst dieses Problem durch die Bereitstellung eines einzigen, föderierten globalen Namensraums, in dem Dateien und Objekte nativ koexistieren. Daten können als Dateien auf die Plattform geschrieben und als Objekte wieder gelesen werden oder umgekehrt. Das System unterstützt vollständig bidirektionales Lesen und Schreiben, ohne Dateien in proprietäre Objektblöcke zu konvertieren oder den Zugriff über ein separates Übersetzungsgateway zu leiten. CTERA stellt ausdrücklich klar, dass es keinen Engpass bei der Datei-zu-Objekt-Konvertierung und kein proprietäres Kapselungsschema gibt.
Aus Zugriffssicht funktionieren bestehende Unternehmensanwendungen und Benutzer weiterhin wie bisher über SMB und NFS. Gleichzeitig können KI-Trainingscluster, HPC-Umgebungen und Cloud-native Dienste über S3 und S3 over RDMA auf dieselben Datensätze zugreifen. Letzteres ist darauf ausgelegt, GPU-Clustern und anderen Hochleistungsrechenumgebungen einen Durchsatz mit Leitungsgeschwindigkeit zu ermöglichen.
Nutzung bestehender Objektspeicher und verteilter Edge-Computing-Technologien
Ein wichtiger Designaspekt ist die Möglichkeit, bestehende S3-Buckets direkt an die Fusion Direct-Dateninfrastruktur anzubinden. Anstatt Objektdaten in ein neues System zu migrieren oder wiederherzustellen, können Unternehmen ihre aktuellen Objektspeicher-Namespaces als Teil des globalen Datei-/Objektspeichers bereitstellen. Nach der Anbindung sind die Objekte in diesen Buckets wie Standarddateien an Edge-Standorten und in Multi-Cloud-Umgebungen zugänglich.
Dieser Ansatz ermöglicht es IT-Teams, Objektdaten als Dateien für Benutzer und Anwendungen weltweit bereitzustellen und sie gleichzeitig nativ als S3 für KI- und Analyse-Workloads anzubieten. Dadurch reduziert sich auch der Bedarf an redundanter Infrastruktur, die andernfalls in mehreren Regionen oder an Edge-Standorten für die Datenbereitstellung oder -formatierung eingesetzt werden müsste. Das Ergebnis ist ein deutlich einfacherer Speicherbedarf für verteilte Datensätze über mehrere geografische Regionen hinweg.
Architektur für die Leistungsfähigkeit im KI-Zeitalter
CTERA Fusion Direct nutzt den bestehenden Intelligent Data Platform Stack von CTERA und ist durch das US-Patent 12,007,9521 geschützt. Die Architektur legt Wert auf die gleichzeitige Unterstützung von kollaborativen Dateiworkloads und die Verarbeitung von Daten mit hohem Durchsatz im Maschinenmaßstab.
Eine Kernfunktion ist der native Zugriff ohne zusätzliche Kopien. Daten, die als Dateien auf der CTERA-Plattform gespeichert werden, stehen sofort als Standard-S3-Objekte zur Verfügung – ohne sekundäre Kopien oder Hintergrundkonvertierungen. Umgekehrt können S3-Buckets direkt verbunden werden, und deren Inhalte sind sofort als Dateien im globalen Namensraum adressierbar. Dadurch werden Latenz und Speicherbedarf vermieden, die durch doppelte Kopien oder Zwischenspeicher entstehen.
Hochgeschwindigkeits-Dateistreaming ist ein weiterer Schwerpunkt. Große Mediendateien, Trainingsdatensätze und andere speicherintensive Inhalte können direkt vom Objektspeicher in dateibasierte Anwendungen gestreamt werden. Dadurch entfällt die Notwendigkeit lokaler Massen-Downloads oder Zwischenspeicherungsschritte, die Arbeitsabläufe verlangsamen und zusätzlichen Speicherplatz am Netzwerkrand oder in Rechenclustern belegen können.
Performancetechnisch gesehen stellt Fusion Direct native Objekte so bereit, dass S3-over-RDMA und GPU-Direktzugriffsmuster unterstützt werden. Für KI-Cluster bedeutet dies, dass GPUs Daten aus objektbasierten Datensätzen mit nahezu Leitungsgeschwindigkeit lesen und schreiben können, ohne dass im Datenpfad eine zusätzliche Protokollübersetzung erforderlich ist. Dies ist besonders relevant für Trainings- und Inferenzprozesse, bei denen der I/O-Durchsatz und nicht die reine Rechenleistung im Vordergrund steht.
CTERA hebt auch Aspekte der Datensouveränität hervor. Da die Daten in standardmäßigen S3-Buckets ohne proprietäre Wrapper oder Gateways, die die Metadaten verwalten, gespeichert werden, behalten Unternehmen die Kontrolle über ihre Informationen sowohl in lokalen Umgebungen als auch in öffentlichen Clouds. Die Architektur ist darauf ausgelegt, die Abhängigkeit von einzelnen Datenebenen zu minimieren und die Flexibilität bei der Weiterentwicklung von Infrastrukturstrategien zu gewährleisten.
Zusammenbrechende Datensilos von Mensch und Maschine
Laut CTERA-CEO Oded Nagel ist die größte Hürde für die KI-Einführung in Unternehmen nicht der Datenmangel, sondern die Herausforderung, Daten effektiv zu nutzen. Er betont, dass die Trennung von Daten für die menschliche Nutzung und Daten für maschinelle Analysen zu Reibungsverlusten führt. Die Pflege separater Umgebungen und Datensätze verlangsamt die KI-Implementierung. Nagel schlägt vor, diese in einer einzigen Plattform zu vereinen, die SMB/NFS und S3 über RDMA unterstützt und Unternehmen so einen direkten Weg von Rohdaten zu KI-fähigen Datensätzen bietet. Eine einheitliche Plattform kann Organisationen helfen, Daten besser zu nutzen und in einem von maschinellem Lernen und Automatisierung geprägten Markt wettbewerbsfähig zu bleiben.
Verfügbarkeit
CTERA Fusion Direct ist ab sofort als Teil der CTERA Intelligent Data Platform verfügbar und positioniert sich als Kernkomponente der umfassenderen CTERA Fusion-Produktfamilie für die Zusammenführung von Dateien und Objekten. Weitere Informationen finden Sie unter [Link einfügen]. CTERA.




Amazon