ホーム Enterprise VAST データ ディープラーニング データ プラットフォーム – AI 向けに構築

VAST データ ディープラーニング データ プラットフォーム – AI 向けに構築

by ハロルド・フリッツ
膨大なデータプラットフォーム

VAST Data は、AI 支援による発見の基盤となるように設計されたデータ コンピューティング プラットフォームを導入しました。 VAST データ プラットフォームは、AI の将来に向けて一から構築されたスケーラブルなシステムでストレージ、データベース、仮想化コンピューティング エンジン サービスを統合する最新のサービスです。

VAST Data は、AI 支援による発見の基盤となるように設計されたデータ コンピューティング プラットフォームを導入しました。 VAST データ プラットフォームは、AI の将来に向けて一から構築されたスケーラブルなシステムでストレージ、データベース、仮想化コンピューティング エンジン サービスを統合する最新のサービスです。

VAST データ プラットフォームは、ビデオ、画像、フリー テキスト、データ ストリーム、機器データなどの非構造化データと構造化データを含む、リアルタイムで生成および処理される大量のグローバル データを含めるように構築されました。このアプローチは、プライベートまたは主要なパブリック クラウド データ センターのデータにアクセスして処理し、クエリ可能なセマンティック レイヤーをデータに埋め込んで自然データをよりよく理解し、データを計算する機能により、イベント駆動型アーキテクチャとデータ駆動型アーキテクチャの間のギャップを埋めることを目的としています。インタラクションごとにリアルタイムで継続的かつ再帰的に実行されます。膨大なデータプラットフォーム

大規模な言語モデルを超えて AI 支援の発見まで

生成 AI と大規模言語モデル (LLM) は、人工知能の初期の機能を世界に紹介しました。ただし、LLM は、ビジネスの報告や既知の情報の暗唱などの日常的なタスクの実行に限定されています。機械がデータを取得、合成、学習することで発見のプロセスを再現できる場合にのみ、AI の真の可能性が実現されます。このレベルの専門化は、数十年ではなく数日で達成できるようになりました。

AI 主導の発見は、病気やがんの治療法の発見、気候変動への取り組み、農業への革新的なアプローチ、科学と数学の新しい分野の発見など、私たちの最大の課題を解決するための探索を加速します。既存のデータ プラットフォームはグローバル企業に普及しており、ビジネス インテリジェンスやレポート アプリケーションのインフラストラクチャ展開の複雑さを大幅に軽減します。ただし、依然として新しい深層学習アプリケーションのニーズを満たす必要があります。

次世代の AI インフラストラクチャは、並列ファイル アクセス、非構造化データでのニューラル ネットワークのトレーニングと推論のための GPU に最適化されたパフォーマンス、およびハイブリッド マルチクラウドとエッジ環境にまたがるグローバル名前空間を提供する必要があります。すべてが 1 つの管理しやすい製品内に統合されており、フェデレーテッド ディープ ラーニングが可能になります。

DASE: VAST データ プラットフォームの中心

VAST は当初から、自然データ、豊富なメタデータ、関数、トリガーを VAST Disaggregated Shared-Everything (DASE) 分散システム アーキテクチャの中心に据えてきました。 DASE は、パフォーマンス、容量、スケール、シンプルさ、回復力のトレードオフを排除することで、ディープ ラーニングのデータ基盤を築き、企業のデータ全体でモデルをトレーニングできるようにしました。顧客がシステムにロジックを追加できるようにすることで、機械は自然界からのデータを継続的かつ再帰的に強化して理解できるようになります。

VAST からの新しい発表は、トレーニング ワークフローを加速する方法をロードマップします。大企業にとって、生成 AI の迅速な実装パスを確保することが最も重要です。 VAST は、プラットフォームに保存されているオブジェクトに対してトランスフォーマー タイプの関数を実行できるようにすることで、これを実現する計画を立てました。たとえば、一連のトレーニング画像にランダムな歪みを適用すると、VAST プラットフォームに追加された関数を使用すると、より多くのストレージを消費してトレーニング データを前処理する必要がなく、必要に応じてトレーニング データを変換できるようになります。

トレーニング ワークフローの加速を約束する VAST の開発は、高い忠実度、迅速な再トレーニング応答、複雑なモデリングを必要とする企業内での生成 AI の新たな地平を切り開きます。高度に規制された業界は多大な利益を得ることができます。アナリストは、VAST の機能を活用してオブジェクトに対してトランスフォーマー関数を実行し、手動で作成すると時間とスペースがかかる詳細なモデルを生成できます。グラフィック要素のリアルタイムの生成と変更により、クリエイティブなワークフローも強化され、よりダイナミックでインタラクティブなデザイン プロセスが可能になります。

統合されたグローバル データストア、データベース、AI コンピューティング エンジン

VAST データストアは、ストレージ階層化を排除する非構造化データ用のスケーラブルなストレージ アーキテクチャです。自然界からデータを取得して提供するように設計された VAST は、まずプラットフォームの基盤を設計しました。 VAST データストアは、NVIDIA DGX SuperPOD AI スーパーコンピューターやビッグデータ、HPC プラットフォームなどの堅牢な AI コンピューティング アーキテクチャのニーズを満たすために構築されたエンタープライズ ネットワーク接続ストレージ プラットフォームです。

エクサバイト規模の DataStore の効率性により、フラッシュ インフラストラクチャにアーカイブの経済性がもたらされ、アーカイブ アプリケーションに適したものになります。フラッシュ ストレージのコストを解決することは、独自のデータ資産でモデルをトレーニングしようとしている企業顧客にとってディープ ラーニングの基盤を築く上で非常に重要です。

VAST データベース

VAST Database は、非構造化自然データに構造を適用するために導入されました。データベース、データ ウェアハウス、データ レイクの特性を 1 つのシンプルな分散型統合データベース管理システムにすべて組み合わせることで、VAST はトランザクション (自然データをリアルタイムで取得してカタログ化するため) と分析の間のトレードオフを解決しました。 (リアルタイムでデータを分析し、関連付けるため)。 VAST データベース あらゆる規模での迅速なデータ キャプチャと高速クエリのために設計された VAST データベースは、イベント ストリームからアーカイブまでのリアルタイム分析の障壁を打ち破ります。

VAST データ プラットフォームは、合成された構造化データと非構造化データの基盤を備えているため、生の非構造化データを関数とトリガーのサポートにより、構造化されたクエリ可能な情報に洗練および強化することができます。 VAST DataEngine は、データ センターとクラウド領域を 1 つのグローバルな計算フレームワークに統合するグローバルな機能実行エンジンです。このエンジンは、SQL や Python などの一般的なプログラミング言語をサポートしています。イベント通知システムと具体化された再現可能なモデル トレーニングが導入され、AI パイプラインの管理が容易になります。

VAST データスペース

VAST データ プラットフォーム戦略の最後の要素は、VAST DataSpace です。このグローバル名前空間により、あらゆるアクセス ポイント間で厳密な一貫性が確保されながら、あらゆる場所からのデータを高いパフォーマンスで保存、取得、処理できるようになります。 DataSpace を使用すると、VAST データ プラットフォームをオンプレミスのデータ センターやエッジ環境に展開できます。また、DataSpace へのアクセスを AWS、Microsoft Azure、Google Cloud などの主要なパブリック クラウド プラットフォームにも拡張しました。

このグローバルなデータ定義コンピューティング プラットフォームは、単一の統合システムからデータを保存、処理、配信することにより、非構造化データと構造化データを結合する新しいアプローチを採用しています。

VAST DataStore、DataBase、DataSpace は現在、VAST Data Platform 内で一般提供されています。 VAST DataEngine は 2024 年に利用可能になる予定です。

詳細については、Vast のサイトをご覧ください。 ビルドビヨンド.ai.

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード