NEWS

KIOXIA veröffentlicht AiSAQ

Skalierbare Leistung für RAG, ohne Indexdaten im DRAM

Portrait des Authors


Skalierbare Leistung für RAG, ohne Indexdaten im DRAM
0

Werbung

KIOXIA hat die Veröffentlichung seiner neuen "All-in-Storage ANNS with Product Quantization"-Technologie (AiSAQ) als Open Source angekündigt. Mit einem neuartigen Algorithmus für "Approximate Nearest Neighbor Search" (ANNS), der für SSDs optimiert wurde, will KIOXIAs AiSAQ skalierbare Leistung für Retrieval-Augmented Generation (RAG) liefern können, ohne Indexdaten im DRAM ablegen zu müssen - die Suche erfolgt stattdessen direkt auf SSDs.

Generative KI-Systeme erfordern erhebliche Rechen-, Arbeitsspeicher- und Storage-Ressourcen. Dadurch ist ihr Einsatz oft mit hohen Kosten verbunden. Durch den Einsatz von SSD-basiertem ANNS will KIOXIA die Abhängigkeit von teurem DRAM reduzieren und gleichzeitig die Leistungsanforderungen führender In-Memory-Lösungen erfüllen.

RAG ist eine kritische Phase bei der KI-Anpassung, in der große Sprachmodelle (LLMs) mit unternehmens- oder anwendungsspezifischen Daten verfeinert werden. Eine zentrale Komponente von RAG ist eine Vektordatenbank, die spezifische Daten zusammenführt und deren Eigenschaften in Vektoren innerhalb der Datenbank umwandelt. Dabei verwendet Retrieval-Augmented Generation auch einen ANNS-Algorithmus, der Vektoren identifiziert, die das Modell auf Basis der Ähnlichkeit zwischen den akkumulierten und den Zielvektoren verbessern. Damit RAG effektiv ist, muss es schnell die Informationen abrufen können, die für eine Abfrage am relevantesten sind.

Üblicherweise werden ANNS-Algorithmen im DRAM eingesetzt, um die für diese Suchvorgänge erforderliche hohe Leistung zu erreichen. Die KIOXIA-AiSAQ-Technologie will hier eine skalierbare und effiziente ANNS-Lösung für Milliarden von Datensätzen mit minimalem Speicherbedarf und schnellem Index Switching bieten. Ebenfalls optimiert für Cloud-Systeme, durch das Speichern von Indizes in disaggregiertem Speicher für die gemeinsame Nutzung durch mehrere Server. Dieser Ansatz kann die Suchleistung der Vektordatenbank dynamisch für bestimmte Benutzer oder Anwendungen anpassen und die schnelle Migration von Suchinstanzen zwischen physischen Servern erleichtern.

Quellen und weitere Links KOMMENTARE (0) VGWort
Back to top