NEWS

Sprachmodell für kommerzielle Nutzung

MosaicML veröffentlicht MPT-7B als Open-Source

Portrait des Authors


MosaicML veröffentlicht MPT-7B als Open-Source
0

Werbung

Große Sprachmodelle (Large Language Model oder kurz LLM) sind aktuell in aller Munde. Bei MosaicML hat man sich darauf spezialisiert, das Software-Ökosystem für AI-Systeme zu optimieren, denn über eine optimierte Software lassen sich große Leistungssprünge im Training erreichen – ein um 30 % beschleunigtes Training bei gleicher Hardware ist bei einer solchen Optimierung keine Seltenheit.

Eines der Probleme der Sprachmodelle ist aktuell, dass es sich weitestgehend um eine Black-Box handelt, deren Nutzung zudem auch noch an gewisse Voraussetzungen geknüpft ist. Die kommerzielle Nutzung ist an Lizenzmodelle gekoppelt und der Hersteller behält die Kontrolle darüber, wer auf die LLMs Zugriff bekommt und wer nicht.

Einen Schritt raus aus dieser Abhängigkeit macht das Angebot von MosaicML, die nun mit Pretrained Transformer (MPT-7B) ein solches LLM als Open-Source veröffentlicht haben. Trainiert hat MosaicML sein Modell auf Basis englischsprachiger Texte sowie Programmcode. Eine Billion Tokens sind Bestandteil des LLMs, welches über neun Tage auf der Hardware trainiert wurde. Verwendet wurden 440 NVIDIA A100-Beschleuniger mit jeweils 40 GB an Speicher. Die Kosten für das Training sollen laut MosaicML etwa 200.000 US-Dollar betragen haben.

Wie für solche Modelle üblich, gibt es verschieden abgestufte Modelle, die auf ihren Verwendungszweck hin optimiert sind: MPT-7B Instruct, MPT-7B Chat und MPT-7B StoryWriter. Instruct ist auf die schnelle und einfache Beantwortung von Fragen einer KI-Assistenz ausgelegt. MPT-7B Chat ist etwas umfangreicher und kann längere Konversationen ausführen – kann eine Interaktion zwischen Nutzer und KI-System ausführen. MPT-7B StoryWriter kann längere Texte mit einer Kontextlänge von 65.000 Tokens erzeugen. Alle Details zu den einzelnen Modellen, die hier verwendet wurde, findet ihr im Blog-Beitrag bei MosaicML.

Welche Modelle hier genutzt wurden, ist auch immer wieder ein Streitpunkt für die LLMs. Teilweise werden hier Datensätze verwendet, die urheberrechtlich geschützt sind. Am Ende verschwinden sie in einer gigantischen Menge an Daten, sollte aber dennoch weiterhin geschützt sein. Meta hatte hier für sein eigenes Modell LLaMA durchaus Probleme.

MosaicML ist, wie bereits beschrieben, ein Anbieter und Dienstleister im KI-Bereich, der einerseits die notwendige Software zur Optimierung bereitstellt, aber auch direkte Hilfestellung für Cloud-Anbieter leisten kann. Die hohen Kosten für das Training solcher Systeme ist eine finanzielle Hürde, sodass sich die Kompetenzen hier auf wenige Unternehmen beschränken. Mit einer Optimierung der Trainingszeiten und Kosten sollen die Hürden gesenkt werden.

MosaicML MPT-7B-Chat kann an dieser Stelle ausprobiert werden.

Quellen und weitere Links KOMMENTARE (0)