📌 Warum hat DeepSeek, Chinas künstliche Intelligenz, alle überrascht und den Markt dominiert?
– Chinas Labor für künstliche Intelligenz hat nicht nur billige KI-Modelle geschaffen – es hat auch die Ineffizienz des herkömmlichen Industrieansatzes aufgezeigt.
Der Durchbruch von DeepSeek hat gezeigt, wie ein kleines Team, das Geld sparen will, die Art und Weise, wie KI-Modelle erstellt werden, neu überdenken kann. Während Tech-Giganten wie OpenAI und Anthropic Milliarden von Dollar allein für die Rechenleistung ausgeben, soll DeepSeek mit knapp über 5 Millionen Dollar ähnliche Ergebnisse erzielt haben.
Die Modelle des Unternehmens sind OpenAIs GPT-4o (OpenAIs bestes LLM), OpenAIs o1-OpenAI (das beste derzeit verfügbare Ausgabemodell) und Anthropics Claude 3.5 Sonnet, das viele Benchmarks erfüllt oder übertrifft und etwa 27,88 Millionen Stunden auf einer H800-GPU für ein vollständiges Training benötigt. Das ist nur ein Bruchteil der Hardware, die im Allgemeinen als notwendig erachtet wird.
Das Modell ist so gut und effizient, dass es innerhalb weniger Tage zum Spitzenreiter in der iOS-App-Kategorie aufgestiegen ist und die Dominanz von OpenAI herausgefordert hat.
Notwendigkeit ist die Mutter der Innovation. Das Team konnte dies erreichen, indem es Techniken einsetzte, an die amerikanische Entwickler noch nicht einmal denken mussten und die heute nicht vorherrschend sind. Die vielleicht wichtigste dieser Techniken besteht darin, dass DeepSeek anstelle von Full-Precision-Computing 8-Bit-Lernen einsetzte, was den Speicherbedarf um 75 % reduzierte.
sie kamen auf 8-Bit-Gleitkomma-Lernen. Soweit ich weiß, ist das 8-Bit-Gleitkomma-Lernen nicht sehr gut bekannt. In den USA arbeiten die meisten Schulungsprogramme immer noch mit FP16.
FP8 benötigt nur halb so viel Speicher und Speicherbandbreite wie FP16. Für große KI-Modelle mit Milliarden von Parametern ist diese Reduzierung signifikant. DeepSeek musste mit schwacher Hardware auskommen, aber OpenAI hatte nie mit solchen Einschränkungen zu kämpfen.
Am Montag warf das chinesische Unternehmen für künstliche Intelligenz DeepSeek (DeepSeek) einen Schatten auf das Lieblingsskript der Wall Street und ließ den Bitcoin-Preis unter die Marke von 98.000 Dollar fallen.
Die Forscher des Startups, die ein Open-Source-Modell der künstlichen Intelligenz namens DeepSeek R1 vorstellten, sagten, dass das Modell ein hochmodernes OpenAI-Inferenzsystem sei. Dank einer neuen Trainingsmethode seien die Abfragen in DeepSeek R1 98 Prozent billiger als das OpenAI-Flaggschiff und kosteten deutlich weniger.
DeepSeek verarbeitet auch ganze Phrasen auf einmal, anstatt einzelne Wörter, wobei
eine weitere vom Unternehmen verwendete Methode Destillation genannt wird, bei der kleinere Modelle die Ergebnisse größerer Modelle reproduzieren, ohne auf derselben Wissensbasis zu trainieren. . Dies hat zu einem sehr effizienten, genauen und wettbewerbsfähigen kleinen Modell geführt.
Das Unternehmen hat auch eine Technik namens Expert Blending eingesetzt, die die Effizienz des Modells verbessert. Während bei herkömmlichen Modellen immer alle Parameter aktiv sind, verwendet das DeepSeek-System 671 Milliarden Parameter, von denen aber nur 37 Milliarden zu einem bestimmten Zeitpunkt aktiv sind. Das ist so, als hätte man ein großes Expertenteam, das aber nur die Experten einsetzt, die für die Lösung eines bestimmten Problems benötigt werden.