Compass Investments

Crypto vs. Dollar

📌 Çin’in yapay zekası DeepSeek neden herkesi şaşırttı ve pazara hakim oldu?

Çinin yapay zeka laboratuvarı sadece ucuz yapay zeka modelleri yaratmakla kalmadı, ana akım endüstri yaklaşımının verimsizliğini de gösterdi. . Bitcoin

– Çin’in yapay zeka laboratuvarı sadece ucuz yapay zeka modelleri yaratmakla kalmadı, ana akım endüstri yaklaşımının verimsizliğini de gösterdi.

DeepSeek’in atılımı, paradan tasarruf etmek isteyen küçük bir ekibin yapay zeka modellerinin oluşturulma şeklini nasıl yeniden düşünebileceğini gösterdi. OpenAI ve Anthropic gibi teknoloji devleri yalnızca bilgi işlem gücü için milyarlarca dolar harcarken, DeepSeek’in 5 milyon doların biraz üzerinde harcama yaparak benzer sonuçlar elde ettiği söyleniyor.

Şirketin modelleri OpenAI’nin GPT-4o (OpenAI’nin en iyi LLM’si)), OpenAI’nin o1-OpenAI (şu anda mevcut olan en iyi çıktı modeli) ve Anthropic’in Claude 3.5 Sonnet’i, birçok kıyaslamayı karşılıyor veya aşıyor ve tam eğitim için bir H800 GPU’da yaklaşık 27.88 milyon saat kullanıyor. Bu, genellikle gerekli olduğu düşünülen donanımın sadece bir kısmıdır.

Model o kadar iyi ve verimlidir ki birkaç gün içinde iOS uygulama kategorisinde en üst sıraya yükselmiş ve OpenAI’nin hakimiyetine meydan okumuştur.

Gereklilik, yeniliğin anasıdır. Ekip bunu, Amerikalı geliştiricilerin hiç düşünmek zorunda bile kalmadığı ve bugün baskın olmayan teknikleri kullanarak başardı. Bu tekniklerden belki de en önemlisi, DeepSeek’in tam hassasiyetli hesaplama yerine, bellek gereksinimlerini 75% oranında azaltan 8 bitlik öğrenme yöntemini kullanmasıdır.

8 bitlik kayan noktalı öğrenme yöntemini buldular. Bildiğim kadarıyla, 8-bit kayan nokta öğrenimi çok iyi anlaşılmıyor. ABD’de çoğu eğitim programı hala FP16 ile çalışıyor.

FP8, FP16’nın yarısı kadar bellek ve depolama bant genişliği kullanır. Milyarlarca parametreye sahip büyük yapay zeka modelleri için bu azalma önemlidir; DeepSeek zayıf donanımla yetinmek zorunda kaldı, ancak OpenAI bu tür sınırlamalarla hiç karşılaşmadı.

Pazartesi günü Çinli yapay zeka şirketi DeepSeek (DeepSeek), Wall Street’in favori senaryosuna gölge düşürerek bitcoin fiyatını 98.000 $ seviyesinin altına indirdi.

DeepSeek R1 adlı açık kaynaklı bir yapay zeka modelini tanıtan startup’taki araştırmacılar, modelin son teknoloji ürünü bir OpenAI çıkarım sistemi olduğunu söyledi. Yeni bir eğitim yöntemi sayesinde, DeepSeek R1’deki sorguların amiral gemisi OpenAI modelinden yüzde 98 daha ucuz olduğunu ve önemli ölçüde daha az maliyetli olduğunu söylediler.

DeepSeek ayrıca tek tek kelimeler yerine tüm cümleleri bir kerede işler

Şirket tarafından kullanılan bir başka yöntem de, daha küçük modellerin aynı bilgi tabanı üzerinde eğitim almadan daha büyük modellerin sonuçlarını yeniden ürettiği “damıtma” olarak adlandırılır. Bu sayede çok verimli, doğru ve rekabetçi küçük bir model ortaya çıkmıştır.

Şirket ayrıca modelin verimliliğini artıran “uzman harmanlama” adı verilen bir teknik de kullanmıştır. Geleneksel modellerde tüm parametreler her zaman aktifken, DeepSeek sistemi 671 milyar parametre kullanıyor, ancak herhangi bir zamanda yalnızca 37 milyar parametre aktif oluyor. Bu, büyük bir uzman ekibine sahip olmak, ancak yalnızca belirli bir sorunu çözmek için gerekenleri kullanmak gibi bir şey.

Bitcoin

Bitcoin

$96,838.14

BTC -0.11%

Ethereum

Ethereum

$2,702.15

ETH -0.71%

Binance Coin

Binance Coin

$681.15

BNB -3.50%

XRP

XRP

$2.58

XRP 4.25%

Dogecoin

Dogecoin

$0.26

DOGE 0.14%

Cardano

Cardano

$0.81

ADA 3.77%

Solana

Solana

$195.72

SOL -0.01%