LLuMi
Çok dilli zekayı yeniden tanımlıyor. LLuMi, güçlü instruction tuning'i DeepSeek-R1'den ilham alan muhakeme kalıplarıyla birleştiren ve gerçek dünyada eşsiz performans sağlayan son teknoloji 70B modelidir.
1. Giriş
Sağlam Llama 3.3 70B mimarisi üzerine inşa edilmiş son teknoloji çok dilli büyük dil modeli (LLM) LLuMi'yi sunuyoruz. LLuMi, gerçek dünya uygulamalarında — özellikle çok dilli diyalog ve karmaşık muhakeme görevlerinde — üstün performans göstermek için instruction tuning ile eğitildi.
DeepSeek-R1 çerçevesinden ilham alan gelişmiş iyileştirme ve damıtma tekniklerinden yararlanan LLuMi; Llama 3.3 temelinin çekirdek güçlerini korumakla kalmayıp aynı zamanda daha yüksek performans ve verimlilik sunar. Büyük ölçekli pekiştirmeli öğrenmeyi doğrudan temel modele entegre eden LLuMi; sofistike düşünce zinciri davranışları ile gelişmiş öz doğrulama sergiler ve tekrar ile dil karışımı gibi sorunları azaltır.
Damıtma
Büyük modellerin gelişmiş muhakeme kalıplarının, daha küçük ve daha verimli modellere damıtılabileceğini gösteriyoruz. Bu yaklaşım, yalnızca küçük modellerde pekiştirmeli öğrenme ile elde edilen muhakeme stratejilerine kıyasla gelişmiş performans sağlar. Açık kaynaklı DeepSeek-R1 çerçevesi — ve API'si — bunu mümkün kılmada kritik bir rol oynar.
Eğitim Sonrası
Ön adım olarak denetimli ince ayara (SFT) ihtiyaç duymadan, pekiştirmeli öğrenmeyi (RL) doğrudan temel LLuMi modeline uyguluyoruz. Bu yaklaşım, LLuMi'nin karmaşık problemleri çözmek için gelişmiş düşünce zinciri (CoT) yeteneklerini keşfetmesini sağlar.
2. Model Damıtma ve Mimari
LLuMi 70B modeli, DeepSeek-R1 Distill Llama 3.3 70B'nin gelişmiş teknikleri kullanılarak titizlikle geliştirildi. Ayrıca, daha küçük LLuMi 8B ve 3B modellerimize GRPO (Guided Reasoning Policy Optimization) kullanarak benzersiz bir düşünme özelliği kattık.
Gelişmiş muhakeme kalıplarını keşfetmek ve modeli insan tercihleriyle hizalamak için tasarlandı.
Modelin hem muhakeme hem de muhakeme dışı yeteneklerinin temel tohumu olarak hizmet eder.
3. Model İndirmeleri
LLuMi Think Modelleri
| Model | Temel Model | İndir |
|---|---|---|
| LLuMi Think 3B | Qwen2.5-3B-Instruct | 🤗 HuggingFace |
| LLuMi Think 8B | Llama-3.1-8B-Instruct | 🤗 HuggingFace |
| LLuMi Think 70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
4. Nasıl Kullanılır
Bu depo; transformers ve bitsandbytes kod tabanıyla kullanılmak üzere LLuMi Think LLM Modellerinin üç sürümünü içerir.
transformers ile kullanım
transformers >= 4.48.3 sürümünden itibaren, Transformers pipeline soyutlamasını veya Auto sınıflarını generate() fonksiyonuyla kullanarak konuşma tabanlı çıkarım yapabilirsiniz.
import transformers
import torch
model_id = "thellumi/LLuMi_Think_70B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "user", "content": "Why are tomatoes red?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])bitsandbytes kullanımı
Model kontrol noktaları, bitsandbytes ve transformers kullanılarak ek bellek optimizasyonu için 8-bit ve 4-bit'te kullanılabilir.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "thellumi/LLuMi_Think_70B"
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
quantized_model = AutoModelForCausalLM.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.bfloat16,
quantization_config=quantization_config)
tokenizer = AutoTokenizer.from_pretrained(model_id)
input_text = "Why are tomatoes red?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
output = quantized_model.generate(**input_ids, max_new_tokens=10)
print(tokenizer.decode(output[0], skip_special_tokens=True))4-bit'te yüklemek için yalnızca load_in_4bit=True parametresini iletmeniz yeterlidir.
5. Kullanım Önerileri
DeepSeek-R1 serisi modelleri kullanırken (benchmark dahil) beklenen performansı elde etmek için aşağıdaki yapılandırmalara uymanızı öneriyoruz:
- Sonsuz tekrar veya tutarsız çıktıları önlemek için sıcaklığı 0.5-0.7 aralığında (0.6 önerilir) ayarlayın.
- Sistem istemi eklemekten kaçının; tüm talimatlar kullanıcı istemi içinde yer almalıdır.
- Matematiksel problemler için prompt'unuza şöyle bir yönerge eklemeniz önerilir: "Lütfen adım adım düşün ve nihai cevabı \boxed{} içine yaz".
- Model performansını değerlendirirken birden fazla test yapmanız ve sonuçların ortalamasını almanız önerilir.
Ayrıca DeepSeek, DeepSeek-R1 serisi modellerin belirli sorgulara yanıt verirken düşünme kalıbını atlamaya (yani yalnızca "<think>\n\n</think>" çıktısı üretmeye) eğilimli olduğunu gözlemledi; bu durum modelin performansını olumsuz etkileyebilir.Modelin kapsamlı muhakeme yapmasını sağlamak için, her çıktının başında yanıtını "<think>\n" ile başlatmasını zorunlu tutmanızı öneririz.
6. Eğitim Verisi
Genel Bakış
LLuMi, herkese açık veri kümelerinden alınan yaklaşık 15 trilyon token üzerinde önceden eğitilmiş güçlü Llama 3.3 mimarisine dayanır. İnce ayar için LLuMi; herkese açık instruction veri kümelerinin ve Hugging Face'ten elde edilen 10 milyondan fazla örneğin bir bileşiminden yararlanır. Bu kapsamlı eğitim derlemi, Türkçe ve diğer dillere özel destek sağlayarak çeşitli dillerde yüksek performans elde edecek şekilde özenle hazırlanmıştır.
Veri Tazeliği
Ön eğitim verisi, LLuMi'nin son dil trendleri ve gelişmeleriyle uyumlu olmasını sağlayacak şekilde Ağustos 2024 kesim tarihine kadar olan içerikleri içerir.
7. Karşılaştırmalar
| Model | AIME 2024 (pass@1) | MATH-500 (pass@1) | GPQA Diamond | LiveCodeBench | CodeForces |
|---|---|---|---|---|---|
| Claude-3.5-Sonnet-1022 | 16.0 | 78.3 | 65.0 | 38.9 | 717 |
| OpenAI o1-1217 | 79.2 | 96.4 | 75.7 | 63.4 | 2061 |
| OpenAI o1-mini | 63.6 | 90.0 | 60.0 | 53.8 | 1820 |
| OpenAI GPT-4o-0513 | 9.3 | 74.6 | 49.9 | 32.9 | 759 |
| QwQ-32B-Preview | 44.0 | 90.6 | 54.5 | 41.9 | 1316 |
| DeepSeek R1 | 79.8 | 97.3 | 71.5 | 65.9 | 2209 |
| LLuMi Think 70B | 69.3 | 94.1 | 64.8 | 56.9 | 1603 |
Benchmark Sonuçları Hakkında Not: Donanım kısıtlamaları nedeniyle tam ölçekli benchmark testleri gerçekleştirilememiş olup sonuçlar değişebilir. Bu kısıtlamalar konusunda tam şeffafız ve yakın gelecekte kapsamlı değerlendirmeler yapmak için gerekli kaynakları sağlamaya çalışıyoruz.
8. Sorumluluk ve Güvenlik
LLuMi olarak, teknolojimizin sorumlu ve etik kullanımını teşvik etmeye kararlıyız. Büyük dil modellerinin doğasında bulunan riskleri ve kötüye kullanım potansiyelini biliyor ve bu zorlukları azaltmak için çeşitli önlemler alıyoruz:
- Önyargı Azaltma:Model çıktılarındaki önyargıyı en aza indirmek için eğitim sırasında çeşitli stratejiler uyguladık. Ancak kullanıcılar, bu çabalara rağmen zaman zaman önyargı veya istenmeyen çıktılarla karşılaşabileceklerinin farkında olmalıdır.
- Kullanım Yönergeleri:LLuMi araştırma ve sorumlu konuşlandırma için tasarlanmıştır. Kullanıcıları; modeli kullanırken etik yönergelere, ilgili yasalara ve en iyi uygulamalara uymaya şiddetle teşvik ederiz. Zararlı, yanıltıcı veya saldırgan içerik üretmek kesinlikle yasaktır.
- Güvenlik Önlemleri:LLuMi'yi gerçek dünya uygulamalarında kullanan kullanıcılar, ek güvenlik filtreleri ve izleme mekanizmaları uygulamalıdır. Modelin çıktılarının kabul edilebilir etik sınırlar içinde kalmasını sağlamak için düzenli denetimler ve değerlendirmeler yapmanızı öneririz.
- Topluluk Katılımı:Topluluğu, kullanım sırasında karşılaşılan herhangi bir güvenlik veya etik konu hakkında geri bildirim sağlamaya davet ediyoruz. Bu işbirlikçi yaklaşım, modeli sürekli iyileştirmek ve potansiyel riskleri ele almak için hayati önem taşır.
- Şeffaflık ve Hesap Verebilirlik:LLuMi'yi açık kaynak yaparak şeffaflık ve hesap verebilirliği teşvik etmeyi amaçlıyoruz. Modelin güvenlik ve etik performansını iyileştirmeye odaklanan süregelen araştırma ve güncellemelere bağlıyız.
LLuMi'yi kullanarak bu yönergelere uymayı ve daha güvenli, daha sorumlu bir AI ekosistemine katkıda bulunmayı kabul ediyorsunuz.