Entwickelt von LucyHQ

LLuMi

Mehrsprachige Intelligenz neu definiert. LLuMi ist ein hochmodernes 70B-Modell, das robustes Instruction Tuning mit von DeepSeek-R1 inspirierten Reasoning-Mustern kombiniert, um unübertroffene Leistung in der Praxis zu liefern.

Veröffentlichungsdatum: 24. Februar 2025

research@vorden.ai

LLuMi v2 wird derzeit trainiert und sehr bald veröffentlicht.

1. Einführung

Wir präsentieren LLuMi, ein hochmodernes mehrsprachiges Large Language Model (LLM), das auf der robusten Llama 3.3 70B Architektur aufbaut. LLuMi ist Instruction-getuned, um in realen Anwendungen zu glänzen — insbesondere bei mehrsprachigem Dialog und komplexen Reasoning-Aufgaben.

Durch fortgeschrittene Verfeinerungen und Distillation-Techniken, inspiriert vom DeepSeek-R1 Framework, behält LLuMi nicht nur die Kernstärken seiner Llama 3.3 Grundlage bei, sondern liefert auch verbesserte Leistung und Effizienz. Durch die Integration von Large-Scale Reinforcement Learning direkt auf das Basismodell zeigt LLuMi ausgefeilte Chain-of-Thought-Verhaltensweisen, verbesserte Selbstverifikation und reduzierte Probleme wie Wiederholungen und Sprachvermischung.

Distillation

Wir zeigen, dass die fortgeschrittenen Reasoning-Muster größerer Modelle in kleinere, effizientere Modelle destilliert werden können. Dieser Ansatz liefert verbesserte Leistung im Vergleich zu Reasoning-Strategien, die ausschließlich durch Reinforcement Learning auf kleineren Modellen erzielt werden. Das Open-Source-DeepSeek-R1-Framework — und dessen API — spielen dabei eine entscheidende Rolle.

Post-Training

Wir wenden Reinforcement Learning (RL) direkt auf das LLuMi-Basismodell an, ohne Supervised Fine-Tuning (SFT) als Vorstufe einzusetzen. Dieser Ansatz ermöglicht es LLuMi, fortgeschrittene Chain-of-Thought (CoT) Fähigkeiten zur Bewältigung komplexer Probleme zu erschließen.

2. Modell-Distillation & Architektur

Das LLuMi 70B Modell wurde sorgfältig mit den fortgeschrittenen Techniken von DeepSeek-R1 Distill Llama 3.3 70B entwickelt. Zusätzlich haben wir unsere kleineren LLuMi 8B und 3B Modelle mittels GRPO (Guided Reasoning Policy Optimization) mit einer einzigartigen Denk-Eigenschaft ausgestattet.

Zwei RL-Phasen

Entwickelt, um verbesserte Reasoning-Muster zu entdecken und das Modell an menschlichen Präferenzen auszurichten.

Zwei SFT-Phasen

Dienen als Grundlage sowohl für die Reasoning- als auch für die Nicht-Reasoning-Fähigkeiten des Modells.

3. Modell-Downloads

LLuMi Think Modelle

Modell	Basismodell	Download
LLuMi Think 3B	Qwen2.5-3B-Instruct	🤗 HuggingFace
LLuMi Think 8B	Llama-3.1-8B-Instruct	🤗 HuggingFace
LLuMi Think 70B	Llama-3.3-70B-Instruct	🤗 HuggingFace

4. Nutzung

Dieses Repository enthält drei Versionen der LLuMi Think LLM-Modelle, zur Verwendung mit transformers und der bitsandbytes-Codebasis.

Nutzung mit transformers

Ab transformers >= 4.48.3 können Sie konversationelle Inferenz mittels der Transformers Pipeline-Abstraktion oder über die Auto-Klassen mit der Funktion generate() ausführen.

import transformers
import torch

model_id = "thellumi/LLuMi_Think_70B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Why are tomatoes red?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

bitsandbytes verwenden

Die Modell-Checkpoints können in 8-Bit und 4-Bit für weitere Speicheroptimierungen mit bitsandbytes und transformers verwendet werden.

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "thellumi/LLuMi_Think_70B"
quantization_config = BitsAndBytesConfig(load_in_8bit=True)

quantized_model = AutoModelForCausalLM.from_pretrained(
  model_id, device_map="auto", torch_dtype=torch.bfloat16,
  quantization_config=quantization_config)

tokenizer = AutoTokenizer.from_pretrained(model_id)
input_text = "Why are tomatoes red?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

output = quantized_model.generate(**input_ids, max_new_tokens=10)

print(tokenizer.decode(output[0], skip_special_tokens=True))

Um in 4-Bit zu laden, einfach load_in_4bit=True übergeben

5. Nutzungsempfehlungen

Wir empfehlen, bei der Verwendung der DeepSeek-R1-Serien-Modelle (einschließlich Benchmarking) die folgenden Konfigurationen einzuhalten, um die erwartete Leistung zu erzielen:

Stelle die Temperatur im Bereich 0,5–0,7 ein (0,6 empfohlen), um endlose Wiederholungen oder inkohärente Ausgaben zu vermeiden.
Verzichte auf System-Prompts; alle Anweisungen sollten im User-Prompt enthalten sein.
Bei mathematischen Problemen empfiehlt es sich, eine Anweisung wie "Please reason step by step, and put your final answer within \boxed{}" in den Prompt aufzunehmen.
Bei der Evaluierung der Modellleistung empfehlen wir mehrere Tests und die Mittelung der Ergebnisse.

Zusätzlich hat DeepSeek beobachtet, dass die Modelle der DeepSeek-R1-Serie bei bestimmten Anfragen dazu neigen, das Denk-Muster zu überspringen (d. h. "<think>\n\n</think>" auszugeben), was die Modellleistung negativ beeinflussen kann.Um sicherzustellen, dass das Modell gründliches Reasoning betreibt, empfehlen wir, das Modell dazu zu zwingen, jede Ausgabe mit "<think>\n" zu beginnen.

6. Trainingsdaten

Überblick

LLuMi basiert auf der robusten Llama 3.3 Architektur, die auf etwa 15 Billionen Token aus öffentlich zugänglichen Datensätzen vortrainiert wurde. Für das Fine-Tuning nutzt LLuMi eine Kombination aus öffentlich verfügbaren Instruction-Datensätzen und über 10 Millionen Beispielen von Hugging Face. Dieses umfassende Trainingskorpus wurde kuratiert, um hohe Leistung in verschiedenen Sprachen zu gewährleisten, mit dediziertem Support für Türkisch und andere Sprachen.

Datenaktualität

Die Vortrainingsdaten enthalten Inhalte bis zum Stichtag August 2024, sodass LLuMi mit aktuellen Sprachtrends und Entwicklungen abgestimmt ist.

7. Benchmarks

Modell	AIME 2024 (pass@1)	MATH-500 (pass@1)	GPQA Diamond	LiveCodeBench	CodeForces
Claude-3.5-Sonnet-1022	16.0	78.3	65.0	38.9	717
OpenAI o1-1217	79.2	96.4	75.7	63.4	2061
OpenAI o1-mini	63.6	90.0	60.0	53.8	1820
OpenAI GPT-4o-0513	9.3	74.6	49.9	32.9	759
QwQ-32B-Preview	44.0	90.6	54.5	41.9	1316
DeepSeek R1	79.8	97.3	71.5	65.9	2209
LLuMi Think 70B	69.3	94.1	64.8	56.9	1603

Hinweis zu den Benchmark-Ergebnissen: Aufgrund von Hardware-Einschränkungen konnten keine Benchmark-Tests in vollem Umfang durchgeführt werden, und die Ergebnisse können variieren. Wir sind transparent in Bezug auf diese Einschränkungen und arbeiten aktiv daran, die nötigen Ressourcen für umfassende Evaluierungen in naher Zukunft bereitzustellen.

8. Verantwortung & Sicherheit

Bei LLuMi setzen wir uns für einen verantwortungsvollen und ethischen Umgang mit unserer Technologie ein. Wir sind uns bewusst, dass Large Language Models inhärente Risiken und Missbrauchspotenzial bergen, und haben mehrere Maßnahmen zur Minderung dieser Herausforderungen ergriffen:

Bias-Minderung:Wir haben während des Trainings verschiedene Strategien implementiert, um Verzerrungen in den Modellausgaben zu minimieren. Nutzer sollten sich jedoch bewusst sein, dass trotz dieser Bemühungen gelegentlich Verzerrungen oder unbeabsichtigte Ausgaben auftreten können.
Nutzungsrichtlinien:LLuMi ist für Forschung und verantwortungsvolles Deployment konzipiert. Wir ermutigen Nutzer nachdrücklich, sich bei der Nutzung des Modells an ethische Richtlinien, geltende Gesetze und Best Practices zu halten. Die Erzeugung schädlicher, irreführender oder beleidigender Inhalte ist strikt untersagt.
Sicherheitsmaßnahmen:Nutzer, die LLuMi in realen Anwendungen einsetzen, sollten zusätzliche Sicherheitsfilter und Monitoring-Mechanismen implementieren. Wir empfehlen regelmäßige Audits und Evaluierungen, um sicherzustellen, dass die Ausgaben des Modells innerhalb akzeptabler ethischer Grenzen bleiben.
Community-Engagement:Wir laden die Community ein, Feedback zu Sicherheits- oder ethischen Problemen während der Nutzung zu geben. Dieser kollaborative Ansatz ist entscheidend, um das Modell kontinuierlich zu verfeinern und potenzielle Risiken zu adressieren.
Transparenz und Rechenschaft:Durch die Open-Source-Veröffentlichung von LLuMi wollen wir Transparenz und Rechenschaft fördern. Wir verpflichten uns zu laufender Forschung und Updates, die darauf abzielen, die Sicherheits- und Ethikleistung des Modells zu verbessern.

Durch die Nutzung von LLuMi stimmen Sie zu, diese Richtlinien einzuhalten und zu einem sichereren, verantwortungsvolleren KI-Ökosystem beizutragen.