Instructions to use Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r")
model = AutoModelForCausalLM.from_pretrained("Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Inference
Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

SGLang

How to use Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r with Docker Model Runner:
```
docker model run hf.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
```
Browse Quantizations to use this model in llama.cpp, Ollama, LM Studio, or any compatible app.

💨 QVikhr-2.5-1.5B-Instruct-r

Инструктивная модель на основе QVikhr-2.5-1.5B-Instruct-r, обученная на русскоязычном датасете ru Math.

Quantized variants:

GGUF
MLX
- 4 bit
- 8 bit

Особенности:

📚 Основа: QVikhr-2.5-1.5B-Instruct-r
🇷🇺 Специализация: RU
🌍 Поддержка: Bilingual RU/EN

Описание:

Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r представляет собой языковую модель, прошедшую специализированное обучение с использованием метода RuMath.

Обучение:

Этап алайнмента с GRPO

Обучили на https://huggingface.co/datasets/Vikhrmodels/russian_math и GSM8k

Пример кода для запуска:

Рекомендуемая температура для генерации: 0.4.

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load the model and tokenizer
model_name = "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Prepare the input text
SYSTEM_PROMPT = """
Отвечай в таком формате:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""

input_text = "Напиши краткое описание книги Гарри Поттер."

messages = [
    {'role': 'system', 'content': SYSTEM_PROMPT},
    {"role": "system", "content": "Вы — Vikhr, ИИ помощник, созданный компанией Vikhr models для предоставления полезной, честной и безопасной информации."},
    {"role": "user", "content": input_text},
]

# Tokenize and generate text
input_ids = tokenizer.apply_chat_template(messages, truncation=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(
    input_ids,
    max_length=1512,
    temperature=0.4,
)

# Decode and print result
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Ответ модели:

Краткое описание книги "Гарри Поттер"

"Гарри Поттер" – это серия книг о мальчике-волшебнике, который обнаруживает в себе силу волшебства после того, как его семья умирает от злого колдуна Драко Малфоя. Главный герой, Гарри Поттер, живёт с родителями на окраине Хогвартса, школы магии и волшебства. В детстве Гарри встречает своего лучшего друга Рона Уизли и его тётку Гермиону Грейнджер. Они вместе отправляются в Хогвартс, где начинают учиться волшебству. В ходе учебы Гарри знакомится с другими учениками: Слизеринами (главные антагонисты) и Хогвартсом как место обучения магии. Самым важным событием в жизни Гарри становится то, что он узнаёт о своем происхождении – он является последним из семьи Поттеров, которые когда-то владели всеми знаниями о волшебстве. Это знание открывает ему путь к своей миссии – борьбе против темных сил, которые стремятся уничтожить волшебство. По мере развития сюжета Гарри сталкивается с различными препятствиями, включая преследование со стороны Драко Малфоя и его друзей, а также внутренние конфликты внутри самого Хогвартса. Однако благодаря поддержке своих друзей и новых знакомых, таких как Философский камень, Гарри продолжает свой путь к победе над темными силами. В конце концов, Гарри и его друзья успешно борются с темными силами, восстанавливают мир в Хогвартсе и получают признание за свои поступки. Книги завершаются тем, что Гарри готовится стать волшебником, но его будущее ещё не определено.

Авторы

Sergei Bratchikov, NLP Wanderer, Vikhr Team
Aleksandr Nikolich, Vikhr Team
Nikolay Kompanets, LakoMoor, Vikhr Team
Konstantin Korolev, Vikhr Team

@inproceedings{nikolich2024vikhr,
  title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
  author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
  booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
  year={2024},
  publisher={Association for Computational Linguistics},
  url={https://arxiv.org/pdf/2405.13929}
}