🤖 Baro: Inteligencia Artificial para Programación de Próxima Generación
Baro es un modelo de lenguaje a gran escala (LLM) desarrollado por Industrias Kor, diseñado específicamente para la excelencia en el desarrollo de software. A diferencia de los modelos generalistas, Baro ha sido entrenado en un corpus masivo de código fuente para comprender la lógica profunda, la sintaxis y los patrones arquitectónicos de múltiples lenguajes de programación.
🚀 Características Principales
- Arquitectura Optimizada: Basado en un Transformer Decoder-only de 12 capas con mecanismos de atención mejorados.
- Multilingüe: Soporte nativo para más de 30 lenguajes, incluyendo Python, JavaScript, C++, Rust, Go, Java y SQL.
- Enfoque en Código: Minimiza las alucinaciones en lógica de programación gracias a su pre-entrenamiento especializado.
- Eficiencia: Diseñado para ejecutarse de manera fluida incluso en hardware con recursos limitados.
📊 Datasets Utilizados (Pre-entrenamiento y Fine-tuning)
Baro se beneficia de la integración de millones de archivos de código y datos de instrucción:
| Dataset | Descripción |
|---|---|
| The Stack v2 | Más de 3 mil millones de archivos de código en 600+ lenguajes. |
| GitHub Code | 115 millones de archivos reales de repositorios de GitHub. |
| CodeParrot Clean | Corpus de Python curado y deduplicado. |
| CodeFeedback | Datos de instrucción filtrados para mejorar la interacción. |
| CodeAlpaca | Instrucciones de programación para fine-tuning. |
Arquitectura
La arquitectura de Baro se basa en los siguientes parámetros técnicos:
| Parámetro | Valor |
|---|---|
| Capas | 12 |
| Cabezas de Atención | 12 |
| Dimensión de Embedding | 768 |
| Ventana de Contexto | 2048 tokens |
| Vocabulario | 50,257 tokens |
🛠️ Uso Técnico
Puedes cargar Baro directamente con la librería transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "Darveht/Baro"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# Ejemplo de generación de una función compleja
prompt = "def fast_fourier_transform(signal):"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=150,
temperature=0.2,
top_p=0.95,
do_sample=True
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Entrenamiento
Baro ha sido pre-entrenado en un corpus masivo de código fuente, enfocado en la precisión sintáctica y la eficiencia algorítmica. El proceso de entrenamiento utiliza técnicas avanzadas de modelado de lenguaje causal (CLM).
Licencia
Este modelo se distribuye bajo la licencia MIT.
Desarrollado con ❤️ por Industrias Kor. Baro es un paso hacia la democratización de la asistencia en programación mediante IA.
- Downloads last month
- 42