🤖 Baro: Inteligencia Artificial para Programación de Próxima Generación

Baro es un modelo de lenguaje a gran escala (LLM) desarrollado por Industrias Kor, diseñado específicamente para la excelencia en el desarrollo de software. A diferencia de los modelos generalistas, Baro ha sido entrenado en un corpus masivo de código fuente para comprender la lógica profunda, la sintaxis y los patrones arquitectónicos de múltiples lenguajes de programación.

🚀 Características Principales

  • Arquitectura Optimizada: Basado en un Transformer Decoder-only de 12 capas con mecanismos de atención mejorados.
  • Multilingüe: Soporte nativo para más de 30 lenguajes, incluyendo Python, JavaScript, C++, Rust, Go, Java y SQL.
  • Enfoque en Código: Minimiza las alucinaciones en lógica de programación gracias a su pre-entrenamiento especializado.
  • Eficiencia: Diseñado para ejecutarse de manera fluida incluso en hardware con recursos limitados.

📊 Datasets Utilizados (Pre-entrenamiento y Fine-tuning)

Baro se beneficia de la integración de millones de archivos de código y datos de instrucción:

Dataset Descripción
The Stack v2 Más de 3 mil millones de archivos de código en 600+ lenguajes.
GitHub Code 115 millones de archivos reales de repositorios de GitHub.
CodeParrot Clean Corpus de Python curado y deduplicado.
CodeFeedback Datos de instrucción filtrados para mejorar la interacción.
CodeAlpaca Instrucciones de programación para fine-tuning.

Arquitectura

La arquitectura de Baro se basa en los siguientes parámetros técnicos:

Parámetro Valor
Capas 12
Cabezas de Atención 12
Dimensión de Embedding 768
Ventana de Contexto 2048 tokens
Vocabulario 50,257 tokens

🛠️ Uso Técnico

Puedes cargar Baro directamente con la librería transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "Darveht/Baro"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Ejemplo de generación de una función compleja
prompt = "def fast_fourier_transform(signal):"
inputs = tokenizer(prompt, return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(
        **inputs, 
        max_new_tokens=150,
        temperature=0.2,
        top_p=0.95,
        do_sample=True
    )

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Entrenamiento

Baro ha sido pre-entrenado en un corpus masivo de código fuente, enfocado en la precisión sintáctica y la eficiencia algorítmica. El proceso de entrenamiento utiliza técnicas avanzadas de modelado de lenguaje causal (CLM).

Licencia

Este modelo se distribuye bajo la licencia MIT.


Desarrollado con ❤️ por Industrias Kor. Baro es un paso hacia la democratización de la asistencia en programación mediante IA.

Downloads last month
42
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Datasets used to train Darveht/Baro

Space using Darveht/Baro 1