🤖 Baro: Inteligencia Artificial para Programación de Próxima Generación

Baro es un modelo de lenguaje a gran escala (LLM) desarrollado por Industrias Kor, diseñado específicamente para la excelencia en el desarrollo de software. A diferencia de los modelos generalistas, Baro ha sido entrenado en un corpus masivo de código fuente para comprender la lógica profunda, la sintaxis y los patrones arquitectónicos de múltiples lenguajes de programación.

🚀 Características Principales

Arquitectura Optimizada: Basado en un Transformer Decoder-only de 12 capas con mecanismos de atención mejorados.
Multilingüe: Soporte nativo para más de 30 lenguajes, incluyendo Python, JavaScript, C++, Rust, Go, Java y SQL.
Enfoque en Código: Minimiza las alucinaciones en lógica de programación gracias a su pre-entrenamiento especializado.
Eficiencia: Diseñado para ejecutarse de manera fluida incluso en hardware con recursos limitados.

📊 Datasets Utilizados (Pre-entrenamiento y Fine-tuning)

Baro se beneficia de la integración de millones de archivos de código y datos de instrucción:

Dataset	Descripción
The Stack v2	Más de 3 mil millones de archivos de código en 600+ lenguajes.
GitHub Code	115 millones de archivos reales de repositorios de GitHub.
CodeParrot Clean	Corpus de Python curado y deduplicado.
CodeFeedback	Datos de instrucción filtrados para mejorar la interacción.
CodeAlpaca	Instrucciones de programación para fine-tuning.

Arquitectura

La arquitectura de Baro se basa en los siguientes parámetros técnicos:

Parámetro	Valor
Capas	12
Cabezas de Atención	12
Dimensión de Embedding	768
Ventana de Contexto	2048 tokens
Vocabulario	50,257 tokens

🛠️ Uso Técnico

Puedes cargar Baro directamente con la librería transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "Darveht/Baro"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Ejemplo de generación de una función compleja
prompt = "def fast_fourier_transform(signal):"
inputs = tokenizer(prompt, return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(
        **inputs, 
        max_new_tokens=150,
        temperature=0.2,
        top_p=0.95,
        do_sample=True
    )

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Entrenamiento

Baro ha sido pre-entrenado en un corpus masivo de código fuente, enfocado en la precisión sintáctica y la eficiencia algorítmica. El proceso de entrenamiento utiliza técnicas avanzadas de modelado de lenguaje causal (CLM).

Licencia

Este modelo se distribuye bajo la licencia MIT.

Desarrollado con ❤️ por Industrias Kor. Baro es un paso hacia la democratización de la asistencia en programación mediante IA.

Downloads last month: 42

Safetensors

Model size

0.1B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Darveht
/

Baro