RLHF - a hllj Collection

Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
- Website
- Community
- Solutions
Log In
Sign Up

hllj 's Collections

Technical Report

(Continued) Pretraining

Retrieval Augmented Generation

Dataset Processing Technique

Vision-Language Model

Image-Text Models

Speculative Decoding

RLHF

updated Apr 8, 2024

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

Paper • 2403.10704 • Published Mar 15, 2024 • 60
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4, 2024 • 62

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs