LLM Course

0. Configurare

1. Modele Transformer

2. Folosirea 🤗 Transformers

3. Fine-tuning unui model preantrenat

4. Partajarea modelelor și a tokenizatoarelor

5. Biblioteca 🤗 Datasets

6. Biblioteca 🤗 Tokenizers

7. Sarcini clasice NLP

8. Cum să ceri ajutor

9. Construirea și partajarea demo-urilor

10. Curățați seturi de date de înaltă calitate

11. Fine-tuning pentru modele mari de limbaj

12. Construiește Modele de Raționament new

Evenimente Curs

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Tokenizeri, verificare!

Bună treabă la finalizarea acestui capitol!

După această scufundare adâncă în tokenizers, ar trebui să:

Să fii capabil să antrenezi un nou tokenizer folosind unul vechi ca model
Să înțelegi modului de utilizare a offseturilor pentru a face map tokenilor în intervalul lor original de text
Cunoști diferențele dintre BPE, WordPiece și Unigram
Fii capabil să combini blocurile furnizate de biblioteca 🤗 Tokenizers pentru a vă construi propriul tokenizer
Să poți folosi acest tokenizer în cadrul bibliotecii 🤗 Transformers