LLM Course documentation
Tokenizeri, verificare!
0. Configurare
1. Modele Transformer
2. Folosirea 🤗 Transformers
3. Fine-tuning unui model preantrenat
4. Partajarea modelelor și a tokenizatoarelor
5. Biblioteca 🤗 Datasets
6. Biblioteca 🤗 Tokenizers
IntroducereAntrenarea unui nou tokenizer dintr-unul vechiSuperputerile tokenizerilor rapiziTokenizerii rapizi în pipeline-ul de QANormalizare și pre-tokenizareTokenizare Byte-Pair EncodingTokenizare WordPieceTokenizare UnigramConstruirea unui tokenizer, bloc cu blocTokenizeri, verificare!Quiz de sfârșit de capitol
7. Sarcini clasice NLP
8. Cum să ceri ajutor
9. Construirea și partajarea demo-urilor
10. Curățați seturi de date de înaltă calitate
11. Fine-tuning pentru modele mari de limbaj
12. Construiește Modele de Raționament new
Evenimente Curs
Tokenizeri, verificare!
Bună treabă la finalizarea acestui capitol!
După această scufundare adâncă în tokenizers, ar trebui să:
- Să fii capabil să antrenezi un nou tokenizer folosind unul vechi ca model
- Să înțelegi modului de utilizare a offseturilor pentru a face map tokenilor în intervalul lor original de text
- Cunoști diferențele dintre BPE, WordPiece și Unigram
- Fii capabil să combini blocurile furnizate de biblioteca 🤗 Tokenizers pentru a vă construi propriul tokenizer
- Să poți folosi acest tokenizer în cadrul bibliotecii 🤗 Transformers