LLM Course documentation
Đố vui cuối chương
0. Cài đặt
1. Mô hình Transformer
2. Sử dụng 🤗 Transformers
3. Tinh chỉnh một mô hình huấn luyện trước
4. Chia sẻ các mô hình và tokenizer
5. Thư viện 🤗 Datasets
Giới thiệuNếu như dữ liệu của ta không trên Hub thì sao?Sắp xếp dữ liệuDữ liệu lớn? 🤗 Bộ dữ liệu để giải cứu!Tạo tập dữ liệu của riêng bạnTìm kiếm ngữ nghĩa với FAISS🤗 Datasets, kiểm tra nào!Đố vui cuối chương
6. Thư viện 🤗 Tokenizers
7. Các tác vụ NLP chính
8. Làm thế nào để yêu cầu giúp đỡ
9. Xây dựng và chia sẻ các demo
Sự kiện Khoá học
Đố vui cuối chương
Chương này bao gồm rất nhiều nội dung! Đừng lo lắng nếu bạn không nắm được tất cả các chi tiết; các chương tiếp theo sẽ giúp bạn hiểu mọi thứ hoạt động như thế nào.
Tuy nhiên, trước khi tiếp tục, hãy kiểm tra những gì bạn đã học được trong chương này.
1. Hàm load_dataset() trong 🤗 Datasets cho phép bạn tải tập dữ liệu từ vị trí nào sau đây?
2. Giả sử bạn đã tải một trong số các tác vụ GLUE như sau:
from datasets import load_dataset
dataset = load_dataset("glue", "mrpc", split="train")Đâu là một trong số những câu lệnh sẽ tạo ra một tập mẫu ngẫu nhiên 50 phần tử từ dataset?
3. Giả sử bạn có một tập dữ liệu về vật nuôi trong nhà được gọi là pets_dataset , có cột name biểu thị tên của từng vật nuôi. Phương pháp tiếp cận nào sau đây sẽ cho phép bạn lọc tập dữ liệu cho tất cả vật nuôi có tên bắt đầu bằng chữ cái “L”?
4. Ánh xạ bộ nhớ là gì?
5. Lợi ích chính của ánh xạ bộ nhớ là gì?
6. Tại sao đoạn mã sau không thành công?
from datasets import load_dataset
dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]