LLM Course

0. Cài đặt

1. Mô hình Transformer

2. Sử dụng 🤗 Transformers

3. Tinh chỉnh một mô hình huấn luyện trước

4. Chia sẻ các mô hình và tokenizer

5. Thư viện 🤗 Datasets

Giới thiệu Nếu như dữ liệu của ta không trên Hub thì sao?Sắp xếp dữ liệu Dữ liệu lớn? 🤗 Bộ dữ liệu để giải cứu!Tạo tập dữ liệu của riêng bạn Tìm kiếm ngữ nghĩa với FAISS 🤗 Datasets, kiểm tra nào!Đố vui cuối chương

6. Thư viện 🤗 Tokenizers

7. Các tác vụ NLP chính

8. Làm thế nào để yêu cầu giúp đỡ

9. Xây dựng và chia sẻ các demo

Sự kiện Khoá học

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Đố vui cuối chương

Chương này bao gồm rất nhiều nội dung! Đừng lo lắng nếu bạn không nắm được tất cả các chi tiết; các chương tiếp theo sẽ giúp bạn hiểu mọi thứ hoạt động như thế nào.

Tuy nhiên, trước khi tiếp tục, hãy kiểm tra những gì bạn đã học được trong chương này.

1. Hàm load_dataset() trong 🤗 Datasets cho phép bạn tải tập dữ liệu từ vị trí nào sau đây?

Cục bộ, ví dụ: trên máy tính xách tay của bạn The Hugging Face Hub Máy chủ từ xa

2. Giả sử bạn đã tải một trong số các tác vụ GLUE như sau:

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

Đâu là một trong số những câu lệnh sẽ tạo ra một tập mẫu ngẫu nhiên 50 phần tử từ dataset?

dataset.sample(50) dataset.shuffle().select(range(50)) dataset.select(range(50)).shuffle()

3. Giả sử bạn có một tập dữ liệu về vật nuôi trong nhà được gọi là pets_dataset , có cột name biểu thị tên của từng vật nuôi. Phương pháp tiếp cận nào sau đây sẽ cho phép bạn lọc tập dữ liệu cho tất cả vật nuôi có tên bắt đầu bằng chữ cái “L”?

pets_dataset.filter(lambda x : x['name'].startswith('L')) pets_dataset.filter(lambda x['name'].startswith('L')) Tạo ra một hàm def filter_names(x): return x['name'].startswith('L') và chạy pets_dataset.filter(filter_names).

4. Ánh xạ bộ nhớ là gì?

Ánh xạ giữa RAM CPU và GPU Ánh xạ giữa RAM và bộ nhớ hệ thống tệp Ánh xạ giữa hai tệp trong cache 🤗 Datasets

5. Lợi ích chính của ánh xạ bộ nhớ là gì?

Truy cập tệp ánh xạ bộ nhớ nhanh hơn đọc hoặc ghi vào đĩa. Các ứng dụng có thể truy cập các phân đoạn dữ liệu trong một tệp cực lớn mà không cần phải đọc toàn bộ tệp vào RAM trước. Nó tiêu thụ ít năng lượng hơn, vì vậy pin của bạn dùng được lâu hơn.

6. Tại sao đoạn mã sau không thành công?

from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]

Nó cố gắng phát trực tuyến tập dữ liệu quá lớn để vừa với RAM. Nó cố gắng truy cập một IterableDataset. Tập dữ liệu allocine không có phần tách huấn luyện (train split).

7. Lợi ích chính của việc tạo thẻ tập dữ liệu là gì?

Nó cung cấp thông tin về mục đích sử dụng và các tác vụ được hỗ trợ của tập dữ liệu để những người khác trong cộng đồng có thể đưa ra quyết định sáng suốt về việc sử dụng nó. Nó giúp thu hút sự chú ý đến những sai lệch có trong ngữ liệu. Nó cải thiện cơ hội mà những người khác trong cộng đồng sẽ sử dụng tập dữ liệu của mình.

8. Tìm kiếm ngữ nghĩa là gì?

Một cách để tìm kiếm các kết quả khớp hoàn toàn giữa các từ trong truy vấn và các tài liệu trong kho ngữ liệu Một cách để tìm kiếm các tài liệu phù hợp bằng cách hiểu ý nghĩa ngữ cảnh của một truy vấn Một cách để cải thiện độ chính xác của tìm kiếm

9. Đối với tìm kiếm ngữ nghĩa phi đối xứng, bạn thường có:

Một truy vấn ngắn và một đoạn dài hơn trả lời cho truy vấn Truy vấn và đoạn văn có cùng độ dài Một truy vấn dài và một đoạn ngắn hơn trả lời cho truy vấn

10. Tôi có thể sử dụng 🤗 Datasets để tải dữ liệu sử dụng cho các mảng khác như xử lý âm thanh được không?

Không Có

Update on GitHub

←🤗 Datasets, kiểm tra nào!

Next chapter

Đố vui cuối chương 1. Hàm load_dataset() trong 🤗 Datasets cho phép bạn tải tập dữ liệu từ vị trí nào sau đây?2. Giả sử bạn đã tải một trong số các tác vụ GLUE như sau:3. Giả sử bạn có một tập dữ liệu về vật nuôi trong nhà được gọi là pets_dataset , có cột name biểu thị tên của từng vật nuôi. Phương pháp tiếp cận nào sau đây sẽ cho phép bạn lọc tập dữ liệu cho tất cả vật nuôi có tên bắt đầu bằng chữ cái “L”?4. Ánh xạ bộ nhớ là gì?5. Lợi ích chính của ánh xạ bộ nhớ là gì?6. Tại sao đoạn mã sau không thành công?7. Lợi ích chính của việc tạo thẻ tập dữ liệu là gì?8. Tìm kiếm ngữ nghĩa là gì?9. Đối với tìm kiếm ngữ nghĩa phi đối xứng, bạn thường có:10. Tôi có thể sử dụng 🤗 Datasets để tải dữ liệu sử dụng cho các mảng khác như xử lý âm thanh được không?