Trong NLP, "stop words" (từ dừng) là gì và tại sao chúng thường được loại bỏ trong quá trình tiền xử lý văn bản?
Các từ mang cảm xúc tiêu cực và cần loại bỏ để tránh sai lệch trong phân tích cảm xúc.
Các từ xuất hiện thường xuyên nhưng ít mang ý nghĩa trong ngữ cảnh cụ thể, loại bỏ để giảm nhiễu và tăng hiệu quả xử lý.
Các từ không có trong từ điển và cần loại bỏ để giảm kích thước từ vựng.
Các từ chỉ liên kết câu và cần loại bỏ để đơn giản hóa cấu trúc văn bản.
Quảng cáo
Trả lời:
Chọn đáp án B
Hot: 1000+ Đề thi cuối kì 2 file word cấu trúc mới 2026 Toán, Văn, Anh... lớp 1-12 (chỉ từ 60k). Tải ngay
CÂU HỎI HOT CÙNG CHỦ ĐỀ
Câu 1
BERT chỉ có thể xử lý văn bản tiếng Anh, trong khi Word2Vec và GloVe có thể xử lý đa ngôn ngữ.
BERT tạo ra biểu diễn từ theo ngữ cảnh (contextualized word embeddings), trong khi Word2Vec và GloVe tạo ra biểu diễn từ tĩnh (static word embeddings).
BERT sử dụng mạng nơ-ron hồi quy (RNN), trong khi Word2Vec và GloVe sử dụng mạng nơ-ron tích chập (CNN).
BERT đòi hỏi ít dữ liệu huấn luyện hơn so với Word2Vec và GloVe.
Lời giải
Chọn đáp án B
Câu 2
Giảm kích thước dữ liệu huấn luyện để tăng tốc độ huấn luyện.
Loại bỏ dữ liệu nhiễu khỏi tập huấn luyện.
Tạo ra các biến thể của dữ liệu hiện có (ví dụ: thay thế từ đồng nghĩa, xáo trộn câu) để tăng tính đa dạng của tập huấn luyện.
Chia nhỏ dữ liệu huấn luyện thành các phần nhỏ hơn để huấn luyện song song.
Lời giải
Chọn đáp án C
Câu 3
Dịch văn bản giữa nhiều ngôn ngữ khác nhau.
Huấn luyện mô hình trên dữ liệu đa ngôn ngữ cùng một lúc.
Chuyển giao kiến thức học được từ một ngôn ngữ (thường là ngôn ngữ có nhiều tài nguyên) sang một ngôn ngữ khác (thường là ngôn ngữ ít tài nguyên hơn).
Đánh giá mô hình NLP trên nhiều ngôn ngữ.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 4
Phân tích cảm xúc trong văn bản.
Lưu trữ và truy xuất thông tin, hỗ trợ trả lời câu hỏi và suy luận.
Tạo ra văn bản tự động.
Dịch văn bản giữa các ngôn ngữ.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 5
Mô hình huấn luyện chậm hơn.
Mô hình dễ bị "overfitting" hơn.
Mô hình tiêu thụ nhiều bộ nhớ hơn.
Mô hình khó học được các phụ thuộc dài hạn trong chuỗi văn bản, làm giảm khả năng xử lý văn bản dài.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 6
Khả năng xử lý tốt hơn với các từ ngoài từ vựng (out-of-vocabulary words) và lỗi chính tả.
Tạo ra biểu diễn từ giàu ngữ nghĩa hơn.
Huấn luyện nhanh hơn và hiệu quả hơn.
Yêu cầu ít dữ liệu huấn luyện hơn.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 7
Giảm chiều dữ liệu văn bản hiệu quả hơn.
Nắm bắt được mối quan hệ ngữ nghĩa giữa các từ.
Tăng tốc độ xử lý văn bản trong các mô hình NLP.
Đơn giản hóa quá trình tiền xử lý văn bản.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.