Để xử lý hiệu quả các từ "out-of-vocabulary" (OOV - từ ngoại từ điển) mà mô hình chưa từng gặp trong quá trình huấn luyện, kỹ thuật nào thường được sử dụng trong các mô hình ngôn ngữ hiện đại, ví dụ như mô hình dựa trên Transformer?
Thay thế từ OOV bằng từ đồng nghĩa
Sử dụng mã hóa theo cặp byte (Byte Pair Encoding - BPE) hoặc các phương pháp phân tách từ con
Bỏ qua hoàn toàn các từ OOV trong quá trình xử lý
Gán ngẫu nhiên vectơ cho các từ OOV
Quảng cáo
Trả lời:
Chọn đáp án B
Hot: 1000+ Đề thi cuối kì 2 file word cấu trúc mới 2026 Toán, Văn, Anh... lớp 1-12 (chỉ từ 60k). Tải ngay
CÂU HỎI HOT CÙNG CHỦ ĐỀ
Câu 1
Các mệnh đề độc lập và phụ thuộc
Các từ khóa quan trọng nhất trong câu
Các cụm từ có nghĩa (ví dụ: cụm danh từ, cụm động từ)
Các thực thể có tên (Named Entities)
Lời giải
Chọn đáp án C
Câu 2
BERT chỉ xử lý văn bản từ trái sang phải, giống như các mô hình RNN truyền thống.
BERT xem xét cả ngữ cảnh bên trái và bên phải của một từ khi tạo biểu diễn vectơ từ đó.
BERT chỉ phù hợp cho các bài toán phân loại văn bản, không dùng được cho nhận dạng thực thể.
BERT là một mô hình ngôn ngữ dựa trên CNN, không phải Transformer.
Lời giải
Chọn đáp án B
Câu 3
Nhận dạng thực thể có tên (Named Entity Recognition)
Tóm tắt văn bản (Text Summarization)
Phân tích cú pháp (Syntactic Parsing)
Phân tích cảm xúc (Sentiment Analysis)
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 4
Độ chính xác (Precision)
Độ đo F1 (F1-score)
ĐộRecall (Recall)
Độ đo AUC (AUC-score)
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 5
Chọn lọc và kết hợp các câu quan trọng nhất từ văn bản gốc để tạo bản tóm tắt
Diễn giải lại nội dung của văn bản gốc bằng ngôn ngữ khác
Sử dụng mô hình sinh văn bản để tạo ra bản tóm tắt mới hoàn toàn
Loại bỏ các thông tin không quan trọng và giữ lại các từ khóa chính
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 6
Sinh văn bản (Text Generation)
Dịch máy (Machine Translation)
Trích xuất thông tin (Information Extraction)
Phân loại văn bản (Text Classification)
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 7
Đếm tần suất từ (Term Frequency - TF)
TF-IDF (Term Frequency-Inverse Document Frequency)
Bag-of-Words
N-gram
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.