1000+ câu Trắc nghiệm Nhập môn xử lý ngôn ngữ tự nhiên có đáp án

🔥 Học sinh cũng đã học

2 câu bài tập Di tích lịch sử văn hóa (có đáp án)

0 lượt thi 2 câu hỏi

50+ câu Trắc nghiệm Di tích lịch sử văn hóa (có đáp án) - Phần 2

0 lượt thi 30 câu hỏi

50+ câu Trắc nghiệm Di tích lịch sử văn hóa (có đáp án) - Phần 1

0 lượt thi 22 câu hỏi

200+ câu Trắc nghiệm Logistics vận tải hàng hóa (có đáp án) - Phần 8

0 lượt thi 29 câu hỏi

200+ câu Trắc nghiệm Logistics vận tải hàng hóa (có đáp án) - Phần 7

0 lượt thi 30 câu hỏi

200+ câu Trắc nghiệm Logistics vận tải hàng hóa (có đáp án) - Phần 6

0 lượt thi 30 câu hỏi

200+ câu Trắc nghiệm Logistics vận tải hàng hóa (có đáp án) - Phần 5

0 lượt thi 29 câu hỏi

200+ câu Trắc nghiệm Logistics vận tải hàng hóa (có đáp án) - Phần 4

0 lượt thi 29 câu hỏi

Danh sách câu hỏi:

Câu 1/30

Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật "word embedding" (biểu diễn từ) mang lại lợi ích chính nào so với phương pháp "bag-of-words" (túi từ)?

Giảm chiều dữ liệu văn bản hiệu quả hơn.

Nắm bắt được mối quan hệ ngữ nghĩa giữa các từ.

Tăng tốc độ xử lý văn bản trong các mô hình NLP.

Đơn giản hóa quá trình tiền xử lý văn bản.

Lời giải

Chọn đáp án B

Câu 2/30

Bạn đang xây dựng một hệ thống phân loại văn bản để xác định xem một bài đánh giá sản phẩm trực tuyến là tích cực hay tiêu cực. Phương pháp "TF-IDF" (Tần suất từ - Nghịch tần suất văn bản) sẽ hỗ trợ bạn như thế nào trong quá trình này?

Giảm số lượng từ vựng cần xử lý.

Phân tích cấu trúc cú pháp của câu trong bài đánh giá.

Đánh trọng số các từ dựa trên tần suất xuất hiện trong bài đánh giá và độ hiếm trong toàn bộ tập đánh giá.

Biểu diễn mỗi từ trong bài đánh giá thành một vectơ số cố định.

Lời giải

Chọn đáp án C

Câu 3/30

Mô hình ngôn ngữ "Transformer" đã đạt được hiệu suất vượt trội trong nhiều nhiệm vụ NLP nhờ cơ chế "attention" (chú ý). Cơ chế này hoạt động như thế nào?

Mã hóa tuần tự văn bản đầu vào và giải mã tuần tự văn bản đầu ra.

Sử dụng mạng nơ-ron tích chập để trích xuất đặc trưng từ văn bản.

Phân tích tần suất xuất hiện của các từ trong văn bản.

Cho phép mô hình học cách gán trọng số khác nhau cho các phần khác nhau của dữ liệu đầu vào khi tạo ra đầu ra.

Lời giải

Chọn đáp án D

Câu 4/30

Trong ngữ cảnh của mô hình ngôn ngữ, "perplexity" là một thước đo đánh giá. Perplexity càng thấp thường được hiểu là:

Mô hình dự đoán chuỗi văn bản tốt hơn.

Mô hình có số lượng tham số ít hơn.

Mô hình huấn luyện nhanh hơn.

Mô hình dễ bị "overfitting" hơn.

Lời giải

Chọn đáp án A

Câu 5/30

Khi xử lý văn bản tiếng Việt, việc "tokenization" (phân tách từ) có thể gặp thách thức đặc biệt nào so với tiếng Anh?

Tiếng Việt có ít từ vựng hơn tiếng Anh.

Tiếng Việt có nhiều từ ghép và từ láy mà không có dấu cách rõ ràng.

Tiếng Việt không sử dụng bảng chữ cái Latinh.

Tiếng Việt có cấu trúc ngữ pháp phức tạp hơn tiếng Anh.

Lời giải

Chọn đáp án B

Câu 6/30

Nhiệm vụ "Named Entity Recognition" (NER - Nhận dạng thực thể được đặt tên) trong NLP nhằm mục đích chính là gì?

Phân loại văn bản thành các chủ đề khác nhau.

Phân tích cảm xúc và thái độ trong văn bản.

Xác định và phân loại các thực thể có tên như người, tổ chức, địa điểm trong văn bản.

Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

Lời giải

Chọn đáp án C

Câu 7/30

"Stemming" và "Lemmatization" là hai kỹ thuật tiền xử lý văn bản thường được sử dụng. Sự khác biệt chính giữa chúng là gì?

Stemming phức tạp hơn Lemmatization và sử dụng từ điển.

Lemmatization nhanh hơn Stemming và ít gây lỗi hơn.

Stemming đưa từ về dạng gốc có nghĩa, còn Lemmatization chỉ loại bỏ hậu tố.

Stemming loại bỏ các hậu tố để đưa từ về dạng gốc, có thể không phải từ có nghĩa; Lemmatization đưa từ về dạng từ điển (lemma), là từ có nghĩa.

Lời giải

Chọn đáp án D

Câu 8/30

Trong bài toán dịch máy (Machine Translation), kỹ thuật "back-translation" (dịch ngược) được sử dụng để làm gì?

Đánh giá chất lượng bản dịch của mô hình.

Tăng cường dữ liệu huấn luyện bằng cách tạo ra các cặp câu song ngữ mới.

Cải thiện tốc độ dịch của mô hình dịch máy.

Chuẩn hóa định dạng văn bản đầu vào trước khi dịch.

Lời giải

Chọn đáp án B

Câu 9/30

Mô hình "Word2Vec" tạo ra "word embeddings" bằng cách nào?

Phân tích cấu trúc cú pháp của câu để xác định mối quan hệ giữa các từ.

Đếm tần suất xuất hiện của các từ trong toàn bộ tập văn bản.

Dự đoán từ mục tiêu dựa trên các từ ngữ cảnh xung quanh hoặc ngược lại.

Sử dụng mạng nơ-ron tích chập để học biểu diễn từ.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 10/30

Khi đánh giá mô hình phân loại văn bản, "precision" (độ chính xác) và "recall" (độ phủ) là hai thước đo quan trọng. "Precision" đo lường điều gì?

Tỷ lệ các trường hợp dự đoán là lớp tích cực và thực sự là lớp tích cực.

Tỷ lệ các trường hợp thực sự là lớp tích cực được dự đoán đúng là lớp tích cực.

Tổng số trường hợp dự đoán đúng trên tổng số trường hợp.

Mức độ mô hình khái quát hóa tốt trên dữ liệu mới.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 11/30

Trong NLP, "stop words" (từ dừng) là gì và tại sao chúng thường được loại bỏ trong quá trình tiền xử lý văn bản?

Các từ mang cảm xúc tiêu cực và cần loại bỏ để tránh sai lệch trong phân tích cảm xúc.

Các từ xuất hiện thường xuyên nhưng ít mang ý nghĩa trong ngữ cảnh cụ thể, loại bỏ để giảm nhiễu và tăng hiệu quả xử lý.

Các từ không có trong từ điển và cần loại bỏ để giảm kích thước từ vựng.

Các từ chỉ liên kết câu và cần loại bỏ để đơn giản hóa cấu trúc văn bản.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 12/30

Kỹ thuật "n-gram" được sử dụng trong NLP để làm gì?

Biểu diễn văn bản dưới dạng đồ thị.

Phân tích cấu trúc cú pháp của câu.

Phân tích chuỗi n từ liên tiếp trong văn bản, hữu ích trong mô hình hóa ngôn ngữ và các nhiệm vụ khác.

Tóm tắt văn bản bằng cách chọn ra các câu quan trọng nhất.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 13/30

"Chunking" (phân đoạn cú pháp nông) là một bước trung gian trong phân tích cú pháp. Mục tiêu của chunking là gì?

Xác định mối quan hệ phụ thuộc giữa các từ trong câu.

Gán nhãn từ loại (POS tagging) cho mỗi từ trong câu.

Phân tích ý nghĩa ngữ nghĩa của câu.

Nhóm các từ liên tiếp thành các cụm từ cú pháp như cụm danh từ, cụm động từ.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 14/30

Trong lĩnh vực chatbot và trợ lý ảo, "intent recognition" (nhận dạng ý định) là một thành phần quan trọng. Nhiệm vụ này nhằm mục đích gì?

Xác định mục đích hoặc ý định của người dùng đằng sau câu nói của họ.

Tạo ra phản hồi tự nhiên và trôi chảy cho người dùng.

Lưu trữ lịch sử hội thoại với người dùng.

Chuyển đổi giọng nói của người dùng thành văn bản.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 15/30

"Knowledge graph" (đồ thị tri thức) có thể được ứng dụng trong NLP để làm gì?

Phân tích cảm xúc trong văn bản.

Lưu trữ và truy xuất thông tin, hỗ trợ trả lời câu hỏi và suy luận.

Tạo ra văn bản tự động.

Dịch văn bản giữa các ngôn ngữ.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 16/30

Kỹ thuật "data augmentation" (tăng cường dữ liệu) có thể được áp dụng trong NLP như thế nào để cải thiện hiệu suất mô hình?

Giảm kích thước dữ liệu huấn luyện để tăng tốc độ huấn luyện.

Loại bỏ dữ liệu nhiễu khỏi tập huấn luyện.

Tạo ra các biến thể của dữ liệu hiện có (ví dụ: thay thế từ đồng nghĩa, xáo trộn câu) để tăng tính đa dạng của tập huấn luyện.

Chia nhỏ dữ liệu huấn luyện thành các phần nhỏ hơn để huấn luyện song song.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 17/30

"Zero-shot learning" trong NLP đề cập đến khả năng của mô hình như thế nào?

Huấn luyện mô hình trên dữ liệu tổng hợp (synthetic data).

Huấn luyện mô hình với dữ liệu ít nhiễu.

Huấn luyện mô hình mà không cần nhãn dữ liệu.

Thực hiện nhiệm vụ mà không cần được huấn luyện trực tiếp trên nhiệm vụ đó, dựa trên khả năng khái quát hóa từ các nhiệm vụ đã học.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 18/30

Mô hình ngôn ngữ "BERT" (Bidirectional Encoder Representations from Transformers) khác biệt so với các mô hình trước đó như "Word2Vec" và "GloVe" ở điểm nào quan trọng?

BERT chỉ có thể xử lý văn bản tiếng Anh, trong khi Word2Vec và GloVe có thể xử lý đa ngôn ngữ.

BERT tạo ra biểu diễn từ theo ngữ cảnh (contextualized word embeddings), trong khi Word2Vec và GloVe tạo ra biểu diễn từ tĩnh (static word embeddings).

BERT sử dụng mạng nơ-ron hồi quy (RNN), trong khi Word2Vec và GloVe sử dụng mạng nơ-ron tích chập (CNN).

BERT đòi hỏi ít dữ liệu huấn luyện hơn so với Word2Vec và GloVe.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 19/30

"Dependency parsing" (phân tích cú pháp phụ thuộc) trong NLP nhằm mục đích chính là gì?

Phân loại văn bản theo chủ đề.

Nhận dạng các thực thể có tên trong văn bản.

Xác định cấu trúc cú pháp của câu bằng cách phân tích mối quan hệ phụ thuộc giữa các từ.

Dịch câu từ ngôn ngữ này sang ngôn ngữ khác.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Câu 20/30

Khi xử lý văn bản dài, mô hình "Recurrent Neural Network" (RNN) có thể gặp vấn đề "vanishing gradients" (gradient biến mất). Vấn đề này ảnh hưởng đến hiệu suất mô hình như thế nào?

Mô hình huấn luyện chậm hơn.

Mô hình dễ bị "overfitting" hơn.

Mô hình tiêu thụ nhiều bộ nhớ hơn.

Mô hình khó học được các phụ thuộc dài hạn trong chuỗi văn bản, làm giảm khả năng xử lý văn bản dài.

Lời giải

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Xem tiếp với tài khoản VIP

Còn 22/30 câu hỏi, đáp án và lời giải chi tiết.

Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.

Nâng cấp VIP

Lớp 12

Lớp 11

Lớp 10

Ôn vào 10

Lớp 9

Lớp 8

Lớp 7

Lớp 6

Ôn vào 6

Lớp 5

Lớp 4

Lớp 3

Lớp 2

Lớp 1

Đại học

ĐGNL - ĐGTD

Tốt nghiệp THPT

Ôn vào 10

Ôn vào 6

V-ACT

HSA

TSA

SPT

Toán

Văn

Tiếng Anh

Vật lý

Hóa học

Sinh học

Lịch sử

Địa lý

Giáo dục Kinh tế và Pháp luật

Tin học

Công nghệ

Toán

Văn

Tiếng Anh

Hóa học

Lịch sử

Địa lí

Toán

Văn

Toán

Văn

Tiếng Anh

Vật lý

Hóa học

Sinh học

Toán

Văn

Tiếng Anh

Vật lý

Hóa học

Sinh học

Khoa học tự nhiên

Tin học

Lịch sử

Địa lí

Toán

Văn

Tiếng Anh

Khoa học tự nhiên

Lịch sử & Địa lí

Giáo dục công dân

Tin học

Công nghệ

Toán

Tiếng Anh

Khoa học tự nhiên

Lịch sử & Địa lí

Giáo dục công dân

Tin học

Công nghệ

Toán

Văn

Tiếng Anh

Khoa học tự nhiên

Lịch sử & Địa lí

Giáo dục công dân

Tin học