Trong NLP, 'tokenization' là quá trình:
Chuyển đổi văn bản thành giọng nói.
Phân tích ý nghĩa ngữ nghĩa của câu.
Chia văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
Loại bỏ các từ dừng (stop words) khỏi văn bản.
Quảng cáo
Trả lời:
Chọn đáp án C
Hot: 1000+ Đề thi cuối kì 2 file word cấu trúc mới 2026 Toán, Văn, Anh... lớp 1-12 (chỉ từ 60k). Tải ngay
CÂU HỎI HOT CÙNG CHỦ ĐỀ
Câu 1
Phân tích cú pháp (Parsing).
Phân tích tình cảm (Sentiment Analysis).
Nén dữ liệu (Data Compression).
Nhận dạng thực thể có tên (Named Entity Recognition).
Lời giải
Chọn đáp án C
Câu 2
Chẩn đoán hình ảnh y tế.
Phân tích hồ sơ bệnh án điện tử để cải thiện chăm sóc bệnh nhân.
Phẫu thuật robot.
Sản xuất thuốc.
Lời giải
Chọn đáp án B
Câu 3
Phân loại văn bản theo chủ đề.
Tìm kiếm các từ đồng nghĩa trong văn bản.
Rút gọn các từ về dạng gốc (stem) của chúng.
Đánh dấu các thực thể có tên trong văn bản.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 4
Phân tích cú pháp.
Sinh văn bản tự nhiên và mạch lạc.
Nhận dạng thực thể có tên.
Phân tích tình cảm.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 5
Phân tích cấu trúc ngữ pháp của câu.
Xác định và phân loại các thực thể có tên trong văn bản (ví dụ: tên người, tổ chức, địa điểm).
Dịch các tên riêng sang ngôn ngữ khác.
Tìm kiếm các từ đồng nghĩa của tên riêng.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.
Câu 6
Khó xử lý với dữ liệu văn bản lớn.
Không giữ được thông tin về thứ tự từ và ngữ cảnh.
Yêu cầu nhiều tài nguyên tính toán.
Chỉ hoạt động tốt với tiếng Anh.
Lời giải
Bạn cần đăng ký gói VIP ( giá chỉ từ 250K ) để làm bài, xem đáp án và lời giải chi tiết không giới hạn.