Home Học phần Tham khảo Thông báo
Đang xem: Hướng dẫn sử dụng phần mềm weka
Tài liệu tham khảo
Data Mining: Concepts and Techniques, 3rd Edition, (link). Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (link) Giáo trình Khai Phá Dữ Liệu của Nguyễn Hà Nam, Nguyễn Chí Thành, Hà Quang Thụy (link)
Nội dung học phần
Chủ đề 1: Dẫn nhập về Khai phá dữ liệu
Bài giảng: slide Phần mềm: (1) Java; (2) WEKA; và (3) Netbeans. Hướng dẫn thực hành: (1) Cài đặt Java & Weka & Netbeans; (2) Giới thiệu phần mềm WEKA; (3) Giới thiệu cấu trúc tập tin ARFF. Hướng dẫn lập trình: (1) Thiết lập dự án với Weka; (2) Xuất – Nhập và Chuyển đổi dữ liệu. Tài liệu tham khảo: Cẩm nang hướng dẫn sử dụng Weka.
Chủ đề 2: Khai phá luật kết hợp
Bài giảng: slide Dataset: (1) Supermarket (link); (2) weather.numeric (link); (3) weather.nominal (link). Bài thực hành: (1) Khai phá luật kết hợp bằng thuật toán Apriori; (2) Khai phá luật kết hợp bằng thuật toán FP-Growth. Hướng dẫn lập trình: (1) Lập trình sử dụng Apriori trong WEKA; (2) Lập trình sử dụng FP-Growth.
Chủ đề 3: Phân lớp – các phương pháp chuẩn bị dữ liệu
Bài giảng: slide Dataset: labor (link) Bài thực hành: (1) Chuẩn bị train set và test set ; (2) Phương pháp Holdout; (3) Phương pháp Cross validation. Hướng dẫn lập trình: (1) Lập trình tạo train set và test set.
Chủ đề 4: Phân lớp – Cây quyết định
Bài giảng: slide Dataset: (1) labor-train (link); (2) labor-test (link). Bài thực hành: (1) Xây dựng mô hình cây quyết định bằng phần mềm WEKA; Hướng dẫn lập trình: (1) Lập trình xây dựng mô hình cây quyết định bằng WEKA API; (2) Lập trình sử dụng mô hình cây quyết định để phân lớp.
Chủ đề 5: Phân lớp – Naive Bayes
Bài giảng: slide Dataset: (1) labor-train (link); (2) labor-test (link). Bài thực hành: (1) Xây dựng mô hình Naive Bayes bằng phần mềm WEKA; Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình Naive Bayes.
Chủ đề 6: Phân lớp – Mạng nơ-ron
Bài giảng: slide Dataset: (1) labor-train (link); (2) labor-test (link). Bài thực hành: (1) Xây dựng mô hình Mạng nơ-ron bằng phần mềm WEKA; Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình Mạng nơ-ron.
Chủ đề 7: Phân lớp – Support vector machines
Bài giảng: slide Dataset: (1) labor-train (link); (2) labor-test (link). Bài thực hành: (1) Xây dựng mô hình SVM bằng phần mềm WEKA; Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình SVM.
Chủ đề 8: Phân lớp – phương pháp k-lân cận
Bài giảng: slide Dataset: (1) labor-train (link); (2) labor-test (link). Bài thực hành: (1) Xây dựng mô hình k-NN bằng phần mềm WEKA; (2) Lựa chọn thông số tối ưu cho mô hình phân lớp (tuning model). Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình k-NN.
Chủ đề 9: Phân lớp – phương pháp kết hợp (Ensemble methods)
Bài giảng: slide Dataset: (1) labor-train (link); (2) labor-test (link); (3) iris-train (link); (4) iris-test (link). Bài thực hành: (1) Phương pháp Bagging; (2) Phương pháp Boosting; (3) Phương pháp Vote; (4) Phương pháp Blending (Stacking); (5) Phương pháp MultiClassClassifier. Hướng dẫn lập trình: (1) Lập trình – Bagging; (2) Lập trình – Boosting; (3) Lập trình – Voting; (4) Lập trình – Stacking.
Chủ đề 10: Phân lớp – đánh giá và lựa chọn mô hình phân lớp
Bài giảng: slide Bài đọc thêm: Hướng dẫn sử dụng Knowledge Flow của Weka. Data set: (1) labor-train (link); (2) diabetes (link). Bài thực hành: (1) Vẽ đường ROC; (2) Vẽ đường Precision – Recall; (3) So sánh các mô hình phân lớp bằng Experimenter; (4) Vẽ đường ROC bằng Knowledge Flow; (5) Vẽ đường ROC của nhiều bộ phân lớp bằng Knowledge Flow.
Chủ đề 11: Phân cụm – Dẫn nhập
Bài giảng: slide
Chủ đề 12: Phân cụm – phương pháp k-means
Bài giảng: slide Dataset: (1) diabetes (link); (2) credit (link). Bài thực hành: (1) Xây dựng mô hình k-means bằng phần mềm WEKA. Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình k-means.
Chủ đề 13: Phân cụm – phương pháp Expectation – Maximization
Bài giảng: slide Dataset: (1) diabetes (link); (2) credit (link). Bài thực hành: (1) Xây dựng mô hình EM bằng phần mềm WEKA. Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình EM.