Phân tích và trực quan hóa dữ liệu
Data analysis and visualization
Mô tả học phần
Môn học này cung cấp cho sinh viên các kiến thức nền tảng về các phương pháp biểu diễn và phân tích dữ liệu số chiều lớn, đặc biệt trong điều kiện phải xử lý dữ liệu từ các nguồn cảm biến khác nhau (multi-modalities). Dữ liệu đa phương tiện được hiểu theo một khái niệm rộng đó là thông tin từ nhiều nguồn (cảm biến, cơ sở dữ liệu, mạng xã hội), kết nối với nhiều dạng và cấu trúc dữ liệu khác nhau (hình ảnh, âm thanh, tín hiệu, văn bản, ngôn ngữ tự nhiên). Trong môn học, sinh viên sẽ có được các kiến thức bước đầu của quá trình phân tích dữ liệu. Sau đó, các kỹ thuật về biểu diễn dữ liệu dưới dạng có cấu trúc. Cuối cùng là quá trình giải thích dữ liệu thể hiện ứng dụng logic suy diễn và quy nạp vào dữ liệu phân tích. Cuối kỳ, sinh viên sẽ được thực hành thông qua các dự án gắn liên với quá trình phân tích nội dung, và trực quan biểu diễn nội dung từ các loại dữ liệu đa phương tiện. Sinh viên có thể trích xuất được thông tin hữu ích từ nguồn dữ liệu đa dạng để phục vụ cho các nhu cầu cụ thể trong các lĩnh vực như kinh tế, giáo dục, sức khỏe...
English description
Objectives: Through this course, students are able to understand the background and fundamental knowledge of representing and analyzing data, especially in the condition that data is collected from different sensors or resources. These data are processed in context of multi-modalities. Multimedia data in this course is processed so that multimedia information are from many sources (sensors, databases, social networks), connected to many different types and data structures (images, sounds, bars, signals, text, natural language). In the course, students will gain the background knowledge of data analysis process. Then, they study on techniques for representing data in compact form. Finally, the data interpretation process demonstrates the practical application and to the analysis data. At the end of this course, students will practice through projects associated with content analysis, and visually represent content from multimedia data such as: synthesizing activities from image series. Students can extract useful information from a variety of data sources to specific fields such as economics, education, healthcare
Chuẩn đầu ra học phần (CLO) 5
Bấm vào từng chuẩn đầu ra để xem bản tiếng Anh, liên kết PLO và mức độ đóng góp.
-
CLO1 Giải thích các khái niệm, quy trình và vai trò của phân tích và trực quan hóa dữ liệu trong các bài toán kỹ thuật.
Explain key concepts, workflows, and the role of data analysis and visualization in engineering problems.
PLO 01 R -
CLO2 Phân tích dữ liệu bằng các kỹ thuật tiền xử lý, phân tích tương quan và giảm số chiều để khám phá dữ liệu.
Analyze data using preprocessing, correlation analysis, and dimensionality reduction techniques to explore data.
PLO 02 R -
CLO3 Triển khai và đánh giá các kỹ thuật phân tích và trực quan hóa dữ liệu trong một ứng dụng cụ thể với dữ liệu thực bằng công cụ và ngôn ngữ lập trình phù hợp.
Implement data analysis and visualization techniques in a pratical application using appropriate tools and programming languages.
PLO 03 RPLO 04 RPLO 05 R -
CLO4 Làm việc nhóm hiệu quả; trình bày và phản biện kết quả bằng tiếng Anh chuyên ngành
Work effectively in teams; present and critique results using technical English
PLO 09 RPLO 10 R -
CLO5 Tuân thủ các nguyên tắc đạo đức, bản quyền và tiêu chuẩn kỹ thuật.
Comply with ethical, copyright, and technical standards
PLO 11 R
Đánh giá học phần
| Thành phần | Tỉ trọng | Thời gian |
|---|---|---|
| Bảo vệ bài tập lớn (Final project) | 70.0% | Hình thức: Bài tập lớn Thời gian đánh giá: sau khi kếtt thúc học phần từ 1-2 tuần Cách thức nộp bài: MS Teams, theo nhóm, Slide, Report, Code |
| Hoàn thành 03 bài thực hành sau 1. Tiền xử lý dữ liệu (làm sạch, điền thiếu, phát hiện outlier) và phân tích tương quan (Chi-square, Pearson, Spearman) 2. Giảm chiều dữ liệu: các phương pháp lựa chọn đặc trưng (feature selection) và các phương pháp giảm chiều (PCA, LDA, ISOMAP) và so sánh hiệu quả của chúng trong một bài toán về phân loại 3. Trực quan hóa nâng cao với t-SNE và các mô hình giải thích LIME, SHAP | 20.0% | Submit trên MS Teams, Theo thời gian gán của giảng viên Nhóm SV nộp code và báo cáo kết quả thu được |
| 3 bài Quiz trên lớp | 10.0% | Sau khi xong 03 nội dùng 2-3-4 của học phần Thời gian: Quiz ~ 15 phút |
Tài liệu học tập
Bắt buộc
- [1] Python: Data Analytics and Visualization Understand, evaluate, and visualize data, Phuong Vo.T.H Martin Czygan Ashish Kumar Kirthi Raman, 2017, Packt Publishing Ltd