15 Apr, 2021
Khai phá dữ liệu
Một sinh viên hỏi: “Khai phá dữ liệu là gì? Nó khác thế nào với quản trị cơ sở dữ liệu? Em muốn là người phân tích khai phá dữ liệu, em có thể học về lĩnh vực này ở đâu?”
Đáp: Khai phá dữ liệu có thể được định nghĩa là việc thăm dò các cơ sở dữ liệu rất lớn qua việc dùng những công cụ và qui trình chuyên dụng. Mục đích của khai phá dữ liệu là trích ra thông tin hữu dụng từ dữ liệu, và cung cấp thông tin đó cho người quản lí hay người ra quyết định để dùng trong trinh sát doanh nghiệp, hay dự báo v.v.
Khai phá dữ liệu là việc áp dụng các kĩ thuật phân tích thống kê để trích rút, truy lục và thăm dò dữ liệu thô rồi phân tích chúng thành thông tin hữu dụng dùng phần mềm máy tính cho xử lí nhanh hơn. Quản trị cơ sở dữ liệu là duy trì các bản ghi bằng sắp xếp, cập nhật cho nhiều kiểu dữ liệu cũng dùng phần mềm máy tính được biết tới như hệ quản lí cơ sở dữ liệu (DBMS).
Để học về khai phá dữ liệu, bạn cần có tri thức về miền doanh nghiệp, hiểu cơ sở dữ liệu và cách nó làm việc, có kĩ năng phân tích dữ liệu và một số kĩ thuật để lọc và làm sạch dữ liệu, đo chất lượng dữ liệu, và giải quyết với việc thiếu dữ liệu. Khai phá dữ liệu là môn học chuyên sâu được dạy chủ yếu trong bậc thạc sĩ về Quản lí hệ thông tin.
Có một số thuật toán và công cụ khai phá dữ liệu hiện đã tồn tại, mỗi thứ đều có ưu điểm và hỗ trợ nhưng học dùng công cụ là dễ dàng. Để là người phân tích dữ liệu hay nhà khoa học dữ liệu giỏi, bạn sẽ cần hiểu qui trình khai phá dữ liệu, các mô hình ước lượng của nó. Bạn phải biết cách so sánh và lựa chọn kĩ thuật nào là thích hợp cho điều bạn làm. Lời khuyên của tôi là thử nhiều kĩ thuật khác nhau nhất có thể được để cho bạn quen thuộc với tất cả chúng và học cách chuẩn bị dữ liệu cho phân tích, vì đó là nhiệm vụ tốn thời gian.
—-English version—-
Data mining
A student asked: “What Is Data Mining? How does it differ from database administration? I want to be a Data Mining Analyst, where could I learn about this field?
Answer: Data Mining can be defined as the exploration of very large databases through the use of specialized tools and processes. The purpose of the data mining is to extract useful information from the data, and provide that information to managers or decision making people to use in business intelligence, or forecasting etc.
Data mining is the application of statistical analysis techniques used for extraction, retrieving and exploring raw data then analyze them and incorporate them into useful information using computer software for faster processing. Database administration is the maintaining of records by storing, updating, of many types of data using computer software known as a database management system (DBMS).
To learn about data mining, you need to have knowledge of the business domain, understand database and how it works, having data analysis skills and some techniques for filtering and cleansing data, measuring the quality of data, and dealing with missing data. Data mining is an advanced course taught mostly in the Master degree of Information System Management.
There are number of data mining algorithms and tools exist already, each has certain advantages and supports but learning to use a tool is easy. To be a good data analyst or data scientist, you will need to understand the process of data mining, its estimation models. You must know how to compare and select which techniques are appropriated for what you do. My advice is to try as many different techniques as possible so you area familiar with all of them and learn how to prepare the data for analysis, because it is a time-consuming task.