12 Apr, 2021
Quản lí dữ liệu
Một sinh viên viết cho tôi: “Dữ liệu lớn là gì? Quản lí dữ liệu là gì? Chúng em có thể học về lĩnh vực mới này ở đâu? Xin thầy lời khuyên.”
Đáp: Dữ liệu lớn là tuyển tập các dữ liệu lớn và phức tạp tới mức trở thành khó xử lí bằng việc cùng các công cụ quản lí cơ sở dữ liệu hiện thời hay các ứng dụng xử lí dữ liệu truyền thống. Vì tập dữ liệu quá lớn không được thu thập, lưu giữ, tìm kiếm, phân tích và cập nhật, nó cần cách tiếp cận mới tới quản lí dữ liệu. Lí do là ngày nay nhiều công ti đã được tự động hoá hoàn toàn cho nên khối lượng dữ liệu được thu thập đang tăng lên nhanh chóng và nhu cầu quản lí thông tin phụ suy dẫn từ việc phân tích tập lớp các dữ liệu này, khi so sánh với các tập nhỏ hơn của dữ liệu hiện sẵn có, để cho họ nhận diện được xu hướng kinh doanh và các ứng dụng khác trong chi tiết nhiều hơn.
Quản lí dữ liệu thành công yêu cầu nhiều hơn chỉ đầu tư vào việc mua nhiều phần cứng như một số nhà tư vấn công nghệ thường khuyến cáo. Công ti phải đầu tư vào việc có qui trình quản lí dữ liệu được xác định rõ tại chỗ cũng như những người có kĩ năng để quản lí mọi khía cạnh. Mọi dữ liệu đều phải được thu thập, lưu giữ, dùng, cập nhật, và rồi cho nghỉ. Với khối lượng xử lí dữ liệu tăng lên nhanh chóng, điều mấu chốt là đảm bảo rằng dữ liệu được cần cho ra quyết định và làm báo cáo quản lí là sẵn có, chính xác, đầy đủ và an ninh.
Không có cấp quản lí dữ liệu có kĩ năng tại chỗ, quan chức điều hành cấp cao có thể không nhận được thông tin đúng lúc để ra quyết định. Nếu họ nhận thông tin bị muộn hay không đáng tin, họ sẽ cần nhiều thời gian hơn để phân tích và kiểm nghiệm chúng; và trong thế giới thay đổi nhanh chóng này, quyết định muộn thường là quyết định kém. Không có hệ thống quản lí dữ liệu tại chỗ, cấp quản lí có thể nhận được các thông tin khác nhau từ các nguồn khác nhau và dạng thức dữ liệu và họ thường bị lẫn lộn. Quản lí dữ liệu hiệu quả cho phép cấp quản lí có đủ thông tin để ra quyết định tốt hơn.
Với dữ liệu lớn, quản lí dữ liệu đang trở thành phức tạp hơn trước đây và nó cần có cách tiếp cận có cấu trúc để hỗ trợ cho quá trình ra quyết định. Quản lí dữ liệu là môn mới thường được dạy trong chương trình Quản lí hệ thông tin. Nó bao gồm Qui quản dữ liệu hay quản lí và giám sát dữ liệu công ti; Cấu trúc dữ liệu hay định nghĩa dữ liệu; Kiến trúc dữ liệu hay lưu giữ và truy lục dữ liệu; Quản lí dữ liệu hay bảo trì dữ liệu trong toàn công ti và với đối tác kinh doanh và nhà cung cấp; Chất lượng dữ liệu hay độ chính xác, tính đầy đủ và tuân thủ pháp luật của dữ liệu và An ninh dữ liệu hay bảo vệ dữ liệu và cấp quyền dùng nó.
—-English version—-
Data management
A student wrote to me: “What is big data? What is data management? Where can we learn about this new field? Please advice.
Answer: Big data is a collection of data that are so large and complex that it becomes difficult to process using current database management tools or traditional data processing applications. Since the data set is too big to be collected, stored, search, analyzed and updated, it needs a new approach to data management. The reason is today many companies are fully automated so the amount of data collected is increasing fast and management needs additional information derive from the analysis of these large set of data, as compared to smaller sets of current available data, in order for them to identify business trends and other applications in much more detail.
Successful data management requires more than just investment in buying more hardware as some technology consultants often recommend. Company must invest in having a well defined data management process in place as well as skilled people to manage all aspects of the data lifecycle. All data must be collected, stored, used, updated, modified, and then retired. With the amount of data increasing fast, it is critical to ensure that data needed for management decision making and reporting is available, accurate, complete and secure.
Without a skilled data management in place, senior executives may not receive the right information on time to make decision. If they receive information that is late or untrustworthy, they will need more time to analyze and validate them; and in this fast changing world, a late decision is often a bad decision. Without a data management system in place, management may receive different information from different sources with different terminology and data formats and they often are confused. Effective data management allows management to have enough information to make better decision.
With big data, data management is becoming more complex than before and it needs to have a structured approach to support decision making process. Data management is a new course often taught at the Information System Management program. It consists of Data Governance or the management and oversee of company data; Data Structure or the definition of data; Data Architecture or the storage and retrieval of data; Data Management or the maintenance of data throughout a company and with business partners and suppliers; Data Quality or the accuracy, completeness and legal compliance of data and Data Security or the protection of data and the authorization to use it.