10 May, 2021
Kĩ năng Big Data
Một sinh viên hỏi tôi: “Em cần kĩ năng nào để làm việc trong khu vực Big Data?” “Em có thể học những kĩ năng này ở đâu?” Xin thầy lời khuyên.”
Đáp: Big Data là khu vực đang nổi lên trong công nghệ thông tin (CNTT) giải quyết với việc xây dựng “sản phẩm dữ liệu” dựa trên các thuật toán phức tạp. Nó là tổ hợp của các khu vực công nghệ tính toán, toán học, và quản lí dữ liệu. Kĩ năng Big Data thường được dạy trong chương trình bằng thạc sĩ (thạc sĩ trong khoa học máy tính chuyên môn hoá trong Big Data hay thạc sĩ trong công nghệ thông tin trong phân tích dữ liệu v.v).
Là bằng thạc sĩ, nó yêu cầu rằng bạn phải có bằng cử nhân trong khoa học máy tính, kĩ nghệ phần mềm hay quản lí hệ thông tin để xin vào. Điều đó cũng có nghĩa là bạn phải có kĩ năng lập trình mạnh trong Java, C++ hay Python, có tri thức tốt về cấu trúc dữ liệu và thuật toán, và hiểu vòng đời phát triển phần mềm, đặc biệt cho phần mềm thực hiện các nhiệm vụ phức tạp.
Trong chương trình này bạn sẽ học vài môn trong trí tuệ nhân tạo (AI) như Học máy và thống kê để phát triển các thuật toán giải quyết với tập dữ liệu lớn. Bạn sẽ học về vài thuật toán được dùng trong học máy, chúng giải quyết các vấn đề nào, và chúng được thực hiện thế nào. (tức là, động cơ khuyến cáo, cây quyết định, xử lí ngôn ngữ tự nhiên v.v.) Bạn cũng học vài môn trong công cụ mô hình hoá như R hay Matlab hay SAS. Các công cụ phân tích thống kê và trực quan hoá là rất quan trọng trong công việc Big Data để thực hiện phân tích hồi qui, phân tích kết cụm, và phân lớp dữ liệu.
Để giải quyết với tập dữ liệu lớn, bạn cũng cần học các môn về Hadoop, MapReduce, NonSQL, Pig và Hive và Mahout.
Big Data là mới và vẫn đang tiến hoá. Bạn phải học nhiều các kĩ năng kĩ thuật và đưa vào thực hành để thu lấy kinh nghiệm. Do đó phát triển các kĩ năng Big Data, sẽ cần thời gian, công sức để làm việc như chuyên viên dữ liệu hay nhà khoa học dữ liệu. Ngày nay Big Data là một trong những khu vực có nhu cầu cao với trả lương cao trong công nghiệp bởi vì có thiếu hụt trầm trọng về những kĩ năng này.
—English version—
Big Data skills
A student asked me: “What skills do I need to work in the Big Data area?” “Where can I learn these skills?” Please advice.
Answer: Big Data is an emerging area of Information Technology (IT) that deals with building “data products” based on complex algorithms. It is a combination of computing technology, mathematics, and data management areas. Big Data Skills are often taught in a Master’s degree program (Master in Computer Science that specialize in Big Data or Master in Information Technology in Data Analytics etc.).
As a Master’s degree, it requires that you have a Bachelor’s degree in Computer Science, Software Engineering or Information System Management to apply. That also means that you must have a strong programming skills in Java, C++ or Python, have good knowledge of data structures and algorithms, and understand software development lifecycle, especially for software that perform complex tasks.
In this program you will take a few courses in Artificial Intelligence (AI) such as Machine Learning and Statistics to develop algorithms that deal with large datasets. You will learn about several algorithms used in machine learning, which problems they solve, and how they are implemented. (i.e., recommendation engines, decision trees, Natural Language Processing etc.) You also take several courses in modeling tools such as R or Matlab or SAS. These statistical analysis and visualization tools are very important in Big Data works to perform regression analysis, clustering analysis, and data classification.
To deal with large datasets, you also need to take courses to learn about Hadoop, MapReduce, NonSQL, Pig and Hive and Mahout.
Big Data is new and is still evolving. You have to learn a lot of technical skills and put into practice to gain experience. Therefore to develop Big Data skills, it will take time, effort to work as a Data Specialist or Data Scientist. Today Big Data is one of the area that has highest demand with the highest paid in the industry because there is a critical shortage of these skills.