Một sinh viên viết cho tôi: “Em là sinh viên năm thứ ba trong Khoa học máy tính. Em muốn học thêm về Big Data nhưng em cần kĩ năng nào để kiếm được việc làm trong khu vực này? Em có thể học những kĩ năng này ở đâu? Xin thầy lời khuyên.”

Đáp: Có vài phân loại trong nghề nghiệp về Big Data tuỳ theo bằng cấp và kĩ năng. Tuy nhiên tất cả chúng đều hội tụ vào phân tích khối lượng lớn dữ liệu với đa dạng kiểu để tìm ra xu hướng và hình mẫu mà có thể tiết lộ thông tin có giá trị nào đó. Thông tin như vậy có thể cung cấp ưu thế cạnh tranh hơn các đối thủ cạnh tranh khác trong ích lợi kinh doanh. Mục đích của phân tích dữ liệu lớn là giúp công ti dùng những thông tin này để ra quyết định doanh nghiệp tốt hơn.

Phân tích dữ liệu lớn thường bắt đầu với thu thập và phân tích “dữ liệu có cấu trúc” nội bộ được lưu trong cơ sở dữ liệu của công ti cho nên các kĩ năng bạn cần là: Quản trị cơ sở dữ liệu, học máy, và khai phá dữ liệu (những kĩ năng này thường được dạy trong chương trình Quản lí hệ thông tin). Bước tiếp là thu thập và phân tích dữ liệu “phi cấu trúc” bên ngoài từ các nguồn khác như Internet. Bởi vì những dữ liệu này là phi cấu trúc và không được xác định, bạn không thể dùng các công cụ hiện có của cơ sở dữ liệu và khai phá dữ liệu mà cần công nghệ khác được thiết kế để giải quyết chúng như cơ sở dữ liệu NoSQL database, Hadoop và MapReduce. Vì những thứ này còn mới, ít đại học dạy chúng. Tuy nhiên, để làm cho chúng thành sẵn có cho mọi người muốn học, nhiều giáo sư đã quyết định đưa các môn học đào tạo của họ lên trực tuyến như một phần của Các môn học trực tuyến mở cho quần chúng – Massive Open Online Courses (MOOC) mà bạn có thể truy nhập và học mà không phải trả tiền gì.

California Institute of Technology:

http://work.caltech.edu/telecourse.html

Học Hadoop:

http://hadoop.apache.org/

Môn Big Data từ Coursera University

https://www.coursera.org/

Các môn edX từ Harvard University and Massachusetts Institute of Technology (MIT)

https://www.edx.org/

—English version—

Where to learn Big Data skills

A student wrote to me: “I am a third year student in Computer Science. I want to learn more about Big Data but what are the skills that I need to get a job in this area? Where can I learn these skills? Please advice.”

Answer: There are several categories in Big Data career depending on the degree and skills. However all of them are focusing on the analysis of large amounts of data of a variety of types to find trends and patterns that may reveal certain valuable information. Such information can provide competitive advantages over other competitors resulting in business benefits. The goal of big data analytics is to help companies use these information to make better business decisions.

Big data analytics often starts with the collection and analyzing internal “structured data” stored in company’s database so the skills that you need are: Database administration, Machine learning, and Data mining. (these skills are often taught in Information System Management program). The next step is to collect and analyze external “unstructured” data from other sources such as the Internet. Because these data are unstructured and not defined, you cannot use existing tools of database and data mining but need different technology designed to handle them such as NoSQL database, Hadoop and MapReduce. Since these are new, few universities are teaching them. However, to make them available to everyone who want to learn, many professors decide to put their training courses on line as part of the Massive Open Online Courses (MOOC) that you can access and learn without paying anything.

California Institute of Technology:

http://work.caltech.edu/telecourse.html

Learn Hadoop:

http://hadoop.apache.org/

Big Data Courses from Coursera University

https://www.coursera.org/

edX courses from Harvard University and Massachusetts Institute of Technology (MIT)

https://www.edx.org/