Trong sáu tháng qua, nhiều công ti tới CMU để tìm người tốt nghiệp Big data vì thiếu hụt kĩ năng này đang tới lúc gay cấn. Họ tất cả đều cần ai đó có kĩ năng trong Hadoop, NoSQL, HBase, Pig, Hive v.v. Đặc biệt những người tốt nghiệp mà có thể phân tích và đi tới thông tin có nghĩa từ khối lượng lớn dữ liệu rót vào trong công ti họ trên cơ sở hàng ngày. Một người quản lí thuê người bảo tôi: “Đây là cuộc đua thâu tóm các công nhân Big data nhiều nhất có thể được và ai có nhiều nhất sẽ thắng.”

Ngành công nghiệp này dự báo rằng Big data sẽ tạo ra trên 2 triệu việc làm mới ở riêng Mĩ, nhưng chỉ có thể kiếm được quãng 400,000 người tốt nghiệp là tối đa. Nhu cầu toàn cầu được ước lượng quãng 3 tới 4 triệu công nhân trước năm 2020 nhưng cung cấp của toàn thế giới chỉ có thể tạo ra được không đầy một phần ba nhu cầu. Do nhu cầu bất thần này, các công ti làm khoán ngoài ở Ấn Độ và Trung Quốc đang vội vàng thuê người tốt nghiệp Big data nhưng không thể tìm được công nhân. Một quan chức chính phủ Ấn Độ nói với các báo chí: “Tại sao không có kế hoạch để dạy môn này trong các đại học của chúng ta? Tại sao chúng ta vẫn dạy viết mã và kiểm thử nơi phần lớn những việc làm trả lương thấp này đang chuyển sang châu Phi và Đông Nam Á và bỏ qua môn học có nhu cầu cao thế? Vấn đề là chúng ta sẽ ở đâu trong năm 2020? Với sáu năm còn lại, chúng ta có thể tạo ra đủ công nhân có kĩ năng để đáp ứng cho nhu cầu này không?” Một tình huống tương tự cũng đang xảy ra ở Trung Quốc nơi có hàng triệu người tốt nghiệp bị thất nghiệp. Nhiều báo chí đang phê phán hệ thống giáo dục: “Những người lãnh đạo giáo dục đã làm hỏng thanh niên của chúng ta. Chúng ta cần làm nhiều hơn để gióng thẳng việc cung cấp của giáo dục với nhu cầu cao của thị trường.” Trong các phòng chát, những người tốt nghiệp bị thất nghiệp chán nản cũng lên tiếng về giận dữ của họ: “Chúng tôi vẫn đang bị dạy cho những thứ mà không ai muốn trong khi có các môn có nhu cầu cao nhưng không ai dạy. Đây là lúc thay thế hệ thống giáo dục lỗi thời của chúng ta.” Sự kiện là công nghệ thay đổi nhanh chóng thế và nhu cầu đang dịch chuyển nhanh chóng, cho dù mọi đại học có thể thay đổi đào tạo của họ, vẫn sẽ không đủ nhanh.

Vấn đề là làm sao sinh viên tự chuẩn bị cho họ về nghề nghiệp trong Big data? Thứ nhất, Big data yêu cầu bằng cấp chuyên sâu cho nên sinh viên cần tiếp tục học bằng thạc sĩ trong Khoa học dữ liệu, Quản lí hệ thông tin, hay Kĩ nghệ phần mềm. Thứ hai, Big data là lĩnh vực lớn yêu cầu những đào tạo khác nhau tuỳ theo việc làm. Về căn bản có ba kiểu vị trí: nhà Khoa học dữ liệu, người Kiến trúc/phân tích dữ liệu; và Kĩ sư dữ liệu. Để chuẩn bị cho những vị trí này, sinh viên cần xây dựng một nền tảng tốt. Họ cần học các lớp lập trình trong Java, Mathlab, Python và R vì đây là những ngôn ngữ phổ biến dùng trong Big data; họ cần học các môn trong cấu trúc dữ liệu, cơ sở dữ liệu, khai phá dữ liệu và trinh sát doanh nghiệp để hiểu cách dữ liệu được dùng; họ cũng cần học các môn trong thống kê và xác suất vì phân tích Big data phần lớn là về toán học và thống kê. Họ nên đi ra ngoài các môn toán học chính qui cơ bản vào các môn chuyên sâu trong khu vực hồi qui đa biến và phương trình vi phân. Vì những đào tạo nghiêm ngặt này chuẩn bị cho nghề nghiệp trong Big data, ít sinh viên sẽ đi vào trong nó mặc cho nhu cầu cao; có thể là thiếu hụt này sẽ kéo dài trong một thời gian lâu.

Mặc dầu Big data đã được dùng trong công nghiệp từ nhiều năm, gần đâu khối lượng dữ liệu đang tăng lên nhanh chóng thế và có những công cụ mới được thiết kế để trích ra giá trị từ đa dạng rộng các dữ liệu này thế rồi đột nhiên nó bùng nổ. Big data là cách thức mới để trích rút và tổ chức thông tin để dự đoán mọi sự đang xảy ra theo thời gian thực. Nó cách mới để làm kinh doanh trong thế giới được kết nối này nơi mọi sự xảy ra nhanh chóng. Big data sẽ buộc mọi người thay đổi nhanh chóng và nó sẽ tác động tới mọi ngành công nghiệp. Với Big data, công ti có thể dự báo sản phẩm nào có nhu cầu cao để thay đổi chiến lược tiếp thị của họ, lực lượng bán hàng của họ, và các qui trình chế tạo để tạo ra chúng một cách nhanh chóng. Vì doanh nghiệp của họ thay đổi, đối thủ cạnh tranh sẽ không có khả năng đáp ứng đủ nhanh để cạnh tranh. Chẳng hạn, bằng việc dùng phân tích Big data, Samsung đã có khả năng dự báo tính năng nào khách hàng muốn có trong điện thoại di động để phát triển điện thoại của họ (loạt Galaxy) khi Motorola, Sony, Nokia vẫn còn phụ thuộc vào ý kiến của người quản lí bán hàng của họ. Ngày nay Samsung đã thâu tóm phần lớn thị trường di động, thậm chí còn tốt hơn Apple trong khi Nokia, Motorola, và Sony mất hầu hết thị trường và có thể phải ra khỏi kinh doanh.

Với Big data, các quyết định sẽ được dựa trên thống kê và xác suất hơn là ý kiến cá nhân. Chúng ta hãy tưởng tượng một cuộc họp người điều hành để quyết định tính năng cho sản phẩm mới. Một người quản lí nói: “Tôi nghĩ sản phẩm tiếp của chúng ta nên có các chức năng XYZ vì tôi nghĩ nó là tốt.” Người quản lí khác nói: “Theo phân tích Big data của chúng tôi được thu thập từ một trăm triệu dữ liệu từ mạng xã hội, internet, báo chí, phòng chat, các bài báo khoa học, tạp chí, tôi kết luận rằng nếu chúng ta có các chức năng ABC chúng ta sẽ có 85% thị phần và có thể tăng lợi nhuận lên 65%; nếu chúng ta có các chức năng XYZ, chúng ta sẽ chỉ có 42% thị phần và tăng lợi nhuận lên 32%; và nếu chúng ta có các chức năng JLK thì chúng ta sẽ mất 35% thị trường và lỗ 18 triệu đô la. Phân tích hơn kết luận rằng dự báo này đạt chính xác 83% và xác suất hơn 90% rằng chúng ta có thể thâu tóm được thị trường trong vòng 6 tháng nếu chúng ta có các chức năng ABC và chúng ta có thể đẩy ba tới năm đối thủ cạnh tranh ra khỏi thị trường đến cuối năm.” Bạn nghĩ người chủ công ti sẽ hành động theo cái gì? Ông ấy sẽ ra quyết định dựa trên ý kiến của người quản lí bán hàng hay các dự báo dựa trên phân tích kĩ lưỡng về thị trường? Đó là sức mạnh của Big data.

Ví dụ khác về Big data là trong cửa hàng bán lẻ. Tưởng tượng một khách hàng muốn mua tivi màn hình phẳng nhưng không chắc mua ở đâu hay cửa hàng nào có giá tốt nhất. Người đó dùng app di động để so sánh giá giữa vài cửa hàng. App này quét qua mọi cửa hàng trong thành phố và hiển thị danh sách các giá tivi màn hình phẳng để cho người đó có thể chọn cửa hàng giá thấp nhất. Bằng việc dùng Big data thu thập thông tin trên Internet, người chủ cửa hàng lập tức được thông báo về khách hàng tiềm năng đang kiểm giá. Với phân tích Big data, người đó cũng nhận được thông tin về khách hàng này như tín dụng tài chính, tài khoản ngân hàng và các thông tin liên quan khác v.v. Người chủ cửa hàng sẽ phải ra quyết định nhanh chóng. Nếu giá của ông ta cao hơn người khác, ông ta phải giảm giá và gửi một tin nhắn tới khách hàng thông báo cho anh ta rằng anh ta có “giảm giá đặc biệt” cho phép anh ta mua tivi với giá thấp hơn người khác nhưng anh ta phải đáp ứng nhanh chóng vì việc giảm giá có giới hạn thời gian. Nếu khách hàng vẫn không chắc, vài phút sau anh ta nhận được tin nhắn khác thúc giục anh ta mua với lời hứa là cửa hàng sẽ chuyển giao ti vi tới tận nhà và lắp đặt miễn phí phụ. Bạn nghĩ khách hàng này sẽ làm gì? Có được tivi anh ta muốn với giá thấp nhất và có mọi thứ được thực hiện mà không phải rời khỏi nhà? Các cửa hàng khác không dùng Big data sẽ không bao giờ biết rằng họ vừa mất một thương vụ tiềm năng. Đó là sức mạnh của Big data.

Trong “thị trường toàn cầu được dẫn lái bởi công nghệ” này, mọi người quản lí đều cần hiểu sức mạnh của Công nghệ thông tin (CNTT). Việc dùng Big data như một công cụ cạnh tranh nên được dạy trong mọi chương trình quản lí. Cách tiếp cận liên ngành này của “Khoa học dữ liệu” nơi toán học, thống kê và công nghệ thông tin được tổ hợp lại sẽ là yếu tố chính trong kinh doanh toàn cầu nơi các công ti dùng công nghệ sẽ có ưu thế. Để làm điều đó, điều tuyệt đối mấu chốt là công ti phải có chiến lược công nghệ thông tin tại chỗ. Không có lí do trong đầu tư vào Big data như chiến lược mà không có người quản lí hệ thông tin có kĩ năng, người có thể gióng thẳng chiến lược CNTT với chiến lược doanh nghiệp và biết cách thực hiện nó một cách thành công. Khi các công ti nhìn vào Big data để giúp cho họ ra quyết định, người điều hành phải chắc rằng họ có chiến lược CNTT tại chỗ, công ti phải bắt đầu bằng việc có người quản lí hệ thông tin để xác định công ti có thể làm gì với Big data: Các vị trí như Nhà khoa học dữ liệu thường yêu cầu các kĩ năng máy tính và thống kê; Người phân tích dữ liệu sẽ yêu cầu kĩ năng quản lí và phân tích dữ liệu, và Kĩ sư dữ liệu sẽ yêu cầu kĩ năng lập trình và diễn giải dữ liệu. Tuy nhiên các kĩ năng kĩ thuật là không đủ, các công ti muốn những người có tri thức về phương pháp và ứng dụng của phân tích, nhưng cũng hiểu vấn đề doanh nghiệp và có khả năng làm việc trong tổ và có thể trao đổi hiệu quả tốt với người điều hành.

Mọi tuần tôi đều nhận được điện thoại từ các công ti tìm thuê người tốt nghiệp Big data. Tất nhiên chúng tôi có danh tiếng tốt về phát triển nhà chuyên nghiệp Big data có phẩm chất mà làm việc tốt trong công nghiệp. Tôi tin dữ liệu đang trở thành tài nguyên có giá trị nhất dẫn lái tăng trưởng kinh tế toàn cầu ngày nay. Trong thời đại tri thức này, dữ liệu là yếu tố chính cho sự kiện và chân lí.

—English version—

The demand for Big data

In the past six months, more companies came to CMU looking for Big data graduates as the skilled shortage is getting critical. They all need someone with skills in Hadoop, NoSQL, HBase, Pig, Hive etc. Especially graduates that can analyze and come up with meaningful information from the massive of data pouring into their company on a daily basis. A hiring manager told me: “This is a race to capture Big data workers as many as possible and who has the most will win.”

The industry predicts that Big data will create over 2 million new jobs in the U.S. alone, but can only get about 400,000 graduates at the maximum. The global needs are estimated to be around 3 to 4 million workers by 2020 but the entire world’s supply can only produce less than a third of the demand. Due to this sudden needs, outsourcing companies in India and China are hurrying to hire Big data graduates but could not find workers. An Indian government officer told newspapers: “Why there is no plan to teach this subject in our universities? Why are we still teaching coding and testing where most of these low paying jobs are moving to Africa and South East Asia and ignore such a high demand subject? The question is where will we be in 2020? With only six year left, can we produce enough skilled workers to meet this demand?” A similar situation is also happening in China where there are millions of unemployed graduates. Several  newspapers are criticizing the education systems: “The educational leaders have failed our young people. We need to do more to align educational offerings with the high demand of the marketplace.” Among chat rooms, frustrated unemployed graduates also voiced their anger: “We are still being taught about things what nobody want when there are high demand subjects but nobody teach. It is time to replace our obsolete education system.” The fact is technology change so fast and demands are shifting quickly, even if all universities can change their trainings, it would not be fast enough.

The question is how do students prepare themselves for a career in Big data? First, Big data requires advanced degree so students need to continue on to a Master’s degree in Data Science, Information System Management, or Software Engineering. Second, Big data is a large field that requires different trainings depends on the jobs. Basically there are three types of positions: The Data Scientist; The Data Architect/Analyst; and the Data Engineer. In order to prepare for these positions, students need to build a good foundation. They need to take programming classes in Java, Mathlab, Python and R as these are the popular languages using in Big data; they need to take courses in data structures, database, data mining and business intelligence to understand how data are being used; they also need to take courses in statistics and probability since Big data analytics is mostly about mathematics and statistics. They should go beyond basic regular math courses into advanced courses in area of multivariate regression and differential equations. Because of these rigorous trainings to prepare for a career in Big data, few students would go into it despite the high demand; it is possible that this shortage will last for a long time.

Although Big data has been using in the industry for years. Recently the volume of data is increasing so fast and there are new tools designed to extract value from these wide variety of data then suddenly it explodes. Big data is a new way to extract and organize information to predict things that is happening in real time. It is a new way to do business in this connected world where things happen fast. Big data will force people to change quickly and it will impact every industry. With Big data, company can predict which products are in high demand to change their marketing strategy, their sales force, and manufacturing processes to produce them quickly. As their business change, competitors will not be able to respond fast enough to compete. For example, by using Big data analytics, Samsung was able to predict what features customers want in mobile phones to develop their phones (The Galaxy series) when Motorola, Sony, Nokia are still depending on the opinions of their sale managers. Today Samsung has captured a large part of the mobile market, even better than Apple when Nokia, Motorola, and Sony lost most of the market and could be out of business.

With Big data, decisions will be based more on statistics and probability rather than personal opinions Let’s us imagine an executive meeting to decide the features of new product. One manager says: “I think our next product should have XYZ functions because I think it is good.” Another manager says: “According to our Big data analytics collected from one hundred million data from social network, internet, newspapers, chat rooms, scientific articles, magazines, I conclude that if we have ABC functions we will have 85% of the market share and could increase profit by 65%; if we have XYZ functions, we will only have 42% of the market share and increase profit by 32%; and if we have JLK functions then we will lose 35% of the market and lose 18 million dollars. Further analysis concludes that this prediction has 83% accuracy and more than 90% probability that we could capture the market within 6 months if we have ABC functions and we could push three of the five competitors out of the market by year end.” What do you think the company owner would act? Will he be making decision based on a sale manager’s opinion or a predictions based on thorough analysis of the market? That is the power of Big data.

Another example of Big data is in retail stores. Imagine a customer wants to buy a flat screen TV but not sure where to buy or who has the best price. He uses the mobile app to compare price among several stores. The app scans all the stores within the city and displays a list of the flat screen TV prices so he could choose the lowest price store. By using Big data that collect information in the Internet, a store owner is immediately being informed about a potential customer who is checking on price. With Big data analytics, he also receives information about this customer such as financial credit, bank account and other relevant information etc. The store owner will have to make decision quickly. If his price is higher than others, he should reduce the price and sending a text message to the customer informing him that he has a “special discount” allows him to buy the TV at lower price than others but he must respond immediately since the discount has a time limit. If the customer is still not sure, few minutes later he will receive another text message urging him to buy with a promise that the store will deliver the TV to his home and installs it at no extra cost. What do you think the customer would do? Get the TV that he wants at the lowest price and have everything done without have to leave home? Other stores that do not use Big data will never know that they just lost a potential sale. That is the power of Big data.

In this “Technology-driving global market”, every manager needs to understand the power of Information Technology (IT). The use of Big data as a competitive tool should be taught in all management programs. This new interdisciplinary approach of “Data science” where math, statistics and information technology are combined will be a major factor in global business where companies that use technology will have the advantages. To do that it is absolutely critical that company to have an information technology strategy in place. There is no reason in investing in Big data as a strategy without skilled information systems managers who can align the IT strategy with the business strategy and know how to implement it successfully. As companies look to Big data to help them making decisions, executive must make sure that they have an IT strategy in place, the company must start by having information systems managers to define what the company could do with Big data: Positions such as Data Scientist often require computer and statistical skills; Data Analysts will require data management and analytic skills, and Data Engineer will require programming and data interpretation skills. However technical skills are not enough, companies want people who have knowledge of the methods and applications of analytics, but also understand business problem and able to work in teams and can effectively communicate well to executives.

Every week I get calls from companies looking to hire Big data graduates. Of course we have a good reputation for developing qualified big data professionals that work well in the industry. I believe data is becoming the most valuable resource driving the global economic growth today. In this knowledge age, data is the main factor for facts and truth.