27 May, 2021
Big Data và tác động của nó
Một sinh viên Kĩ nghệ phần mềm viết cho tôi: “Công nghệ thay đổi nhanh và khó học được mọi thứ. Theo ý thầy, cái nào là công nghệ quan trọng nhất? Nếu em có thể đưa nỗ lực vào học một hay hai công nghệ, chúng sẽ là cái gì? Xin thầy lời khuyên.”
Đáp: Mặc dầu khó dự báo công nghệ nào sẽ là quan trọng nhất trong năm hay mười năm tới, tuy nhiên ý kiến của tôi, Tính toán mây, Phân tích Big data và An ninh tính toán là ba công nghệ hứa hẹn nhất. Vì tôi tiến hành nghiên cứu và dạy phân tích Big data tại CMU, tôi có thiên hướng nghiêng về công nghệ này. Tôi nghĩ điều công nghiệp đang làm ngày nay với Big data chỉ mới là bắt đầu. Vì có thiếu hụt trầm trọng nhà khoa học dữ liệu có kĩ năng để thu thập, tổ chức, xử lí, và phân tích, công nghệ này chưa đạt tới tiềm năng đầy đủ. Tuy nhiên, khi có nhiều nhà khoa học dữ liệu, tình huống sẽ thay đổi và công nghệ này có thể bùng nổ. Sự kiện là năm ngoái công nghiệp đã chi vài tỉ đô la vào công nghệ này và có cuộc đua để xem ai sẽ là nhất trong các công ti như IBM, Oracle, GE, SAS, và SAP vì họ đầu tư hàng tỉ đô la để phát triển phần mềm và phần cứng thực hiện phân tích Big data.
GE đang lấy dữ liệu từ mọi thứ mà họ xây dựng, như, động cơ phản lực, nhà máy năng lượng, động cơ tầu hoả, trang thiết bị bệnh viện v.v tích hợp chúng với dữ liệu từ web để trích rút ra thông tin có giá trị. Về căn bản, chính việc tích hợp của big data và tính toán mây là để giám sát và dự báo điều đang xảy ra bên trong các sản phẩm của GE. Bằng việc có dữ liệu như vậy, GE có thể giúp khách hàng nhận diện các vấn đề bảo trì trước khi chúng xuất hiện, cải tiến hiệu quả nhiên liệu, và làm các cải tiến vận hành khác mà có thể làm tăng thêm hàng nghìn tỉ đô la trong kinh doanh. Một người quản lí cấp cao nói: “Mục đích của chúng tôi là làm cho máy móc của chúng tôi thông minh hơn và lấy các dữ liệu có giá trị của khách hàng trong thời gian thực.” Dữ liệu mà GE thu thập qua các thiết bị của nó là khổng lồ. Chẳng hạn một tua bin nhà máy năng lượng sinh ra 500 gigabytes dữ liệu hàng ngày. Với 12,000 trong chúng đang được sử dụng để cấp năng lượng cho một phần tư điện thế giới, cơ hội kinh doanh này được đánh giá vài nghìn tỉ đô la. Một người quản lí bảo tôi: “Cho dù chúng tôi dùng ước lượng bảo thủ về cải tiến chỉ một phần trăm trong máy móc của chúng tôi (hàng không, nhà máy năng lượng, chăm sóc sức khoẻ, đường sắt), chúng tôi có thể làm thêm $300 tỉ đô la. Nếu chúng tôi có thể cải tiến động cơ phản lực của chúng tôi chỉ một phần trăm trong hiệu quả nhiên liệu điều đó có thể có nghĩa tiết kiệm được $2 tỉ đô la một năm cho các hãng hàng không. Đó là lí do tại sao big data là “kinh doanh lớn” vì công nghiệp có thể mường tượng cơ hội $30 nghìn tỉ đô la trong mười năm tới. Nó là tác động công nghệ lớn nhất từng có, còn lớn hơn cả dầu hoả, lớn hơn chế tạo, và lớn hơn Internet. Nếu một công ti có thể nắm được cơ hội này, nó có thể lớn hơn mười lần so với Google, Apple, và Facebook tổ hợp lại. Đó là lí do tại sao chúng tôi gọi nó là “Big data”.
Một nhà phân tích Phố Wall viết: “Chúng tôi tin Big data sẽ là thay đổi chính theo cùng cách như Internet đã làm thay đổi các ngành công nghiệp trong thập kỉ qua. Trước khi có Internet, Walmart là công ti bán lẻ lớn nhất thế giới nhưng bây giờ nó có đối thủ cạnh tranh: Amazon.com. Trong 10 năm tới, thay đổi mà chúng ta đã thấy trong Internet sẽ xảy ra trong các ngành công nghiệp với Big data. Nó sẽ tác động tới mọi ngành công nghiệp, mọi doanh nghiệp, và mọi thứ và đó là lí do tại sao việc đầu tư vào Big data là ưu tiên của nhiều nhà đầu tư Phố Wall.”
Với phân tích Big data, công nghiệp cần “máy tính thông minh” máy có thể nghĩ như người nhưng nhanh hơn nhiều. Đó là lí do tại sao IBM tạo ra một máy tính đặc biệt có tên là “Watson” máy tổ hợp thông minh nhân tạo, xử lí ngôn ngữ tự nhiên để xử lí Big data và ra quyết định nhanh chóng. Bằng việc “nghĩ” và ra “quyết định nhanh” hơn con người, các máy tính thông minh có thể được dùng trong công nghiệp như chăm sóc sức khoẻ, thị trường chứng khoán, vận tải và robotics. Với máy tính đặc biệt có thể nghĩ và hành động như con người, nó có thể giúp lái xe thay vì người lái. Một số xe tự lái đã có sẵn bay giờ (vài quan chức điều hành Google đã có chúng) và chẳng mấy chốc điều đó sẽ là sẵn có cho công chúng khi nhiều người muốn có xe mà có thể đưa họ tới bất kì chỗ nào họ muốn đi mà không phải lái nó. Năm ngoái, khi các công ti Taxi đầu tư hàng tỉ đô la vào công nghệ này, các tài xế taxi giận dữ vì họ có thể thấy rằng trong vài năm nữa, họ có thể không có việc làm. Nhưng một số kĩ sư và người lập trình lại hài lòng khi các công ti Taxi đang lập kế hoạch để thuê hàng nghìn người trong số họ để lập trình và quản lí đội taxi tự lái của họ.
Tôi nghĩ “Big data” sẽ tăng trưởng nhanh và tác động tới ngành công nghiệp trong vài năm tới. Tôi nghĩ 2014 là bắt đầu của thời đại hội tụ vào dữ liệu nơi dữ liệu là tài sản mới. Tất nhiên vì bạn hỏi, lời khuyên của tôi là đưa nỗ lực của bạn vào việc học nhiều hơn về công nghệ mới này vì tôi nghĩ nó có tương lai rất tốt đẹp.
—English version—
Big Data and its impacts
A Software Engineering student wrote to me: “Technologies change fast and it is difficult to learn everything. In your opinion, which ones is the most important technology? If I can put my effort to learn one or two technologies, what would they be? Please advise.”
Answer: Although it is difficult to predict which technology will be the most important in the next five or ten years. However my own opinion, Cloud computing, Big data analytics and Computing security are the three most promising technologies. Since I conduct research and teach Big data analytics at CMU, I have a bias to favor this technology. I think what the industry is doing today with Big data is only the beginning. Since there is a critical shortage of skilled data scientists to collect, organize, process, and analyze, this technology has not reach the full potential yet. However, when there are more data scientists, the situation will change and the technology could explode. The fact is last year the industry had spent several billions of dollars in this technology and there is a race to see who will be first among companies such as IBM, Oracle, GE, SAS, and SAP as they invest billion dollars to develop software and hardware that perform Big data analytics.
GE is taking data from everything that they built i.e., Jet engines, power plants, locomotive engines, hospital equipments etc. integrate them with data from the web to extract valuable information. Basically, it is the integration of big data and cloud computing to monitor and predict what is happening inside GE products. By having such data, GE can help customers identify maintenance problems before they occur, improve fuel efficiency, and make other operational improvements that could add up to trillions of dollars in business. A senior manager said: “Our goal is to make our machines more intelligent and getting valuable data to customers in real-time.” The data that GE collects through its equipments are gigantic. For example a power plant turbine generates 500 gigabytes of data daily. With 12,000 of them are being used to power a quarter of the world’s electricity, the business opportunity is valued at several trillion dollars. A manager told me: “Even we use a conservative estimate of improving only one percent in our machinery (aviation, power plant, healthcare, railroad), we can make additional $300 billion. If we can improve our jet engines only one percent in fuel efficiency that could mean saving $2 billion a year for the airlines. That is why big data is “big business” as the industry can envision a $30 trillion opportunity in the next ten year. It is the biggest technology impact ever, bigger than oil, bigger than manufacturing, and bigger than the Internet. If a company can seize this opportunity, it can be ten times bigger than Google, Apple, and Facebook combine. That is why we called it “Big data”
A Wall Street Analyst wrote: “We believe Big data will be a major change in the same way that the Internet has changed the industries in the past decade. Before the Internet, Walmart was the largest retail company in the world but now it has a competitor: Amazon. com. In the next 10 years, the changes that we saw in the Internet will happen in the industries with Big data. It will impact every industry, every business, and everything and that is why investing in Big data is the priority of many Wall Street investors.”
For Big data analytics, industry needs “Smart computer” who can think like people but much faster. That is why IBM creates a special computer called “Watson” that combines artificial intelligence, natural language processing to process Big data and making decisions quickly. By “thinking” and make “decision faster” than human, smart computers can be used in industries such as healthcare, finance, stock markets, transportation and robotics. With special computer that can think and act like human, it can help drive cars instead of people. Some self-driving cars are available now (Several Google executives already have them) and soon it will be available to the public as more people want cars that can take them to wherever they want to go without have to drive it. Last year, when Taxi companies invested billion dollars in this technology, taxi drivers were angry as they can see that in few more years, they may not have jobs. But software engineers and programmers were happy when Taxi companies are planning to hire thousands of them to program and manage their self-driving Taxi fleets.
I think “Big data” will grow fast and impact the industry in the next few years. I think 2014 is the beginning of a data-focus era where data is the new assets. Of course since you ask, my advice is to put your efforts in learning more about this new technology as I think it has a very good future.