11 May, 2021
Big Data và Gia tốc
Một sinh viên hỏi: “Em hiểu rằng Big Data là về thu thập “đa dạng” dữ liệu theo “khối lượng” lớn nhưng tại sao chúng ta cần nó thật nhanh? “Gia tốc” có liên quan gì tới Big Data? Xin thầy giải thích.”
Đáp: Big Data là công nghệ mới và cách mới để làm kinh doanh điều có thể thêm nhiều ưu thế có giá trị. Nó hội tụ vào thu thập dữ liệu từ các khối lượng rất lớn của đa dạng rộng dữ liệu từ nhiều nguồn bằng việc tạo khả năng thu thập gia tốc cao để trích rút thông tin có giá trị và phân tích chúng để tạo ra ưu thế doanh nghiệp. Ngày nay các công ti trên khắp thế giới đang kích động về việc tìm ra những cách mới để trích rút khối lượng và sự đa dạng dữ liệu từ các phương tiện xã hội, thiết bị di động, các cảm biến, và các ứng dụng khác. Tuy nhiên nhiều người vẫn gặp vấn đề với gia tốc hay nhịp độ theo đó dữ liệu có thể được thu thập, tổ chức và phân tích để tạo ra sáng suốt làm cho các nhà lãnh đạo doanh nghiệp có thể hành động nhanh chóng để phát sinh giá trị doanh nghiệp tức thì.
Nhu cầu về tốc độ trong Big Data là quan trọng bởi vì mọi thứ xảy ra nhanh. Nếu một ngân hàng thu thập thông tin để phát hiện món vay xấu nhưng thấy chúng sáu tuần sau khi cho vay nhiều khoản vay thì điều đó là quá trễ để làm cái gì đó về việc đó. Thông tin được thu thập KHÔNG còn giá trị nữa. Ngân hàng cần gia tốc để cho nó có thể nhận diện khoản vay xấu trong khi xử lí việc xin vay chứ không phải sau điều đó. Cùng điều đó xảy ra khi những người kinh doanh thị trường chứng khoán cần ra quyết định về mua hay bán khi thị trường chứng khoán lên hay xuống, chậm vài phút có thể có nghĩa là họ phải trả giá cao hơn hay bán với giá thấp hơn và điều đó có nghĩa là mất ưu thế.
Trong thị trường thay đổi nhanh chóng này, tốc độ là rất quan trọng. Vì dữ liệu thường lưu trong cơ sở dữ liệu mà cần thời gian để tìm kiếm và cập nhật và điều đó có thể là quá trễ. Có công nghệ mới có thể làm cho mọi sự xảy ra nhanh hơn như tính toán trong bộ nhớ, sẽ giúp cắt bớt thời gian cần để truy nhập, truy lục, cập nhật và phân tích thông tin tới vài giây bởi vì dữ liệu ở trong máy tính nơi nó dễ dàng trích rút ra thay vì lưu giữ chúng trên đĩa cứng điều cần thời gian tìm và truy lục.
Tất nhiên, công nghệ chỉ là một phần của hệ thống. Các công ti cần các nhà khoa học dữ liệu có kĩ năng và các nhà thống kế để phát triển các mô hình phân tích nhanh và các thuật toán hiệu quả để có được thông tin có giá trị cho người ra quyết định nhanh chóng. Gia tốc dữ liệu là sự cần thiết doanh nghiệp mà tạo cho công ti cơ hội để đánh bại đối thủ cạnh tranh trong thị trường cạnh tranh cao. Vài năm trước, việc làm của nhà khoa học dữ liệu, kĩ sư dữ liệu, người phân tích dữ liệu thậm chí còn chưa tồn tại. Ngày nay mọi công ti đều cần chúng và khi nhu cầu là cao, nhiều sinh viên khoa học máy tính đang chuyển vào trong bằng cấp chuyên sâu trong khoa học dữ liệu và phát triển các kĩ năng trong thao tác dữ liệu, phân tích dữ liệu dùng Hadoop, Pig, và Hive, NonSQL, và MapReduce v.v.
—English version—
Big Data and Velocity
A student asked: “I understand that Big Data is about collecting a “Variety” of data in large “Volume” but why do we need to do it fast? What “Velocity” has to do with Big Data? Please explain.”
Answer: Big Data is new technology and new way to do business that can add many valuable advantages. It focuses on collect data from very large volumes of wide variety of data from many sources by enabling high velocity collection to extract valuable information and analyze them to create business advantages. Today companies around the world are excited about finding new ways to extract the volume and variety of data from social media, mobile devices, sensors, and other applications. However many are still having problem with velocity or the pace at which data can be collected, organized and analyzed to produce insights that business leaders can act quickly to generate instant business value.
The need for speed in Big Data is important because things happen fast. If a bank collects information to detect bad loans but finding them six weeks after loaning out many loans then it is too late to do something about it. The information collected is NOT valuable anymore. The bank needs velocity so it can identify bad loans while processing the application not after that. The same thing happen when stock market traders need to make decision on buying or selling when the stock market is going up or down, a few minutes late could means they have to pay higher price or selling at lower price and it means losing advantages.
In this fast changing market, speed is very important. Since data is often store in database which needs time to retrieve and update and it may be too late. There is new technology that can make things happen faster such as in-memory computing, will help cut the time it takes to access, retrieve, update and analyze information to few seconds because the data is in the computer where it is easy to extract instead of store them on disk drives that take time to search and retrieve.
Of course, technology is only part of the system. Companies need skilled data scientists and statisticians to develop fast analytic models and efficient algorithms to get valuable information to decision makers quickly. Data velocity is a business necessity that gives companies an opportunity to beat competitors in a highly competitive market. Few years ago, the jobs of data scientist, data engineer, data analyst did not even exist. Today every company need them and as the demand is high, more computer science students are moving into advanced degree in data science and develop skills in data manipulation, data analytics using Hadoop, Pig, and Hive, NonSQL, and MapReduce etc.