20 Apr, 2021
Big Data là gì
Một người quản lí hỏi: “Tôi đã đọc bài của thầy về “Big Data-Dữ liệu lớn” nhưng vẫn không hiểu đích xác nó nghĩa là gì. Chúng tôi thu thập nhiều dữ liệu cho công ti chúng tôi và lưu giữ chúng trong cơ sở dữ liệu. Đó có phải là Dữ liệu lớn không? Tại sao nó quan trọng ngày nay. Xin thầy lời khuyên.”
Đáp: Có khác biệt giữa “Dữ liệu lớn” và “Nhiều dữ liệu” và mọi người thường bị lẫn lộn. Chẳng hạn, ngân hàng và các công ti tài chính xử lí nhiều dữ liệu nhưng tất cả dữ liệu của họ đều được xác định rõ hay có cấu trúc tốt như tài khoản khách hàng, số tiền, kiểu vay nợ, có hay nợ v.v. Đây KHÔNG phải là Dữ liệu lớn mà chỉ là “nhiều dữ liệu.” Các công ti có thể lưu giữ các dữ liệu này trong các cơ sở dữ liệu và dùng phần mềm Trinh sát doanh nghiệp (BI) để phân tích và cung cấp các báo cáo cho cấp quản lí.
Để có tư cách là “Dữ liệu lớn” các dữ liệu phải đáp ứng tiêu chí có tên “Ba “V”: Volume – khối lượng, Variety – đa dạng và Velocity – vận tốc. Với Volume nó có nghĩa là dữ liệu phải cực kì lớn, đo theo Petabytes hay Zetabytes. Với Variety nó có nghĩa là dữ liệu có cả cấu trúc và phi cấu trúc hay được xác định rõ và không được xác định. Chẳng hạn một số dữ liệu có thể là văn bản nhưng số khác có thể là ảnh như ảnh y học hay video YouTube. Với Velocity, nó có nghĩa là những dữ liệu này thường tới rất nhanh và thường xuyên thay đổi như luồng video cho các ảnh, hay các thông điệp nạp vào twitter.
Bởi vì những hiện tượng này, cơ sở dữ liệu quan hệ hiện thời sẽ không có khả năng lưu giữ chúng (quá lớn và quá không được tổ chức) và phần mềm hiện thời sẽ không có khả năng xử lí chúng (lớn, phi tổ chức và thay đổi quá nhanh) và đó là lí do tại sao nó mở ra thách thức hoàn toàn mới cho người làm công nghệ thông tin.
Trong quá khứ khi mọi dữ liệu đều được xác định rõ và có cấu trúc, chúng có thể được lưu giữ trong các tệp lớn để được truy lục và cập nhật bất kể lớn thế nào hay nhiều tệp bao nhiêu. Trong trường hợp này phần mềm Trinh sát doanh nghiệp (BI) không thể phân loại được dữ liệu, thu thập thông tin cần thiết, phân tích chúng và tạo ra báo cáo cho các mức quản lí khác nhau. Ngày nay khi dữ liệu là khổng lồ và bao gồm cả có cấu trúc và phi cấu trúc, một số là văn bản và một số là ảnh hay video, nó không thể được lưu giữ trong các tệp có tổ chức mà cần những kiểu tệp khác với phần mềm mới, thuật toán mới mà có thể tổ hợp những dữ liệu này và lưu giữ chúng để cho chúng có thể được phân tích, tổ chức, thu thập và tạo ra báo cáo. Vì một số trong những dữ liệu này thay đổi cực kì nhanh, một số trong chúng là thông tin phụ thuộc thời gian như video mới, phim và ảnh v.v. Chúng yêu cầu cách tiếp cận mới, cách mới để tổ chức chúng, và thuật toán mới để xử lí, đặt quan hệ và giải quyết với nhiều biến thiên hơn các công cụ trước đây.
—-English version—-
What is Big Data
A manager asked: “I have read your article on “Big Data” but still do not understand exactly what it means. We collect a lot of data for our company and store them in our database. Is it Big data? Why it is important today. Please advice.”
Answer: There is a difference between “Big Data” and “Lots of Data” and people are often confused. For example, bank and financial companies process a lot of data but all of their data are well defined or well structured such as customer accounts, amount of money, types of loans, credits or debits etc. These are NOT Big data but only “Lots of data”. Companies can store these data in databases and using Business Intelligence (BI) software to analyze and provide reports to management.
To qualify as “Big Data” the data must meet criteria called “The three “V”: Volume, Variety and Velocity. By Volume it means the data have to be extremely large, measuring in Petabytes or Zeta bytes. By Variety it means the data are both structured and unstructured or well defined and undefined. For example some data may be textual but other may be picture images such as medical images or YouTube videos. By Velocity, it means these data often come in very fast and constantly changing such as streaming video for images, or twitter feed messages.
Because of these phenomena, current relational database will not be able to store them (To large and too unorganized) and current software will not be able to process them (To large, to unorganized, and changing too fast) and that is why it opens up a completely new challenge for Information technology people.
In the past when all data were well defined and structured, they can be stored in large files to be retrieved and updated regardless how big or how many files. In this case Business Intelligence (BI) software can sort through data, collects necessary information, analyzes them and creates reports to different levels of management. Today when the data are huge and include both structured and unstructured, some are text and some are pictures or videos, it cannot be stored into organized files but need different types of files with new software, new algorithms that can combine these data and stored them so they can be analyzed, organized, collected and created reports. Since some of these data are changing extremely fast, some of them are time dependent information such as news videos, movies and pictures etc. They require a new approach, a new way of organizing them, and new algorithms to process, correlate, and dealing with more variables than previous tools.