28 Apr, 2021
Dữ liệu lớn và khai phá dữ liệu
Một sinh viên viết cho tôi: “Với em dường như Big Data là cái tên mới cho Khai phá dữ liệu, chỉ xử lí nhiều dữ liệu. Em có đúng không? Khác biệt là gì giữa Big Data và khai phá dữ liệu? Xin thầy giải thích.”
Đáp: Có khác biệt giữa dữ liệu lớn và khai phá dữ liệu. Nhiều người tin khai phá khối lượng dữ liệu lớn là Big Data và điều đó là KHÔNG đúng. Chúng ta hãy bắt đầu với định nghĩa đơn giản về Khai phá dữ liệu và Dữ liệu lớn.
Khai phá dữ liệu là quá trình phân tích dữ liệu để nhận diện mối tương quan hay hình mẫu trong nhiều kiểu dữ liệu ĐÃ ĐƯỢC LƯU trong cơ sở dữ liệu rồi tóm tắt chúng thành thông tin hữu dụng. Chẳng hạn, người chủ nhìn vào kinh doanh của công ti mình; người đó có thể thấy thu nhập, chi phí và lợi nhuận. Nhưng với khai phá dữ liệu, người đó thấy nhiều hơn. Người đó biết trong hàng nghìn sản phẩm mà người đó bán, sản phẩm nào là bán chạy nhất. Người đó cũng biết khách hàng nào muốn mua, dựa trên hình mẫu của họ về mua sắm. Dựa trên báo cáo phân tích khai phá dữ liệu, người đó biết rằng nếu người đó giảm giá xuống 5% người đó có thể làm tăng số bán lên 45% và có 25% lợi nhuận thêm hơn so với trước. Về căn bản khai phá dữ liệu cho phép người chủ dùng thông tin hiện có để làm lộ ra xu hướng phụ thêm mà người đó có thể có ưu thế.
Ngày nay Khai phá dữ liệu được dùng rộng rãi trong các công ti bán lẻ, tài chính, truyền thông và tiếp thị. Nó cho phép họ xác định mối tương quan giữa các yếu tố “nội bộ” như giá, sản phẩm, chi phí với các yếu tố “bên ngoài” như khách hàng, cạnh tranh và xu hướng kinh tế. Dựa trên thông tin phụ này, các công ti có thể xác định tác động lên số bán của họ, thói quen mua hàng của khách hàng, và lợi nhuận công ti. Với khai phá dữ liệu, người bán lẻ có thể dùng bản ghi số bán của việc mua của khách hàng để gửi quảng cáo khuyến mại dựa trên lịch sử mua bán cá nhân. Chẳng hạn, tôi bao giờ cũng mua sách tại Amazon.com cho nên hàng tuần công ti đều gửi cho tôi một danh sách các sách mới, phần lớn là sách máy tính để tôi mua. Họ không bao giờ gửi danh sách các sách lãng mạn, sách tài chính hay sách kiến trúc bởi vì họ biết rằng tôi thường mua sách kĩ thuật. Phần mềm khai phá dữ liệu của họ đã biết thói quen mua sách của tôi.
Tuy nhiên, với Khai phá dữ liệu mọi dữ liệu phải CÓ CẤU TRÚC và ĐƯỢC XÁC ĐỊNH trước khi chúng có thể được lưu trong cơ sở dữ liệu. Các công cụ khai phá dữ liệu đặc biệt được dùng để thu thập những dữ liệu này từ cơ sở dữ liệu, phân tích chúng để nhận diện các hình mẫu và phát sinh báo cáo cho cấp quản lí. Nói cách khác, nếu dữ liệu được lưu trong cơ sở dữ liệu và được cấu trúc theo hàng và cột, bất kể kích cỡ của chúng lớn tới đâu, đều là miền của Khai phá dữ liệu.
Ngày nay, có các kiểu dữ liệu khác KHÔNG ĐƯỢC XÁC ĐỊNH VÀ KHÔNG CÓ CẤU TRÚC và chúng ở rải rác khắp nơi.
Chẳng hạn, dữ liệu từ Internet, từ hàng triệu website và mạng xã hội như ảnh Facebook, đồ thị thị trường chứng khoán, tin tức từ Twitter, dữ liệu cá nhân từ Linkedln, bản ghi sức khoẻ điện tử từ các bệnh viện, dữ liệu xu hướng kinh tế từ các viện nghiên cứu, dữ liệu thời tiết, dữ liện kinh doanh, emails, ảnh, video cá nhân, video từ YouTube, phim và nhạc tải xuống v.v. Những dữ liệu này KHÔNG THỂ được thu tập hay lưu giữ bởi các công cụ cơ sở dữ liệu điển hình. Hơn thế nữa, những dữ liệu này thay đổi hay tăng lên về kích thước một cách nhanh chóng. Chúng thêm mãi vào, hàng tỉ hàng tỉ, hàng nghìn tỉ hàng nghìn tỉ thứ xảy ra trong “thế giới ảo.” Những dữ liệu này cũng rất có giá trị để xác định hình mẫu hay xu hướng nữa. Khi bạn tổ hợp khối lượng dữ liệu lớn, sự đa dạng của các kiểu dữ liệu, và tốc độ chúng thay đổi thì bạn đang giải quyết với miền của Big Data.
Big Data đã vượt quá các quan niệm cơ sở dữ liệu truyền thống. Qui mô lớn của chúng về các hình mẫu và xu hướng cũng khó được thấy. Mối quan hệ của chúng trong mọi kiểu dữ liệu khác nhau là quá phức tạp để được quan sát. VÀ chúng liên tục thay đổi với tốc độ của internet cho nên khó nhận diện dữ liệu này để lộ ra cái gì. Về căn bản, các quan niệm và công cụ của cơ sở dữ liệu và khai phá dữ liệu hiện thời KHÔNG có tác dụng nữa. Đó là lí do tại sao nó cần các quan niệm mới, công cụ mới, thuật toán mới và đó là lí do tại sao Bid Data là thứ mới ngày nay.
—English version—
Big Data and Data Mining
A student wrote to me: “It seems to me that Big Data is a new name for Data Mining, just process more data. Am I correct? What is the difference between Big Data and Data Mining? Please explain.”
Answer: There is a difference between Big Data and Data Mining. Many people believe by mining a massive amount of data is Big Data and it is NOT correct. Let’s start with the simple definition of Data Mining and Big Data.
Data Mining is the process of analyzing data to identify correlations or patterns among several types of data STORED in a database then summarize them into useful information. For example, an owner looks at his company business; he may see revenue, costs and profits. But with data mining, he sees much more. He knows among thousands of product that he sells, which products are best sellers. He also knows what customers want, based on their pattern of purchasing. Based on the data mining analytic report, he knows that if he reduces the price by 5% he could increases the sale by 45% and have a 25% more profit than before. Basically data mining allows the owner to use existing information to reveal additional trends that he could take advantage of.
Today Data Mining is widely used in retail, financial, communication, and marketing companies. It allows them to determine correlations among “internal” factors such as price, products, costs, with “external” factors such as customers, competition, and economic trends. Based on this additional information, companies can determine the impact on their sales, customer buying habit, and corporate profits. With Data mining, a retailer could use sale records of customer purchases to send advertising promotions based on an individual’s purchase history. For example, I always buy books at Amazon.com so each week the company sends me a list of new books, mostly computer books for me to purchase. They never send the list of romantic books, fictional books or architecture books because they know that often buy technology books. Their Data mining software already know my books buying habit.
However, with Data Mining all data must be STRUCTURED and DEFINED before they can be stored in the database. Special Data Mining tools are used to collect these data from the database, analyze them to identify patterns and generate reports to management. In other word, if the data is stored in a database and being structured in rows and columns, regardless how big are their size, it is the domain of Data Mining.
Today, there are other types of data that are NOT DEFINED NOT STRUCTURED and they scattered all over the place.
For example, data from the Internet, from millions of websites and social networks such as Facebook photos, stock market graphics, tweets from Twitter, personal data from Linkedln, electronic medical records from hospitals, economic trends data from research institutes, weather data, business data, emails, personal pictures, videos from YouTube, downloaded movies and music etc. These data CANNOT be collected or stored by typical database tools. More than that, each minute, these data changes or increases in size quickly. They add up, billion upon billion, trillion upon trillion of things happen in the “virtual world”. These data are also very valuable to determine patterns or trends too. When you combine the massive volume of data, the variety of types of data, and the speed that they change than you are dealing with the domain of Big Data.
Big Data has exceeded the traditional database concepts. Their large scale of patterns and trends are so difficult to be seen. Their relationships among all types of different data are too complex to be observed. AND they keep changing at the speed of the internet so it is hard to identify what the data reveals. Basically, the concept and tools of current database and data mining will NOT work anymore. That is why it needs new concept, new tools, new algorithms and that is why Bid Data is the new thing today.