25 May, 2021
Phân tích dữ liệu
Một người quản lí doanh nghiệp hỏi: “Khác biệt gì giữa phân tích Big Data và phân tích truyền thống? Chúng tôi đã từng làm phân tích nhiều năm và tôi không thấy tại sao big data lại quan trọng thế.”
Đáp: Có khác biệt lớn giữa phân tích Big Data và phân tích truyền thống. Phân tích truyền thống dựa trên các yêu cầu doanh nghiệp nơi dữ liệu được xác định, có cấu trúc, được thu thập, và được phân tích thành thông tin về hiệu năng doanh nghiệp để cho chúng có thể được so sánh với thông tin quá khứ. Chẳng hạn số bán tháng này ít hơn nhiều so với tháng trước hay công ti dùng nhiều điện năm nay hơn năm trước. Dùng thông tin này cấp quản lí có thể ra quyết định liên quan tới vận hành của công ti như lợi nhuận, chất lượng, năng suất, cạnh tranh, hay phế thải v.v. Phân tích dữ liệu truyền thống nhận diện dữ liệu nào họ muốn thu thập và lưu giữ chúng trong trang tính excel hay cơ sở dữ liệu nơi chúng có thể được phân tích bởi các công cụ mô hình hoá thống kê để tạo ra báo cáo trinh sát doanh nghiệp.
Phân tích Big Data là về dự đoán xu hướng và hình mẫu về điều có thể xảy ra trong tương lai dựa trên dữ liệu từ nhiều nguồn (Đa dạng). Vì dữ liệu không được xác định, một số có thể là văn bản, ảnh, video, hay kí hiệu (mã vạch) v.v. nó yêu cầu cách nghĩ và cách tiếp cận khác hoàn toàn. Bởi vì có nhiều thứ trong chúng từ nhiều nguồn, dữ liệu là khổng lồ (Khối lượng) và nó thay đổi thường xuyên (Gia tốc) cho nên rất khó thu thập và phân tích bằng việc dùng phương pháp truyền thống. Vì những dữ liệu này không được xác định, một số là có cấu trúc và một số thì không, chúng không thể được lưu giữ trong trang tính hay cơ sở dữ liệu mà phải được “mô hình hoá lại” và được tổ chức khác đi để xem thông tin hay hình mẫu nào có thể được thu thập và được nhận diện cho dự báo tương lai. Chẳng hạn, kinh doanh trực tuyến có thể thu thập dữ liệu phi cấu trúc từ phương tiện xã hội để xác định sản phẩm nào được người dùng nhắc tới thường xuyên; xu hướng nào đang nổi lên, hay quảng cáo nào là hiệu quả do số lượng bấm của người dùng v.v.
Các công cụ của trinh sát doanh nghiệp truyền thống được thiết kế cho dữ liệu có cấu trúc như văn bản và số nhưng KHÔNG được thiết kế cho dữ liệu phi cấu trúc như mã vạch và ảnh. Bạn sẽ cần các công cụ khác, các thuật toán khác và mô hình toán học cho phân tích big data vì có nhiều nguồn từ đó dữ liệu có thể được phân tích (đa dạng). Chẳng hạn trong phân tích bảo hiểm truyền thống, bạn có thể lấy thừa số rủi ro dựa trên tập các câu hỏi như, tuổi, sức khoẻ, tai nạn, giá trị v.v. Bây giờ với từng câu hỏi, có nhiều dữ liệu sẵn có dựa trên giao diện của người dùng qua phương tiện xã hội, thiết bị di động v.v. Thông tin này sẽ dứt khoát ảnh hưởng tới kết quả cuối cùng (tính nhân tố rủi ro). Vì những dữ liệu này không ở một chỗ, nó là phi cấu trúc và được sinh ra tại mọi khoảng thời gian đã cho qua nhiều nguồn và theo khối lượng khổng lồ do đó các công cụ mô hình hoá sẽ phải thay đổi và tổ hợp công nghệ học máy để nắm bắt tất cả những điều này.
—English version—
Data analytics
A business manager asked: “What is the difference between Big Data analytics and Traditional analytics? We have been doing analytic for years and I do not see why big data is that important.”
Answer: There is a difference between Big Data analytics and Traditional analytics. Traditional analytics is based on business requirements where the data is defined, structured, collected, and analyzed into information about business performance so they can be compare with past information. For example sale this month is much less than last month or the company used more electricity this year than last year. Using this information management can make decisions regarding the operation of the company such as profits, quality, productivity, competitive, or wastes etc. Traditional data analysts identifies what data they want to collect and stores them in excel spreadsheet or database where they can be analyzed by statistical modeling tools to create business intelligence reports.
Big Data analytics is about predicting trends and patterns on what may happen in the future based on data from many sources (Variety). Since the data are not defined, some may be texts, pictures, video, or symbols (Bar code) etc. it requires a completely different minds set and approach. Because there are so many of them from so many sources, the data are huge (Volume) and it changes often (Velocity) so it is very difficult to collect and analyze using traditional methods. Because these data are not defined, some are structured and some are not, they cannot be stored in spreadsheets or database but have to be “re-modelled” and organized differently to see which information or patterns can be collected and identified for future predictions. For example, online business may collect unstructured data from social media to determine what products are being mentioned often by users; which trends are emerging, or which advertises are effective due to the number of user’s click etc.
Traditional business intelligence’s tools are designed for structured data such as text and number but NOT unstructured data such as bar code and pictures. You will need different tools, different algorithms and mathematical models for big data analysis because there are many sources from which data can be analyzed (variety). For example in traditional insurance analysis, you can capture risk factors based on a set of questions i.e., ages, health, accidents, values etc. Now for each question, there is many data available based on the user’s interface through social media, mobile devices etc. This information will definitely influence the final outcome (calculating the risk factor). Since these data are not in one place, it is unstructured and is being generated at every given moment through multiple sources and in huge volume therefore modelling tools will have to change and incorporate machine learning technology in order to capture all this.