27 May, 2021
Big Data: biên giới mới
Big Data có thể được mô tả là “Công nghệ mới được thiết kế để trích rút giá trị từ khối lượng rất lớn của đa dạng rộng các dữ liệu bằng việc tạo khả năng nắm bắt gia tốc cao, khám phá và phân tích.” Các ứng dụng tiềm năng của phân tích big data vẫn còn đang tăng trưởng với các ý tưởng mới, ứng dụng mới và giá trị mới. Một nhà phân tích công nghiệp viết: “Big data rất tương tự như Internet hai mươi năm trước. Khi internet được phát minh ra, chỉ vài người biết nó có thể làm được gì hay cái gì có thể xảy ra. Nếu bạn nhìn lại lúc bắt đầu của internet, bạn thấy vài công ti như Google và Amazon đã có khả năng nắm lấy cơ hội này và thâu tóm thị trường và cách mọi thứ bị thay đổi. Cùng điều đó đang xảy ra bây giờ với phân tích Big data và nếu bạn học thêm về nó và nắm lấy cơ hội này, bạn sẽ làm rất tốt. Nếu bạn bỏ qua nó, bạn sẽ bỏ lỡ một cơ hội lớn và có lẽ sẽ không sống sót trong tương lai gần.”
Ngày nay Big data đang bắt đầu tác động tới nhiều thứ, khi nhiều công ti đang nhận ra tiềm năng này và nhanh chóng thực hiện phân tích Big data trong tiếp thị, bán hàng và vận hành. Chẳng hạn, cửa hàng bán lẻ lớn Target dùng phân tích big data này để thâu tóm thị trường sinh lời: các bố mẹ mới. Họ biết rằng các bố mẹ mới bao giờ cũng chi nhiều tiền mua sắm hơn cho đứa con mới sinh cho nên họ thu thập dữ liệu từ khách hàng những người mua vitamins, thuốc xoa da, quần áo, khăn, và các thứ phụ nữ mang thai thường mua và dùng các thuật toán đặc biệt để xác định khả năng những khách hàng nào đó có thể mang thai. Khi Target nhận diện khách hàng, họ gửi cho khách hàng những phiếu mua đặc biệt và giảm giá ngay trước khi những người này có con. (Chẳng hạn, giảm giá 20% về quần áo trẻ con, đồ đạc trẻ con, đồ chơi v.v.) Điều này giúp phát triển mối quan hệ tốt với các bố mẹ mới để cho họ sẽ mua bán tại Target chứ không tại các cửa hàng khác. Bằng việc dùng phân tích Big data, ngày nay Target thâu tóm thị trường sinh lời cực kì vì phần lớn các bố mẹ mới đều ưa thích đi mua sắm tại Target.
Best Buy, một cửa hàng bán lẻ đồ điện tử khác cũng dùng phân tích big data để làm tăng số bán. Best Buy dùng một app di động đặc biệt có tên là “ShopSavvy” để trao đổi với khách hàng khi họ quan tâm tới việc mua cái gì đó. App này cho phép khách hàng so sánh giá của Best Buy với các cửa hàng của đối thủ cạnh tranh. Khi khách hàng bắt đầu so sánh giá, phần mềm lập tức theo dõi những đường khách hàng của cửa hàng đang đi, nhận diện họ muốn mua gì, và kiểm căn cước, con số tín dụng tài chính, và các thông tin khác để xác định liệu khách hàng có thể mua được hàng hoá không. Nếu họ có tín dụng tốt, Best Buy lập tức đưa ra đối sánh giá hay giảm giá đặc biệt để chắc khách hàng không mua từ các cửa hàng khác. Big Data tại Best Buy được xây dựng trên cụm Hadoop được cài đặt với phần mềm đặc biệt để quét giá của mọi đối thủ cạnh tranh trong thời gian thực để chắc rằng nó bao giờ cũng có giá tốt nhất có thể. Best Buy cũng thu thập thông tin về bao nhiêu cửa hàng đang bán cùng sản phẩm, và cách họ đặt giá cho sản phẩn của họ. Mọi lần, một khách hàng được nhận diện, người quản lí cửa hàng phải có hành động để chắc rằng khách hàng không bỏ sang mua ở cửa hàng khác bằng việc đối sánh giá của đối thủ cạnh tranh hay đề nghị các khuyến khích khác như chuyển giao và lắp đặt chúng tại nhà khách hàng mà không thêm phí phụ v.v.
Google dùng phân tích big data để nhận diện bùng phát dịch cúm ở Mĩ khi nó lần đầu tiên xảy ra vì Trung tâm kiểm soát và phòng ngừa thảm hoạ (CDC) cần quãng hai tuần để làm điều đó vì nó dựa trên các báo cáo từ các miền nào đó trước khi làm quyết định. Google có thể làm điều đó nhanh hơn vì mỗi ngày nó nhận được hơn ba tỉ câu hỏi tìm kiếm. Bằng việc dùng phân tích dữ liệu lớn, Google có thể nhận diện một miền đặc biệt nơi nhiều người đang tìm từ “cúm” và dùng các thuật toán phức tạp để chỉ ra mối tương quan mạnh giữa số tìm kiếm và việc bùng phát cúm thực tại.
Công ti trực tuyến eBay dùng phân tích Big data để nhận diện việc mất tài năng để ngăn ngừa công nhân khỏi rời bỏ công ti. Phần mềm phân tích big data của họ quét qua hồ sơ nhân viên của công ti để tìm các công nhân đã từng ở trong việc làm hơn ba năm nhưng chưa được cất nhắc, đổi vai trò, hay tăng lương để kết luận rằng có xác suất lớn hơn về việc họ có thể bỏ sang công ti khác. Vì có thiếu hụt công nhân có kĩ năng trong công nghiệp và chi phí tìm và thuê công nhân là đắt, eBay phải giữ những công nhân này hài lòng. Khi một danh sách nhân viên tiềm năng những người có thể rời bỏ được nhận diện, người quản lí phải hành động nhanh chóng để kiểm điểm và làm bất kì cái gì họ có thể làm để ngăn cản điều đó khỏi xảy ra.
Vì phân tích Big data là lĩnh vực mới, nhiều sinh viên đang hỏi làm sao họ có thể có được việc làm nhu cầu cao này. Để làm việc trong khu vực này, bạn cần có ít nhất là bằng thạc sĩ trong Khoa học dữ liệu hay tương đương như thạc sĩ trong Kĩ nghệ phần mềm hay thạc sĩ trong Quản lí hệ thông tin.
Nhà khoa học Big Data phải là chuyên gia chuyên lĩnh vực người có khả năng giải thích cách phân tích thông tin có thể giúp cho người lãnh đạo doanh nghiệp làm quyết định thích hợp trong thời gian thực. Do đó, nhà khoa học Big data phải hiểu các qui trình doanh nghiệp trong toàn công ti, từ tiếp thị, bán hàng, phân phối, vận hành, làm giá, sản phẩm, tài chính, rủi ro v.v. Nhà khoa học Big data phải là một chuyên gia về cơ sở dữ liệu người có hiểu biết tốt về các nguồn dữ liệu bên ngoài và bên trong, cách chúng được thu thập và lưu giữ. (Đó là lí do tại sao sinh viên trong Quản lí hệ thông tin là khớp hơn trong lĩnh vực này.)
Nhà khoa học Big data phải có khả năng trích rút, biến đổi và tải các kho dữ liệu này từ các nguồn nội bộ cũng như truy lục dữ liệu từ các nguồn ngoài như internet, phương tiện xã hội hay các nguồn khác rồi thao tác chúng bằng việc dùng Hadoop, Hive, Pig, MapReduce, Mahoot v.v. để phân tích dữ liệu và phát sinh các báo cáo đặc biệt nơi các giá trị nhìn sâu đặc biệt được nhận diện. Điều này KHÔNG tương tự như các kĩ thuật cơ sở dữ liệu và trinh sát doanh nghiệp truyền thống vì nó giải quyết với khối lượng rất lớn dữ liệu từ nhiều nguồn trong đó dữ liệu là có cấu trúc và phi cấu trúc. (Lưu ý: Trinh sát doanh nghiệp truyền thống chỉ giải quyết với các dữ liệu có cấu trúc xác định được lưu trong cơ sở dữ liệu và hội tụ vào dữ liệu quá khứ). Vì Big data đang giải quyết với dự báo theo thời gian thực hay tương lai, nhà khoa học Big data phải có khả năng xác định các kĩ thuật thống kế thích hợp nhất cho việc đề cập tới khả năng này. Nhà khoa học Big data phải có khả năng áp dụng các kĩ thuật liên quan, và dịch thành kết quả và phát sinh ra “báo cáo nhìn sâu” theo cách người lãnh đạo công ti có thể hiểu và hành động rất nhanh để nắm bắt được giá trị. Điều này yêu cầu nhà khoa học Big data phải có hiểu biết kĩ lưỡng về các kĩ thuật thống kê (như, phân tích hồi qui, phân tích cụm, và kĩ thuật tối ưu) và các công cụ và ngôn ngữ được dùng để cho chạy việc phân tích như “SAS” hay “R”. Để làm điều đó nhà khoa học Big data phải có khả năng viết phần mềm đặc biệt thực hiện các kĩ thuật tính toán như học máy, xử lí ngôn ngữ tự nhiên, phân tích mạng đồ thị/xã hội, lưới thần kinh, và mô hình hoá mô phỏng. Phần lớn những ứng dụng này đều được viết trong đa dạng ngôn ngữ như Java, Python, C++, Math lab và R. (Đó là lí do tại sao sinh viên Kĩ nghệ phần mềm là khớp tốt hơn trong lĩnh vực này.)
—English version—
Big Data: the new frontier
Big Data can be described as “The new technologies designed to extract value from very large volumes of a wide variety of data by enabling high-velocity capture, discovery, and analysis.” The potential applications of big data analytics is still growing with new ideas, new applications and new values. An industry analyst wrote: “Big data is very similar to the Internet twenty years ago. When the internet was invented, only few people know what it could do or what may happen. The same thing is happening now as few people know what it could do and what may happen. If you look back to the beginning of internet, you saw few companies such as Google and Amazon were able to seize the opportunities and captured the market and how everything is changed. The same thing is happening now with Big data analytics and if you learn more about it and seize the opportunities, you will do very well. If you ignore it, you will miss a big opportunity and probably will not survive in the near future.”
Today Big data is beginning to impact many things, as more companies are realizing this potential and quickly implementing Big data analytics in marketing, sales, and operations. For example, the large retail store Target used big data analytics to capture a lucrative market: new parents. They know that new parents always spend more money shopping for their newborn baby so they collects data from its customers who are buying vitamins, lotion, clothes, towel, and things that pregnant women often buy and use special algorithms to determine the likelihood that certain customers might be pregnant. When Target identifies customers, they send them special coupons and discounts before they even have the baby. (For example, 20% discount on baby clothes, baby furniture, toys etc.) This help develops good relationships with new parents so they will shop at Target and not at other stores. By using Big data analytics, today Target captures an extremely profitable market as most new parents prefer to shop at Target.
Best Buy, another big electronic retail store also use big data analytics to increase sales. Best Buy uses special mobile app called “ShopSavvy” to communicate with customers when they are interested in buying something. This app allows customers to compare prices from Best Buy to competitors’ stores. When customers begin to compare prices, the software immediately tracks the store customers are in, identify what they want to buy, and check the identity, financial credit scores, and other information to determine if customers could pay for the merchandise. If they have good credit, Best Buy immediately offers a price match or special discount to make sure customers do not buy from other stores. The Big Data at Best Buy is built on a Hadoop cluster installed with special software to scan all competitors’ prices in real time to make sure that it always has the best price possible. Best Buy also collects information on how many stores are selling the same products, and how they price their products. Every time, a customer is identified, store manager must takes action to make sure that customer does not leave to buy from other stores by match the competitor’s price or offer other incentives such as deliver and install them at customer’s home at no extra charge etc.
Google uses big data analytics to identify flu outbreaks in the U.S. when it first happens when the Centers for Disease Control and Prevention (CDC) needs about two weeks to do it because it relies on reports from some regions before making decision. Google can do it faster because each day it receives more than three billion search queries. By using big data analytics, Google can identify a particular region where more people are searching for the terms “Flu” and uses complex algorithms to show a strong correlation between the number of search and the actual flu outbreak.
Online company eBay uses Big data analytics to identify talent loss to prevent workers from leaving the company. Their big data analytic software scans company’s employee records to look for worker who has been in a job for more than three years but has not been promoted, changed roles, or increase in wages to conclude that there is a higher probability that they may leave for another company. Since there is a shortage of skilled workers in the industry and the cost of finding and hiring workers are expensive, eBay must keep these workers happy. When a list of potential employees who may leave is identified, managers must act quickly to review and do whatever they can to prevent it from happening.
Since Big data analytics is a new field, many students are asking how they can get in this high demand jobs. To work in this area, you need to have at least a Master degree in Data Science or equivalent such as Master in Software Engineering or Master in Information System Management.
Big Data Scientist must be a domain expert who has the ability to explain how information analytics can help business leaders to make appropriate decisions in real time. Therefore, Big data scientist must understand the business processes across the company, from marketing, sales, distribution, operations, pricing, products, finance, risk, etc. The Big data scientist must be a database expert who has good understanding of external and internal data sources, how they are collected and stored. (That is why students in Information System Management are better fit in this field).
The Big data scientist must be able to extract, transform and load these data stores from internal source as well as retrieve data from external sources such as internet, social media or other sources then manipulate them using Hadoop, Hive, Pig, MapReduce, Mahoot etc. to analyze the data and generates special reports where special insight values are identified. This is NOT similar to traditional database and business intelligence techniques because it deals with massive amount of data from several sources in which many data are structured and unstructured (Note: Traditional business intelligence only deals with defined structured data stored in the database and focus on past data). Since Big data are dealing with prediction which is in real time or the future, Big data scientist must be able to determine the most appropriate statistical techniques for addressing the possibility. Big data scientist must be able to apply relevant techniques, and translate the results and generate “insights reports” in such a way that company leaders can understand and act very fast to capture the value. This require Big data scientist to have a thorough understanding of statistics (e.g., regression analysis, cluster analysis, and optimization techniques) techniques and the tools and languages used to run the analysis such as “SAS” or “R”. To do that Big data scientist must be able to write special software who implement computational techniques such as machine learning, natural language processing, graph/social network analysis, neural nets, and simulation modelling. Most of these applications are written in a variety of languages such as Java, Python, C++, Math lab and R. (That is why Software Engineering students are better fit in this field)