08 Jul, 2021
Công nghệ sinh học: biên giới mới
Sau khi đăng bài: “Cuộc cách mạng mới trong Công nghệ” nhiều sinh viên đã hỏi tôi về mối quan hệ giữa Sinh học và Công nghệ thông tin, hai lĩnh vực khác nhau hoàn toàn. Lĩnh vực Sinh học đã thay đổi lớn xem như kết quả của Dự án Hệ gen con người năm 2000. Ngày nay các nhà khoa học coi Sinh học như khoa học thông tin, DNA về căn bản là ngôn ngữ bốn chữ số thức (C,T,G,A) lưu thông tin trên nhiễm sắc thể tương tự như số nhị phân (0,1) trong ngôn ngữ máy tính. Do đó, gen diễn đạt bản thân chúng hệt như máy tính thực hiện chương trình phần mềm. Những cách diễn đạt này tích hợp với những cách khác để tạo ra một loại “lối mòn thông tin” mà báo hiệu cho thân thể thực hiện chức năng nào đó.
Bất kì cái gì sai với những lối mòn này đều tạo ra vấn đề hay bệnh tật. Bằng việc hiểu cách các gen này làm việc, chúng ta có thể nhìn vào bệnh tật từ cảnh quan khác. Bằng việc hiểu các gen chi tiết dẫn tới bệnh tật, chúng ta có thể dự báo lịch sử sức khoẻ và điều đó có thể làm thay đổi cách chúng ta xử trí với bệnh tật ngày nay. Bên trong thân thể chúng ta, có hàng nghìn tỉ “lối mòn thông tin” liên nối tạo nên mạng lưới. Để hiểu cách nhìn mới này về sinh học, chúng ta phải hiểu những thông tin này ở các mức khác nhau, từ tế bào tới cơ quan để cho chúng ta có thể hiểu cách chúng vận hành. Nếu chúng ta hiểu những “lối mòn thông tin” này, chúng ta có khả năng thay đổi chúng do vậy ngăn cản bệnh tật khỏi xảy ra. Đây là bắt đầu của nguyên lí khám phá thuốc mới.
Ngày nay có sự hợp lưu của Sinh học và Công nghệ thông tin vào một lĩnh vực mới tên là Công nghệ sinh học vì mọi tương tác bên trong thân thể chúng ta thực sự là vấn đề công nghệ thông tin (CNTT). Đó là lí do tại sao tôi tin mọi nhà khoa học công nghệ sinh học tương lại đều nên có tri thức về máy tính để làm việc theo nghiên cứu của họ. Nếu chúng ta có thể xác định được hệ thống thân thể qua mô hình hoá toán học chúng ta có thể dự báo một số thuộc tính nổi lên, và làm ra đột phá trong cách chúng ta giải quyết bệnh tật. Tất nhiên, thân thể chúng ta là một hệ thống phức tạp và chúng ta chỉ mới bắt đầu khám phá nó từ góc độ mới của công nghệ thông tin. Ngày nay trong mọi phòng thí nghiệm nghiên cứu, có nhiều thông tin sẵn có, một số lưu ở các cơ sở dữ liệu khác nhau, một số ở các máy tính cá nhân, và chúng đã không được tích hợp, tổ chức, phân loại cho nghiên cứu thêm nữa. Đây là chỗ tôi nghĩ công nghệ thông tin có thể gia tăng giá trị. Ngay cả bộ não của chúng ta cũng bị giới hạn, chúng ta không thể xử lí thông tin lớn và phức tạp nhưng máy tính lại có thể. Nó có thể xử lí hàng tỉ dữ liệu, phân loại qua hàng nghìn bài báo để tìm ra điều chúng ta đang tìm. Với việc dùng máy tính và các thuật toán phức tạp, chúng ta có thể tiết kiệm khối lượng lớn thời gian trong nghiên cứu. Thay vì dành hàng tuần hàng tháng tìm thông tin mà chúng ta cần, chúng ta có thể dùng phần mềm máy tính để phân loại và thu được dữ liệu đúng, vào lúc đúng, cho người đúng.
Năm năm trước, tôi đã tạo ra chương trình Phát kiến Công nghệ sinh học tại Carnegie Mellon để áp dụng công nghệ thông tin tạo khả năng cho sinh học và các lĩnh vực liên quan sáng tạo ra phát kiến có giá trị, điều sẽ giúp cho các nhà khoa học làm công việc của họ nhanh hơn và tốt hơn. Nếu chúng ta nhìn lại, chúng ta có thể thấy rằng công nghệ thông tin đã dẫn tới những thay đổi lớn ngang qua miền đa dạng các bộ môn. Kế toán, tài chính và chế tạo được lợi phần lớn từ tự động hoá phần mềm trong những năm 1970 và 1980. Trong những năm 1990, tiến bộ trong công nghệ truyền thông đã giúp định nghĩa lại cách các doanh nghiệp quản lí nhà kho của họ, dây chuyền cung cấp và cách chúng có quan hệ với khách hàng của họ. Nhiều trong những công nghệ và phát kiến này đã tiến hoá từ các yếu tố làm khác biệt cạnh tranh tới các năng lực cần thiết mà bây giờ là bản chất cho các vận hành của hầu hết các công ti.
Tuy nhiều ngành công nghiệp đã nắm lấy công nghệ thông tin như một yếu tố làm thông tin tăng lên và hiệu quả được cải tiến, việc chấp nhận công nghệ thông tin trong sinh học vẫn còn tương đối mới. Từ những ngày tiên phong sớm của công nghệ sinh học trong những năm 1970, con số các khám phá và phát kiến hứa hẹn đã được nhân lên bội phần. Ngày nay có trên 200 liệu pháp và vắc xin đã được tạo ra qua công nghệ sinh học và ngành công nghiệp này như một toàn thể đã tăng trưởng xấp xỉ 860% kể từ 1994 thành một đỉnh thị trường toàn cầu với giá trị xấp xỉ $544 tỉ đô la trong năm 2014. Qua những phát kiến và đột phá tiềm năng trong ngành công nghiệp này có số rất lớn các qui trình chưa được hoàn thiện được gắn kết với sự thiên lệch, tồn tại từ lâu hướng tới nghiên cứu về thương mại hoá đã ngăn cản tiềm năng sẵn có chưa được thực hiện đầy đủ. Chẳng hạn, việc phát triển thuốc ngày nay là rất tốn kém. Phải tốn hàng trăm triệu đô la hay hơn chỉ để làm cho một thuốc qua được thử lâm sàng và chấp nhận. Trong hàng nghìn thuốc đang được làm việc, phần lớn chỉ đi một phần đường rồi phải bị bỏ. Bằng việc áp dụng công nghệ thông tin sớm trong quá trình này, có thể thu được thông tin và dữ liệu tốt hơn để giúp các nhà khoa học làm các quyết định hiểu biết và giảm phế thải.
Khám phá và phát triển thuốc chỉ là một ví dụ nơi các phát kiến phần mềm đặc biệt có thể có khả năng hợp lí hoá bản chất các qui trình và năng suất. Bằng việc áp dụng nhiều công cụ và phương pháp tiên tiến, người ta có thể giúp khép lại kẽ hở phát kiến giữa các hoạt động nghiên cứu và thương mại hoá trong sinh học. Phát triển thành công phát kiến như thế sẽ tạo ra điểm uốn đột phá trong ngành công nghiệp này, việc này sẽ sớm coi điều đó như một điều cần thiết. Nếu lấy tiến hoá của công nghiệp CNTT làm cái so sánh hợp lí, người ta có thể mong đợi sự sinh sôi nảy nở có tính bùng phát của phần mềm trong sinh học khi nhấn mạnh dịch chuyển từ nghiên cứu sang phát triển sản phẩm.
—English version—
Biotechnology: the new frontier
After posting the articles: “The new revolution in Technology” many students have asked me about the relationship between Biology and Information Technology, two completely different fields. The Biology field has changed significantly as the result of the Human Genome Project in 2000. Today scientists view Biology as an informational science, DNA is basically a digital four-letter language (C,T,G,A) storing information on chromosomes similar to the binary (0,1) in computer languages. Therefore, genes express themselves just like computers executing software programs. These expressions integrate with others to create a particular kind of “informational pathway” that signals the body to perform certain function.
Anything wrong with these pathway create problem or disease. By understand how these genes work, we can look at diseases from a different perspective. By understand the detail genes that predispose to disease, we can predict health history and it could change the way we treat disease today. Within our body, there are trillion of these interconnected “informational pathways” that form networks. To understand this new view of biology, we have to understand these information at different levels, from cells to organs so we can understand how they work. If we understand these “informational pathways”, we may be able to change them thus prevent disease from happening. This is the beginning of the new drug discovery principle.
Today there is a convergent of Biology and Information Technology into a new field called Biotechnology because all the interactions within our body is really the information technology (IT) problems. That is why I believe all future biotechnology scientists should have knowledge of computer to work on their research. If we can define body systems through a mathematic modeling we can predict some emergent properties, and make a breakthrough in the way we deal with diseases. Of course, our body is a complex system and we only just begun to explore it from this new angle of information technology. Today in every research lab, there are many information available, some store at different databases, some at personal computers, and they have not been integrated, organized, categorized for further study. This is where I think information technology could add values. Even our brain is limited, we cannot process large and complex information but a computer can. It can process billion of data, sort through thousands of articles to find what we are looking for. With the use of computer and sophisticated algorithms, we can save significant amount of time in research. Instead of spending weeks and months finding the information that we need, we can use computer software to sort through and get to the right data, at the right time, to the right people.
Five years ago, I created the Biotechnology Innovation program at Carnegie Mellon to apply information technology to enable biology and related fields to create valuable innovations that will help scientists to do their works faster and better. If we look back, we can see that information technology has led to significant changes across a wide variety of disciplines. Accounting, finance and manufacturing benefitted largely from software automation in the 1970s and 1980s. In the 1990s, advances in communication technologies helped to redefine how businesses managed their inventory, supply chains and how they relate with their customers. Many of these technologies and innovations have evolved from competitive differentiators to requisite competencies that are now essential to the operations of most companies.
Though many industries have embraced information technology as an enabler of increased information and improved efficiency, adoption of information technology in the biology is still relatively new. Since the early pioneering days of biotechnology in the 1970s, the number of promising discoveries and innovations has multiplied dramatically. Today there are over 200 therapies and vaccines that have been created through biotechnology and the industry as a whole has grown approximately 860% since 1994 to a global market cap of approximately $544 billion in 2014. Though innovations and potential breakthroughs in the industry are incredibly numerous, immature processes coupled with a long standing, biased inclination towards research over commercialization have prevented the available potential from being fully realized. For example, today drug development is very expensive. It costs hundred million dollars or more just to get a drug through clinical trials and approval. Among thousands of drugs being worked on, most only got partially way through then had to be abandoned. By applying information technology early in the process, it is possible to obtain better information and data to help scientist making informed decision and reduce waste.
Drug discovery and development is but one example where specific software innovations may be able to substantially streamline processes and productivity. By applying more advanced tools and methods, one can help close the innovation gap between research and commercialization activities in the biosciences. Successful development of such an innovation would create a disruptive inflection point in the industry that would soon regard it as a requisite necessity. If the evolution of the IT industry is any reasonable analogy, one can expect an explosive proliferation of software in the biology as emphasis shifts from research to product development.