講師:王昭能 王昭能博士分別於2008年和2014年獲得亞洲大學碩士和博士學位。他現在任職於亞洲大學生物資訊與醫學工程學系副教授。目前同時擔任亞洲大學產學營運處產學長和精準健康研究中心執行長。他是一位生物醫學數據科學家,在多個領域擁有豐富研究經驗,如:生物醫學資訊、知識圖譜和數據科學應用於生物醫學等,在各個領域發表了70多篇學術研究論文以及多項人工智慧應用於醫療相關專利。王博士參與IEEE International Conference on BioInformatics and BioEngineering, IEEE International Conference on Robotic Computing, IEEE International Symposium on Multimedia, IEEE International Conference on Artificial Intelligence and Virtual Reality, IEEE International Conference on Electronic Communications, Internet of Things and Big Data等研討會的編委。此外,王博士,在智慧醫療產學合作擁有相當豐富經驗與AWS、台達電、趨勢科技、英業達、百特醫療、上銀科技公司共同開發智慧健康產業應用產品。王博士目前擔任財團法人藥品查驗中心和經濟部水利署計畫顧問,他熱衷於學習並始終期待解決具有挑戰性的分析問題。 一、前言 隨著科技快速地發展,生成式AI已經被廣泛運用於許多領域中,包含教育、設計和行銷等。在醫療方面,也已經有人開始打造AI醫療顧問,幫助病人及時解決健康疑問。不過,AI在醫療方面的應用不僅限於顧問的角色,現在也有專家學者利用AI加速藥物開發,更希望可以透過AI,找到人們不曾想到的新藥。本次課程將告訴大家,如何讓AI或大型語言模型學習生物科技知識,並結合幾何深度學習與生成式AI加速藥物的開發。 二、藥物開發的過程 簡單來說,所謂的藥物設計就是將大分子或小分子結合,找出一個能夠有效產生藥物作用來抑制某些疾病的過程。雖然聽起來簡單,但是一顆藥的誕生其實需要經過五個流程,包含一開始的設計與發現新藥、進行臨床前和臨床研究、送交食品藥物管理署審核,最後才能進入市場端供人們使用。 在AI尚未被用於藥物的開發前,研發藥物的過程通常需要耗費12-16年的時間。這是因為,醫藥學家必須透過大規模基因體和蛋白質的實驗,從上萬種可能性中找到可以設計成藥物的分子和治療標靶,在解出分子結構後,利用這些分子結構合成藥品。而這個過程還只是前述藥品開發的初始階段。當發現新藥的結構後,還必須利用至少8年的時間進行三階段的測試,最後再等待1-2年通過食品藥物管理署的審核。 隨著生成式AI的出現,生物學家也開始思考,既然生成式AI可以幫助我們生成文字、圖片和影片,那麼我們是否也能利用生成式AI,幫助我們生成開發藥物時的蛋白質結構,以加速藥物開發的過程呢?答案是可以的!接下來,我們就來看看AI可以如何輔助藥物開發吧! 三、AI輔助藥物開發 在進行藥物設計時,我們通常會有三個目標。第一為給定藥物和疾病,預測藥物是否能夠治療該疾病。第二則是預測現有藥物是否可以被重新用於治療新的疾病,也就是所謂的「老藥新用」。最後一個目標就是,預測藥物是否安全且有效,以進行人體測試,尋找藥物的新用途。其實這指的就是,為未來人類所使用的新藥物找到基礎。 那麼,AI究竟如何可以推論並生成出我們在開發新藥物時所需使用的分子結構呢?以Covid-19為例。圖1左側為Covid-19的蛋白酶結構,而在生物科技中,這樣子的結構可以利用「FASTA格式」來表示(圖1)。FASTA格式是由國際生物學家所定義的全世界通用的格式,可以將圖中Covid-19的結構以圖中上方的一連串字母呈現。由於不管是如圖中的蛋白質,另外像是DNA與RNA基本上都能夠以字串的方式呈現,所以也就能夠用LLM大型語言模型處理與學習這些資訊。當我們能夠提供AI許多這樣的結構與胺基酸排序時,那麼AI就可以依照我們的需求,從資料庫中推論並排序,生成出分子結構,讓我們得以應用在藥物的開發中。另外,圖1中間與右側的結構分別為不同藥物的小分子,當我們在尋找能夠有效抑制Covid-19的藥物時,如果能夠將這些分子與Covid-19的蛋白酶結合,就表示該分子結構可能能夠用來製成藥物。而目前在藥物設計中,尤其是在模擬分子與分子結合的部分,已經有許多的工具能夠結合AI,達到顯著的加速作用,不僅大幅減少了尋找適合製成藥物的分子結構的時間,也減少了許多金錢和精力。 圖 1:上圖為Covid-19的蛋白酶結構,該結構能夠以FASTA格式呈現,作為LLM大型語言模型的資料。 上述所說的藥物設計是由分子結構開始,從蛋白質結構或小分子結構找出能夠進入藥物研發的部分。雖然生成式AI或大型語言模型已經能夠生成這些結構,但卻遭遇了其生成結果是否具有解釋性與推理性,以及生成結果是否真的存在的問題。而為了解決這樣的疑問,像是王昭能老師等的國內外生物科學家於是開始嘗試透過幾何深度學習,加上生物科學知識圖譜的概念,來利用AI進行藥物的研發。 我們都知道,人工智慧的資訊就是數據,而這些數據非但只有我們所熟知的數字、文字、語音和圖片四種型態,更還有幾何的型態。然而,幾何型態卻是最少被討論的,但與我們進行藥物設計卻是息息相關。當我們要讓AI進行幾何深度學習前,我們必須要提供給它一個「知識圖譜」(knowledge graph)。知識圖譜是由多個「實體」和「邊」所組成(圖2)。實體可以是任何的個體,在藥物設計中則可以是基因、疾病或藥物。而邊則代表兩個不同實體之間的關係。要建立一個可以用來製作藥品的生物科技知識圖譜,我們就必須將許多的基因、疾病與藥物等資訊結合在一起。目前哈佛大學已經建立了一個龐大的生物科技知識圖譜,當中包含了一萬七千多種疾病的資訊,以及高達五百多萬個節點。有了這樣的知識圖譜後,它就可以成為AI或大型語言模型用來學習的數據。 圖 2: 知識圖譜示意圖。 不過,不同於處理文字的的卷積神經網路(CNN),在藥物設計方面必須運用圖像神經網路(GNN)進行運算。圖像的組成通常包含了三個要素,即端點、連結、整體。而在建立知識圖譜的過程中,我們的基因、藥物或疾病的資料就是一個個的端點,並將這些端點以邊連結起來,最後形成一個完整的圖像。而透過GNN深度學習不斷地將這些圖像疊加之後,AI就可以利用這些資料進行學習。接著,我們未來只要將基因、疾病或藥物的分子結構餵給AI,它就能夠以資料庫中的幾何圖像為基礎,生成出能夠做成藥物的分子結構。 四、結語 在生物科學中,由於人體的基因或疾病的樣態並非以一開始我們所看到的FASTA格式字串呈現,而是以網絡的方式呈現,因此相較於從基因或蛋白質序列找出可製作藥物的分子結構,知識圖譜結合AI幾何深度學習所生成出的分子結構將更合理,也較貼近現實,我們也較能從圖的路徑,了解AI的邏輯思考。即便如此,今天所介紹的兩個方式仍存在挑戰。它們都存在AI是否具有足夠解釋力,以及其生成出的分子結構實際上是否能夠被用來製作新藥的問題。因此,未來如何做出可解釋的人工智慧,讓AI能夠解釋其決策過程與結果,將是把AI運用於新藥製作時必須努力的方向。 【若想回顧完整版課程影音,請點選此連結;有任何問題或分享,也歡迎在本文底下留言。】