【學長姊帶路】卓騰語言科技 暑期實習心得分享
原標《【2023】卓騰語言科技 實習心得|Summer Internship @Droidtown Linguistic Tech.》
文/Chris Loading
用時間軸簡單介紹一下自己:
【2020.7–2021.7】明基電通BenQ|整合行銷中心|實習生
【2021.6】東吳大學英文學系|畢業
【2021.9–2022.6】中興大學資工系 & 智創學程(均大一)|隨班附讀
【2022.11–2023.2】陸軍|義務役
【2023.7–2023.9】卓騰語言科技|實習
2022歲末,入伍前因學長介紹得知卓騰語言科技(Droidtown Linguistic Tech. Co, Ltd.),經由卓騰經營的YouTube頻道(極力推薦!),以及Facebook粉絲專頁,漸漸了解這家目前台灣唯一堅持做linguistics-based NLP的公司。
當時我正處於畢業後極度焦慮迷惘的狀態,不斷嘗試尋求各個機會。雖說曾在語言學概論課堂中得知有一門相似概念的領域Computational Linguistics,卻很快地消逝在記憶的洪流。而在語言學與資訊科學交叉口的卓騰,對我來說正是有如新天地般的衝擊。
每年暑期,卓騰定期舉辦短期實習,並公告於其Facebook粉絲專頁。
歡迎任何具有Python3使用經驗,對語言學、資訊科學、語言處理等有興趣的投遞者,通過第一階段審核後,由卓騰發出一個簡易Python程式題目,以確保做進一步的討論時,大家的程式能力足以跟上實習的基本要求。
活動為期約十周不等,分為兩階段,每周五下午在台北市信義區的卓騰辦公室,均由卓騰的負責人PeterWolf親自主持。
第一個月是學理的說明,涵蓋語言學、基礎程式設計、科技時事分享(業界秘辛?)等,並會直接呼應到此階段結束後的考核內容。
一開始Peter就用簡潔的問題替實習拉開序幕:「語言是什麼?」,以發言、討論的方式,替來自不同背景的大家建立語言學重要概念,並循序漸進地帶到卓騰的兩大核心技術:Articut 斷詞系統, Loki 自然語言理解(NLU)引擎。
Articut是根據「語法規則」設計的斷詞系統,涵蓋詞性標記 (POS) 與命名實體識別 (NER)。(是的,語言的規則是有限的,寫得完的!)因此,在設計任何語言的斷詞系統時,都可以依據同一套語法規則建立,所差者在於「參數」規則的不同。
也呼應至Peter開場的問題,什麼是語言?語言是人類所獨有,演化出的一套思考、組織想法的機制,「內建」在人類大腦中。今日各種不同的語言,即「填入不同參數」的結果。
那,LLM有語言理解的能力嗎?我想,連內建了人類語言機制的小六學童,都能在稍加思索後,對一般的語言轉品、斷詞、歧義等問題做出正確的理解/判讀,還遠不需、也不可能有動輒數十億、百億以上 token 的 input 刺激,這個問題的答案便呼之欲出了。
Loki則是在Articut的基礎上,進一步使用Structural Pattern Matching進行比對以「理解」語意的NLU引擎。以三層結構:project, intent, utterance分別呼應人類在使用語言、理解語意時關鍵的三要素:在什麼語境下、想表達什麼意圖、以及說出的話語。
Key Takeaways:
LLM有沒有語言理解的能力?
什麼是一個字(word)?一個詞 ( phrase)?一個 token?一個字符 ( character)?
Articut斷詞系統
Loki NLU engine 及其三層架構:project(context), intent, utterance
而在通過考核後,第一階段的尾聲,經過一個月的腦力激盪,大家彼此也有一定的認識之後,會開始分組,準備實習第二階段,開始工作坊形式的專案衝刺開發!
在第二個月第一周,各組須輪流提交專案proposal與Peter討論架構/可行性等。若在第一階段時就有專案/分組的想法,那麼在通過考核後就能更快的提案以及修改,並及早動工。也可以先參考之前學長姐們的專案來發想自己想要做什麼!(DT GitHub/LokiHub)
當時我與語言所的Emily與資工系的Brian一組,剛好都是我在兩個領域知識的大前輩XD,與不同背景的人交流、實作,真的非常過癮!
我們這組決定開發相對沒有標準答案式的「感情小助理 RelationshipBot」。先蒐集常見的感情問題,使用Loki的三層架構,在有限的時間內,定出6大context/project後,往下劃分出各intent,有了明確的語境+意圖,便能盡可能使用有限的utterance「框住」這個想表達的意圖。再配合LLM「生成」的特性,替我們天馬行空的「接龍」、「換句話說」出各式各樣(若是依靠我們手動輸入建立,不合時間/腦力成本)的答案,頗有「將Broca’s area接上Wernicke’s area」的味道,互相補上了對方沒有的部分。而我們最重要的工作便剩下快速的最終篩選(決策!),以防LLM的幻想等差錯。
Key Takeaways:
Git/GitHub 版本控制/協作
Let NLU(Loki) work with LLM(ChatGPT)!
看到這裡,還留下來且對卓騰/實習有興趣的各位,強烈推薦搭配以下妙方服用:
- 將卓騰Youtube的影片,按排列清楚的播放清單看過一次,其中兩個更是等於在大學上了完整的一堂課,獲益無窮XD
- 卓騰Document
- 卓騰GitHub
- 動手試一試、玩一玩吧!
綜觀卓騰實習,非傳統「授課」、「上下有別」的方式,Peter透過大螢幕 & 白板即時分享與書寫,極力促進所有人多向的即時討論溝通、激盪發想,更體現在期中考核的方式:所有人在當周,均須在Discord頻道中一同交流討論想法,為列入評斷的依據。
「標準答案」、「不求甚解」式的單向輸入,並不會在卓騰發生。相信大多數人(或至少對我自己來說),一路走來,極少有機會參與這麼棒的即時「思考討論」、「提出問題」式的學習。
Peter最常說的其中一句話就是:歡迎大家提出問題討論呀!不論是現場或是Discord!隨時!
這十周對我來說,真的是非常珍貴的衝擊。
感謝Peter, 卓騰的前輩們,還有一同實習的大家。何幸之有能讓我在2023暑期,有這麼一個難忘精彩的夏天!
願大家一切順利,都能堅定地在自己的道路上,勇敢前行。
本文由 Chris Loading 授權轉載, 原文: 《【2023】卓騰語言科技 實習心得|Summer Internship @Droidtown Linguistic Tech.》
___________
你也有經驗想分享嗎?快來投稿賺稿費吧!
瀏覽 2,324 次