當ChatGPT遇上《牛津詞典》:我們還需要「標準答案」嗎?
💡

當ChatGPT遇上《牛津詞典》:我們還需要「標準答案」嗎?

2026年2月26日·
梁懿
· 1 閱讀時間(分鐘)
Image credit: Unsplash
blog

我最近跟以前香港教育系的老同學策劃一個有關語文教學的Podcast節目,我們聊到AI對教學的衝擊。這篇網誌想聊聊:在一個「問AI便有答案」的時代,詞典這塊「老招牌」還有什麼不可替代的權威?

教室裡的「新常態」:AI說的都對?

AI是一個很廣泛的概念,而這篇文章僅指Large Language Models (LLM; 大語言模型)。LLM,比如ChatGPT、DeepSeek、Google Gemini,能通過海量的文本訓練,預測並生成自然對話的AI。我的老同學分享,現在的小學學生若碰到不理解的詞語,一般會先問LLM取答案。但每當查找古漢語的詞義,若把LLM所給的答案放在該課文裡去理解,似乎不通。我的老同學便讓她的學生查看古漢語詞典,怎料孩子說:「詞典?是怎麼查的?」

這個問題讓我陷入了深思。曾幾何時,翻閱部首、數筆畫、對照義項,是我們學生年代學習新詞的必經之路。但在LLM橫行的今天,孩子習慣了「餵養式」的答案,卻逐漸失去了檢索和裁斷的能力。

為了驗證LLM有多可信,我特地在ChatGPT和詞典查找生僻字———「豵」的意思。

我用ChatGPT 5.2輸入了指令:「豵的意思」。它很親切地告訴我,「豵」字的本義是「小豬、幼豬」,還補充說現在大家都直接說「豬仔」了。聽起來非常合理,對吧?但當我轉向語文教師常用的權威詞典《漢典》時,查閱的結果則不盡相同。

《漢典》的詳細說明指出「豵」可以解「公豬」(出自《玉篇》),亦可解作「出生六個月的小豬」(出自《說文解字》)。相較於ChatGPT的答案,《漢典》中「豵」的解釋並非泛指任何小豬,而是精確到「公」豬,或「出生六個月」的豬。

古漢語的釋詞往往要結合文本所生的年代、語境和語用習慣而定。如果學生給LLM的指令太簡略,又或LLM的語料庫尚未涉獵大量古漢語語料,檢閱結果可能會差強人意。

這就是LLM帶來的「機率性擬真」。AI目前並未具備對文化脈絡的深度理解,它給出的答案往往是語料庫中的「最大公約數」,容易以現代語感進行過度推論。對於初學者而言,這種張冠李戴的解釋,會容易讓他們誤以為語言學習只是詞彙的代換,卻忽略了文字背後那跨越千年的底蘊。

這種差異也解釋了為何老師對詞典有種執著。在師範訓練中,教授推薦的權威詞典代表了知識的傳承與規範。如果失去了這份對精確度的追求,語言學習就會變的像機率預測一樣欠缺精準。

實驗室裡的堅持:標準答案是怎麼被「造」出來的?

轉向我的研究領域———心理語言學(Psycholinguistics),情況變得更有趣。在實驗室設計語文認知測試時,我們同樣需要一個基準,但我們對於「權威」的定義,與語文教師的截然不同。

心理學或語言學學者所認可的權威,通常是來自權威實驗室所發布的大型語料庫(Corpus)。與詞典追求「質的規範」不同,語料庫的強項更在乎「量」。語料數據可能抓取自書籍、兒童讀物、甚至電影字幕。對研究員而言,語料庫不一定代表「正確」,但它代表了「真實」,目的是呈現大眾在現實生活中到底是如何使用語言的。

然而,這種基於「量」的權威,在實際中面臨著一個難題。

舉例來說,在設計詞彙量測試(Vocabulary Size Test)時,研究員最頭痛的就是設計「正確答案」。你可能見過這種測試:讓受試者從A、B、C、D中選出最準確的詞義。但由於語料來源比較廣泛且混雜,有時候研究員也會發現,選項中也有模棱兩可的答案,設計百分之百精確的選項是具挑戰性的。

這正是研究員與教師殊途同歸的地方。雖然我們沒有像教師那樣對特定詞典又著深厚的執著,但我們依然在尋求一種穩定性。如果我們所依賴的語料庫本身就缺乏詞典那樣的規範邊界,而現在又加上LLM這種具隨機性、會自行「腦補」定義的AI干擾,我們該如何確保測試的信度(reliability)和效度(Validity)?如果「尺」的刻度(語料基準)本身就是模糊的,我們還能準確測量人類大腦對語言的真實反應嗎?

給老師與研究者的建議:從尋找答案到「交叉驗證」

雖然教師和心理語言學研究員或許對「權威」的取徑不同:教師守護的是學術的正統血脈,心理語言學追求的是大規模數據的穩健性(Robustness)。但本質上,我們都在做同一件事:守護對語言結構的深度理解。

在 AI 橫行的時代,無論是老師堅持的「規範」,還是研究員追求的「Golden Standard」,目的皆是防止知識被稀釋。

這對教師和家長來說意味著什麼?

其實,AI說帶給我們的挑戰恰恰是一個很好的教育契機。當孩子拿著 AI 所給出的答案來找我們時,不要只看結果對不對,而是要引導他們做「交叉驗證」。我們可以告訴孩子:

  • LLM 是你的「Brainstorming Buddy」: 它可以幫你快速檢索答案、模擬對話、擴散思維。但是…

  • 詞典與權威語料是你的「方向盤」: 當你要做最終裁斷、確保沒有張冠李戴時,必須回歸那個具備學界共識的基準。

於孩子而言,這不只是在學語文,更是在培養不盲從數據機率的判斷力。

結語

上述討論的只是冰山一角。關於 AI 與權威的博弈,還有太多值得深挖的議題,或許值得在之後發布的podcast裡深入探討。比如:

  • 如何寫出精準指令 (Prompts): 如何精確、系統地寫指令,讓 LLM 真正輔助我們在語境中準確解釋詞義。

  • 詞典的匠心與局限: 詞典不僅是工具,它背後是無數訓詁學家耗費數十年的嚴謹編校。這種深度與厚度,是瞬間生成的 AI 永遠無法取代的「匠心」。當然,詞典也有不足,比如更新速度難以趕上網絡新詞的衍生。我們該如何在快節奏的思維時代傳承下去?

  • 跨文化的權威觀: 不同國家、不同語言圈對「權威」的定義是否不同?

在這個標準模糊的時代,無論是學生、老師、研究員,還是家長,我們追求的不再只是尋求答案的捷徑。在數據汪洋中,擁有辨別訊息真偽的能力,才是重中之重。

作者
心理語言學研究員|前小學教師
我是香港前小學中國語文教師,現為慕尼黑大學心理語言學博士研究員。我的研究涵蓋學習閱讀的認知機制,以及有關劃分發展性讀寫障礙(Developmental Dyslexia)類型的方法論。我注重實踐開放科學(Open Science)的理念,並重視科學理論能否應用於實際教學環境。我希望轉譯公共知識,將複雜的認知理論轉化為實用、易明,且具實證基礎的資源,協助研究人員、教師、臨床工作者及家長理解及支援語文學習。