第01章導讀：Exploring Effective Uses of Generative AI in Education: An Overview

作者：Stéphan Vincent-Lancrin & Quentin Vidal
來源：OECD Digital Education Outlook 2026
撰寫者視角：教育者暨研究者
撰寫日期：2026-04-04

一、文章摘要

本章為全書總覽，界定生成式 AI（GenAI）與非生成式 AI 之差異，並區分通用型與教育專用工具。作者綜述 OECD 與多國調查中師生採用率、使用動機與 TALIS 2024 教師實務，接著以實證研究說明：僅用通用型聊天機器人完成任務未必帶來持久學習，甚至可能損及遷移與後設認知；相對地，經教學設計或教育取向配置的 GenAI（含回饋、家教、協作腳本）可促進學習。文末連結教師—AI 協作、機構流程、標準化測驗與教育研究等後續章節，並提出政策與課堂實務的關鍵啟示。

二、章節架構與核心論述

導言與 GenAI 界定（約第 13–16 頁）：說明 ChatGPT 等工具如何使學生在校外即可使用 AI，並定義 GenAI 相對於預測／分類型「傳統」AI；以表 1.1 區分通用／教育、生成／非生成範例。（頁碼依書中印刷頁：檔名序號 −2。）
通用型 GenAI 的特質與限制（約第 14–16 頁）：強調脈絡化回應、大規模訓練資料與免費可及性，亦指出幻覺、結果不穩定、文化偏誤、缺乏真正「理解」與環境與知識生態等社會風險。
社會與教育場域的普及（約第 15–20 頁）：聊天機器人佔 GenAI 流量主體；高所得國家使用集中；跨國 ChatGPT 渗透率上升（Figure 1.1）。學齡愈高、使用愈普遍（瑞士、愛沙尼亞、歐洲七國、法德與美國趨勢）。
學生為何與如何使用（約第 16–19 頁）：動機多為效率與「認知／產出支持」；常見取得資訊、解釋概念、部分直接求解（Figure 1.2）；德國大學生用途與頻率（Figure 1.3）。
教師使用與態度（TALIS 等）（約第 17–22 頁）：備課與教材生產為主；對個別化支持、課程計畫的正面看法與學術誠信、偏誤、隱私等疑慮並存（Figure 1.4）；未使用者多稱缺乏技能或認為不宜用於教學。
對學習成效的證據（約第 20–24 頁）：土耳其數學 RCT——練習表現提升但閉卷測驗通用型組更差（Figure 1.5）；中國改寫作文、神經影像與「後設認知怠惰」；相對地，教育取向家教與哈佛物理 RCT 顯示線上 GenAI 家教可優於課堂主動學習（Figure 1.6）；英國創意寫作實驗顯示 GenAI 點子可提升個人創意與寫作品質但內容較同质（Figure 1.7）。
回饋、教學設計與素養（約第 24–28 頁）：GenAI 回饋品質可比擬人類但可信度與動機維度不同，宜採混合式；課程重設與 AI 素養框架（Box 1.1）；教育專用工具樣貌（家教、協作、教師助理 JeepyTA）、教師能動與人本設計（Cukurova 等）。
系統與機構、測驗與研究（約第 29–32 頁）：學分承認、諮詢、試題開發與校準、Duolingo 創新題型、合成資料與代理人研究等。
結語與政策附錄（約第 30–38 頁）：六條要點式 take-aways；各國試點與策略（Box 1.2、Annex 1.A）。

三、詳細分析與證據鏈

論點 1：通用型 GenAI 改變了「誰在何處使用 AI」的教育治理前提

原文引用：「Unlike earlier educational AI systems, GenAI is available and used by students outside of educational institutions, with or without the blessing of teachers, school leaders and policymakers.」（第 13 頁）

分析：技術可及性使政策由「是否在校內導入」擴展為「如何面對校外已發生的使用」，並牽動學術誠信、評量與課業設計。

證據鏈： - 支持證據 1：「On average, across OECD countries, 36% of lower secondary teachers' report having used AI in their work in the 12 months prior to the 2024 survey」（第 16 頁） - 支持證據 2：「In Estonia, a national survey of about 16 000 students found that 74% of lower secondary students and 90% of upper secondary students reported using AI tools to support their studies in 2024」（第 14 頁） - 反駁或限制：教師與學生使用率因國情差異極大，不宜單一數字推論全系統。

論點 2：學生使用動機偏「效率」時，與深度學習目標可能錯位

原文引用：「When asked why they use GenAI, according to a number of studies, students typically responded they wanted "cognitive support", such as information, explanations and summaries, or "production support", such as idea generation, drafting, and, perhaps more problematically, solution generation.」（第 18 頁）

分析：取得解答與代寫捷徑降低認知負荷，卻可能略過診斷、評估、迭代等學習歷程。

證據鏈： - 支持證據 1：「In Estonia, for instance, grade 6-12 students most often reported using GenAI to achieve better scores, make educational tasks easier, and save time. These uses typically do not support student learning.」（第 18 頁） - 支持證據 2：「Nearly one-third (31%) report using AI to provide complete solutions to tasks」（第 18 頁） - 反駁或限制：亦有 20% 使用 AI 於規劃與進度追蹤等自我調節功能，顯示使用光譜並非單一。

論點 3：「練習表現好」不等於「學會了」——通用型聊天機器人存在負向遷移風險

原文引用：「However, when their knowledge was assessed in a closed-book environment, the performance gains vanished: students who used the general-purpose GPT scored lower than those studying on their own (Bastani et al., 2024[26]) (Figure 1.5).」（第 22 頁）

分析：此發現與後續改寫作文研究、神經科學實驗共同指向認知卸載與記憶／所有權感下降。

證據鏈： - 支持證據 1：「the group using the GenAI tool scored highest, but knowledge gains measured by a knowledge test did not improve」（第 23 頁） - 支持證據 2：「only 12% of the LLM group could quote something from their essay (exact recall) as opposed to 89% in the two other groups」（第 23 頁） - 圖表連結：Figure 1.5 視覺化「練習大幅提升、考試上通用型 GPT 組 -17%」與家教版介入的對比。

論點 4：當 GenAI 依學習科學「配置」或嵌入教學情境時，證據轉為正向

原文引用：「The study found that students learnt significantly more in less time when using the AI tutor, and also felt more engaged and motivated (Kestin et al., 2025[38]) (Figure 1.6).」（第 26 頁）

分析：關鍵在於與主動學習原則對齊的設計，而非僅替換媒介。

證據鏈： - 支持證據 1：「While evidence suggests GenAI tools sometimes enhance student performance at the cost of lasting skill and knowledge development, that does not mean positive outcomes are impossible.」（第 24 頁） - 支持證據 2：「The students in the treatment group worked in pairs and received teacher instructions on how to use Copilot, including prompts.」（第 25 頁） - 反駁或限制：「While they enhanced their GenAI skills, one would expect effective digital learning tools to enhance learning, not merely practice performance, which hints to the possible under-performance of self-declared "educational" GenAI tools.」（第 22 頁）

論點 5：形成性回饋適合「人機協作」而非全面自動化

原文引用：「As a result, the consensus among experts points towards a hybrid approach to feedback.」（第 27 頁）

分析：LLM 可產出可讀性高、涵蓋歷程與自我調節向度的回饋，但學生仍較信任人類教師的意義感與可信度。

證據鏈： - 支持證據 1：「students perceive human feedback as more credible and meaningful」（第 26 頁） - 支持證據 2：「GenAI could generate initial feedback on student work, which teachers can use as suggestions to enhance their own feedback drafts.」（第 27 頁） - 反駁或限制：人類與 AI 對優弱點判斷一致性可能偏低，須謹慎校準。

論點 6：教師專業能動與工具治理（替換／互補／增強）決定長期教學品質

原文引用：「Augmentation requires interactions during which both teachers and AI evaluate and critique each other's suggestions and propositions to move towards a shared understanding and mutual development while solving a problem.」（第 28 頁）

分析：僅追求備課時間縮短可能伴隨專業成長停滯；增強型人機協作強調雙向評析與共構。

證據鏈： - 支持證據 1：「teachers who received practical guidance to use GenAI reduced their lesson and resource planning time by an average of 31 percent」（第 29 頁） - 支持證據 2：「instructors or teaching assistants can modify the tool settings so that responses are automated (and go directly to students) or reviewed by them first.」（第 30 頁） - 反駁或限制：教師亦可能出現「後設認知怠惰」式依賴，需制度性討論何種任務可自動化。

四、關鍵圖表解讀

Figure 1.1：Increase of ChatGPT users as a share of Internet users, 2024-2025

Figure 1.1

圖表內容：多國網路使用者中使用 ChatGPT 的比例，2024 至 2025 年普遍上升；新加坡、盧森堡等國比率居前，OECD 平均線可作為參照。
關鍵發現：GenAI 聊天機器人渗透率在短時間內顯著成長，且呈國際間不均。
與論點的連結：支持「學生在校外已高度暴露於 GenAI」的制度命題，並暗示數位落差可能加劇。

Figure 1.2：How do European students use AI to study? (2024)

Figure 1.2

圖表內容：七國學生校外自發使用 AI 的目的百分比（提供資訊、解釋名詞、完整解題、互動內容、規劃追蹤等）。
關鍵發現：「提供資訊」「解釋概念」最高；約三成用於取得完整解答。
與論點的連結：對應學生動機與可能跳過思考歷程的風險，呼應教學設計須重新界定「可接受的協助程度」。

Figure 1.3：Germany: Purpose and frequency of higher education student use of AI (2025)

Figure 1.3

圖表內容：德國大學生各類 AI 用途（搜尋、文獻、摘要、翻譯、程式、學習夥伴等）按從未到每日的頻率分布。
關鍵發現：資訊取得與研究相關用途頻繁；約三分之一將 GenAI 作為「學習夥伴／家教」。
與論點的連結：高等教育端已將 AI 嵌入學習歷程，大學政策與課程規範需與實際行為對齊。

Figure 1.4：Teachers' use of and opinions about AI in teaching (2024)

Figure 1.4

圖表內容：TALIS 2024 各國教師 AI 使用率與對行政減負、適性教材、課程計畫、偏誤與誤推薦、學生抄襲等敘述的同意度跨國比較。
關鍵發現：使用率高國與低國差距大；「學生將他人作品冒充己出」獲高度共鳴。
與論點的連結：連結教師專業發展需求與學術誠信治理，而非僅技術導入。

Figure 1.5：Successfully performing a task with GenAI does not automatically lead to learning

Figure 1.5

圖表內容：土耳其高中數學 RCT——無 GenAI、GPT Base、GPT Tutor 三組在練習與正式考試表現的對比（含 -17% 註記）。
關鍵發現：練習階段 AI 組表現突出，閉卷時通用型組顯著落後；家教版大致追平自學。
與論點的連結：全章論證枢纽，直接挑戰「用 AI 做完作業＝學會」的直覺。

Figure 1.6：Educational GenAI tutoring can outperform in-class learning

Figure 1.6

圖表內容：哈佛大學物理導論課 RCT，比較課堂主動學習與居家 GenAI 家教的基線、學習增益分數。
關鍵發現：在相同教學原則下，GenAI 家教組學得更多且動機更高（大效果量）。
與論點的連結：說明「教育取向設計」可翻轉通用工具的負面證據，指向產品與教學法共變的重要性。

Figure 1.7：Using GenAI can enhance human creativity and writing quality

Figure 1.7

圖表內容：無點子、1 個與 5 個 GenAI 故事點子條件下，有用性、新奇、創意、寫作品質等多面向效果量。
關鍵發現：越多點子越能提升個人創作與寫作品質，但故事彼此較相似。
與論點的連結：支持「有教學設計的通用工具使用」可促進高階能力，亦揭示群體多樣性可能下降的副作用。

五、教育者與研究者心得

我讀完本章最深的感受是：我們不能再把「學生會不會用 ChatGPT」當成唯一問題；真正決定學習方向的是，他們在什麼任務結構下使用、是否仍經歷診斷與迭代，以及教師能否重新設計課業使「可觀察的學習證據」與真實理解對齊。土耳其數學實驗與神經影像研究對我特別有警世意味——課堂上若只看作業漂亮程度，我們可能正在獎勵認知卸載而非能力成長。這讓我更堅持在課程中保留口頭辯護、概念導向評量與歷程檔，而不是單純禁止工具。

同時，哈佛物理與英國創意實驗也讓我願意更細緻地區分「工具類型」與「使用腳本」：同樣是 LLM，在 Socratic／主動學習對齊的配置下，證據可以翻正；在只索取答案時，證據則偏負向。作為研究者，我認為目前最大的缺口仍是長期、跨情境的追蹤資料，以及教育專用工具與通用工具在相同學習目標下的 head-to-head 比較。

放在台灣脈絡，TALIS 與歐洲調查提醒我們：城鄉與家庭數位資源落差可能使「會用 AI 加速寫作」與「會用 AI 深化思考」成為新的階級標記；教師若缺乏時間與專業社群支持，很容易落入只用 AI 省備課、卻無力 redesign 評量的困境。我會向同儕介紹本章時強調三句話：第一，表現好不等於學會；第二，教學意圖與工具配置比品牌重要；第三，回饋與師生關係仍需要人類在閉環裡負責。對學生我則會誠實說明研究兩面性，並把 prompting 與後設認知監控納入明確教學目標，而不是假裝他們不會在宿舍打開聊天視窗。

六、研究缺口與未來方向

長期追蹤：多數介入期間短，需觀察重複使用 GenAI 對知識保留、遷移與學術自我調節的累積效果。
教育專用工具效力：需與非生成式適性系統、真人家教進行成本效益與公平性比較。
教室生態與教師發展：教師 AI 使用與學生學習成果的因果鏈仍薄，特別在低收入與多語情境。
測驗效度與安全：GenAI 協助命題與作答偵測的交互影響、以及高利害測驗中「人機協作」的效標關聯。
文化與語言：訓練資料偏西方英語文化的偏誤，在非英語教材與本土知識上的補強與評估。

七、關鍵詞索引

Generative AI (GenAI)：以提示產生新內容之 AI 子領域，常見於 LLM 聊天機器人。
Large language models (LLMs)：大規模語言模型，為多數聊天機器人之基礎。
General-purpose vs educational AI：通用工具多目標 vs 教育專用設計。
Hallucination：模型產出看似合理但錯誤之現象。
Cognitive offloading / metacognitive laziness：將思考工作外包導致診斷與監控步驟萎縮。
TALIS 2024：OECD 國際教與學調查，含教師 AI 使用與態度。
Scaffolding：漸撤支持之教學支架概念（維高斯基傳統）。
Socratic questioning：以序列提問引導學生推理而非直接給答案。
Formative feedback：促進學習之持續性、個別化回饋。
Teacher–AI teaming：替換、互補、增強等人機協作類型（Cukurova 框架）。
JeepyTA：美國案例中的 GenAI 教學助理系統。
AI literacy / GenAI literacy：理解、批判與負責任使用 AI 之能力架構。
Randomised controlled trial (RCT)：隨機對照試驗，用於因果推論學習成效。

八、延伸閱讀建議

Gašević, D. & Yan, L. (2026). OECD Digital Education Outlook 2026 第2章面向之人類技能發展與評量啟示。
Bastani, H. et al. (2024). Generative AI Can Harm Learning（土耳其數學 RCT 原文）。
Kestin, G. et al. (2025). Scientific Reports「AI tutoring outperforms in-class active learning」。
European Commission & OECD (2025). AI Literacy Framework for Primary and Secondary Education.
Doshi, A. & Hauser, O. (2024). Science Advances——GenAI 與個人創意及群體多樣性。