主題方法設計綜整討論

114-2 · 人工智慧的應用與教育 · 文獻導讀

個別化回饋

Personalised Feedback in the Age of Generative AI
當 LLM 走進教室，回饋這件事還是教師的工作嗎？

10 篇近三年（2023–2025）實證與綜論文獻｜課堂導讀
資料來源：Scopus 跨源驗證（Scopus + CrossRef + OpenAlex + Semantic Scholar）

01 / 30

主題方法設計綜整討論

Why this topic now

回饋是學習科學裡效應量最高的
少數介入之一——但長期難以個別化

學理基礎　Hattie & Timperley (2007) 指出回饋對學習成效的影響在所有教學介入中排名前列；Shute (2008) 進一步將「formative feedback」拆解為降低不確定性、減低認知負荷、提供修正資訊三大機制。
實務瓶頸　高品質、個別化、即時的回饋對教師時間與專業要求極高；尤其在大班制與 MOOC 興起後，「每位學生都收到專屬回饋」幾乎是不可能的任務。
典範轉移　從早期 AWE（Grammarly、Pigai）到 ITS，自動回饋多侷限於拼字、語法、表面。LLM 之後——自然語言、跨學科、近乎即時的回饋第一次在工程上變得可行。
核心爭議　LLM 寫得出「好的回饋」嗎？學生信任嗎？真的有效嗎？「個別化」究竟是更貼近學生，還是更貼近文字？

在你的學科裡，學生最常抱怨什麼樣的回饋？「太晚」、「太短」、「太抽象」、還是「我不確定他指的是哪一段」？

02 / 30

主題方法設計綜整討論

本日路線圖

10 篇文獻、3 個提問

誰寫的回饋更好？　當 AI 與真人教師同台，回饋的數量、類型、學生信任、實際改善，孰勝？　（3 篇實證）
個別化回饋真的有效嗎？　從 meta-analysis 的整體效應量，到實證 RCT、適應性回饋、與 SRL 設計原則，看見「個別化」的多層次。　（4 篇）
在我的學科怎麼落地？　從程式教學的「不給答案」、物理的迷思命名，到高教情境的系統性回顧——當設計遇到課室，會做什麼妥協？　（3 篇）

每篇後會停一下：邊聽邊想——這個發現能不能搬進你下學期的課？

03 / 30

主題方法設計綜整討論

Part 1 · 三篇實證對照

AI 與真人教師回饋，
誰寫得更好？

三個學科情境（一般寫作、EFL 議論文、Java 程式作業）下，
比較 AI 與教師回饋的品質特徵、回饋類型、學生信任、實際改善。

04 / 30

主題方法設計綜整討論

Paper 1 · 寫作回饋品質的特徵對照

人類教師 vs ChatGPT，
誰寫的回饋比較「好」？

Learning and Instruction · 2024 · 343 cites

Comparing the quality of human and ChatGPT feedback of students' writing

Steiss, J., Tate, T. P., Graham, S., Cruz, J., Hebert, M., et al. (2024). Learning and Instruction, 91, 101894. https://doi.org/10.1016/j.learninstruc.2024.101894

核心問題　當教師與 ChatGPT 都針對同一份學生寫作給回饋，兩者在核心特徵（具體性、建設性、聚焦於寫作要素）上的品質差異是什麼？
為何要拆解　「好回饋」不是單一向度——必須先拆成具體性、優先順序、語氣、可行動性等可被觀察的特徵，才能對 AI 與人類做有意義的比較。
方法論意義　這篇樹立了「把回饋當作可被多向度評分的對象」的研究範式——後續論文（如 Guo & Wang、Er）都沿著這條軸延伸。

你會怎麼定義「好的寫作回饋」？至少寫出三個可被觀察的特徵。在你的學科裡，哪一個特徵最容易被 AI 滿足？哪一個最難？

05 / 30

主題方法設計綜整討論

Paper 2 · EFL 議論文寫作（一）研究設計

把同一批學生作文
同時交給 5 位老師與 ChatGPT 改

Education and Information Technologies · 2023 · 297 cites

To resist it or to embrace it? Examining ChatGPT's potential to support teacher feedback in EFL writing

Guo, K., & Wang, D. (2024). 29(6), 8435–8463. https://doi.org/10.1007/s10639-023-12146-0

50

中國大學生英語
議論文（B2–C1）

5

EFL 教師
（3–7 年教學經驗）

3

回饋向度：
內容、組織、語言

5

回饋類型：
directive、informative、
query、praise、summary

ChatGPT 每篇分三個 prompt 分別生成內容、組織、語言回饋；只取第一次輸出（不 re-roll）。教師 M 花了 305 分鐘改 10 篇——這就是「個別化回饋」的時間瓶頸。

06 / 30

主題方法設計綜整討論

Paper 2 · 主要結果（Mann–Whitney 檢定）

ChatGPT 給「指令式 + 讚美」，
教師給「資訊式 + 提問」

回饋類型	教師中位數	ChatGPT 中位數	方向（顯著）	效應 r
Directive（直接指令）	0.20	0.43	ChatGPT 顯著 >	−0.37 中
Informative（資訊解釋）	0.31	0.05	教師顯著 >	−0.30 中
Query（提問引導）	0.00	0.00	教師顯著 >	−0.20 小
Praise（讚美鼓勵）	0.15	0.38	ChatGPT 顯著 >	−0.21 小
＊上表為「內容向度」結果。組織與語言向度結果類似：ChatGPT 偏 directive、教師偏 informative/query。

ChatGPT 直接告訴學生「改成這樣」；教師用解釋與提問引導學生自己想——這背後是兩種教育哲學。
Biber et al. (2011) 顯示 directive 在該稿進步較大，但 Cho et al. (2006) 警告 directive 無法促成「跨稿、寫作行為的改變」。
ChatGPT 偶爾偏離 prompt（產生「off-task feedback」）、無法直接標記原文段落、辨認不出「離題」。

07 / 30

主題方法設計綜整討論

Paper 2 · 教師質性回應與教學啟示

老師眼中的 ChatGPT：
「是補位副稿手，不是替手」

老師欣賞的部分

補上「我來不及看的層面」（如組織、銜接）
大幅減輕時間與工作負擔
提醒老師：我自己是不是只看內容？
即時、量大、覆蓋全面

老師擔心的部分

不認識這個學生過去寫過什麼
沒有教學脈絡（這週上了什麼？）
回饋分類與老師不一致
無法判斷「離題」這種高階問題

「均勻」不必然等於「該被指出的事被指出」。權衡與優先順序，仍在人類教師——這正是學科專業的核心。

08 / 30

主題方法設計綜整討論

Paper 3 · Java 程式課堂 RCT（一）設計

在真實程式課裡
隨機指派：教師 vs AI 回饋

British Journal of Educational Technology · 2025

Assessing student perceptions and use of instructor versus AI-generated feedback

Er, E., Akçapınar, G., Bayazıt, A., Noroozi, O., & Banihashem, S. K. (2025). BJET. https://doi.org/10.1111/bjet.13558

研究缺口　既有研究多停在「學生自陳感受」，少看「學生實際拿回饋後是否真的改得更好」。本研究兩者都量。
實驗設計　Java 程式課，學生隨機分派到兩條件，使用同一份 rubric。拿到回饋後修正作業，比較感受量表與實際成績進步。
關鍵變項　Feedback Perceptions Scale 量四向度：usefulness（有用度）、fairness（公平）、developmental（發展性）、encouraging（鼓勵性）；實際成效以 lab 作業進步量計算（控制起點程度）。

同 rubric 是關鍵——避免「AI 回饋因為沒有 rubric 而看起來比較廣」的混淆。這是過去 AI 回饋研究最常被質疑的設計弱點。

09 / 30

主題方法設計綜整討論

Paper 3 · 結果：感受 ≠ 學習

學生覺得 AI 回饋「夠用」，
但真的改得更好的是拿到老師回饋的人

學生感受

有用度：教師 > AI（顯著）
公平：教師略高（n.s.）
發展性：教師略高（n.s.）
鼓勵性：教師略高（n.s.）
兩種回饋都被認為「正向」

實際學習表現

教師組 lab 進步顯著高於 AI 組
控制起點程度後差異仍存在
「感受 ≠ 學習」首次在真實課堂被量化
作者結論：AI 模型需教學情境訓練

小心「自動化幻覺」：學生覺得有幫助 ≠ 學生真的學得更好。滿意度量表不能取代學習成效的測量。

10 / 30

主題方法設計綜整討論

Section 01 · 小結

「誰寫得更好」的答案：
取決於你拿什麼指標衡量

回饋數量　AI 全面領先，且分佈均衡——這是「大班個別化」最直接的工程解。
回饋類型　AI 偏 directive + praise；教師偏 informative + query——背後是「給魚還是教釣魚」的教學哲學差異。
專業精準度　教師能識別「論證鬆動、組織失衡、離題」等高階問題，並能配合學生過往、課程脈絡調整——這目前 AI 做不到。
實際改善　Er 等人在程式課的證據顯示：教師回饋帶來顯著更大的進步，即使學生兩者都覺得 OK。

不是要在「AI 取代教師」或「教師取代 AI」中選邊站，
而是問：哪一段回饋工作交給 AI，會讓老師更專注在重要的判斷上？

11 / 30

主題方法設計綜整討論

Part 2 · 四篇實證與綜整

個別化回饋
真的能提升學習嗎？

從 meta-analysis 的整體效應量、ENL 雙研究、師資生診斷推理任務、到 SRL 設計原則——
當我們把鏡頭拉遠，「個別化」這個詞究竟意味著什麼？

12 / 30

主題方法設計綜整討論

Paper 4 · Meta-analysis（一）方法

把十年的自動寫作回饋研究
放進三層隨機效果模型

Frontiers in Artificial Intelligence · 2023

Automated feedback and writing: a multi-level meta-analysis of effects on students' performance

Fleckenstein, J., Liebenow, L. W., & Meyer, J. (2023). 6, 1162454. https://doi.org/10.3389/frai.2023.1162454

4,462

初步檢索文獻數
（5 個資料庫）

20

最終納入的
(quasi-)實驗研究

84

效應量 k
（同研究多筆）

2,828

學生樣本總數 N

方法亮點：使用 ASReview（機器學習輔助）篩選 abstract，把篩選工作量降到 40% 但保留 95% 偵測率；改用 Hedges' g（修正小樣本偏誤）；採三層隨機效果模型搭配 RVE（cluster-robust）處理多筆 ES 的依賴性。

13 / 30

主題方法設計綜整討論

Paper 4 · 結果（二）

g = 0.55（中度效應），
但異質性顯著，子群比較全部不顯著

整體效應　AWE 自動回饋對寫作表現有中度正向效應 g ≈ 0.55，方向穩定。
關鍵警示　各 moderator——教育階段（高中 vs 大學）、語言狀態（L1 vs L2）、介入時長（短 vs 長）、控制組類型（無回饋／教師／同儕／其他 AWE）、量測時點（即時 vs follow-up）、結果類型（修稿 vs 新題）——沒有任何子群比較達顯著。
真正的訊息　不是「自動回饋有效」，而是「自動回饋不是一致的介入」。同樣叫 AWE，做法天差地遠——結論不能照搬。

當你下次讀到「研究證實 AI 回饋有效」時，先問：樣本是 L1 還是 L2？介入幾週？對照組是無回饋還是教師？測的是改稿還是新題？這些細節決定一切。

14 / 30

主題方法設計綜整討論

Paper 5 · ENL 大學生雙研究

GPT-4 與真人導師：
學習成效「沒差」、偏好「五五波」

International Journal of Educational Technology in Higher Education · 2023 · 421 cites

AI-generated feedback on writing: insights into efficacy and ENL student preference

Escalante, J., Pack, A., & Barrett, A. (2023). 20:57. https://doi.org/10.1186/s41239-023-00425-2

Study 1（n = 48 · 6 週 quasi-experimental）

實驗組：GPT-4 寫作回饋
控制組：真人 tutor 回饋
重複測量比較學習成效
結果：兩組學習成效無差異

Study 2（n = 43 · 偏好調查）

學生同時體驗兩種回饋
偏好分布幾乎五五波
AI 優：即時、覆蓋廣、可重問
真人優：脈絡敏感、語氣鼓勵

作者建議 blended approach——把 AI 的即時 + 廣度與真人的脈絡 + 關係縫起來，不要逼老師或學生二選一。

15 / 30

主題方法設計綜整討論

Paper 6 · 師資生診斷推理

把回饋從「靜態」升級到「適應性」：
看你寫了什麼，它才回應

Computers and Education: Artificial Intelligence · 2024

Effects of adaptive feedback generated by a large language model: A case study in teacher education

Kinder, A., Briese, F. J., Jacobs, M., Dern, N., et al. (2024). CAEAI, 100349. https://doi.org/10.1016/j.caeai.2024.100349

樣本　269 位德國師資生，在師培課的「診斷推理寫作任務」中接受回饋。診斷推理是教師臨床思考的核心能力。
實驗　學生隨機分派：ChatGPT 適應性回饋 vs 研究團隊事先準備的靜態回饋。
觀察指標　(1) 診斷推理表現　(2) 學生對回饋的主觀評價　(3) 回饋處理時間（反映認知負荷）。

適應性 ≠ 個別化。適應性 (adaptive) 指「回饋會看你寫的內容調整」；個別化 (individualised) 是「看你的學習史調整」；SRL-aligned 是「看你的學習階段調整」——三個尺度差很多，技術門檻也差很多。

16 / 30

主題方法設計綜整討論

Paper 7 · 教學設計原則

用 AI Chatbot 支援自我調整學習：
目標設定 × 回饋 × 個別化

Sustainability · 2023 · 294 cites

Educational Design Principles of Using AI Chatbot That Supports Self-Regulated Learning in Education: Goal Setting, Feedback, and Personalization

Chang, D. H., Lin, M. P., Hajian, S., & Wang, Q. Q. (2023). 15(17), 12921. https://doi.org/10.3390/su151712921

立場轉換　不把 ChatGPT 當「學業不端的源頭」來防堵，而是當作促進自我調整學習的教學夥伴來設計——這是後續所有應用研究的起手式。
三大原則　(1) Goal Setting：協助學生明確化學習目標；(2) Feedback：持續、針對性、可行動；(3) Personalization：依個體進度、興趣、知識背景調整。
SRL 三階段對位　把 AI 對話嵌進 forethought → performance → self-reflection——回饋不再是「批改」，而是學習對話。

能落地的版本：把 AI 設計成「先設目標 → 引導行動 → 寫作後引導反思」，不要等學生寫完才介入。

17 / 30

主題方法設計綜整討論

Section 02 · 小結

「個別化回饋有效嗎？」
—— 有效，但極度依條件

整體效應穩但異質　Fleckenstein meta-analysis 顯示 g ≈ 0.55，方向正向；但子群分析全部不顯著——別把「有效」當成普遍真理。
學習 vs 偏好可分離　兩者不一定一起走：Escalante 顯示成效相當時偏好可以五五波；Er 顯示「偏好相當」時學習成效仍可以拉開——該追哪個由教學目標決定。
「個別化」可細分為三層　依文字適應（adaptive）→ 依學習史個別化（individualised）→ 依學習階段對齊（SRL-aligned）——複雜度與資料需求遞增。
設計重於工具　Chang 等人提醒：AI 是SRL 教學設計的元件，不是替代教學設計的捷徑。沒有設計，工具只是放大原本的盲點。

18 / 30

主題方法設計綜整討論

Part 3 · 三篇學科實務

把 AI 回饋
放進真實的教室

CHI 程式教學「不直接給答案」的克制設計、物理大班級的迷思命名回饋、
與高教情境的系統性回顧——當設計遇到課室，會做什麼妥協？

19 / 30

主題方法設計綜整討論

Paper 8 · CHI 2024 · 一學期實地部署

CodeAid：
對的回答，但刻意不給程式碼

CHI Conference on Human Factors in Computing Systems · 2024 · 185 cites

CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs

Kazemitabaar, M., Ye, R., Wang, X., et al. (2024). Proc. CHI 2024. https://doi.org/10.1145/3613904.3642773

設計哲學　LLM 助教必須技術上正確，但被刻意設計成「不揭露完整程式碼解答」——避免學生跳過認知參與，直接抄答案。
三種能力　(1) 回答概念問題（無需學生程式碼）　(2) 對學生已寫的程式碼給說明性 hints　(3) 提供風格、debug 線索與抽象問題的指引。
雙利害關係人　同時兼顧學生（即時、永遠在線、低焦慮）與教師（不破壞既有教學設計、不挖學生獨立思考能力）。

CodeAid 的真正貢獻不在「LLM 答得對」（這已經不是競爭點），而在「設計一個會克制的對話介面」——克制比能力更難。

20 / 30

主題方法設計綜整討論

Paper 9 · 物理大班級概念題回饋

用 GPT-3.5 + Prompt Engineering
為大班物理寫評語

Physical Review Physics Education Research · 2024 · 79 cites

Exploring generative AI assisted feedback writing for students' written responses to a physics conceptual question with prompt engineering and few-shot learning

Wan, T., & Chen, Z. (2024). PRPER, 20, 010152. https://doi.org/10.1103/PhysRevPhysEducRes.20.010152

痛點　大班物理裡，教師對學生文字答題的個別化評語幾乎不可行；過去自動評分多只能給「對／錯」，無法命名迷思。
兩階段研究　Stage I：用小樣本（n ≈ 20）建立 prompt 與 few-shot 範例；Stage II：在更大樣本評估回饋品質與一致性。
學科洞察　物理概念題的「錯」常牽涉頑強的迷思概念（如力與運動）——回饋不是改錯字，而是要命名迷思、引導重構。對 LLM 提示設計提出更高要求。

在你的學科裡，最頑固的學生迷思是什麼？想像一個「能精準命名這個迷思並引導學生重構的」AI 回饋會長什麼樣子？

21 / 30

主題方法設計綜整討論

Paper 10 · 高教情境系統性回顧（一）

10 篇 Q1/Q2 期刊文章
呈現的 4 種教學情境

Online Learning Journal · 2024 · 95 cites

Harnessing Generative AI (GenAI) for Automated Feedback in Higher Education: A Systematic Review

Lee, S. S., & Moore, R. L. (2024). 28(3), 82–104. https://doi.org/10.24059/olj.v28i3.4593

教學情境	納入研究	典型用法
語言學習	Escalante (2023)；J. Li (2023)	ENL 寫作、L2 中文 scaffolding
學術寫作	X. Li (2023)；Wambsganss (2022)	學期論文評估；商務寫作說服力
創意思考	Hu (2023)；Neo (2022)	寫作 self-efficacy、即時支援
STEM	Hobert & Berens；Jasin；Lee；Memmert	統計、化學、公共衛生、概念設計

方法：PRISMA + Q1/Q2 期刊過濾（SCImago 排名）。2,000 篇 → 142 篇 → 最終 10 篇——這是高教情境下 GenAI 回饋的首批高品質實證。

22 / 30

主題方法設計綜整討論

Paper 10 · 高教情境系統性回顧（二）

GenAI 自動回饋在高教的三大功能：
減壓 × 溝通 × 可及性

減輕教師例行批改負擔　把「看得完但看不深」的工作交給 AI（拼字、結構、表面建議），讓教師工時回到「設計、判斷、關係」。
強化溝通與情感支持　多篇研究顯示 GenAI 能在低焦慮的環境裡提供即時、個別化、不會評斷的對話——對自我效能低落的學生特別有用。
提升可及性　全天候、跨時區、跨語言、不用排隊——這是 AI 在「大規模教育公平」面向上的真實貢獻。

GenAI 不取代教師，而是重新分配教師工作——讓教師回到「設計、判斷、關係」這些 AI 不擅長的核心。

23 / 30

主題方法設計綜整討論

Section 03 · 小結

從「會做」到「做得像個老師」

克制比能力更重要　CodeAid 故意不給程式碼——把學習腳手架放回設計裡。能不能讓 AI「忍住」直接給答案，是教學設計的關鍵分水嶺。
學科知識決定回饋品質　物理要命名迷思、語言要分層、程式要區分概念與語法——這不是 prompt 就能解決，需學科專家深度介入。
「自動化」的真實價值　不是「同樣的事做更快」，而是讓教師回到設計與判斷——這是 Lee & Moore 反覆強調的方向。
教師角色重定位　從批改者變成策展人：策展回饋、策展任務、策展學習對話。AI 是「能力」，教師是「品味」。

24 / 30

主題方法設計綜整討論

綜覽 · 10 篇論文一覽表

本日文獻地圖

主題	作者（年）	核心發現
AI vs 教師回饋品質	Steiss et al. (2024) L&I　343	比較人類與 ChatGPT 寫作回饋之品質特徵；建立多向度評分範式
	Guo & Wang (2023) EIT　297	ChatGPT 量大、偏 directive + praise；教師偏 informative + query
	Er et al. (2025) BJET　63	程式課 RCT：學生覺得教師回饋更有用、實際進步顯著更大
個別化回饋的學習效果	Fleckenstein et al. (2023) Frontiers in AI　93	Meta-analysis（k = 84, N = 2828）：g = 0.55；子群比較全部不顯著
	Escalante et al. (2023) IJET-HE　421	GPT-4 vs 真人 tutor 學習成效無差異；偏好五五波；建議 blended
	Kinder et al. (2024) CAEAI　36	269 師資生診斷推理：適應性 vs 靜態回饋的多面向比較
	Chang et al. (2023) Sustainability　294	AI 聊天機器人支援 SRL：goal-setting + feedback + personalization
學科實務與綜整	Kazemitabaar et al. (2024) CHI　185	CodeAid：技術正確但不給程式碼；學生 + 教師雙利害關係人設計
	Wan & Chen (2024) PRPER　79	物理概念題：prompt engineering + few-shot 寫個別化評語
	Lee & Moore (2024) OLJ　95	系統性回顧：減壓、溝通、可及性；重新分配教師工作

25 / 30

主題方法設計綜整討論

跨篇反思（一）方法論

讀這 10 篇要小心的
四個方法論陷阱

感受 ≠ 學習　Er 等人的 RCT 顯示：學生對 AI 回饋滿意度高，但學習成效顯著較差。只看自陳量表的研究要打折扣。
對照組是什麼　Fleckenstein 提醒：對照組是「無回饋」「教師」「同儕」「另一種 AWE」會得到非常不同的效應量——讀文獻時務必先看對照。
量測時點　即時測 vs 延後測常常不同；Cho et al. (2006) 警告 directive 在該稿進步大、但跨稿的寫作行為不會改變。
模型版本飄移　GPT-3.5、GPT-4、GPT-4o 表現差距巨大；2023 年的 ChatGPT 研究結論不能直接套用到 2025 年的工具。「時間」也是 moderator。

26 / 30

主題方法設計綜整討論

跨篇反思（二）四個設計選擇

真正決定回饋是否有用的
四條軸線

時機（When）　是答題後單向給？還是嵌入SRL 三階段？Chang 等人指出：把回饋移到「行動前、行動中、行動後」是設計的關鍵槓桿。
克制（Restraint）　給解答 vs 給線索。CodeAid 證明：能讓 AI「忍住」直接給答案，是教學設計成敗分水嶺。
個別化的尺度（Granularity）　依文字適應、依學習史個別化、依學科迷思命名——三層次背後的資料需求與技術門檻差很多。
角色再分配（Roles）　AI 接走量、廣度、即時性；教師握住判斷、關係、設計——10 篇都導向同一個結論。

當所有研究都在問「AI 能不能做」的時候，
真正值得問的是：「教師應該不再做什麼？」

27 / 30

主題方法設計綜整討論

課堂討論題（一）落地與設計

如果是你的課，
下學期會做什麼變動？

你的課堂裡，哪一段回饋工作應該留給 AI？哪一段絕對不能讓 AI 接？背後的判斷標準是什麼？
回饋的「個別化」對你而言指的是看文字、看學習史、還是看人？這三種對教學設計（資料、流程、權限）的要求差在哪？
回想 Er 等人的「感受 ≠ 學習」發現——你會用什麼具體指標來驗證 AI 回饋在你的課堂是否真的有效？（不能只用滿意度問卷）

分組討論（10 分鐘）：請選一題，先個別寫下想法，再小組交流。準備好用三句話分享你們的結論。

28 / 30

主題方法設計綜整討論

課堂討論題（二）與課後作業

兩個更尖銳的問題
＋下週帶來的作業

學生信任的轉移　如果學生改了一週後寫信來說「老師，我覺得 AI 給的回饋比較有用」，你會怎麼回應？這個情境會改變你下學期的課程設計嗎？
權力與責任　當回饋從教師移交給 AI，誰對學生的學習負責？誰來監督 AI 回饋的品質與偏誤？這在你的學校／系所目前有制度回應嗎？

課後作業　從這 10 篇選 1 篇你最不同意的論點，寫 300 字反論（包含一條替代假設與一項可驗證的具體指標），下週帶來課堂分享。

所有 DOI 與下載狀態請見 w_personalized_feedback/ 資料夾下的 dois.txt、xref.json、pdfs/。

29 / 30

主題方法設計綜整討論

收束

回饋從來不只是
「告訴你錯哪裡」。

回饋是教學裡最親密的一段對話——LLM 改寫了它的規模、速度與成本，
但有沒有改寫它的本質？這是接下來幾年我們會持續問的問題。

114-2 人工智慧的應用與教育｜文獻導讀
簡報 & 資料整理：Scopus 跨源驗證 + paper-downloader pipeline
感謝你今天的閱讀與思辨。

30 / 30

個別化回饋

回饋是學習科學裡效應量最高的少數介入之一——但長期難以個別化

10 篇文獻、3 個提問

AI 與真人教師回饋，誰寫得更好？

人類教師 vs ChatGPT，誰寫的回饋比較「好」？

把同一批學生作文同時交給 5 位老師與 ChatGPT 改

ChatGPT 給「指令式 + 讚美」，教師給「資訊式 + 提問」

老師眼中的 ChatGPT：「是補位副稿手，不是替手」

老師欣賞的部分

老師擔心的部分

在真實程式課裡隨機指派：教師 vs AI 回饋

學生覺得 AI 回饋「夠用」，但真的改得更好的是拿到老師回饋的人

學生感受

實際學習表現

「誰寫得更好」的答案：取決於你拿什麼指標衡量

個別化回饋真的能提升學習嗎？

把十年的自動寫作回饋研究放進三層隨機效果模型

g = 0.55（中度效應），但異質性顯著，子群比較全部不顯著

GPT-4 與真人導師：學習成效「沒差」、偏好「五五波」

Study 1（n = 48 · 6 週 quasi-experimental）

Study 2（n = 43 · 偏好調查）

把回饋從「靜態」升級到「適應性」：看你寫了什麼，它才回應

用 AI Chatbot 支援自我調整學習：目標設定 × 回饋 × 個別化

「個別化回饋有效嗎？」—— 有效，但極度依條件

把 AI 回饋放進真實的教室

CodeAid：對的回答，但刻意不給程式碼

用 GPT-3.5 + Prompt Engineering為大班物理寫評語

10 篇 Q1/Q2 期刊文章呈現的 4 種教學情境

GenAI 自動回饋在高教的三大功能：減壓 × 溝通 × 可及性

從「會做」到「做得像個老師」

本日文獻地圖

讀這 10 篇要小心的四個方法論陷阱

真正決定回饋是否有用的四條軸線

如果是你的課，下學期會做什麼變動？

兩個更尖銳的問題＋ 下週帶來的作業

回饋從來不只是「告訴你錯哪裡」。

回饋是學習科學裡效應量最高的
少數介入之一——但長期難以個別化

AI 與真人教師回饋，
誰寫得更好？

人類教師 vs ChatGPT，
誰寫的回饋比較「好」？

把同一批學生作文
同時交給 5 位老師與 ChatGPT 改

ChatGPT 給「指令式 + 讚美」，
教師給「資訊式 + 提問」

老師眼中的 ChatGPT：
「是補位副稿手，不是替手」

在真實程式課裡
隨機指派：教師 vs AI 回饋

學生覺得 AI 回饋「夠用」，
但真的改得更好的是拿到老師回饋的人

「誰寫得更好」的答案：
取決於你拿什麼指標衡量

個別化回饋
真的能提升學習嗎？

把十年的自動寫作回饋研究
放進三層隨機效果模型

g = 0.55（中度效應），
但異質性顯著，子群比較全部不顯著

GPT-4 與真人導師：
學習成效「沒差」、偏好「五五波」

把回饋從「靜態」升級到「適應性」：
看你寫了什麼，它才回應

用 AI Chatbot 支援自我調整學習：
目標設定 × 回饋 × 個別化

「個別化回饋有效嗎？」
—— 有效，但極度依條件

把 AI 回饋
放進真實的教室

CodeAid：
對的回答，但刻意不給程式碼

用 GPT-3.5 + Prompt Engineering
為大班物理寫評語

10 篇 Q1/Q2 期刊文章
呈現的 4 種教學情境

GenAI 自動回饋在高教的三大功能：
減壓 × 溝通 × 可及性

讀這 10 篇要小心的
四個方法論陷阱

真正決定回饋是否有用的
四條軸線

如果是你的課，
下學期會做什麼變動？

兩個更尖銳的問題
＋下週帶來的作業

回饋從來不只是
「告訴你錯哪裡」。