Переважний підхід — медіа-порівняльні експерименти, які порівнюють умови з ШІ та контрольні групи — постачають дані для мета-аналізів. Однак нещодавні критики показали, що багато первинних досліджень не підтримують методологічний контроль, не узгоджують інструктивні умови між експериментом і контролем, спираються на малі або погано описані вибірки та змішують різнорідні показники, видаючи їх усіх за «навчальні результати». Еліса Лоусон і колеги проаналізували два мета-огляди щодо ефектів ChatGPT і дійшли висновку, що більшість досліджень не порівнювали порівнянні інструктивні умови; отже, повідомлені покращення успішності не можна впевнено приписати самому ШІ замість інструкційних практик, що супроводжували його використання.
Ширший контроль підтверджує ці проблеми. Франтішек Бартош та співавтори провели «мета-мета-аналіз» майже 70 мета-аналізів щодо впливу ШІ на навчання й виявили поширений публікаційний упередженість, велику гетерогенність між дослідженнями та недостатню діагностичну силу для формулювання конкретних рекомендацій щодо практики чи політики. Огляд Патріка O’Ніла показав системні помилки: статистика застосовувалася чи інтерпретувалася неправильно, конструкти були непослідовними, оцінка публікаційного упередження — недостатньою, а гетерогенність — значною. У підсумку автори називають ситуацію «хронічним методологічним провалом». Разом ці критичні оцінки стверджують, що мета-аналізи AIED часто штучно створюють упевненість, агрегуючи гетерогенну, вибірково позитивну та слабко перевірену доказову базу.
Критики у самій галузі називають багато таких робіт «швидкою наукою»: поспішні, автоматизовані синтези і прагнення швидких публікацій переважають над ретельним дизайном, етичною оцінкою та нюансованою інтерпретацією. Хелен Біtham та інші попереджають, що дослідники, прагнучи «поспіти за хвилею», надто покладаються на числові дані й автоматизовані інструменти, створюючи спрощені наративи, які ігнорують глибші питання якості. Наслідок — екосистема доказів, що нібито підтримує чіткі політичні рішення, але насправді є ненадійною.
Ця системна слабкість ризикує відсунути академічну AIED як довірене джерело політично значущих доказів. Натомість великим технологічним компаніям — які вже проводять власні рандомізовані випробування і розробляють внутрішні інструменти вимірювання — може дістатися роль основних виробників «надійних» доказів. Корпоративні результати, підкріплені потужним PR та комерційними інтересами, можуть значно впливати на рішення в секторі освіти навіть за слабкої незалежної академічної перевірки.
Відкликання статті про ефекти ChatGPT сигналізує про зростання контролю й підзвітності, але ширші критичні аналізи показують, що проблеми залишаються серйозними. Якщо дослідники AIED не підвищать методологічні стандарти — шляхом ретельного експериментального дизайну, прозорого звітування, коректних контрольних умов та суворого синтезу — твердження про каузальні впливи ШІ на навчання залишаться сумнівними, а поле ризикує поступитися впливом корпоративним суб’єктам з комерційно мотивованими доказами.
https://codeactsineducation.wordpress.com/2026/06/26/the-problem-with-evidence-production-on-ai-in-education/