среда, 1 июля 2026 г.

Обережно - ШІ

 В галузі штучного інтелекту в освіті (AIED) активно досліджують вплив ШІ — особливо генеративного ШІ — на навчальні результати, але якість і ретельність більшості досліджень викликають серйозні сумніви. Хвиля досліджень і мета-аналізів шукала статистично значущі свідчення користі ШІ, проте багато з них страждають від методологічних недоліків, що підривають їхні висновки. Прикладом є стаття SpringerNature 2025 року, яка стверджувала суттєві позитивні ефекти ChatGPT — статтю відкликали через проблеми з її доброчесністю; втім, її результати вже встигли широко поширитися в соціальних мережах і цитуватися в подальших роботах. Ця одна рецензія вказує на ширшу, системну проблему, а не на поодиноку помилку.

Переважний підхід — медіа-порівняльні експерименти, які порівнюють умови з ШІ та контрольні групи — постачають дані для мета-аналізів. Однак нещодавні  критики показали, що багато первинних досліджень не підтримують методологічний контроль, не узгоджують інструктивні умови між експериментом і контролем, спираються на малі або погано описані вибірки та змішують різнорідні показники, видаючи їх усіх за «навчальні результати». Еліса Лоусон і колеги проаналізували два мета-огляди щодо ефектів ChatGPT і дійшли висновку, що більшість досліджень не порівнювали порівнянні інструктивні умови; отже, повідомлені покращення успішності не можна впевнено приписати самому ШІ замість інструкційних практик, що супроводжували його використання.

Ширший контроль підтверджує ці проблеми. Франтішек Бартош та співавтори провели «мета-мета-аналіз» майже 70 мета-аналізів щодо впливу ШІ на навчання й виявили поширений публікаційний упередженість, велику гетерогенність між дослідженнями та недостатню діагностичну силу для формулювання конкретних рекомендацій щодо практики чи політики. Огляд Патріка O’Ніла показав системні помилки: статистика застосовувалася чи інтерпретувалася неправильно, конструкти були непослідовними, оцінка публікаційного упередження — недостатньою, а гетерогенність — значною. У підсумку автори називають ситуацію «хронічним методологічним провалом». Разом ці критичні оцінки стверджують, що мета-аналізи AIED часто штучно створюють упевненість, агрегуючи гетерогенну, вибірково позитивну та слабко перевірену доказову базу.

Критики у самій галузі називають багато таких робіт «швидкою наукою»: поспішні, автоматизовані синтези і прагнення швидких публікацій переважають над ретельним дизайном, етичною оцінкою та нюансованою інтерпретацією. Хелен Біtham та інші попереджають, що дослідники, прагнучи «поспіти за хвилею», надто покладаються на числові дані й автоматизовані інструменти, створюючи спрощені наративи, які ігнорують глибші питання якості. Наслідок — екосистема доказів, що нібито підтримує чіткі політичні рішення, але насправді є ненадійною.

Ця системна слабкість ризикує відсунути академічну AIED як довірене джерело політично значущих доказів. Натомість великим технологічним компаніям — які вже проводять власні рандомізовані випробування і розробляють внутрішні інструменти вимірювання — може дістатися роль основних виробників «надійних» доказів. Корпоративні результати, підкріплені потужним PR та комерційними інтересами, можуть значно впливати на рішення в секторі освіти навіть за слабкої незалежної академічної перевірки.

Відкликання статті про ефекти ChatGPT сигналізує про зростання контролю й підзвітності, але ширші критичні аналізи показують, що проблеми залишаються серйозними. Якщо дослідники AIED не підвищать методологічні стандарти — шляхом ретельного експериментального дизайну, прозорого звітування, коректних контрольних умов та суворого синтезу — твердження про каузальні впливи ШІ на навчання залишаться сумнівними, а поле ризикує поступитися впливом корпоративним суб’єктам з комерційно мотивованими доказами.

https://codeactsineducation.wordpress.com/2026/06/26/the-problem-with-evidence-production-on-ai-in-education/