В ходе нового исследования, проведенного Адрианом Барнеттом и его командой из Квинслендского технологического университета, было установлено, что множество моделей искусственного интеллекта, предназначенных для прогнозирования инсульта и диабета, обучены на сомнительных данных. Обнаружив 124 рецензируемые статьи, исследователи указали на два общедоступных набора медицинских данных с неясным происхождением.
Первый набор, загруженный на платформу Kaggle, содержит данные о здоровье 5 110 человек и был использован в 104 исследованиях. Однако в нем практически отсутствуют пропуски, что вызывает подозрения, так как в реальных данных всегда есть пробелы. Второй набор, связанный с диабетом, включает информацию о 100 000 человек, но команда обнаружила лишь 18 уникальных значений уровня глюкозы, что также считается нереалистичным.
Исследователи подчеркивают, что такие ненадежные данные могут привести к ошибочным диагнозам. Журнал Scientific Reports уже отозвал три статьи, связанные с данными из этих наборов. Пресс-служба Kaggle пока не прокомментировала ситуацию.