Data mining (добування даних) — це сукупність методів для автоматичного видобування релевантної інформації, трендів або шаблонів із великих масивів даних. Вона поєднує статистичні, машинне навчання, інформатику та управління базами даних. На відміну від класичної описової аналітики, data mining спрямований на виявлення прихованих чи неочікуваних взаємозв'язків у даних, а також створення предиктивних або пояснювальних моделей. Процес зазвичай включає підготовку даних, вибір змінних, застосування алгоритмів та інтерпретацію результатів. Data mining відрізняється від машинного навчання акцентом на дослідженні та виявленні, а не лише на прогнозуванні.

Сфери застосування та приклади

Data mining широко використовують у маркетингу для сегментації клієнтів, прогнозування поведінки покупців, персоналізованих рекомендацій. У фінансах — для виявлення шахрайства та оцінки кредитних ризиків. У медицині — для ідентифікації факторів ризику та оптимізації маршрутів лікування. Додаткові застосування: аналіз текстів, соціальних мереж, виявлення аномалій у кібербезпеці, аналіз часових рядів в промисловості.

Основні програмні засоби, бібліотеки, фреймворки

Серед основних інструментів — RapidMiner, KNIME, WEKA. Широко використовуються Python (з бібліотеками scikit-learn, pandas) та R (caret, arules). Корпоративні рішення — SAS Enterprise Miner, IBM SPSS Modeler, а також хмарні платформи: Azure Machine Learning, Google Cloud AutoML.

Останні розробки, тенденції та еволюція

Data mining розвивається разом із зростанням big data і хмарних обчислень, що дає змогу аналізувати великі та різноманітні дані. Інтеграція deep learning дозволяє знаходити складніші шаблони. Автоматизація (AutoML) спрощує доступ до технологій. Все більший вплив мають етичні й регуляторні питання, зокрема щодо захисту даних.