Data science (nauka o danych) to interdyscyplinarna dziedzina zajmująca się pozyskiwaniem wiedzy i istotnych informacji z surowych, strukturyzowanych lub niestrukturyzowanych danych poprzez łączenie kompetencji z zakresu statystyki, informatyki, matematyki oraz wiedzy domenowej. Od klasycznej analizy danych odróżnia ją zdolność do pracy z bardzo dużymi zbiorami danych (big data), automatyzacji analiz przy użyciu zaawansowanych algorytmów oraz budowy modeli predykcyjnych i preskrypcyjnych. Typowy proces obejmuje zbieranie, czyszczenie, eksplorację, modelowanie i interpretację danych, często w połączeniu ze sztuczną inteligencją i uczeniem maszynowym.

Przykłady zastosowań

Nauka o danych jest szeroko stosowana w wykrywaniu oszustw bankowych, personalizacji rekomendacji (np. na platformach streamingowych lub w e-commerce), optymalizacji przemysłowej (predykcyjne utrzymanie ruchu, zarządzanie łańcuchem dostaw), analizie sentymentu w mediach społecznościowych czy w medycynie spersonalizowanej. Pozwala także prognozować trendy rynkowe i optymalizować kampanie marketingowe przez analizę zachowań.

Narzędzia, biblioteki i frameworki

Do głównych narzędzi należą języki Python i R oraz biblioteki takie jak Pandas, NumPy, Scikit-learn, TensorFlow, PyTorch. Wykorzystywane są także platformy Apache Spark, Hadoop, Databricks oraz narzędzia wizualizacyjne jak Tableau i Power BI. Jupyter Notebook jest popularnym środowiskiem do prototypowania i dokumentowania analiz.

Najnowsze trendy i kierunki rozwoju

Nauka o danych dynamicznie się rozwija dzięki generatywnej sztucznej inteligencji, automatyzacji workflow (AutoML) oraz integracji deep learningu do analizy danych nieustrukturyzowanych (obrazy, tekst, wideo). Rosnące znaczenie mają zagadnienia ładu danych, etyki, jakości i suwerenności danych. Chmura obliczeniowa ułatwia skalowanie i współpracę przy projektach data science.