Visual computing to zbiór metod obliczeniowych i algorytmicznych służących do pozyskiwania, przetwarzania, analizowania, syntezy i rozumienia danych wizualnych, takich jak obrazy, filmy czy sceny 3D. Dziedzina ta łączy zagadnienia z zakresu widzenia komputerowego, grafiki komputerowej, rzeczywistości wirtualnej i rozszerzonej oraz analizy wizualnej danych. Wyróżnia się na tle innych technologii koncentracją na rozumieniu i generowaniu treści wizualnych, wykorzystując sztuczną inteligencję, geometrię algorytmiczną i modele percepcji człowieka. Visual computing działa w oparciu o modele matematyczne, algorytmy uczenia maszynowego i techniki renderowania, przekształcając surowe sygnały wizualne w reprezentacje użyteczne dla maszyn lub ludzi.

Przykłady zastosowań

Visual computing znajduje zastosowanie m.in. w detekcji obiektów i rozpoznawaniu twarzy w monitoringu wizyjnym, rekonstrukcji 3D w architekturze i medycynie, syntezie obrazów do efektów specjalnych w filmach, wizualizacji danych naukowych czy w interfejsach VR i AR. Systemy autonomicznej jazdy wykorzystują visual computing do interpretacji otoczenia w czasie rzeczywistym.

Najważniejsze narzędzia, biblioteki, frameworki

Do najważniejszych narzędzi należą: OpenCV (otwartoźródłowa biblioteka do widzenia komputerowego), TensorFlow i PyTorch (do trenowania modeli deep learning na obrazach), Blender i Unity (do syntezy obrazów i VR), a także VTK (Visualization Toolkit) do wizualizacji naukowej. Popularne są również frameworki takie jak Open3D, PCL (Point Cloud Library) oraz Unreal Engine.

Najnowsze trendy i rozwój

Do najnowszych osiągnięć należy integracja generatywnych modeli deep learning (diffusion, GAN) w syntezie obrazów i wideo, udoskonalone architektury konwolucyjne 3D do rozumienia przestrzennego oraz wykorzystanie AI w kompresji i super-rozdzielczości obrazu. Trendy to m.in. fuzja multimodalna (łączenie tekstu, obrazu, dźwięku), wyjaśnialna AI dla systemów wizyjnych oraz optymalizacja w czasie rzeczywistym na potrzeby edge computingu.