Veille
Benchmark / évaluation
À la une en ce moment

GPT plus confiant sur les tâches difficiles où il se trompe le plus, selon un preprint USC/Berkeley
26/05

Avec LARA, le risque réglementaire des LLM devient une pièce d'audit pour les DPO
08/06
Benchmark / évaluation · arXiv
ContextEcho : la compaction ne corrige pas la dérive de persona, benchmark sur 23 modèles
26/05
Les intemporels

Selon une étude de la Bank of America, 3 milliards de robots humanoïdes seront en service en 2060
14/03
Retour sur GAIA, le benchmark visant à évaluer les assistants d'IA
19/12
Google News Initiative : Des éditeurs rémunérés par Google pour tester ses outils GenAI dédiés aux journalistes
04/03
Intelligence Artificielle Générale : Google DeepMind propose un cadre pour classer les capacités et le comportement des IAG
22/01
AMD dévoile les premiers résultats des GPU Instinct MI300X sur les benchmarks MLPerf Inference v4.1
29/08
Après les Etats-Unis, Meta fait le choix de tester son chatbot en Inde et certains pays d'Afrique
16/04
Tout le fil
16 au total
ATLAS se réinvente en électrique : Boston Dynamics promet des performances accrues
18/04

Le Wordcraft Writers Workshop évalue Wordcraft, l'outil d'aide à la création littéraire de Google
21/11

Une étude analyse le lien entre le score esthétique attribué aux poissons coralliens et leur statut de conservation grâce aux CNN
25/07

Vision par ordinateur : Reconnaître les objets plus rapidement et plus précisément grâce aux CNN
20/07
Vietnam : le pays ambitionne d'être dans le top 4 ASEAN et dans le top 50 mondial d'ici 2030 en matière d'IA
24/09
Un modèle deep learning d’Alibaba fait ses preuves dans le Global Machine Understanding Test
08/07
Des chercheurs NVIDIA mettent au point un GAN exploitant le transfert de style pour un contrôle fin du résultat
17/12
Autres types d'actu
Programme public / AAPRecherche & scienceFinancementSécurité & incidentFusion-acquisitionSortie de modèleLancement produitPartenariatProgramme public / appel à projetsRégulation & gouvernanceContentieuxRecherche & scienceDéploiement & adoptionInfrastructure & computeCorporate & stratégieSécurité & incidentRapport & étudeÉvénement