Mistral AI кидає виклик DeepSeek з Magistral, своєю першою моделлю розширеного міркування
Наприкінці січня, коли всі зосередили увагу на DeepSeek і його моделі R1, Mistral AI тихо представила Small 3, оголосивши про майбутній вихід моделей...
DeepSeek, китайський стартап, заснований у травні 2023 року в Ханчжоу, швидко зарекомендував себе як провідний гравець у сфері штучного інтелекту (ШІ) і, зокрема, у галузі великих мовних моделей (LLM). Дочірня компанія хедж-фонду High-Flyer, DeepSeek очолюється Лян Веньфенгом і має на меті конкурувати з американськими гігантами ШІ, пропонуючи інноваційні та конкурентоспроможні рішення з відкритим кодом.
DeepSeek спеціалізується на розробці великих мовних моделей, здатних виконувати складні завдання завдяки розвиненим можливостям міркування. З моменту свого запуску компанія представила кілька помітних моделей, зокрема DeepSeek-V3, модель з 671 мільярдом параметрів, яка була попередньо навчена на великому наборі даних і відзначається своєю продуктивністю та значно зниженими витратами на навчання. Ця модель конкурує з найкращими американськими моделями, такими як GPT-4o або Claude 3.5 Sonnet, незважаючи на обмежені апаратні ресурси.
У січні 2025 року DeepSeek викликала сенсацію запуском DeepSeek-R1, моделі першого покоління для міркувань, яка порушила технологічну екосистему завдяки своїм вражаючим показникам і зниженим витратам на навчання. Ця модель була швидко прийнята китайською автомобільною промисловістю для застосувань у допомозі водіям та покращеній взаємодії між водіями та транспортними засобами.
DeepSeek продовжує змагатися з технологічними гігантами, регулярно оновлюючи свої моделі. У травні 2025 року компанія запустила оновлення своєї моделі DeepSeek-R1, назване DeepSeek-R1-0528, покращуючи її можливості міркування, логіки, математики та програмування. Це оновлення дозволяє DeepSeek наблизитися до продуктивності провідних моделей OpenAI та Google, одночасно підвищуючи надійність своїх відповідей завдяки значному зниженню рівня галюцинацій.
Паралельно, DeepSeek розпочала процес дистиляції своїх моделей до легших версій, щоб зробити свої рішення доступними для ширшої аудиторії, зокрема для розробників з обмеженими апаратними ресурсами. Ця стратегія спрямована на демократизацію доступу до розвинених можливостей міркування без необхідності в дорогій інфраструктурі.
DeepSeek зарекомендувала себе як серйозна альтернатива американським пропрієтарним рішенням, завдяки своєму підходу з відкритим кодом, який сприяє колаборативним інноваціям. Публікуючи свої моделі під ліцензією MIT, компанія дозволяє спільноті дослідників і розробників вільно отримувати доступ до своїх технологій, стимулюючи інновації та розвиток екосистеми ШІ з відкритим кодом.
Стартап також користується підтримкою китайського уряду, який бачить у ньому ключовий вектор для досягнення технологічної самодостатності на тлі американських обмежень на експорт стратегічних компонентів. DeepSeek вписується в національну стратегію Китаю, спрямовану на те, щоб стати світовим лідером у сфері ШІ до 2030 року.
DeepSeek нещодавно опинилася в центрі уваги через тимчасове призупинення роботи свого чат-бота в Південній Кореї через занепокоєння, пов'язані з конфіденційністю даних. Хоча це підкреслило певні регуляторні виклики, це не зупинило ентузіазм навколо її технологій, зокрема в Китаї, де модель DeepSeek-R1 була масово прийнята в ключових секторах, таких як правосуддя, кібербезпека та державне управління.
Тим часом, як зростають чутки про неминучий запуск DeepSeek-R2, компанія, здається, добре позиціонована для продовження виклику американським гігантам і для того, щоб грати центральну роль у розвитку ШІ на глобальному рівні. Ця наступна модель має запропонувати розширену багатомовну підтримку та мультимодальні можливості, відкриваючи шлях до нових застосувань у створенні контенту та аналізі даних.
На завершення, DeepSeek вирізняється своєю здатністю швидко інновувати та пропонувати конкурентоспроможні рішення на ринку, де домінують технологічні гіганти, тим самим зміцнюючи позицію Китаю в глобальній гонці за штучним інтелектом.
8 articles liés à cet acteur
Наприкінці січня, коли всі зосередили увагу на DeepSeek і його моделі R1, Mistral AI тихо представила Small 3, оголосивши про майбутній вихід моделей...
Китайський стартап DeepSeek оновив свою модель R1, покращивши її продуктивність у міркуванні, логіці, математиці та програмуванні. Це оновлення, яке з...
Meta AI є найбільш нав'язливим у зборі персональних даних, перевершуючи Google Gemini, згідно з дослідженням Surfshark. Meta AI збирає 32 типи даних з...
OVHcloud анонсує AI Endpoints, нову безсерверну хмарну платформу ШІ, що дозволяє легко інтегрувати моделі штучного інтелекту в бізнес-додатки. Платфор...
У відповідь на посилення американських обмежень Китай зосереджує зусилля на технологічній незалежності у сфері штучного інтелекту, прагнучи стати світ...
Випущений у січні цього року, DeepSeek R1 швидко сколихнув Силіконову долину та екосистему штучного інтелекту, включаючи Nvidia, завдяки своїй продукт...
Cohere представляє Command A, канадську альтернативу американським і китайським корпоративним AI моделям, що поєднує продуктивність та енергоефективні...
Baidu запускає ERNIE 4.5 та ERNIE X1, дві нові моделі ІІ, які пропонуються безкоштовно, роблячи ставку на доступність та конкурентоспроможність.