Google DeepMind випустила Gemini Robotics-ER 1.6, робот Spot вже здатен автоматично зчитувати панелі приладів

robot
Генерація анотацій у процесі

ME News повідомлення, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, Google DeepMind випустила Gemini Robotics-ER 1.6, орієнтований на високорівневу модель логіки для роботів, яка значно покращилася у просторовій логіці та багатоглядовому розумінні порівняно з попередніми ER 1.5 та Gemini 3.0 Flash. Модель вже доступна для розробників через Gemini API та Google AI Studio. Основні оновлення включають три можливості: 1. Покращена точність вказування (pointing): може використовуватися для точного виявлення об’єктів, підрахунку, логіки просторових відносин (наприклад, «вказати всі об’єкти, які можна помістити у синю чашку») та планування траєкторії руху, а також правильно відмовляти у вказівках на об’єкти, яких немає у кадрі 2. Успішне багатоглядове виявлення: робот тепер може об’єднувати зображення з кількох камер для визначення завершення завдання, навіть у випадках з перешкодами або динамічним середовищем, зберігаючи точність 3. Нові можливості зчитування приладів: може розпізнавати круглі манометри, вертикальні рівнеміри та цифрові дисплеї, використовуючи агентське бачення (візуальне логічне мислення + виконання коду) для поступового аналізу, спочатку збільшуючи деталі області, потім за допомогою вказівки та обчислень за допомогою коду визначаючи пропорції та інтервали, а в кінці поєднуючи з світовими знаннями отримати показання. Можливості зчитування приладів базуються на співпраці DeepMind з Boston Dynamics. У той же день Boston Dynamics оголосила, що інтегрувала Gemini та Gemini Robotics-ER 1.6 у свій продукт Orbit AIVI-Learning, який був запущений для всіх клієнтів 8 квітня. Після інтеграції додано підтримку приладів (gauges), і чотириногий робот Spot тепер може самостійно обходити промислові об’єкти та зчитувати дані з манометрів та інших приладів. Boston Dynamics заявила, що завдяки логічним можливостям Gemini, базові показники та точність AIVI-Learning у завданнях візуального огляду, підрахунку піддонів та виявлення рідини також покращилися. DeepMind стверджує, що ER 1.6 — це «найбезпечніша модель робота» від компанії. У задачах з протидії просторова логіка показала значне покращення безпеки порівняно з ER 1.5. У тестах на виявлення ризиків безпеки на основі реальних повідомлень про травми, моделі серії ER показали на 6% вищий результат у текстових сценаріях та на 10% у відео сценаріях порівняно з Gemini 3.0 Flash. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити