Google DeepMind випустила Gemini Robotics-ER 1.6, робот Spot вже здатен автоматично зчитувати панелі приладів

robot
Генерація анотацій у процесі

ME News повідомлення, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, Google DeepMind випустила Gemini Robotics-ER 1.6, орієнтований на високорівневу модель логіки для роботів, яка значно покращила просторову логіку та багатоглядове розуміння у порівнянні з попередніми ER 1.5 та Gemini 3.0 Flash. Модель вже доступна для розробників через Gemini API та Google AI Studio. Основні оновлення включають три можливості: 1. Покращена точність вказування: використовується для точного виявлення об’єктів, підрахунку, логіки просторових відносин (наприклад, «вказати всі об’єкти, які можна помістити у синю чашку») та планування траєкторії руху, а також здатна правильно відмовити у вказівці на об’єкти, яких немає у кадрі 2. Успішне багатоглядове виявлення: робот тепер може об’єднувати зображення з кількох камер для визначення завершення завдання, навіть у випадках з перешкодами або динамічним середовищем, зберігаючи точність 3. Нові можливості зчитування приладів: здатність розчитувати круглі манометри, вертикальні рівнеміри та цифрові дисплеї, використовуючи агентське бачення (логіка зору + виконання коду) для поступового аналізу, збільшення деталей у зоні уваги, а потім за допомогою вказівки та обчислень за кодом визначати пропорції та інтервали, поєднуючи це з знанням світу. Можливості зчитування приладів базуються на співпраці DeepMind з Boston Dynamics. Boston Dynamics у той же день оголосила, що інтегрувала Gemini та Gemini Robotics-ER 1.6 у свій продукт Orbit AIVI-Learning, який був запущений для всіх клієнтів 8 квітня. Після інтеграції додано підтримку панелей приладів (gauges), і чотириногий робот Spot тепер може самостійно обходити промислові об’єкти та зчитувати дані з манометрів та інших приладів. Boston Dynamics заявила, що завдяки логіці Gemini, базові показники та точність AIVI-Learning у завданнях візуального огляду, підрахунку піддонів та виявлення рідини також покращилися. DeepMind стверджує, що ER 1.6 — це «найбезпечніша модель робота» від компанії. У задачах з протидії просторовій логіці рівень дотримання безпечних інструкцій значно вищий, ніж у ER 1.5. У тестах на виявлення ризиків безпеки на основі реальних повідомлень про травми, моделі серії ER показали на 6% вищу точність у текстових сценаріях і на 10% — у відео сценаріях порівняно з Gemini 3.0 Flash. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити