Досі їхні розробки здебільшого обмежувалися текстом та візуальними даними, але тепер вони намагаються навчити машини діяти у фізичному світі. Ідея полягає в тому, щоб поєднати мовне розуміння з конкретними моторними функціями робота.
Читайте также: Довіри мало. Лише 16% американців вважають, що ШІ принесе користь суспільству — опитування
Про це передає Іnteresting Еngineering.
Цей набір інструментів складається з трьох спеціалізованих моделей. Перша з них відповідає за навігацію, допомагаючи машині орієнтуватися в просторі без попередньо завантажених карт. Друга модель фокусується на маніпуляціях — вона вчить роботів хапати, перекладати і загалом взаємодіяти з предметами, опираючись на величезний масив даних, зібраний із різних роботизованих систем. Третя модель слугує своєрідним прогнозистом, який допомагає роботові розуміти, як зміниться оточення після його дій, і оцінювати ймовірні наслідки рухів.
Головний виклик, з яким зіткнулися розробники, полягає в тому, що дані з інтернету, на яких навчаються звичайні чат-боти, абсолютно непридатні для керування моторами чи сенсорами. Інформація з роботизованих рук, навігаційних систем та камер має зовсім іншу природу. Щоб це виправити, Alibaba довелося опрацювати понад 38 тисяч годин даних про об’єкти та взаємодію з ними. Під час демонстрації чотириногий робот Unitree Go2, керований цими алгоритмами, вільно пересувався по невідомій квартирі, виконуючи прості голосові команди типу перенесення чашки на полицю.
Читайте также: Epic Games розповіла, як штучний інтелект змінить гейм-розробку в Unreal Engine 6
Зараз ці розробки тестують корпоративні клієнти Alibaba Cloud. Вихід компанії на цей ринок свідчить про глобальну зміну настроїв у техіндустрії. Поки Google розвиває Gemini Robotics, а NVIDIA розширює свою екосистему, Alibaba намагається поєднати переваги китайського виробництва з новими програмними рішеннями для автономних систем.
Читайте также: Крок до чистих викидів. Anthropic стала першим ШІ-стартапом у коаліції з видалення вуглецю Frontier
