Новий керівник новин Meta дослідження: майже всі моделі ШІ мають лівий політичний нахил, Gemini посилався на офіційні ЗМІ КНР

Перший керівник новин Meta Campbell Brown заснував Forum AI, витративши 17 місяців на системну оцінку якості інформації основних моделей штучного інтелекту, виявивши, що Gemini при обробці репортажів, не пов’язаних із Китаєм, посилається на офіційний сайт Комуністичної партії Китаю, а майже всі тестовані моделі мають ліву політичну схильність.
(Попередній огляд: Штучний інтелект руйнує традиції Прінстонського університету 133 роки: коли «шахрайство» стає нормою)
(Додатковий контекст: 97 895 повідомлень на підпільних форумах кажуть тобі: хакерські спільноти насправді теж ненавидять ШІ)

Зміст статті

Перемикач

  • Проблема, яку ніхто не тестує
  • Плинні помилки, які важче виявити ніж мовчання
  • Регуляції, що змушують, а не моральне самовідчуття

Brown — колишня журналістка, працювала ведучою на CNN, згодом стала керівником новин Meta, безпосередньо керуючи політикою подання новин для 3 мільярдів користувачів Facebook у світі.

Ця посада дала їй змогу побачити «повну картину того, як платформи формують потік інформації». Вона залишила Meta 17 місяців тому і заснувала Forum AI у Нью-Йорку, щоб займатися однією справою, яку зазвичай пропускають компанії, що створюють основні моделі: системною оцінкою точності, справедливості та різноманітності інформації, яку дають ШІ.

Проблема, яку ніхто не тестує

Ключовий продукт Forum AI — це «структура орієнтації на геополітичні події».

Її робота полягає в тому, що Forum AI запрошує групу провідних консультантів з різних політичних спектрів і професійних сфер: Ніал Фергюсон, Фарід Закара, колишній держсекретар США Тоні Блінкен, колишній лідер меншості Палати представників Кевін Макарті, колишній заступник радника з національної безпеки Ане Нойбергер… для оцінки відповідей основних моделей ШІ щодо однієї й тієї ж складної геополітичної події.

Зараз Forum AI досягло рівня, коли його оцінки збігаються з думкою людських експертів приблизно на 90%, що робить результати оцінювання обґрунтованими, а не просто особистою точкою зору.

Brown виявила три рівні проблем, кожен з яких важчий для технічного виправлення ніж попередній.

Перший — це вразливість логіки вибору джерел. Gemini при обробці деяких репортажів, не пов’язаних із Китаєм, посилається на офіційні сайти КПК. Це не просто помилка фактів, а проблема логіки фільтрації джерел: ШІ визначає лише «це текст, це посилання», але не аналізує «яка позиція у цього джерела, наскільки воно надійне, чи має воно політичну мету».

Політична природа джерела сама по собі невидима у процесі генерації відповіді ШІ.

Другий — структурна політична схильність. Майже всі протестовані основні моделі демонструють ліву політичну схильність. Це не змова, а природний результат розподілу навчальних даних. ШІ навчається на текстах, і тому схильний копіювати їхній тон і рамки позицій.

Головний потік англомовного інтернету — основні медіа, академічні публікації, пости у соцмережах — має певну політичну спрямованість, і моделі, навчені на цьому, успадковують цю схильність, не усвідомлюючи цього.

Ще складніше те, що ця схильність — не баг, який можна виправити, а вбудована у логіку кожного виводу моделі.

Третій — відсутність контексту і багатогляду. Brown зазначає, що сучасні моделі загалом бракують «фонового контексту, багатогляду і прозорості аргументації». Відповіді ШІ — це твердження, а не структура типу «Це вважає А, а Б — інакше, і їхній фундаментальний розбіжність у тому, що…».

Вони дають вам відповідь, але не пояснюють, з якої точки зору вона сформована.

Плинні помилки, які важче виявити ніж мовчання

Brown вказує на структурний сліпий кут: компанії, що створюють основні моделі, при оцінюванні та ранжуванні моделей переважно орієнтуються на математичні, кодувальні та логічні навички, тоді як точність інформації і політична різноманітність майже ніколи не входять до стандартних тестів.

Причина очевидна. Код має правильну або неправильну відповідь, тестування легко провести. Математичні задачі мають стандартні відповіді, точність яких можна обчислити. Але що таке точна і справедлива геополітична новина? Хто має її визначити? Скільки людей з різними поглядами потрібно, щоб досягти консенсусу? Це — нерозв’язна інженерна проблема.

У процесі розробки продуктів, керованому інженерами і базованому на стандартних тестах для визначення ринкової позиції, ця проблема системно пропускається. В результаті, точність інформації стає майже невидимим індикатором у системі оцінки ШІ.

Цю ціну можна побачити на конкретному прикладі. Минулого року у Нью-Йорку провели аудит системи штучного інтелекту для рекрутингу, щоб перевірити, чи не порушують вони чинне законодавство про недискримінацію. За результатами аудиту понад половина випадків не виявила порушень.

Проблема не в тому, що порушень мало, а в тому, що сама точність цих систем може бути недостатньою, щоб виявити проблеми — тобто, вони не здатні виявити порушення, а не їхнього відсутність.

Саме це — основна ідея Brown: Проблема ШІ — не лише у помилкових фактах, а й у тому, що він може впевнено і гладко подавати неправдиву інформацію, змушуючи довіряти їй. Людина, яка знає, що не знає щось, хоча б має шанс перевірити. Але коли ШІ з впевненим і гладким голосом дає неправильну відповідь, більшість користувачів не мають підстав сумніватися.

Плинні помилки, які важче виявити ніж мовчання, і ще важче виправити.

Регуляції, що змушують, а не моральне самовідчуття

Brown прямо каже: зміни будуть викликані не моральним тиском або громадською думкою, а бізнес-ризиками, пов’язаними з дотриманням правил.

За її словами, у сучасних мотиваційних структурах індустрії ШІ ніхто не має достатньо сильних причин самостійно вирішувати цю проблему, доки її наслідки не стануть надто очевидними. Кредитні рішення, страхові поліси, рекрутинг — ці сфери підпорядковані чинному законодавству.

Якщо результати ШІ виявляються дискримінаційними або неточними, компанії, що використовують ШІ, несуть юридичну відповідальність. Це створює тиск, який у кінцевому підсумку поширюється на постачальників моделей, змушуючи їх забезпечувати аудитовані, перевірені та точні результати. Не тому, що вони вважають це морально правильним, а тому, що в їхніх контрактах з клієнтами починають прописувати такі вимоги.

Lerer Hippeau минулого року інвестував 3 мільйони доларів у посівний раунд Forum AI. Це невелика сума для сфери ШІ, але вона свідчить про те, що «оцінка ШІ» — це бізнес, і попит на нього може зростати швидше, ніж здається.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено