Após dois acidentes em uma semana, revisite como os sete cofundadores da Anthropic discutiam "segurança" há um ano

Título original do vídeo: Building Anthropic | A conversation with our co-founders
Fonte original do vídeo: Anthropic
Compilação do texto original: Profundo Mar TechFlow

Resumo dos pontos-chave

Na última semana, a Anthropic teve dois incidentes consecutivos:

Primeiro, cerca de 3000 documentos internos ficaram acessíveis ao público devido a um erro de configuração no CMS; em seguida, o Claude Code v2.1.88, quando foi publicado no npm, trouxe embutido um source map de 59,8 MB, com 510.000 linhas de código-fonte expostas diretamente.

Uma empresa que escreve «segurança» nos seus genes falha consecutivamente na sua própria operação — o sarcasmo está ao máximo.

Mas antes de correr para gozar, vale a pena voltar atrás e ouvir um diálogo interno dos sete cofundadores da Anthropic, ocorrido há mais de um ano. Este podcast foi gravado em dezembro de 2024; os sete falaram sobre como esta empresa foi construída, como o RSP (Responsible Scaling Policy, tradução literal «Política de Expansão Responsável») foi sendo afinado, por que razão «segurança» não pode ser usada à vontade e, ainda, sobre a frase do CEO Dario que tem sido repetidamente citada:

«Se um edifício apita com um alarme de incêndio todas as semanas, na verdade é um edifício muito pouco seguro.»

Ouvir esta frase agora já não tem o mesmo sabor.

Sete cofundadores, reconhecimento rápido

Dario Amodei|CEO, ex-vice-presidente de pesquisa da OpenAI, com formação em neurociência, o responsável final pelas decisões estratégicas e pela linha de segurança na Anthropic. Foi o que mais falou nesta conversa.

Daniela Amodei|Presidente, irmã de Dario. Trabalhou antes na Stripe durante cinco anos e meio, liderando equipas de confiança e segurança, e mais cedo em organizações sem fins lucrativos e no sector do desenvolvimento internacional. A estrutura organizacional da Anthropic e a comunicação externa são, em grande medida, da responsabilidade dela.

Jared Kaplan|Professor de física que se tornou investigador em IA; um dos autores centrais das scaling laws. Frequentemente fornece juízos a partir da perspetiva de quem está «do lado de fora», dizendo que na altura começou com IA porque «fazer física já deu.»

Chris Olah|Figura de referência na investigação de interpretabilidade (interpretability). Entrou no círculo de IA da Baía aos 19 anos; trabalhou em Google Brain e OpenAI, sucessivamente. A pessoa com mais matiz de idealismo tecnológico dentro da Anthropic.

Tom Brown|Primeiro autor do artigo sobre GPT-3, agora gere os recursos de computação da Anthropic. A perspetiva é mais de engenharia e infraestruturas; no podcast falou bastante sobre o processo de «não confiar em que a IA chegasse tão depressa» até mudar de opinião.

Jack Clark|Ex-jornalista de tecnologia da Bloomberg; responsável por política e assuntos públicos na Anthropic. Nesta conversa, atuou como moderador, encarregando-se de conduzir os temas e fazer perguntas de seguimento.

Sam McCandlish|Cofundador da investigação; falou menos, mas com frequência com uma frase que acertava no essencial; pertence à função de «dar a última cutucada».

Sumário de opiniões marcantes

Por que fazer IA: da monotonia da física ao «quando chega, acredita-se»

Jared Kaplan:«Eu fiz física durante muito tempo, já estava um bocado aborrecido, e também queria trabalhar com mais amigos; por isso fiz IA.»

Dario Amodei:«Eu não acho que eu te tenha convencido de forma clara; eu só te fui mostrando resultados de modelos de IA. A certo ponto, tu viste o suficiente e disseste: “Ok, isto parece estar certo”.»

Aposta contra o consenso: a maior parte do consenso é efeito de manada disfarçado de maturidade

Jared Kaplan:«Muitos investigadores de IA foram psicológica e profundamente feridos durante o inverno da IA; parece que ter ambição não é permitido.»

Dario Amodei:«A minha lição mais profunda dos últimos dez anos é: muitos “consensos que toda a gente já conhece” são, na verdade, efeito de manada disfarçado de maturidade. Tu já viste o consenso virar de cabeça para baixo de uma noite para a outra e depois toda a gente dizer: “Não, é nisto que vamos apostar.” Mesmo que apenas estejas 50% certo, ainda assim vais contribuir com muitas coisas que outras pessoas não contribuíram.»

Segurança e escalabilidade andam entrelaçadas

Dario Amodei:«Na altura, uma das motivações para aumentarmos o modelo era: ele precisa de ser suficientemente inteligente para o RLHF funcionar. Esta é a crença que mantemos até hoje: segurança e escalabilidade estão entrelaçadas.»

RSP, a Política de Expansão Responsável é a “constituição” da Anthropic

Tom Brown:«Para a Anthropic, o RSP é como a nossa constituição. É um documento central com valor orientador; por isso, estamos dispostos a investir muito tempo e esforço para o afinar repetidamente.»

Dario Amodei:«O RSP impede que planos que não cumprem padrões de segurança avancem. Não estamos a fazer discursos; nós integramos segurança de forma concreta em cada etapa.»

O alarme de incêndio toca demasiado vezes; quando há fogo a sério, ninguém corre

Daniela Amodei:«Não podemos usar “segurança” de forma indiscriminada para orientar o progresso do trabalho. O nosso objetivo real é fazer com que as pessoas entendam claramente o que queremos dizer por segurança.»

Dario Amodei:«O que realmente prejudica a segurança são, muitas vezes, aquelas “simulações de segurança” frequentes. Se um edifício apitar com alarmes de incêndio todas as semanas, então isso é, na verdade, um edifício muito pouco seguro.»

“Falhas nobres” é uma armadilha

Chris Olah:«Existe uma ideia de que o comportamento mais moral é sacrificar outros objetivos pela segurança, para demonstrar a pureza da nossa dedicação ao propósito. Mas, na prática, este método é autodestrutivo. Porque acaba por entregar o poder de decisão a pessoas que não valorizam a segurança.»

Os cofundadores comprometem-se a doar 80% da receita

Tom Brown:«Comprometemo-nos em conjunto a doar 80% da receita para causas que promovem o desenvolvimento social — e isto é algo que todos apoiam sem hesitar.»

Ninguém quer começar uma empresa, mas sente que é preciso fazê-lo

Sam McCandlish:«Na verdade, nenhum de nós tinha, no início, a intenção de criar uma empresa. Limitámo-nos a achar que é a nossa responsabilidade — e porque esta é a única forma de garantir que o desenvolvimento da IA segue o rumo certo.»

Daniela Amodei:«A nossa missão é clara e pura; e, na indústria tecnológica, este tipo de situação não é comum.»

Interpretabilidade: “bioengenharia artificial” escondida nas redes neuronais

Chris Olah:«As redes neuronais são extraordinárias; há muitas “belezas” que ainda não vimos. Por vezes imagino que, daqui a dez anos, entramos numa livraria e compramos um manual sobre a biologia das redes neuronais, cheio de coisas surpreendentes.»

A IA para reforçar a democracia, não para se tornar uma ferramenta de autoritarismo

Dario Amodei:«Temos receio de que, se a IA for desenvolvida de forma errada, possa tornar-se uma ferramenta do autoritarismo. Como fazer com que a IA seja uma ferramenta para promover liberdade e autodeterminação? A importância desta área não é, em nada, inferior à da biologia e da interpretabilidade.»

Da reunião na Casa Branca ao Prémio Nobel: a influência da IA já ultrapassou há muito o círculo tecnológico

Jared Kaplan:«Em 2018, ninguém imaginaria que um presidente o chamaria à Casa Branca para falar de como está atento aos modelos de linguagem.»

Dario Amodei:«Já vimos o Prémio Nobel na área da química ser atribuído ao AlphaFold; devemos esforçar-nos por desenvolver ferramentas que nos ajudem a criar centenas de AlphaFold.»

Por que estudar IA?

Jack Clark: Por que é que começámos, afinal, a fazer IA? Jared, por que é que tu fizeste IA?

Jared Kaplan:«Eu fiz física durante muito tempo, já estava um bocado aborrecido, e também queria trabalhar com mais amigos; por isso fiz IA.»

Tom Brown:«Eu pensei que era o Dario que te tinha convencido.»

Dario Amodei:«Eu não acho que eu te tenha convencido de forma clara; eu apenas continuei a mostrar-te resultados de modelos de IA, para transmitir que são generalizáveis e não se aplicam apenas a um problema específico. A certo ponto, tu viste o suficiente e disseste: “Ok, isto parece estar certo”.»

Jack Clark:Chris, quando fazias investigação em interpretabilidade, foi na Google que conheceste as pessoas?

Chris Olah:«Não. Na verdade, quando cheguei à Baía pela primeira vez aos 19 anos, já conhecia muitos de vocês. Nessa altura, vi o Dario e o Jared — eram pós-doutorandos, e eu achei aquilo particularmente fantástico. Depois, no Google Brain, depois da entrada do Dario, até sentámos lado a lado por algum tempo. Também trabalhei com o Tom; e mais tarde, quando fui para a OpenAI, passei a trabalhar com todos vocês.»

Jack Clark:«Eu lembro-me de que, em 2015, num evento, vi o Dario querer entrevistar-te, e o Google PR disse-me que eu devia primeiro ler todos os teus artigos.»

Dario Amodei:«Nessa altura, eu estava a escrever, no Google, “Concrete Problems in AI Safety”.»

Sam McCandlish:«Quando comecei a trabalhar contigo, tu até me convidaste para conversar no escritório e falaste-nos do panorama da IA. Eu lembro-me de que, depois da conversa, pensei: “Isto é muito mais sério do que eu tinha percebido.” Na altura, tu falaste sobre o “bloco” de grandes recursos de computação, sobre a quantidade de parâmetros, e sobre a dimensão dos neurónios do cérebro humano.»

Larga escala disruptiva

Jack Clark:«Lembro-me de que, na OpenAI, quando fazíamos scaling laws e começámos a tornar o modelo maior, de repente passou a funcionar de forma realmente efetiva — e isso continuou a funcionar, de modo persistente e até estranho, em muitos projetos. De GPT-2 para scaling laws para GPT-3: fomos avançando assim, cada vez mais perto.»

Dario Amodei:«Nós somos aquela equipa de “pessoas que fazem as coisas acontecer”.»

Jared Kaplan:«Nós também estávamos entusiasmados com a segurança. Nessa altura surgiu uma ideia: a IA vai ser muito forte, mas pode não compreender valores humanos e, até, não conseguir comunicar connosco. Os modelos de linguagem, de certa forma, garantem que vão compreender muitos conhecimentos implícitos.»

Dario Amodei:«E além do RLHF por cima dos modelos de linguagem, na altura uma das motivações para alargar o modelo era: ele tem de ser suficientemente inteligente para o RLHF funcionar. Esta é a crença que ainda mantemos: segurança e escalabilidade estão entrelaçadas.»

Chris Olah:«Sim; na altura, o trabalho de scaling também fazia parte, de certa forma, da equipa de segurança. Porque achávamos que, para as pessoas levarem a segurança a sério, primeiro tinham de conseguir prever as tendências da IA.»

Jack Clark:«Lembro-me de estar num aeroporto no Reino Unido. Estava a fazer sampling a partir do GPT-2 para escrever notícias falsas e enviei aquilo ao Dario no Slack, dizendo: “Isto realmente funciona; pode ter um enorme impacto a nível de políticas.” E eu lembro-me de que a resposta do Dario foi: “Sim”.»

Depois, também fizemos muitos trabalhos relacionados com lançamentos e publicações — e isso foi mesmo maluco.

Daniela Amodei:«Lembro-me daquela parte do lançamento; era a nossa primeira colaboração realmente séria, quando o GPT-2 foi lançado.»

Jack Clark:«Eu acho que isso nos ajudou muito. Primeiro fizemos algo “um pouco estranho, mas com orientação para a segurança” e, depois, juntos criámos a Anthropic — um outro passo, numa escala maior, e de novo “um pouco estranho”, mas orientado para a segurança.»

Fase inicial da IA

Tom Brown:«Vamos voltar ao artigo “Concrete Problems”. Entrei na OpenAI em 2016. Nessa altura, nós dois ainda éramos dos primeiros naquela equipa. Eu senti que esse texto era como a primeira paper mainstream de segurança em IA. Como é que ele surgiu?»

Dario Amodei:«O Chris sabia. Ele esteve envolvido. Na altura, no Google, eu já nem me lembro qual era o meu projeto principal. A verdade é que foi um “atraso” que eu arrastei para fora.»

Queríamos escrever quais eram os problemas abertos de segurança em IA. Na altura, a segurança em IA era sempre descrita de forma muito abstrata; nós queríamos concretizá-la na ML real existente na altura. Agora já temos seis ou sete anos nessa linha, mas na altura era um daqueles “pensamentos estranhos”.

Chris Olah:«Eu acho que, de certa forma, quase era um projeto político. Naquela altura, muita gente não levava segurança a sério. A ideia era organizar uma lista de problemas que as pessoas concordassem como sendo razoáveis. Muitos desses problemas já existiam na literatura; depois, encontrámos pessoas com credibilidade para assinar em conjunto, de fora da própria instituição.»

Lembro-me de ter passado muito tempo a comunicar com mais de vinte investigadores no Brain, para garantir apoio para a publicação. Se olharmos apenas para os próprios problemas, voltando atrás hoje talvez nem tudo se verifique; pode não ser o problema mais correto. Mas se olharmos para isto como construção de consenso: provar que «há problemas reais aqui e que vale a pena levá-los a sério», então era um momento importante.

Jack Clark:«No fim, vocês acabam por entrar num mundo de ficção científica bastante peculiar. Lembro-me do início da Anthropic a falar de “Constitutional AI”. O Jared disse: “Nós escrevemos uma constituição para o modelo de linguagem e, então, o comportamento dele é assim”. Na altura, parecia completamente maluco. Por que é que vocês achavam que era possível?»

Jared Kaplan:«Eu discuti muito isso com o Dario. No campo da IA, métodos simples muitas vezes funcionam extraordinariamente bem. A versão mais antiga era bastante complexa; depois foi-se reduzindo continuamente, até que no fim ficou assim: usando o facto de o modelo ser bom em questões de escolha múltipla, dando-lhe indicações claras sobre o que deve procurar — isso é suficiente. A partir daí, podemos escrever os princípios diretamente.»

Dario Amodei:«Isto volta ao “The Big Blob of Compute”, ao “The Bitter Lesson”, à “Scaling Hypothesis”: desde que consigas dar à IA um objetivo claro e dados adequados, ela aprende isso. Um conjunto de instruções, um conjunto de princípios. O modelo de linguagem consegue lê-los e também comparar com o seu próprio comportamento — o objetivo de treino está lá. Por isso, a minha visão com o Jared é: dá para fazer, desde que os detalhes sejam afinados repetidamente.»

Jared Kaplan:«Para mim, no início foi estranho. Eu venho de física; agora toda a gente está entusiasmada com IA, e é fácil esquecer o ambiente daquela altura. Quando eu falava com o Dario sobre isto, a sensação era que muitos investigadores de IA tinham sido psicologicamente muito feridos pelo inverno da IA, como se “ter ambição” não fosse permitido. Discutir segurança exige acreditar que a IA pode ser muito forte e muito útil; mas havia, naquela altura, uma espécie de proibição contra a ambição. Um benefício dos físicos é a “arrogância”: eles costumam fazer coisas ambiciosas e estão habituados a falar de grandes panoramas.»

Dario Amodei:«Acho que isso é verdade. Em 2014, muitas coisas não podiam ser ditas. Isto também parece um problema comum na academia: fora de algumas áreas específicas, as instituições cada vez mais evitam riscos. A IA industrial também herdou essa atitude. Eu acho que foi só por volta de 2022 que isso começou a mudar.»

Chris Olah:«E há também duas formas de “conservadorismo”: uma é levar os riscos a sério; a outra é encarar a seriedade e acreditar que as ideias podem ter sucesso como arrogância. Nós estávamos naquela segunda forma. Historicamente, em discussões sobre física nuclear em 1939, algo semelhante aconteceu: Fermi hesitava; Szilard ou Teller levavam mais a sério os riscos.»

Dario Amodei:«A minha lição mais profunda dos últimos dez anos é: muitos “consensos que toda a gente já conhece” são, na verdade, efeito de manada disfarçado de maturidade. Tu já viste o consenso quantas vezes virar de uma noite para a outra? Depois, toda a gente diz: “Não, é nisto que vamos apostar.” Talvez não seja necessariamente verdade, mas ignora o ruído e faz a aposta. Mesmo que apenas estejas 50% certo, ainda assim vais contribuir com muitas coisas que outras pessoas não contribuíram.»

Mudança de atitude pública face à inteligência artificial

Jared Kaplan:«Também vejo isso, hoje, em alguns temas de segurança: o consenso externo acha que muitos problemas de segurança não nascem “naturalmente” a partir da tecnologia. Mas nós na Anthropic, ao fazer investigação, vimos que isso realmente nasce naturalmente.»

Daniela Amodei:«Mas nos últimos 18 meses isto tem mudado, e a emoção do mundo perante a IA também tem mudado claramente. Quando fazemos estudos com utilizadores, ouvimos com mais frequência os utilizadores comuns preocupados com o impacto global da IA no mundo.»

Por vezes é trabalho, preconceito, toxicidade; por vezes é «se vai ou não desorganizar o mundo, e mudar a forma como a humanidade colabora». Na verdade, eu não tinha previsto tudo isso por completo.

Sam McCandlish:«Por alguma razão, o círculo de investigação em ML costuma ser mais pessimista do que o público em relação a “a IA ficar muito forte”.»

Jared Kaplan:«Em 2023 eu e o Dario fomos à Casa Branca. Numa reunião, Harris e Raimondo — basicamente — queriam dizer: “Estamos de olho em vocês. IA é um assunto grande. Estamos a prestar muita atenção.” Mas em 2018, ninguém imaginaria “que um presidente chamaria alguém para a Casa Branca dizer que está atento a modelos de linguagem”.»

Tom Brown:«O interessante é que muitas das nossas pessoas entraram quando ainda não estava claro como as coisas acabariam por ser. É como a atitude do Fermi em relação à bomba atómica: havia algumas evidências de que a bomba poderia ser fabricada, mas também havia muitas evidências de que não; e, no fim, ele decidiu tentar. Porque, se fosse verdade, o impacto seria enorme — por isso valia a pena.»

Entre 2015 e 2017 houve algumas evidências, e que só foi aumentando, de que a IA poderia ser algo “muito grande”. Em 2016, eu falei com o meu orientador: eu já tinha feito uma startup, queria fazer segurança em IA, mas não tinha base matemática suficiente; não sabia o que fazer. Nessa altura, disseram-me: “Tens de dominar a teoria da decisão”; disseram-me também: “Não vai acontecer um episódio de IA louca”; e que, na verdade, há poucos apoiantes reais.

Jack Clark:«Em 2014, quando eu fiz reporting sobre a tendência ImageNet, disseram-me que eu estava a falar como se estivesse doido. Em 2015, quando eu quis escrever sobre a NVIDIA porque os artigos também faziam referências às GPUs, disseram-me novamente que eu estava doido. Em 2016, saí da imprensa para entrar em IA, e recebi emails a dizer: “Cometeste o maior erro da tua vida”. Visto de muitos ângulos, apostar seriamente que “escala vai acontecer” mesmo assim parecia coisa de loucos.»

Jared Kaplan:«Como é que tu decidiste? Ficavas indeciso?»

Jack Clark:«Fiz uma aposta ao contrário: pedi para ser um repórter de IA a tempo inteiro e pedi um salário dobrado — e eu sabia que eles não iam aceitar. Depois fui dormir e, quando acordei, pedi demissão. Porque eu lia arquivos todos os dias e, no fundo, eu tinha sempre a sensação de que estava a acontecer algo louco — e que, num certo momento, estavas na altura de fazer uma aposta com uma crença muito alta.»

Tom Brown:«Eu não fui assim tão decisivo. Levei seis meses a balançar.»

Daniela Amodei:«E na altura, “engenheiros também conseguem impulsionar de forma significativa a IA” não era um pensamento comum. Era mais: “Só investigadores conseguem fazer IA”; por isso, a tua hesitação não é estranha.»

Tom Brown:«Mais tarde, a OpenAI disse: “Tu podes ajudar a melhorar a segurança da IA através da engenharia”, e foi isso que me fez juntar. Daniela, tu eras ainda a minha manager na OpenAI; por que é que entraste?»

Daniela Amodei:«Eu estava na Stripe há cinco anos e meio; o Greg já tinha sido o meu chefe. Também apresentei o Greg e o Dario. Nessa altura, ele estava a fundar a OpenAI e eu disse-lhe: “As pessoas mais inteligentes que eu conheço são o Dario. Se conseguires trazê-lo para a equipa, isso é mesmo a tua sorte.” E depois o Dario entrou na OpenAI.»

Talvez seja igual a ti: eu também pensava em que fazer depois de sair da Stripe. Eu entrei na Stripe porque, antes, quando trabalhava em organizações sem fins lucrativos e no desenvolvimento internacional, senti que precisava de mais competências. Na altura, eu ainda pensava que, no fim, voltaria para aquele setor.

Antes de entrar na Stripe, eu achava que não tinha capacidades suficientes para ajudar pessoas que estavam em condições piores do que as minhas. Por isso eu fiquei a observar outras empresas de tecnologia, procurando uma forma nova de gerar um impacto maior — e, nessa altura, a OpenAI pareceu-me uma escolha muito boa. É uma organização sem fins lucrativos, dedicada a concretizar um objetivo muito importante e com enorme significado.

Eu sempre acreditei muito no potencial da IA. Eu conhecia o Dario e sabia que eles precisavam realmente de alguém para ajudar a gerir tudo; por isso achei que aquele trabalho combinava muito com o meu background. Na altura, eu pensei: “É uma organização sem fins lucrativos. Aqui está reunido um grupo de pessoas muito competentes, com visões bonitas. Mas a forma como operam parece um pouco confusa.” E foi precisamente esse tipo de desafio que me deixou entusiasmada, porque eu podia juntar-me a isso.

Na altura, senti-me como uma jogadora versátil: não era só responsável por gerir membros da equipa; também liderava algumas equipas técnicas; e ainda fazia a gestão da expansão organizacional. Eu era responsável pela expansão da organização e também trabalhei na equipa de linguagem; mais tarde, assumi outras tarefas. Também me envolvi em assuntos relacionados com políticas e colaborei com o Chris. Eu achava que havia muitas pessoas excelentes na empresa, e isso fez-me querer muito entrar e ajudar a tornar a empresa mais eficiente e mais organizada.

Jack Clark:«Eu lembro-me de que, depois do GPT-3, disseste: “Vocês já ouviram falar de trust and safety?”»

Daniela Amodei:«Eu já tinha liderado equipas de trust and safety na Stripe. Para uma tecnologia como esta, vocês talvez precisem considerar a questão da confiança e da segurança. Isto é, na verdade, uma ponte entre a investigação de segurança em inteligência artificial (AI Safety Research) e o trabalho diário mais prático — isto é, como tornar os modelos verdadeiramente seguros.»

É muito importante apresentar a ideia de que esta tecnologia irá ter um impacto significativo no futuro. Ao mesmo tempo, também precisamos fazer, no dia a dia, um trabalho mais prático, para preparar o terreno para, no futuro, enfrentarmos cenários de risco mais elevado.

Política de Expansão Responsável: garantir um desenvolvimento seguro da IA

Jack Clark:«Isto dá-nos exatamente para falarmos de como a estratégia de Expansão Responsável (RSP, Responsible Scaling Policy) surgiu, por que é que pensámos nisso, como é que a aplicamos agora — especialmente tendo em conta o trabalho que fazemos atualmente em confiança e segurança nos modelos. Então, quem propôs o RSP (Política de Expansão Responsável) pela primeira vez?»

Dario Amodei:«Inicialmente foram eu e o Paul Christiano. Mais ou menos no fim de 2022. A primeira ideia era: será que devemos restringi-la temporariamente antes de expandirmos os modelos para um determinado tamanho, até encontrarmos uma forma de resolver certos problemas de segurança?»

Mas depois achámos estranho apenas restringir a expansão em algum ponto, e depois “destravar” a restrição. Por isso decidimos definir uma série de limiares: sempre que o modelo atingisse um limiar, seria necessário realizar uma série de testes para avaliar se o modelo tinha capacidades de segurança adequadas.

Em cada limiar, precisaríamos aplicar medidas de segurança e salvaguardas mais rigorosas. Mas, logo no início, tínhamos uma ideia: se isso fosse executado por um terceiro, poderia ser melhor. Ou seja, esta estratégia não deveria ficar a cargo de uma única empresa; caso contrário, outras empresas talvez não quisessem adotar a estratégia. Foi por isso que o Paul desenhou pessoalmente esta estratégia. Obviamente, ao longo do tempo, muitos dos detalhes mudaram. E a nossa equipa também continuou a investigar como fazer com que esta estratégia funcionasse melhor.

Quando o Paul organizou este conceito em algo sólido, ele praticamente anunciou esse conceito ao mesmo tempo em que nós, em um ou dois meses, publicámos a nossa própria versão. Na verdade, muitos membros da nossa equipa tiveram uma participação profunda neste processo. Eu lembro-me de ter escrito pelo menos um dos primeiros rascunhos, mas o documento passou por várias revisões ao longo do caminho.

Tom Brown:«Para a Anthropic, o RSP é como a nossa “constituição”. É um documento central com valor orientador; por isso, estamos dispostos a investir muito tempo e esforço para o afinar repetidamente, garantindo a sua exatidão e completude.»

Daniela Amodei:«Eu acho que, no processo de desenvolvimento da Anthropic, o RSP foi mesmo muito interessante. Ele passou por várias etapas e, para o implementar, também são necessárias várias competências diferentes. Por exemplo, há ideias grandiosas — esta parte ficou principalmente a cargo de Dario, Paul, Sam e Jared. Eles estavam a pensar: “Qual é o nosso princípio central? Que tipo de mensagem queremos transmitir? Como é que garantimos que o nosso rumo está correto?”»

Mas além disso, há um trabalho muito prático e operacional: à medida que iteramos, avaliamos e ajustamos detalhes. Por exemplo, nós tínhamos previsto que sob um certo nível de segurança atingiríamos alguns objetivos; se isso não se concretizasse, reavaliávamos e garantíamos que poderíamos ser responsabilizados pelos resultados do nosso trabalho.

Além disso, há muitas alterações relacionadas com a arquitetura organizacional. Por exemplo, decidimos redesenhar a estrutura organizacional do RSP para tornar mais clara a divisão de responsabilidades. Eu gosto muito da analogia com uma constituição para este documento. Tal como, para garantir a implementação da constituição nos EUA, criaram-se tribunais, tribunal supremo, presidente, entre outras instituições — um conjunto inteiro de instituições e organismos. Embora essas instituições tenham também outras responsabilidades, a sua existência é, em grande medida, para salvaguardar a constituição; e o RSP da Anthropic também está a passar por um processo semelhante.

Sam McCandlish:«Eu acho que isto reflete uma perspetiva central que temos sobre problemas de segurança: problemas de segurança são resolvíveis. Trata-se de uma tarefa muito complexa e difícil; exige investir muito tempo e muito esforço.»

Tal como no setor da segurança automóvel, as instituições e sistemas associados foram criados ao longo de muitos anos. Mas o problema que enfrentamos agora é: teremos tempo suficiente para fazer todo esse trabalho? Portanto, precisamos de encontrar o mais rapidamente possível os sistemas-chave necessários para a segurança em IA e estabelecer primeiro dentro de nós, ao mesmo tempo que garantimos que esses sistemas podem ser reutilizados e aplicados noutros locais.

Dario Amodei:«Isto também ajuda a unificação da colaboração dentro da organização, porque se qualquer parte da organização agir de um modo que não esteja alinhado com os nossos valores de segurança, o RSP vai, de alguma forma, expor o problema, certo? O RSP vai impedir que avancem planos que não cumpram padrões de segurança. Por isso, ele também se torna uma ferramenta constante para lembrar toda a gente, garantindo que segurança seja um requisito básico no processo de desenvolvimento e planeamento do produto. Não estamos a falar de slogans; nós integramos segurança em cada etapa. Se alguém entrar na equipa e não conseguir alinhar-se com estes princípios, vai descobrir que não consegue integrar-se. Ou se adapta a esse rumo, ou vai perceber que é difícil continuar.»

Jack Clark:«Com o passar do tempo, o RSP foi ficando cada vez mais importante. Investimos milhares de horas nele. E quando eu expliquei o RSP a senadores, disse: “Tomámos medidas para garantir que a nossa tecnologia não seja facilmente abusada e, ao mesmo tempo, para garantir segurança.” A reação deles costuma ser: “Parece tudo bem. Não é assim que todas as empresas fazem?” Isto é meio cómico e, ao mesmo tempo, faz-me rir e chorar: na verdade, não é assim que todas as empresas fazem.»

Daniela Amodei:«Além disso, eu acredito que o RSP aumenta a transparência da empresa para além de alinhar os valores da equipa. Porque ele regista claramente quais são os nossos objetivos. As pessoas dentro da empresa conseguem entendê-los e, ao mesmo tempo, pessoas externas também conseguem perceber de forma clara quais são os nossos objetivos e direção em matéria de segurança. Embora ainda não esteja perfeito, temos vindo a otimizá-lo e melhorá-lo continuamente.»

Eu acho que, ao indicar claramente «quais são os problemas centrais que estamos a abordar», não podemos usar “segurança” de forma arbitrária para orientar o progresso do trabalho — por exemplo, dizer: “por causa de problemas de segurança, não podemos fazer tal coisa”; ou dizer: “por causa de problemas de segurança, temos de fazer tal coisa”. O nosso objetivo real é fazer com que as pessoas entendam claramente o que consideramos segurança.

Dario Amodei:«A longo prazo, o que realmente prejudica a segurança são, muitas vezes, aquelas “simulações de segurança” frequentes. Eu já disse: “Se um edifício apita com alarmes de incêndio todas as semanas, na verdade é um edifício muito pouco seguro.” Porque quando o incêndio acontecer mesmo, pode haver alguém que não dê atenção. Por isso, temos de prestar muita atenção à exatidão e ao ajuste (calibração) dos alarmes.»

Chris Olah:«Vendo por outro ângulo, eu acho que o RSP cria mecanismos de incentivo saudáveis em muitos níveis. Por exemplo, internamente, ao alinhar os incentivos de cada equipa com os objetivos de segurança, significa que, se não avançarmos o suficiente em segurança, esse trabalho fica suspenso.»

E no exterior, o RSP também cria incentivos mais saudáveis do que outros métodos. Por exemplo, se algum dia tivermos de tomar uma ação significativa — como admitir “o nosso modelo evoluiu para um certo ponto, mas ainda não conseguimos garantir a sua segurança” — então o RSP fornece um quadro claro e evidências para apoiar essa decisão. Este quadro já existe à partida, e é claro e fácil de entender. Pensando no que discutimos quando estávamos na versão inicial do RSP, eu não tinha percebido totalmente o seu potencial; mas hoje eu acho que ele é realmente mais eficaz do que outros métodos que eu poderia ter imaginado.»

Jared Kaplan:«Concordo com estas ideias, mas acho que isto pode subestimar o desafio que enfrentamos ao formular as políticas corretas, estabelecer padrões de avaliação e definir limites. Já iterámos muito nessas áreas e continuamos a otimizar. Um problema difícil é que, para algumas tecnologias emergentes, às vezes é difícil determinar com clareza se são perigosas ou seguras. Muitas vezes, acabamos numa enorme zona cinzenta. Estes desafios deixaram-me extremamente entusiasmado quando o RSP estava a ser desenvolvido; eu ainda sinto isso agora. Mas ao mesmo tempo, também percebi que tornar esta estratégia clara e fazê-la realmente funcionar é mais complexo e mais desafiante do que eu inicialmente imaginava.»

Sam McCandlish:«As zonas cinzentas não podem ser previstas perfeitamente, porque estão em todo o lado. Só quando começares a implementar é que vais descobrir onde estão os problemas. Portanto, o nosso objetivo é implementar tudo o mais cedo possível, para descobrirmos o potencial problema o quanto antes.»

Dario Amodei:«Tu tens de fazer três ou quatro iterações para conseguires verdadeiramente chegar ao ideal. Iterar é uma ferramenta muito poderosa; é quase impossível acertar completamente na primeira. Então, se os riscos estiverem a aumentar, tens de fazer essas iterações o mais cedo possível, em vez de esperar até ao final.»

Jack Clark:«Ao mesmo tempo, tu também tens de criar dentro da empresa instituições e processos internos. Embora detalhes específicos possam mudar com o tempo, o que é mais importante é desenvolver capacidade de execução na equipa.»

Tom Brown:«Eu sou responsável pela gestão de recursos de computação da Anthropic. Para mim, é necessário comunicar com stakeholders externos: diferentes pessoas externas têm diferentes perspetivas sobre a velocidade de desenvolvimento técnico. No início, eu também achava que a tecnologia não evoluiria tão rápido, mas depois mudei de opinião; por isso consigo muito bem compreender essa mudança. Eu acho que o RSP é especialmente útil para mim, sobretudo quando converso com pessoas que acham que a tecnologia vai evoluir de forma mais lenta. Nós conseguimos dizer-lhes: “Antes da evolução tecnológica se tornar realmente urgente, não precisamos de tomar medidas de segurança extremas.” Se eles disserem: “Acho que não vai ficar urgente por muito tempo”, eu posso responder: “Ok, então por enquanto não precisamos de medidas de segurança extremas.” Isto torna a comunicação com o exterior muito mais fluida.»

Jack Clark:«Então, de que outras formas é que o RSP afetou toda a gente?»

Sam McCandlish:«Tudo gira em torno de avaliação: cada equipa está a fazer avaliação. Por exemplo, a tua equipa de treino está constantemente a fazer avaliações. Tentamos perceber se este modelo já se tornou suficientemente forte a ponto de poder trazer perigos.»

Daniela Amodei:«Na prática, isto significa que temos de medir o desempenho do modelo de acordo com os padrões do RSP, incluindo verificar se existem sinais que possam causar preocupações.»

Sam McCandlish:«Avaliar a capacidade mínima de um modelo é relativamente fácil; mas avaliar a capacidade máxima é muito difícil. Por isso, investimos muito esforço de investigação para tentar responder a perguntas como: “Este modelo consegue executar certas tarefas perigosas? Existem formas que ainda não considerámos — como mapas mentais, best event ou o uso de certas ferramentas — que poderiam fazer com que o modelo execute comportamentos muito perigosos?”»

Jack Clark:«No processo de formulação de políticas, essas ferramentas de avaliação são muito úteis. Porque “segurança” é um conceito muito abstrato. E quando eu digo: “Temos uma ferramenta de avaliação que decide se podemos ou não implementar este modelo”, então podemos colaborar com decisores de políticas, especialistas de segurança nacional e especialistas de domínios CBRN (química, biologia, radiação e nuclear) para estabelecer padrões de avaliação precisos em conjunto. Sem essas ferramentas concretas, essa colaboração talvez nem sequer fosse possível. Mas uma vez que há padrões claros, as pessoas ficam mais dispostas a participar e ajudam-nos a garantir que é preciso. Por isso, neste aspeto, o papel do RSP é muito evidente.»

Daniela Amodei:«O RSP também é muito importante para mim e afeta frequentemente o meu trabalho. É interessante: eu penso no RSP de uma forma um pouco particular, mais pelo “tom” dele — ou seja, pela forma como ele se expressa. Recentemente, fizemos uma grande mudança no tom do RSP, porque antes o tom era demasiado técnico, e até parecia haver um certo sentimento de antagonismo. Eu passei muito tempo a pensar em como construir um sistema que faça as pessoas quererem participar nele.»

Se o RSP fosse um documento fácil de compreender por toda a gente dentro de uma empresa, seria muito melhor. Tal como os nossos OKR (objectivos e resultados-chave). Por exemplo: qual é o principal objetivo do RSP? Como sabemos se atingimos o objetivo? Qual é o nível atual de segurança da IA (ASL)? É ASL-2 ou ASL-3? Se toda a gente souber o que deve destacar, encontrar potenciais problemas torna-se mais fácil. Pelo contrário, se o RSP for demasiado técnico e só uma pequena parte conseguir compreender, então a utilidade prática dele reduz-se bastante.

É bom ver que o RSP está a evoluir para algo mais fácil de entender. Agora, eu acho que a maioria das pessoas na empresa — talvez até todas, independentemente do seu cargo — consegue ler este documento e sentir: “Faz sentido. Espero que desenvolvamos IA guiados por estes princípios e também entendo por que devemos prestar atenção a estas questões. Se eu enfrentar um problema no meu trabalho, sei mais ou menos no que prestar atenção.” Queremos que o RSP seja simples o suficiente para alguém que trabalha numa fábrica consiga avaliar facilmente: “O cinto de segurança devia estar ligado aqui, mas neste momento não está bem ligado.” Assim, detetam-se problemas a tempo.

O essencial é criar um mecanismo de feedback saudável para permitir uma comunicação fluida entre a liderança, o conselho de administração, outras áreas da empresa e as equipas que realmente fazem investigação e desenvolvimento. Eu acho que a maioria dos problemas surge devido a falhas de comunicação ou a desvios na transmissão de informação. Se um problema aparecer apenas por razões desse tipo, seria uma pena, certo? No fim, o que precisamos de fazer é colocar estas ideias em prática, de forma que sejam simples e claras para que toda a gente compreenda.

A história de fundação da Anthropic

Sam McCandlish:«Na verdade, ninguém entre nós tinha a intenção de criar uma empresa logo no início. Limitámo-nos a sentir que era a nossa responsabilidade, e que tínhamos de agir — porque esta é a única forma de garantir que o desenvolvimento da IA siga o rumo certo. É também por isso que fizemos aquele compromisso.»

Dario Amodei:«A minha ideia inicial era simples: eu queria inventar e explorar coisas novas de uma forma que fosse útil. Esta ideia levou-me para a área de IA, e a investigação em IA precisa de muito apoio de engenharia; no fim, também precisa de muito financiamento.»

No entanto, eu percebi que, se não houver um objetivo claro e um plano para criar a empresa e gerir o ambiente, muitas coisas podem até ser realizadas, mas tendem a repetir os mesmos erros do setor tecnológico que me afastavam. Esses erros muitas vezes vêm das mesmas pessoas, das mesmas atitudes e dos mesmos padrões de pensamento. Por isso, a certo ponto, percebi que tínhamos de fazer as coisas de uma forma completamente nova — e isso era quase inevitável.

Jared Kaplan:«Lembras-te de que, quando estávamos no programa de mestrado, tu tinhas um plano completo para explorar como usar investigação científica para promover o bem público. Eu acho que isso é muito semelhante ao que fazemos agora. Eu lembro-me de que tu tinhas um projeto chamado “Project Vannevar”, cujo objetivo era concretizar isso. Nessa altura eu era professor. Observava a situação e acreditava muito de que o impacto da IA estava a crescer a uma velocidade extremamente alta.»

No entanto, devido à alta exigência de financiamento na investigação em IA e ao facto de eu ser professor de física, eu percebi que não conseguia avançar sozinha apenas com investigação académica. Eu queria criar uma instituição com pessoas em quem eu pudesse confiar, para garantir que o desenvolvimento da IA se encaminha para a direção certa. Mas, para ser honesto, eu nunca aconselhei ninguém a fundar uma empresa, nem tive tal desejo. Para mim, isso era apenas um meio para atingir um objetivo. Eu acho que, normalmente, o segredo do sucesso está em verdadeiramente te importares em concretizar um objetivo com significado para o mundo e, depois, encontrares a melhor forma de o atingir.

Como construir uma cultura de confiança

Daniela Amodei:«Eu penso muitas vezes nas vantagens estratégicas do nosso trabalho em equipa. Um fator que pode parecer inesperado, mas que é muito importante, é a nossa elevada confiança mútua. É muito difícil fazer com que um grande grupo de pessoas compartilhe uma missão comum. Mas na Anthropic conseguimos transmitir esse sentimento de missão a cada vez mais pessoas. Nesta equipa — incluindo a liderança e todos os membros — todos se reúnem graças a essa missão partilhada. A nossa missão é clara e pura; e isto é algo que não acontece com frequência na indústria tecnológica.»

Eu acho que o objetivo que estamos a tentar alcançar tem uma espécie de sentido puro. Nenhum de nós começou porque queria criar uma empresa. Só sentimos que tínhamos de fazer isto. Não conseguíamos continuar o nosso trabalho no local anterior; tínhamos de fazer isto por conta própria.

Jack Clark:«Na altura, com o aparecimento do GPT-3 — e com todos os projetos com que cada um de nós teve contacto ou participou, como as scaling laws — já em 2020 tínhamos visto claramente a tendência do desenvolvimento da IA. Percebemos que, se não agirmos o mais depressa possível, poderíamos muito rapidamente chegar a um ponto crítico irreversível. Temos de agir para causar impacto neste ambiente.»

Tom Brown:«Quero dar continuidade ao ponto do Daniela. Eu realmente acho que existe uma elevada confiança dentro da equipa. Cada um de nós sabe que se juntou a este grupo porque queria contribuir para o mundo. E também assumimos em conjunto um compromisso de doar 80% da receita para causas que promovem o desenvolvimento social — e isso é uma coisa que toda a gente apoia sem hesitar: “Sim, claro que vamos fazer.” Esta confiança é muito especial e rara.»

Daniela Amodei:«Eu acho que a Anthropic é uma empresa com muito pouca coloração política. Claro que a nossa perspetiva pode ser diferente da de pessoas comuns, e eu também me lembro disso o tempo todo. Acho que os nossos processos de contratação e as características dos membros da equipa fazem com que a cultura aqui tenha uma rejeição quase natural à “política de escritório”.»

Dario Amodei:«E também a coesão da equipa. A coesão é crucial. Seja a equipa de produto, a equipa de investigação, a equipa de confiança e segurança, a equipa de marketing ou a equipa de política, todos estão a trabalhar para alcançar o mesmo objetivo da empresa. Quando diferentes departamentos dentro da empresa perseguem objetivos totalmente diferentes, isso tende a causar confusão. E se eles acreditarem que outros departamentos estão a prejudicar o seu trabalho, isso é ainda mais anormal.»

Eu acho que uma das nossas realizações mais importantes é manter com sucesso a consistência geral da empresa. Mecanismos como o RSP desempenham um papel importante nisso. Este tipo de mecanismo garante que dentro da empresa não acontece que alguns departamentos criem problemas e outros departamentos tentem reparar; em vez disso, todos os departamentos cumprem as suas funções e cooperam dentro de um quadro unificado de teoria de mudança (theory of change).

Chris Olah:«Eu entrei no OpenAI originalmente porque é uma organização sem fins lucrativos — eu podia concentrar-me em investigação de segurança em IA. Mas com o passar do tempo, fui percebendo gradualmente que este modelo não era totalmente adequado para mim. E isso também me obrigou a tomar algumas decisões difíceis. Nesse processo, eu confiei muito no julgamento do Dario e da Daniela, mas não queria sair. Porque eu achava que acrescentar mais laboratórios de IA talvez não fosse benéfico para o mundo — isso fez-me hesitar muito em sair.»

Quando finalmente decidimos sair, eu mantive algumas reservas em relação à criação de uma empresa. Eu já tinha defendido que deveríamos criar uma organização sem fins lucrativos focada em investigação de segurança. Mas, no fim, uma atitude mais pragmática e a honestidade sobre limitações reais levaram-nos a perceber que criar a Anthropic era a melhor forma de atingir os nossos objetivos.

Dario Amodei:«Uma das lições importantes que aprendemos nos primeiros tempos é: fazer poucas promessas e cumprir as promessas que fazemos. Ser realista, encarar concessões e compromissos — porque a confiança e a reputação são mais importantes do que qualquer política específica.»

Daniela Amodei:«Um aspeto distintivo da Anthropic é a elevada confiança e a unidade dentro da equipa. Por exemplo, quando eu vejo o Mike Krieger insistir em não lançar certos produtos por motivos de segurança, e ao mesmo tempo vejo o Vinay a discutir como equilibrar necessidades do negócio para fazer os projetos avançarem, eu sinto aquilo como muito especial. Além disso, engenheiros de equipas de segurança técnica e equipas de raciocínio também discutem como garantir que os produtos sejam seguros e úteis. Este objetivo unificado e esta atitude pragmática são, sem dúvida, um dos aspetos mais atraentes do ambiente de trabalho da Anthropic.»

Dario Amodei:«Uma cultura organizacional saudável assenta em todos entenderem e aceitarem os trade-offs partilhados. O mundo em que vivemos não é perfeito; cada decisão precisa de encontrar equilíbrio entre diferentes interesses, e muitas vezes esse equilíbrio não é totalmente satisfatório. Mas desde que todo o grupo consiga encarar esses trade-offs em conjunto, sob um objetivo unificado, e contribua para o objetivo global a partir dos respetivos postos, é isso que torna um ecossistema saudável.»

Sam McCandlish:«De certa forma, isto é uma “corrida para cima”. Sim, é mesmo uma “corrida para cima”. Mesmo que não seja uma escolha completamente sem risco — coisas podem correr mal — nós concordámos todos: “Esta é a escolha que fazemos”.»

A disputa pelo topo da IA

Jack Clark:«Mas o mercado é, por natureza, pragmático. Por isso, quanto mais a Anthropic for bem-sucedida como empresa, mais motivados ficam os outros a imitar aquilo que nos fez ter sucesso. E quando a nossa vitória está estreitamente ligada ao nosso trabalho real na área da segurança, isso cria uma “força de atração” na indústria e faz com que outras empresas entrem também nesta competição. É como quando nós desenvolvemos cintos de segurança; outras empresas podem imitá-los. Este é um ecossistema saudável.»

Dario Amodei:«Mas se tentares dizer: “Não vamos desenvolver esta tecnologia e tu também não consegues fazê-la tão bem como os outros.” Essa abordagem não funciona, porque não provaste que o caminho do “estado atual” para o “futuro” é viável. O que o mundo precisa — tanto a nível de indústria como a nível de uma empresa — é encontrar uma forma de a sociedade conseguir passar de “a tecnologia não existe” para “a tecnologia existe numa forma poderosa e está efetivamente gerida pela sociedade”. Eu acho que a única forma de alcançar isso é enfrentar esses trade-offs ao nível de uma única empresa e, eventualmente, ao nível de toda a indústria.»

Precisas de encontrar uma forma de manter competitividade, liderar até em certos domínios, e ao mesmo tempo garantir a segurança da tecnologia. Se conseguires fazer isso, a atração para a indústria será muito forte. Desde o ambiente regulatório, passando pelos talentos excelentes que querem juntar-se a empresas diferentes, até à perceção dos clientes — todos estes fatores empurram a indústria na mesma direção. Se conseguires demonstrar que é possível alcançar segurança sem sacrificar competitividade — ou seja, encontrar soluções de ganhos mútuos — então outras empresas também serão incentivadas a adotar esta abordagem.

Jared Kaplan:«Eu acho que é por isso que mecanismos como o RSP são tão importantes. Conseguimos ver claramente para onde vai a evolução da tecnologia e percebemos que é preciso manter uma vigilância muito alta sobre certos problemas. Mas, ao mesmo tempo, temos de evitar emitir o erro de “lobo a uivar”, não podemos simplesmente dizer: “a inovação deve parar aqui.” Precisamos encontrar uma forma de fazer com que a tecnologia de IA proporcione aos clientes experiências úteis, inovadoras e agradáveis, ao mesmo tempo em que deixamos claras as restrições que temos de cumprir — restrições que garantem a segurança do sistema e, ao mesmo tempo, fazem com que outras empresas acreditem que elas também podem alcançar sucesso sob essas premissas de segurança e competir connosco.»

Dario Amodei:«Alguns meses depois, com o lançamento do nosso RSP, três das empresas de IA mais conhecidas lançaram também mecanismos semelhantes. E a interpretabilidade é outra área em que tivemos um avanço. Além disso, também colaborámos com instituições de investigação em segurança de IA. Este conjunto de foco em segurança está a produzir impactos profundos.»

Jack Clark:«Sim; o Frontier Red Team foi praticamente copiado por outras empresas quase imediatamente. Isto é uma boa coisa. Nós queremos que todos os laboratórios testem potenciais vulnerabilidades de segurança de alto risco.»

Daniela Amodei:«Como o Jack também mencionou, os clientes também se preocupam muito com segurança. Eles não querem que os modelos gerem informação falsa, nem que seja fácil contornar as restrições de segurança. Eles querem que os modelos sejam úteis e inofensivos. Na nossa comunicação com clientes, ouvimos frequentemente algo como: “Escolhemos o Claude porque sabemos que é mais seguro.” Eu acho que isto tem um impacto enorme no mercado. Conseguimos oferecer modelos dignos de confiança e fiáveis, o que também cria uma pressão de mercado considerável sobre os concorrentes.»

Chris Olah:«Talvez possamos expandir um pouco o ponto do Dario. Existe uma ideia de que o comportamento mais moral é a “falha nobre”. Ou seja, deves sacrificar outros objetivos pela segurança, até agir de uma forma pouco realista, para demonstrar a pureza da tua dedicação ao propósito. Mas eu acho que, na realidade, essa abordagem é autodestrutiva.»

Em primeiro lugar, esta abordagem faz com que o poder de decisão caia nas mãos de pessoas que não valorizam a segurança e não a priorizam. Por outro lado, se tu te esforças por encontrar uma forma de alinhar incentivos, colocar as decisões difíceis onde existe mais poder para apoiar decisões corretas e baseá-las nas evidências mais fortes, então consegues desencadear a “corrida para cima” descrita pelo Dario. Nesta corrida, não são as pessoas que se preocupam com segurança que ficam marginalizadas; pelo contrário, outras pessoas são forçadas a seguir o teu ritmo e a juntar-se a esta corrida.

Olhar para o futuro da inteligência artificial

Jack Clark:«Então, quando se trata do que vamos fazer a seguir, o que é que vocês acham mais emocionante?»

Chris Olah:«Eu acho que há muitas razões para ficar entusiasmado com a interpretabilidade. Uma óbvia é por motivos de segurança. Mas há outra razão: emocionalmente, isto também me entusiasma e parece-me muito significativo. É porque eu acho que as redes neuronais são maravilhosas e há muitas coisas bonitas que ainda não vimos. Nós tratamos as redes neuronais como uma caixa preta e não nos interessamos especialmente pela sua estrutura interna; mas quando começamos a estudá-las a fundo, descobrimos que, lá dentro, há estruturas impressionantes.»

É um bocado como a forma como as pessoas olham para a biologia: algumas pessoas podem achar que “a evolução é aborrecida; é apenas um processo simples, que corre por muito tempo e cria os animais.” Mas na realidade, cada animal que a evolução cria está cheio de complexidade e estrutura incríveis. E eu acho que a evolução é um processo de otimização — tal como treinar uma rede neuronal. Dentro das redes neuronais também existe uma estrutura complexa, semelhante a algo como “bioengenharia artificial”. Se estiveres disposto a estudá-la a fundo, vais encontrar imensas coisas incríveis.

Eu acho que estamos apenas a começar a desvendar isto aos poucos. É tão inacreditável, e há demasiadas coisas à espera de serem descobertas. Estamos a começar a abrir a porta para isso; eu acho que as descobertas que vêm a seguir vão ser muito excitantes e maravilhosas. Por vezes imagino que, daqui a dez anos, entramos numa livraria e compramos um manual sobre interpretabilidade de redes neuronais — ou um livro que realmente conte a “biologia” das redes neuronais — e que tenha todo um conjunto de coisas impressionantes. Eu acredito que, nos próximos dez anos, ou até nos próximos anos, vamos começar a descobrir verdadeiramente estas coisas. Vai ser uma jornada louca e maravilhosa.

Jack Clark:«Há alguns anos, se alguém dissesse: “O governo vai criar uma nova entidade para testar e avaliar sistemas de IA e estas entidades vão ser altamente especializadas e vão funcionar de verdade”, tu provavelmente não acreditavas que isso fosse verdade. Mas já aconteceu. Podemos dizer que o governo já criou um “novo embaixada” para lidar com esta nova categoria de tecnologia; estou mesmo curioso para ver para onde isto vai evoluir. Eu acho que, na prática, isto significa que o Estado tem capacidade de lidar com esta transformação social — não dependendo apenas das empresas. Estou feliz por poder participar nisso.»

Daniela Amodei:«Eu já estou entusiasmada com isto agora, mas acho que, só de imaginar o que o futuro da IA pode fazer pelos seres humanos, é difícil não ficar entusiasmada. Mesmo hoje, as pistas de que o Claude pode ajudar no desenvolvimento de vacinas, em investigação sobre cancro e em investigação de biologia já são inacreditáveis. Ver as coisas que ele já consegue fazer é impressionante, e, quando imagino o que ele poderá fazer nos próximos três a cinco anos — resolver verdadeiramente muitos dos problemas fundamentais que a humanidade enfrenta, sobretudo na área da saúde — isso também me deixa muito entusiasmada. Ao recordar os meus dias de desenvolvimento internacional, imaginem o quanto seria impressionante se o Claude pudesse ajudar a concretizar aquele trabalho que na altura era tão pouco eficiente.»

Tom Brown:«Do ponto de vista pessoal, eu gosto muito de usar o Claude no meu trabalho. Recentemente, em casa também falo com o Claude sobre várias coisas. A maior mudança recente é o código. Há seis meses atrás, eu ainda não usava o Claude para qualquer trabalho relacionado com programação, e a nossa equipa também não usava muito o Claude para programar. Mas agora isso mudou de forma muito clara. Por exemplo, na semana passada fiz uma apresentação num evento da Y Combinator. Quando comecei, perguntei às pessoas: “Quantas pessoas usam o Claude para programar agora?” E quase 95% levantaram a mão. Quase toda a sala levantou a mão, o que é totalmente diferente da situação há quatro meses.»

Dario Amodei:«Quando penso no que me deixa entusiasmado, penso em coisas como aquela “aparente” convergência que já mencionei, mas que na verdade está prestes a ser quebrada. Um desses pontos é a interpretabilidade. Eu acho que a interpretabilidade não é apenas uma peça chave para guiar e garantir a segurança dos sistemas de IA; ela também contém insights profundos sobre o problema de otimização da inteligência e sobre como o cérebro humano funciona. Eu já disse que Chris Olah vai ganhar um Prémio Nobel de Medicina.»

Porque eu já fui neurocientista, e eu suspeito que muitos dos problemas mentais que ainda não resolvemos — como esquizofrenia ou distúrbios emocionais — possam estar relacionados com algum problema de sistema em um nível superior. No entanto, devido à complexidade do cérebro humano e às características de ser difícil de estudar diretamente, esses problemas são difíceis de compreender completamente. Embora as redes neuronais não sejam um análogo perfeito, elas não são tão difíceis de decifrar e interagir como o cérebro humano. Com o tempo, as redes neuronais se tornarão uma ferramenta de analogia melhor.

Outra área relacionada é a aplicação de IA na biologia. A biologia é um problema extremamente complexo, e por várias razões as pessoas ainda têm cepticismo sobre ela; mas eu acho que este consenso de cepticismo começou a ruir. Já vimos o Prémio Nobel na área da química ser atribuído ao AlphaFold — um feito incrível — e devemos esforçar-nos por desenvolver ferramentas que nos ajudem a criar centenas de “AlphaFold”.

Por fim, há o uso de IA para reforçar a democracia. Temos receio de que, se a IA for desenvolvida de forma errada, possa tornar-se uma ferramenta do autoritarismo. Então, como é que fazemos com que a IA se torne uma ferramenta para promover liberdade e autodeterminação? Eu acho que o desenvolvimento nesta área pode começar mais cedo do que as duas primeiras, mas a sua importância não é, de forma nenhuma, menor.

Jared Kaplan:«Eu quero pelo menos ecoar dois pontos do que tu disseste anteriormente. Um ponto é que eu acho que muitas pessoas entram na Anthropic porque têm um enorme fascínio pela ciência da IA. Com o progresso da tecnologia de IA, elas vão aceitando gradualmente que não basta apenas impulsionar o desenvolvimento da tecnologia; é preciso compreendê-la com mais profundidade e garantir a sua segurança. Eu acho que é uma coisa emocionante poder trabalhar com cada vez mais pessoas que partilham a mesma visão sobre desenvolvimento de IA e responsabilidade. E eu também sinto que muitos avanços tecnológicos que aconteceram no último ano realmente ajudaram a formar esse consenso.»

O outro aspeto é que, voltando aos problemas concretos, eu acho que já fizemos muito trabalho em segurança de IA. Mas, com alguns desenvolvimentos recentes, começámos a ter uma compreensão inicial de alguns riscos que sistemas muito avançados podem trazer. Isso permite-nos investigar e estudar diretamente esses riscos através de investigação de interpretabilidade e outros tipos de mecanismos de segurança.

Desta forma, podemos compreender de forma mais clara os riscos potenciais que sistemas de IA avançados podem trazer. Isso vai permitir-nos avançar a nossa missão de uma forma mais científica e baseada em evidências. Por isso, estou muito entusiasmado com os próximos seis meses: vamos usar a nossa compreensão sobre problemas potenciais de sistemas avançados para investigar mais e encontrar formas de evitar estas armadilhas.

Link do vídeo original

Clique para conhecer o律动BlockBeats a abrir vagas

Bem-vindo a juntar-se à comunidade oficial da律动 BlockBeats:

Telegram grupo de subscrição: https://t.me/theblockbeats

Telegram grupo de conversas: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar