Reunião de sete cofundadores: Como nasceu a Anthropic?

Question

«Ninguém quer lançar uma empresa, mas sente-se que tem de o fazer.»

Organização e compilação: Deep Tide TechFlow

Convidados: Chris Olah, Jack Clark, Daniela Amodei, Sam McCandlish, Tom Brown, Dario Amodei, Jared Kaplan — cofundadores da Anthropic

Fonte do podcast: Anthropic

Título original: Building Anthropic | A conversation with our co-founders

Data de emissão: 20 de dezembro de 2024

Principais destaques

Ao longo da semana passada, a Anthropic sofreu consecutivamente dois incidentes:

Primeiro, quase 3000 documentos internos foram acedidos publicamente devido a um erro de configuração no CMS; em seguida, o Claude Code v2.1.88, no momento em que foi publicado no npm, incluiu 59,8 MB de source map e 510.000 linhas de código-fonte ficaram expostas sem proteção.

Uma empresa que escreveu «segurança» nos genes falhou repetidamente na sua própria operação e manutenção — é mesmo irónico ao máximo.

Mas antes de se rir depressa, vale a pena voltar a ouvir um diálogo interno dos sete cofundadores da Anthropic, feito mais de um ano antes. Este podcast foi gravado em dezembro de 2024. As sete pessoas falam sobre como esta empresa foi criada, como o RSP (Responsible Scaling Policy, tradução literal «política responsável de escalabilidade») foi sendo afinado, por que razão «segurança» não pode ser usada levianamente e também sobre a frase do CEO Dario, citada repetidamente:

«Se um edifício toca o alarme de incêndio todas as semanas, então na verdade é um edifício muito inseguro.»

Agora, ao ouvir esta frase de novo, o sabor já não é o mesmo.

Sete cofundadores, identificação rápida

Dario Amodei｜CEO, antigo vice-presidente de investigação na OpenAI, com formação em neurociência, o responsável final pela decisão na estratégia e na linha de segurança da Anthropic. Foi quem mais falou nesta conversa.

Daniela Amodei｜Presidenta, irmã de Dario. Antes, passou cinco anos e meio na Stripe, liderando equipas de confiança e segurança; trabalhou ainda mais cedo em organizações sem fins lucrativos e no domínio do desenvolvimento internacional. A estrutura organizacional da Anthropic e a comunicação externa são em grande parte da responsabilidade dela.

Jared Kaplan｜Professor de física convertido em investigador de IA, um dos autores centrais das scaling laws. Frequentemente oferece julgamentos a partir da perspetiva de alguém de fora; diz que começou a fazer IA porque «já tinha feito demasiada física».

Chris Olah｜Figura de destaque na investigação em interpretabilidade (interpretability); entrou no círculo de IA na Baía quando tinha 19 anos, trabalhou na Google Brain e na OpenAI. A pessoa na Anthropic com mais traços de idealismo tecnológico.

Tom Brown｜Primeiro autor no artigo do GPT-3; agora gere os recursos de computação da Anthropic. Tem uma perspetiva mais orientada para engenharia e infraestruturas, e no podcast falou bastante sobre o processo desde «não acredito que a IA vai avançar tão depressa» até mudar de opinião.

Jack Clark｜Ex-jornalista de tecnologia da Bloomberg; responsável por políticas e assuntos públicos na Anthropic. Nesta conversa, desempenha o papel de moderador, ligando temas e fazendo perguntas de seguimento.

Sam McCandlish｜Cofundador da equipa de investigação; foi quem menos falou em toda a sala, mas com frequência responde com uma frase que acerta em cheio — é a «posição para dar o golpe final».

Resumo de ideias marcantes

Por que fazer IA: da monotonia da física ao «quando já chega, confio»

Jared Kaplan: «Antes, fiz física durante muito tempo, estava um bocado aborrecido, e também queria trabalhar com mais amigos, por isso fiz IA.»

Dario Amodei: «Eu não acho que tenha dito claramente que te estava a convencer; eu só te fui mostrando resultados de modelos de IA. A certa altura, eu já te tinha mostrado o suficiente, e tu disseste: «Sim, isto parece estar certo».»

Aposta contrária ao consenso: a maioria do “consenso” é efeito de rebanho disfarçado de maturidade

Jared Kaplan: «Muitos investigadores de IA foram psicologicamente muito feridos pela “idade do inverno da IA”, como se ter ambição não fosse permitido.»

Dario Amodei: «O meu ensinamento mais profundo dos últimos dez anos é este: muitos “consensos que toda a gente sabe” são, na verdade, o efeito de rebanho disfarçado de maturidade. Tu já viste quantas vezes o consenso vira ao contrário de uma noite para a outra, e então as pessoas dizem: “Não, apostamos nisto.” Mesmo que tenhas apenas 50% de estar certo, contribuis imensas coisas que outras pessoas não contribuíram.»

Segurança e escalabilidade andam de mãos dadas

Dario Amodei: «Naquela altura, uma das motivações para aumentar o modelo era que ele precisava primeiro de ser suficientemente inteligente para que o RLHF funcionasse. E é isto que ainda hoje acreditamos: segurança e escalabilidade estão enredadas.»

RSP, política responsável de escalabilidade, é a «constituição» da Anthropic

Tom Brown: «Para a Anthropic, o RSP é como a nossa constituição. É um documento central com valor orientador; por isso, estamos dispostos a investir muito tempo e energia para o afinar repetidamente.»

Dario Amodei: «O RSP impede que planos que não cumpram padrões de segurança continuem a avançar. Não estamos apenas a falar de slogans; na prática, integramos a segurança em cada etapa.»

Alarmes de incêndio a tocar tantas vezes que, quando o fogo é real, ninguém corre

Daniela Amodei: «Não podemos usar levianamente a palavra “segurança” para orientar o progresso. O nosso objetivo real é garantir que toda a gente compreenda com clareza o que queremos dizer com segurança.»

Dario Amodei: «O que normalmente prejudica a segurança são aquelas “simulações de segurança” frequentes. Se um edifício toca o alarme de incêndio toda a semana, então, na verdade, é um edifício muito inseguro.»

“A falha nobre” é uma armadilha

Chris Olah: «Existe uma ideia de que a conduta mais moral seria sacrificar outros objetivos em nome da segurança, para demonstrar a pureza do nosso compromisso com a causa. Mas, na prática, esse método é autossabota. Porque faz com que o poder de decisão caia nas mãos de pessoas que não valorizam segurança.»

Os cofundadores comprometem-se a doar 80% das receitas

Tom Brown: «Assumimos em conjunto o compromisso de doar 80% das receitas para iniciativas que impulsionem causas capazes de melhorar a sociedade — algo que toda a gente apoia sem hesitar.»

Ninguém quer criar uma empresa, mas acha-se que tem de ser assim

Sam McCandlish: «Na verdade, ninguém entre nós tinha, logo no início, vontade de fundar uma empresa. Limitamo-nos a sentir que isso é a nossa responsabilidade, porque é a única forma de assegurar que o desenvolvimento da IA segue o caminho certo.»

Daniela Amodei: «A nossa missão é clara e pura, e isso não é comum num setor tecnológico.»

Interpretabilidade: uma espécie inteira de “bioartificial” escondida nas redes neuronais

Chris Olah: «As redes neuronais são extraordinárias; há nelas muitas belezas que ainda não vimos. Às vezes imagino que daqui a dez anos entremos numa livraria e compremos um livro didático sobre biologia das redes neuronais, com todo o tipo de conteúdos surpreendentes.»

IA para reforçar a democracia, não para se tornar uma ferramenta de ditadura

Dario Amodei: «Tememos que, se a IA for desenvolvida de forma errada, possa tornar-se uma ferramenta do autoritarismo. Como é que se faz com que a IA seja uma ferramenta para promover a liberdade e a autodeterminação? A importância desta área não é menor do que a de biologia e interpretabilidade.»

Da reunião na Casa Branca ao Prémio Nobel: a influência da IA já ultrapassou há muito o círculo tecnológico

Jared Kaplan: «Em 2018, não imaginarias que um presidente te mandasse para a Casa Branca dizer que estava a acompanhar modelos de linguagem.»

Dario Amodei: «Já vimos o Prémio Nobel na área da química ser atribuído ao AlphaFold. Devemos esforçar-nos por desenvolver ferramentas capazes de nos ajudar a criar centenas de AlphaFolds.»

Por que estudar IA?

Jack Clark: Por que é que decidimos fazer IA logo no início? Jared, por que é que fizeste IA?

Jared Kaplan:

Eu estive muito tempo a fazer física; estava um bocado aborrecido, e também queria trabalhar com mais amigos. Por isso fiz IA.

Tom Brown:

Achei que era o Dario a convencer-te.

Dario Amodei:

Eu não acho que tenha “convencido-te” de forma clara; só te fui mostrando resultados de modelos de IA, para mostrar que são algo com aplicação geral, não apenas para um problema específico. A certa altura, eu já te tinha mostrado o suficiente, e tu disseste “Bem, isto parece estar certo”.

**Jack Clark: Chris, quando estavas a fazer investigação em interpretabilidade, conheceste toda a gente na Google? **

Chris Olah:

Não. Na verdade, eu conheci muita gente de entre vocês quando vim para a Baía pela primeira vez aos 19 anos. Nessa altura, vi o Dario e o Jared, que eram pós-docs; eu achei aquilo particularmente fixe. Depois, na Google Brain, quando o Dario entrou, chegámos a sentar-nos lado a lado durante algum tempo; eu também trabalhei com o Tom. Mais tarde, fui para a OpenAI e, então, trabalhei com todos vocês.

Jack Clark:

Lembro-me de que, em 2015, numa conferência, vi o Dario a querer entrevistar-te. Até o Google PR disse que eu tinha primeiro de ler todos os teus artigos.

Dario Amodei:

Nessa altura, eu escrevia na Google «Concrete Problems in AI Safety».

Sam McCandlish:

Quando comecei a trabalhar contigo, convidaste-me para falar no escritório, como se fosse uma explicação geral de toda a IA. Lembro-me de que, depois de conversar, pensei: «Ora, isto é muito mais sério do que eu tinha percebido.» Tu falaste naquela altura sobre “enormes blocos de computação”, sobre o número de parâmetros e sobre a escala de neurónios no cérebro humano.

Escalabilidade transformadora

**Jack Clark: **Lembro-me de, quando estavas na OpenAI a fazer scaling laws, em aumentar o modelo para começar realmente a resultar — e, em muitos projetos, continuar e resultar de forma estranha e persistente. Do GPT-2 às scaling laws até ao GPT-3, fomos aproximando-nos assim cada vez mais.

**Dario Amodei: **Nós somos mesmo aquela “gente que faz as coisas acontecerem”.

**Jared Kaplan: **Também estávamos todos entusiasmados com a segurança. Nessa altura, surgiu uma ideia: a IA será muito forte, mas pode não compreender os valores humanos e, até, pode não conseguir comunicar connosco. Modelos de linguagem, de certa forma, conseguem garantir que compreendem muitos conhecimentos implícitos.

Dario Amodei:

Além disso, existe o RLHF acima dos modelos de linguagem. Nessa altura, uma das motivações para aumentar o modelo era que ele precisava primeiro de ser suficientemente inteligente para que o RLHF pudesse ser feito. É isto que ainda hoje acreditamos: segurança e escalabilidade estão enredadas.

Chris Olah:

Sim. Naquela altura, o trabalho de scaling também fazia parte do trabalho da equipa de segurança. Porque, ao nosso ver, para fazer as pessoas levarem a segurança a sério, a primeira coisa é conseguir prever as tendências da IA.

Jack Clark:

Lembro-me de eu estar num aeroporto no Reino Unido, a fazer amostragem a partir do GPT-2 para escrever notícias falsas, e a enviar no Slack para o Dario a dizer: “Isto funciona mesmo; pode ter um enorme impacto a nível de políticas.” E eu lembro-me de que a resposta do Dario foi: “Sim, certo.”

Depois, fizemos muitos trabalhos relacionados com publicações, e foi mesmo louco.

Daniela Amodei:

Lembro-me da parte das publicações; aquilo foi a nossa primeira colaboração real, quando o GPT-2 foi lançado.

Jack Clark:

Acho que isso nos ajudou muito. Primeiro fizemos juntos uma coisa meio estranha, mas com orientação para a segurança. Depois fizemos juntos a Anthropic, uma coisa maior de escala, também meio estranha, mas orientada para a segurança.

Fase inicial da IA

Tom Brown: Vamos voltar ao artigo «Concrete Problems». Eu entrei na OpenAI em 2016. Naquela altura, vocês e eu éramos das primeiras pessoas. Eu senti que aquele texto parecia ser o primeiro artigo mainstream de segurança em IA. Como surgiu?

Dario Amodei:

O Chris sabia — ele participou. Naquela altura, na Google, eu nem me lembro qual era o meu projeto principal. Aquilo pareceu-me ter sido algo que eu arraste de lado, por procrastinação.

Queríamos escrever quais eram os problemas em aberto na segurança de IA. Naquela altura, a segurança de IA era sempre explicada de forma muito abstrata. Nós queríamos colocá-la em cima da ML real daquela época. Já se passaram seis ou sete anos a trabalhar nesta linha, mas naquela altura era uma ideia estranha.

Chris Olah:

Acho que, de certo modo, era quase um projeto político. Naquela altura, muitas pessoas não levavam a segurança a sério. Quisemos organizar uma lista de problemas que todos considerassem razoáveis. Muitos deles já existiam na literatura; depois, procurámos pessoas com credibilidade, vindas de instituições diferentes, para assinar em conjunto.

Lembro-me de ter passado muito tempo a comunicar com mais de vinte investigadores da Brain, a pedir apoio para conseguir publicar. Se olhares apenas para o próprio conjunto de problemas, voltando hoje, talvez nem todos se mantenham como estavam; pode não ser a lista mais correta. Mas se olharmos para isto como construção de consenso — provar que «há problemas reais aqui, e que merecem ser levados a sério» — então foi um momento importante.

Jack Clark:

No fim, vais entrar num mundo de ficção científica bem particular. Lembro-me de, no início da Anthropic, falarem de AI Constitucional. E o Jared dizia “escrevemos uma constituição para o modelo de linguagem e o comportamento muda”. Nessa altura, parecia completamente maluco. Por que é que vocês achavam que era possível?

Jared Kaplan:

Eu discuti isto com o Dario durante muito tempo e senti que, em IA, métodos simples muitas vezes funcionam extraordinariamente bem. A versão mais inicial era bastante complexa; depois foram-se reduzindo e, por fim, ficou assim: aproveita-se o facto de o modelo ser bom a fazer questões de escolha múltipla; dá-se prompts claros a indicar o que ele tem de procurar. Isso é suficiente, e depois podemos escrever os princípios diretamente.

Dario Amodei:

Isto leva-nos de volta ao «Grande Bloco de Computação» (The Big Blob of Compute), à «Lição Dolorosa» (The Bitter Lesson) e às «Hipóteses de Escalabilidade» (Scaling Hypothesis): enquanto conseguires dar à IA um objetivo claro e dados, ela consegue aprender. Um conjunto de instruções, um conjunto de princípios: o modelo de linguagem consegue lê-los e também consegue compará-los com o seu próprio comportamento; o objetivo de treino está lá. Portanto, a perspetiva do Jared e a minha é: é possível fazer, desde que os detalhes sejam iterados vezes sem fim.

Jared Kaplan:

Para mim, era estranho no início. Eu vinha da física e, agora, toda a gente está entusiasmada com a IA; é fácil esquecermo-nos do ambiente daquela época. Nessa altura, quando eu falava com o Dario, senti que muitos investigadores de IA tinham sido feridos psicologicamente pelo inverno da IA, como se a «ambição» não fosse permitida. Discutir segurança exigia primeiro acreditar que a IA poderia ser muito forte e muito útil — mas nessa altura parecia existir um “banimento” contra a ambição. Uma vantagem dos físicos é que eles têm uma espécie de «arrogância»; estão habituados a fazer coisas com ambição e a falar de visões amplas.

Dario Amodei:

Eu acho que isto é verdade. Em 2014, havia muitas coisas que simplesmente não se podiam dizer. Isto é também um problema comum na academia: para além de algumas áreas específicas, as instituições passaram a ter cada vez mais aversão ao risco. A IA industrial herdou esse sentimento. Só por volta de 2022 é que esta situação começou a mudar.

Chris Olah:

Também havia “duas formas” de ser conservador: uma é levar os riscos a sério; a outra é levar a sério e acreditar que a ideia pode funcionar como arrogância. Naquela altura, estávamos dominados pela segunda. E historicamente, nas discussões sobre física nuclear de 1939, era parecido: Fermi resistia; Szilard ou Teller levavam os riscos a sério.

Dario Amodei:

O meu ensinamento mais profundo dos últimos dez anos é este: muitos “consensos que toda a gente sabe” são, na verdade, o efeito de rebanho disfarçado de maturidade. Tu vês alguns consensos virarem de cabeça para baixo numa noite, e as pessoas acabam por dizer: «Não, apostamos nisto.» Pode não ser necessariamente a escolha certa, mas ignora-se o ruído e faz-se a aposta. Mesmo que tenhas apenas 50% de estar certo, contribuis imensas coisas que outras pessoas não contribuíram.

Atitudes do público em relação à inteligência artificial

Jared Kaplan:

Hoje, em algumas questões de segurança, passa-se algo semelhante. O consenso externo é que muitos problemas de segurança “não nascem de forma natural” a partir da tecnologia. Mas nós, na Anthropic, vemos que eles surgem mesmo de forma natural.

Daniela Amodei:

Mas nos últimos 18 meses, isso tem mudado, e as emoções do mundo em relação à IA também estão a mudar de forma muito visível. Quando fazemos investigação com utilizadores, ouvimos com mais frequência os utilizadores comuns a preocupar-se com o impacto global da IA no mundo.

Às vezes é sobre o trabalho, sobre preconceito, sobre toxicidade; outras vezes é sobre «será que vai desorganizar o mundo e mudar a forma como os humanos cooperam». E, na verdade, eu não tinha previsto isso completamente.

am McCandlish:

Não sei porquê, mas o círculo de investigação em ML costuma ser mais pessimista do que o público em geral quanto a «a IA ficar muito mais forte».

Jared Kaplan:

Em 2023, eu e o Dario fomos à Casa Branca. Numa reunião, Harris e Raimondo, basicamente, queriam dizer isto: «Estamos de olho em vocês; a IA é um grande assunto; estamos a acompanhá-la com seriedade; mas em 2018 não ias imaginar que um presidente te chamaria à Casa Branca para dizer que estava a acompanhar modelos de linguagem.»

Tom Brown:

O interessante é que muita gente nossa entrou nesta questão enquanto ainda não era claro se ia mesmo acontecer. É como o Fermi face à bomba atómica: havia algumas evidências de que ela poderia ser feita; também havia muitas evidências de que não; e, no fim, ele decidiu tentar. Porque se fosse verdade, o impacto seria enorme; por isso valia a pena.

Entre 2015 e 2017, houve algumas evidências e elas foram aumentando, que mostravam que a IA poderia ser um grande assunto. Em 2016, eu conversei com o meu orientador: já tinha feito uma experiência de empreendedorismo; queria fazer segurança em IA, mas não tinha matemática suficiente, e não sabia o que fazer. Naquela altura, alguém disse-te que precisavas de dominar a teoria da decisão; alguém disse que um incidente de IA maluca não aconteceria, e que os apoiantes eram poucos.

Jack Clark:

Eu, em 2014, quando fazia relatórios sobre tendências do ImageNet, fui tratado como maluco. Em 2015, quando eu quis escrever sobre a NVIDIA por causa das suas publicações sobre GPU com artigos, também me disseram que eu era maluco. Em 2016, saí das notícias para ir para a IA, e houve e-mails a dizer «Cometeste o maior erro da tua vida». Nessa altura, sob muitos ângulos, parecia mesmo maluco apostar a sério que “a escalabilidade vai resultar”.

Jared Kaplan: Como é que decidiste? Estavas a hesitar?

Jack Clark:

Fiz uma aposta contrária: pedi para fazer jornalismo de IA a tempo inteiro e dobrei o meu salário; eu sabia que não iam aceitar. Depois fui dormir e, ao acordar, pedi demissão. Porque eu passava todos os dias a ler documentos de arquivo e sentia sempre que estava a acontecer algo de louco — num certo momento, devias fazer uma aposta com elevada convicção.

Tom Brown:

Eu não fui tão decisivo; oscilei durante seis meses.

Daniela Amodei:

E nessa altura, a ideia de que “os engenheiros também podem impulsionar significativamente a IA” não era consensual. Naquela altura era “só investigadores conseguem fazer IA”; por isso a tua hesitação não é surpreendente.

Tom Brown:

Depois, a OpenAI disse: “Podes ajudar a IA através da engenharia para a segurança.” Foi isso que me fez aderir. Daniela, tu eras a minha gestora na OpenAI; por que é que te juntaste?

Daniela Amodei:

Eu estive na Stripe cinco anos e meio; o Greg tinha sido o meu chefe. Eu até apresentei o Greg ao Dario. Nessa altura, ele estava a fundar a OpenAI, e eu disse-lhe: “As pessoas mais inteligentes que eu conheço são o Dario. Se conseguires colocá-lo no teu grupo, isso é uma sorte para ti.” Mais tarde, o Dario entrou na OpenAI.

Talvez como tu, eu também estava a pensar no que fazer depois de sair da Stripe. Eu entrei na Stripe porque, quando trabalhava em organizações sem fins lucrativos e no desenvolvimento internacional, sentia que precisava de mais competências. Na verdade, eu achava que, no fim, iria voltar para aquele domínio.

Antes de entrar na Stripe, eu achava que não tinha capacidade suficiente para ajudar pessoas que tinham condições piores do que as minhas. Por isso, eu comecei a olhar para outras empresas de tecnologia, procurando uma nova forma de gerar um impacto maior. E, na altura, a OpenAI parecia-me uma escolha muito boa. Era uma organização sem fins lucrativos, dedicada a atingir um objetivo muito importante e com grande significado.

Eu sempre acreditei no potencial da IA. Conhecia alguns aspetos do Dario e também fazia sentido que precisassem de alguém para ajudar a gerir. Assim, eu achei que este trabalho combinava muito bem com a minha experiência. Naquela altura, pensei: «É uma organização sem fins lucrativos; aqui reúne-se um grupo de pessoas muito boas, com uma visão muito bonita, mas a forma como tudo funciona parece um pouco caótica.» E foram exatamente esses desafios que me deixaram entusiasmada, porque eu podia entrar lá e ajudar.

Nessa altura, senti-me como uma jogadora versátil. Eu não só geria membros da equipa; também liderava algumas equipas técnicas e geria a expansão da organização. Eu era responsável pelo trabalho de expansão da organização e também já tinha trabalhado na equipa de linguagens; mais tarde, assumi algumas outras tarefas. Eu também participei em assuntos de políticas e trabalhei com o Chris. Eu sentia que havia muito talento de topo na empresa, e isso fez-me querer mesmo juntar-me e ajudar a empresa a tornar-se mais eficiente e mais organizada.

Jack Clark: Lembro-me de que, depois de fazerem GPT-3, tu disseste: “Vocês já ouviram falar de trust and safety?”

Daniela Amodei:

Eu tinha liderado equipas de trust and safety na Stripe. Para tecnologias como estas, talvez vocês precisem de pensar nessa questão de confiança e segurança. Isto é, na verdade, uma ponte entre a investigação em segurança de IA (AI Safety Research) e o trabalho diário mais prático — ou seja, como é que se faz com que os modelos fiquem realmente seguros.

É muito importante propor «esta tecnologia vai ter um impacto significativo no futuro». E, ao mesmo tempo, precisamos de realizar no dia a dia algum trabalho mais prático, para criar base para enfrentar cenários com riscos mais altos no futuro.

Política responsável de escalabilidade: assegurar o desenvolvimento seguro da IA

Jack Clark: Isto conversa bem com a questão de como é que a estratégia de escalabilidade responsável (RSP, Responsible Scaling Policy) foi proposta, por que é que pensámos nisso e como é que a aplicamos hoje — especialmente tendo em conta o trabalho que estamos a fazer atualmente sobre confiança e segurança nos modelos. Então, quem é que propôs primeiro o RSP (política responsável de escalabilidade)?

Dario Amodei:

No início, fui eu e o Paul Christiano que propusemos. Mais ou menos no fim de 2022. A ideia inicial era: será que devemos limitar temporariamente a escalabilidade do modelo até alcançarmos uma certa escala, só para ganharmos tempo enquanto encontramos uma forma de resolver alguns problemas de segurança?

Mas depois achámos estranho limitar a escalabilidade num certo ponto e depois voltar a libertá-la. Por isso, decidimos criar uma série de limiares. Sempre que o modelo atinge um limiar, é preciso fazer uma série de testes para avaliar se ele tem as capacidades de segurança correspondentes.

Em cada limiar atingido, precisávamos de adotar medidas de segurança e salvaguardas mais rigorosas. Mas, desde o início, tínhamos uma ideia: se isto fosse executado por uma terceira parte, talvez fosse melhor. Ou seja, esta estratégia não devia depender de uma única empresa a fazer isso sozinha, porque outras empresas talvez não estivessem dispostas a adotar a mesma estratégia. Portanto, o Paul desenhou pessoalmente esta estratégia. Naturalmente, ao longo do tempo, muitos detalhes foram-se alterando. E a nossa equipa tem vindo a estudar como fazer com que a estratégia funcione melhor.

Quando o Paul organizou o conceito até ficar com forma, foi quase como se, ao mesmo tempo em que ele anunciava essa ideia, nós publicássemos a nossa versão em um ou dois meses. Aliás, muitas pessoas da nossa equipa estiveram profundamente envolvidas nesse processo. Eu lembro-me de ter escrito pelo menos um dos rascunhos iniciais. Mas o documento foi por várias revisões.

Tom Brown:

Para a Anthropic, o RSP é como a nossa «constituição». É um documento central com valor orientador, por isso estamos dispostos a investir muito tempo e energia para o refinar repetidamente, garantindo a sua exatidão e completude.

Daniela Amodei:

Acho que, durante a evolução da Anthropic, o RSP tem sido mesmo muito interessante. Ele passou por vários estágios e, ao mesmo tempo, precisa de competências bem diferentes para o implementar. Por exemplo, existem ideias mais amplas, que são tratadas principalmente por Dario, Paul, Sam e Jared: ao pensarem «quais são os nossos princípios centrais? Que mensagem queremos transmitir? Como é que decidimos que a nossa direção está correta?»

Mas além disso, também existe um trabalho muito concreto a nível operacional. À medida que iteramos, avaliamos e ajustamos detalhes. Por exemplo, inicialmente prevíamos alcançar certos objetivos num determinado nível de segurança. Se isso não acontecesse, reavaliávamos e garantíamos que podíamos responsabilizar-nos pelos resultados do nosso trabalho.

Além disso, há várias adaptações ligadas à estrutura organizacional. Por exemplo, decidimos redesenhar a estrutura organizacional do RSP para dividir responsabilidades de forma mais clara. Eu gosto muito de usar a analogia da constituição para explicar a importância deste documento. É como nos Estados Unidos para assegurar a execução da constituição: criaram-se um conjunto completo de instituições e mecanismos, como tribunais, Supremo Tribunal, Presidente e as duas casas do Congresso — Senado e Câmara. Mesmo que essas instituições tenham outras responsabilidades, a sua existência é em grande medida para preservar a constituição. E, na Anthropic, o nosso RSP está a passar por um processo semelhante.

Sam McCandlish:

Acho que isto reflete uma visão central sobre segurança: problemas de segurança podem ser resolvidos. É uma tarefa muito complexa e difícil, que exige investimento significativo de tempo e esforço.

Tal como no setor da segurança automóvel, as instituições e os mecanismos relevantes foram criados ao longo de muitos anos. Mas o que enfrentamos agora é isto: será que temos tempo suficiente para fazer tudo isso? Portanto, precisamos de identificar o mais cedo possível as instituições-chave necessárias para a segurança da IA, criá-las primeiro cá dentro e, ao mesmo tempo, garantir que outras áreas possam aprender com elas e adotá-las.

Dario Amodei:

Isto também ajuda a alinhar a colaboração interna, porque se alguma parte da organização agir de forma que não esteja em linha com os nossos valores de segurança, o RSP vai expor o problema de alguma forma, certo? O RSP vai impedir que avancem aqueles planos que não cumprem padrões de segurança. Assim, ele também se torna uma ferramenta constante para lembrar a todos que a segurança tem de ser um requisito básico no processo de desenvolvimento de produto e de planeamento. Não estamos a falar de slogans; estamos a integrar segurança em cada etapa. Se alguém entrar para a equipa e não conseguir concordar com estes princípios, vai descobrir que não se consegue encaixar. Ou se adapta a esta direção, ou vai acabar por achar difícil continuar.

Jack Clark:

Com o passar do tempo, o RSP tornou-se cada vez mais importante. A nossa equipa investiu milhares de horas nele. E quando eu explico o RSP aos senadores, eu digo: «Implementámos algumas medidas para garantir que a nossa tecnologia não é facilmente abusável e, ao mesmo tempo, assegura a segurança.» A reação costuma ser: «Parece tudo muito normal. Não é isso que todas as empresas fazem?» Isso dá-me uma mistura de riso e lágrimas; na verdade, nem todas as empresas fazem isso.

Daniela Amodei:

Além disso, eu acho que o RSP reforça a transparência da empresa, para além de alinhar os valores da equipa. Porque ele regista claramente quais são os nossos objetivos. As pessoas dentro da empresa conseguem entendê-los. E, para o exterior, também fica claro quais são os objetivos e a direção da nossa segurança. Embora ainda não seja perfeito, temos vindo a otimizá-lo e a melhorá-lo continuamente.

Acho que, ao apontar com clareza «quais são os problemas centrais que abordamos», não podemos usar a palavra «segurança» para controlar o progresso de forma leviana. Por exemplo: «por causa da segurança, não podemos fazer X» ou «por causa da segurança, temos de fazer X». O nosso objetivo real é que toda a gente saiba exatamente o que queremos dizer com segurança.

Dario Amodei:

A longo prazo, aquilo que mais prejudica a segurança são, em geral, as “simulações de segurança” frequentes. Já disse: «Se existe um edifício em que o alarme de incêndio soa todas as semanas, então é um edifício muito inseguro.» Porque, quando o incêndio é real, pode não haver ninguém a prestar atenção. Por isso, precisamos de dar muita importância à exatidão e à calibração dos alarmes.

Chris Olah:

Vendo por outro ângulo, acho que o RSP cria mecanismos de incentivos saudáveis em muitos níveis. Por exemplo, dentro da empresa, o RSP alinha os incentivos de cada equipa com objetivos de segurança. Isso significa que, se não houver progresso suficiente em segurança, o trabalho relacionado pode ser suspenso.

E, no exterior, o RSP também cria mecanismos de incentivos saudáveis de forma mais eficaz do que outros métodos. Por exemplo, se um dia tivermos de tomar algumas ações importantes — como reconhecer «o nosso modelo evoluiu até certo ponto, mas ainda não conseguimos garantir a segurança» — então o RSP oferece um quadro claro e evidências para apoiar esta decisão. Este quadro já existe antes, e é claro e fácil de entender. Quando recordo as nossas discussões sobre as versões iniciais do RSP, eu não tinha percebido totalmente o potencial dele. Mas agora acho que, de facto, é mais eficaz do que outros métodos que eu conseguiria imaginar.

Jared Kaplan:

Concordo com estes pontos. Mas também acho que isto pode subestimar os desafios com que nos deparamos ao definir políticas corretas, critérios de avaliação e limites. Nós já fizemos muitas iterações nestas áreas e continuamos a otimizar. Um problema difícil é que, para certas tecnologias emergentes, por vezes é difícil determinar com clareza se são perigosas ou seguras. Muitas vezes, há um grande território cinzento. Esses desafios fizeram-me ficar muito entusiasmado no início do desenvolvimento do RSP, e ainda hoje é assim. Ao mesmo tempo, eu também percebo que tornar esta estratégia clara e implementá-la de forma que realmente funcione é mais complexo e desafiante do que eu imaginava inicialmente.

Sam McCandlish:

As zonas cinzentas não podem ser previstas perfeitamente, porque estão em todo o lado. Só quando começas a implementar é que descobres onde estão os problemas. Por isso, o nosso objetivo é implementar o mais cedo possível tudo o que está previsto, para conseguirmos identificar rapidamente potenciais problemas.

Dario Amodei:

Tu precisas de fazer três a quatro iterações para realmente chegar a algo perfeito. A iteração é uma ferramenta muito poderosa; quase não é possível ficar totalmente certo à primeira. Por isso, se os riscos estiverem a aumentar, precisas de fazer as iterações mais cedo, e não esperar pelo fim.

Jack Clark:

Ao mesmo tempo, tens de construir também mecanismos internos e processos. Embora os detalhes concretos possam mudar com o tempo, o que mais importa é desenvolver a capacidade de execução da equipa.

Tom Brown:

Eu sou responsável pela gestão dos recursos de computação da Anthropic. Para mim, é preciso comunicar com stakeholders externos; diferentes pessoas externas têm perspetivas diferentes sobre a velocidade do desenvolvimento tecnológico. No início, eu também achava que a tecnologia não ia avançar tão depressa. Mas a minha opinião mudou, e eu consigo compreender isso muito bem. Eu acho que o RSP é especialmente útil para mim, sobretudo ao comunicar com pessoas que acham que o desenvolvimento tecnológico vai ser mais lento. Nós podemos dizer: «Antes de a tecnologia chegar a um nível muito urgente, não precisamos de medidas extremas de segurança.» Se elas disserem: «Acho que as coisas não se tornarão urgentes durante muito tempo», eu posso responder: «Ok, então por agora não precisamos de medidas extremas de segurança.» Isto torna a comunicação com o mundo exterior muito mais fluida.

Jack Clark:

Então, em que outras áreas o RSP influenciou as pessoas?

Sam McCandlish:

Tudo gira em torno de avaliação; cada equipa está a fazer avaliações. Por exemplo, a tua equipa de treino está sempre a fazer avaliações. Nós tentamos determinar se este modelo já ficou suficientemente forte a ponto de poder causar perigo.

Daniela Amodei:

Isto significa que precisamos de avaliar o desempenho do modelo com base nos padrões do RSP, incluindo verificar se existem sinais que nos façam preocupar.

Sam McCandlish:

Avaliar as capacidades mais baixas de um modelo é relativamente mais fácil; mas avaliar as suas capacidades máximas é muito mais difícil. Por isso, investimos muito esforço de investigação, tentando responder a perguntas como: «O modelo consegue executar tarefas perigosas específicas? Existem métodos que ainda não tínhamos considerado — como mapas mentais, o melhor evento (best event) ou a utilização de determinadas ferramentas — que podem permitir que o modelo execute comportamentos muito perigosos?»

Jack Clark:

No processo de formulação de políticas, estas ferramentas de avaliação são extremamente úteis. Porque «segurança» é um conceito muito abstrato. E quando eu digo: «Temos uma ferramenta de avaliação que determina se podemos ou não colocar este modelo em produção», então podemos trabalhar com decisores de políticas, especialistas em segurança nacional e especialistas de domínios CBRN (química, biologia, radiação e nuclear) para definir em conjunto critérios de avaliação precisos. Sem essas ferramentas concretas, esta colaboração talvez nem fosse possível. Mas assim que existem critérios claros, as pessoas ficam mais dispostas a participar para garantir a sua exatidão. Por isso, o papel do RSP nesta área é muito evidente.

Daniela Amodei:

Para mim, o RSP também é muito importante e afeta frequentemente o meu trabalho. O que eu acho interessante é que eu penso sobre o RSP de uma forma um pouco diferente: mais em termos do «tom» dele, ou seja, do modo como ele é expresso. Recentemente, ajustámos significativamente o tom do RSP, porque antes o tom era demasiado técnico e até parecia haver uma sensação de confronto. Eu passei muito tempo a pensar como construir um sistema em que as pessoas se sintam dispostas a envolver-se.

Se o RSP fosse um documento que qualquer pessoa numa empresa conseguisse compreender facilmente, seria muito melhor. Tal como os nossos OKR (objetivos e resultados-chave). Por exemplo: qual é o principal objetivo do RSP? Como é que sabemos se o objetivo foi atingido? Qual é o nível atual de segurança da IA (ASL)? É ASL-2 ou ASL-3? Se todos souberem quais são os pontos que precisam de atenção, descobrir potenciais problemas fica muito mais fácil. Pelo contrário, se o RSP for demasiado técnico e só um pequeno número de pessoas o conseguir compreender, a sua utilidade prática será largamente reduzida.

É muito gratificante ver o RSP a evoluir na direção de ser mais fácil de entender. Agora, eu acho que a maioria das pessoas na empresa — até possivelmente todas, independentemente do cargo — consegue ler este documento, e pensar: «Faz sentido. Espero que desenvolvamos IA guiados por estes princípios. E eu entendo por que é preciso prestar atenção a estas questões. Se eu tiver problemas no meu trabalho, mais ou menos sei no que devo reparar.» Queremos que o RSP seja suficientemente simples, como a capacidade de alguém que trabalha numa fábrica dizer: «O cinto de segurança deveria estar ligado aqui, mas não está ligado do jeito certo.» Assim, é possível detetar problemas a tempo.

O essencial é criar um mecanismo de feedback saudável, para que exista uma comunicação fluida entre a liderança, o conselho de administração, outras áreas da empresa e as equipas que realmente fazem desenvolvimento. Eu acho que a maioria dos problemas surge precisamente por falta de comunicação ou por desvios na transmissão de informação. Se os problemas aparecerem apenas por estes motivos, isso será bastante lamentável, certo? No fim, o que precisamos de fazer é colocar estas ideias em prática e garantir que sejam simples, claras e fáceis de compreender por todos.

A história da criação da Anthropic

Sam McCandlish:

Na verdade, ninguém entre nós tinha desde o início vontade de fundar uma empresa. Nós apenas sentimos que esta era a nossa responsabilidade e que tínhamos de agir, porque é a única forma de assegurar que o desenvolvimento da IA segue o caminho certo — e é por isso que fizemos aquele compromisso.

Dario Amodei:

A minha ideia inicial era simples. Eu queria inventar e explorar coisas novas de uma forma benéfica. Esta ideia levou-me ao campo da IA. A investigação em IA exige muita engenharia de apoio e, no fim, também exige muito financiamento.

Contudo, percebi que, se não houver um objetivo e um planeamento claros para fundar uma empresa e gerir o ambiente, muitas coisas acabam por ser feitas, mas acabariam por repetir erros semelhantes aos da indústria tecnológica — erros que me afastam. Esses erros costumam vir das mesmas pessoas, das mesmas atitudes e dos mesmos padrões de pensamento. Por isso, num certo momento, percebi que tínhamos de fazer isto de uma forma completamente nova. Era praticamente inevitável.

Jared Kaplan:

Tu ainda te lembras de que, quando estávamos na escola de pós-graduação, tu tinhas um plano completo para explorar como a investigação científica poderia promover o interesse público. Eu acho que isso é muito semelhante ao nosso raciocínio atual. Lembro-me de que tu tinhas um projeto chamado «Project Vannevar», cujo objetivo era fazer exatamente isto. Eu, na altura, era professor; observei a situação e tinha muita certeza de que a influência da IA estava a crescer a uma velocidade imensa.

Mas, devido à necessidade de financiamento muito elevado na investigação em IA e ao facto de eu ser professor de física, percebi que eu não conseguiria impulsionar este avanço sozinho apenas com investigação académica. Eu queria criar uma instituição com pessoas em quem pudesse confiar para assegurar que o desenvolvimento da IA segue o caminho certo. Mas, para ser sincero, eu nunca aconselharia outra pessoa a iniciar uma empresa, e eu nunca tive esse desejo. Para mim, isto era apenas um meio para atingir um objetivo. Eu acredito que, em geral, a chave do sucesso é seres verdadeiramente apaixonado por realizar um objetivo que signifique algo para o mundo e, depois, encontrares a melhor forma de o alcançar.

Como construir uma cultura de confiança

Daniela Amodei:

Eu penso frequentemente na nossa vantagem estratégica enquanto equipa. Um fator que pode soar surpreendente, mas que é extremamente importante, é a nossa alta confiança mútua. É muito difícil fazer com que um grande grupo de pessoas tenha um compromisso comum. Mas na Anthropic, conseguimos transmitir esse sentimento de missão a cada vez mais pessoas. Nesta equipa, incluindo a liderança e todos os membros, todos se juntam por causa da missão partilhada. A nossa missão é clara e pura, e isto não é comum no setor tecnológico.

Acho que o objetivo que estamos a tentar alcançar tem um significado muito puro. Ninguém começou por querer fundar uma empresa. Só sentimos que tínhamos de o fazer. Não podíamos continuar o nosso trabalho nos locais onde estávamos; tínhamos de fazê-lo nós.

Jack Clark:

Na altura, com o aparecimento do GPT-3, e com todos nós a termos contacto ou participação em projetos como scaling laws, já estava claro em 2020 que a IA ia seguir uma tendência de desenvolvimento. Percebemos que, se não agirmos o mais depressa possível, poderíamos muito rapidamente chegar a um ponto crítico irreversível. Tínhamos de agir para conseguir influenciar este ambiente.

Tom Brown:

Quero acrescentar ao ponto da Daniela. Eu realmente acho que existe uma alta confiança dentro da equipa. Cada um de nós sabe que se juntou a esta equipa para contribuir para o mundo. Nós também assumimos em conjunto o compromisso de doar 80% das receitas para iniciativas que impulsionem causas capazes de melhorar a sociedade — e isso é algo que toda a gente apoia sem hesitar: «Sim, claro que vamos fazer.» Esta confiança é muito especial e rara.

Daniela Amodei:

Eu acho que a Anthropic é uma empresa com muito pouca conotação política. Claro que a nossa perspetiva pode ser diferente da de pessoas comuns, e eu lembro-me disso o tempo todo. Eu penso que o nosso processo de recrutamento e as características das pessoas da equipa fazem com que a nossa cultura tenha uma espécie de rejeição natural ao «politicagem de escritório».

Dario Amodei:

E há também a coesão da equipa; a coesão da equipa é crucial. Quer seja a equipa de produto, a equipa de investigação, a equipa de confiança e segurança, a equipa de marketing ou a equipa de políticas, todos estão a trabalhar para atingir o mesmo objetivo. Quando, dentro da empresa, cada departamento persegue objetivos completamente diferentes, isso causa confusão. E se acreditarem que os outros departamentos estão a sabotarem o trabalho deles, isso é ainda mais anormal.

Eu acho que uma das nossas realizações mais importantes foi manter com sucesso a consistência geral da empresa. Mecanismos como o RSP desempenham um papel vital nisso. Eles garantem que não é uma parte da empresa a criar problemas, enquanto outras partes tentam apenas remediar. Em vez disso, todos os departamentos cumprem as suas funções em simultâneo e colaboram sob um quadro de teoria de mudança (theory of change) unificado.

Chris Olah:

Eu entrei primeiro na OpenAI porque era uma organização sem fins lucrativos, e eu podia focar-me em investigação de segurança em IA. Mas com o tempo, percebi que este modelo não se adequava perfeitamente a mim, o que me obrigou a tomar algumas decisões difíceis. Durante esse processo, eu confiei muito no julgamento do Dario e da Daniela, mas eu não queria sair. Porque eu achava que acrescentar mais laboratórios de IA talvez não fosse necessariamente bom para o mundo. Isso fez-me hesitar muito em deixar a empresa.

Quando, no fim, decidimos sair, eu ainda tinha alguma reserva em fundar uma empresa. Eu tinha defendido que deveríamos criar uma organização sem fins lucrativos focada em investigação de segurança. Mas, no fim, a atitude pragmática e a franqueza sobre as limitações reais fizeram-nos perceber que fundar a Anthropic era a melhor forma de atingir os nossos objetivos.

Dario Amodei:

Um dos ensinamentos importantes que aprendemos no início foi: fazer menos promessas e cumprir mais as promessas. Manter-se realista e encarar as compensações diretamente. Porque confiança e reputação são mais importantes do que quaisquer políticas específicas.

Daniela Amodei:

O que torna a Anthropic única é a alta confiança e a unidade da equipa. Por exemplo, quando eu vejo o Mike Krieger insistir em não lançar certos produtos por razões de segurança, e ao mesmo tempo vejo a Vinay a discutir como equilibrar necessidades do negócio para conseguir fazer avançar os projetos, isso deixa-me muito comovida. Além disso, engenheiros das equipas de segurança técnica e das equipas de inferência também discutem como garantir que os produtos são seguros e úteis. Esta combinação de objetivos unificados e atitude pragmática é uma das coisas mais atrativas do ambiente de trabalho da Anthropic.

Dario Amodei:

Uma cultura organizacional saudável é aquela em que todos conseguem compreender e aceitar as compensações comuns que enfrentamos. O mundo em que vivemos não é perfeito. Cada decisão exige encontrar um equilíbrio entre diferentes interesses, e esse equilíbrio nem sempre é totalmente satisfatório. No entanto, enquanto toda a equipa conseguir enfrentar estas compensações em conjunto sob o mesmo objetivo e contribuir para o objetivo geral a partir dos seus respetivos postos, isso é um ecossistema saudável.

Sam McCandlish:

Em certo sentido, é uma «competição para cima». Sim, é mesmo uma «competição para cima». Mesmo não sendo uma escolha sem risco — as coisas podem correr mal — nós estamos todos de acordo em: «É isto que escolhemos fazer.»

A corrida ao auge da IA

Jack Clark:

Mas o mercado é, por natureza, pragmático. Assim, quanto mais bem-sucedida é a Anthropic como empresa, mais motivados ficam os outros a imitar o que nos fez ter sucesso. Além disso, quando o nosso sucesso está intimamente ligado ao trabalho real que fazemos em segurança, esse sucesso cria na indústria um tipo de «força de atração», levando outras empresas a entrarem nessa competição. É como se nós tivéssemos desenvolvido um cinto de segurança; então outras empresas podem imitar — e é uma ecologia saudável.

Dario Amodei:

Mas se dissermos: «Não vamos desenvolver esta tecnologia, e tu também não consegues fazer melhor do que os outros», isso não funciona. Porque não mostraste que o caminho do presente para o futuro é viável. O que o mundo precisa — seja a indústria inteira ou uma empresa em específico — é encontrar uma forma de a sociedade passar de «a tecnologia não existe» para «a tecnologia existe de forma poderosa e é gerida eficazmente pela sociedade». Eu acho que a única forma de alcançar isto é encarar as compensações de frente ao nível de uma empresa e, eventualmente, até ao nível de toda a indústria.

Precisas encontrar uma maneira que mantenha a competitividade e, até em certos domínios, lidere a indústria — ao mesmo tempo que assegura que a tecnologia é segura. Se conseguires fazer isso, a tua capacidade de atrair a indústria será enorme. Desde o ambiente regulatório até ao desejo de talentos excelentes de diferentes empresas se juntarem, e até à perceção dos clientes, todos estes fatores impulsionam a indústria a avançar na mesma direção. Se conseguires provar que consegues segurança sem sacrificar competitividade — ou seja, encontrar soluções de ganho mútuo — então outras empresas também vão ser incentivadas a fazer o mesmo.

Jared Kaplan:

Eu acho que é exatamente por isso que mecanismos como o RSP são tão importantes. Nós conseguimos ver com clareza a direção do desenvolvimento tecnológico e, ao mesmo tempo, percebemos que precisamos manter um nível elevado de cautela em relação a certos problemas. Mas também precisamos de evitar o erro «lobo a uivar», não podemos simplesmente dizer: «a inovação tem de parar aqui». Precisamos de encontrar um método que permita que a tecnologia de IA dê uma experiência útil, inovadora e agradável aos clientes, e que deixe também claras as restrições que temos de cumprir. Estas restrições asseguram a segurança do sistema e, simultaneamente, fazem com que outras empresas acreditem que também conseguem ter sucesso sob condições de segurança e competir connosco.

Dario Amodei:

Alguns meses depois, quando lançámos o RSP, as três empresas de IA mais conhecidas começaram também a implementar mecanismos semelhantes. A interpretabilidade é outra área em que tivemos um avanço. Além disso, colaborámos com instituições de investigação em segurança de IA. Este foco global na segurança está a ter um impacto profundo.

Jack Clark:

Sim. O Frontier Red Team foi imitado por outras empresas quase imediatamente. É uma coisa boa. Esperamos que todos os laboratórios testem potenciais vulnerabilidades de segurança com alto risco.

Daniela Amodei:

Como Jack também já tinha mencionado, os clientes também se preocupam muito com segurança. Os clientes não querem que os modelos criem informações falsas, nem querem que seja fácil contornar as restrições de segurança. Eles querem que os modelos sejam úteis e inofensivos. No nosso contacto com clientes, ouvimos muitas vezes frases como: «Escolhemos Claude porque sabemos que é mais seguro.» Eu acho que isso tem um impacto enorme no mercado. Nós conseguimos fornecer modelos dignos de confiança e fiáveis — o que também cria pressão de mercado significativa nos concorrentes.

Chris Olah:

Talvez possamos expandir ainda mais o ponto do Dario agora há pouco. Existe uma ideia de que a conduta mais moral é «uma falha nobre». Isto é, deverias sacrificar outros objetivos pela segurança, e até agir de uma forma pouco realista, para demonstrar a pureza da tua dedicação à causa. Mas eu acho que este tipo de abordagem, na prática, é autossabota.

Em primeiro lugar, isso faz com que o poder de decisão caia nas mãos de pessoas que não valorizam segurança e não priorizam segurança. Por outro lado, se tu fizeres um esforço para encontrar uma forma de alinhar incentivos, levar as decisões difíceis para o lugar mais poderoso que apoia as decisões corretas e basear-se na evidência mais forte, então consegues desencadear a «competição para cima» descrita pelo Dario. Nessa competição, não é quem se preocupa com segurança que fica à margem — pelo contrário, outras pessoas são forçadas a acompanhar o teu passo e a juntar-se a esta competição.

Perspetivas para o futuro da inteligência artificial

Jack Clark: Então, o que é que vocês acham mais emocionante sobre o que temos para fazer a seguir?

Chris Olah:

Eu acho que existem muitas razões para ficar entusiasmado com a interpretabilidade. Uma razão óbvia é a segurança. Mas também há outra razão, e eu diria que, a um nível mais emocional, isto também me entusiasma e tem um significado especial: eu acho que as redes neuronais são extraordinárias — e há muitas belezas que nós ainda não vimos dentro delas. Nós tratamos sempre as redes neuronais como uma caixa preta, sem nos interessarmos particularmente pela sua estrutura interna. Mas quando começas a investigar a fundo, descobres que o seu interior está cheio de estruturas surpreendentes.

É um pouco como a forma como as pessoas encaram a biologia. Alguns podem pensar: «A evolução é aborrecida; é só um processo simples, corre durante muito tempo, e depois cria animais.» Mas na realidade, cada animal criado pela evolução está cheio de complexidade incrível e estrutura. E eu acho que a evolução é um processo de otimização — tal como treinar uma rede neuronal. No interior das redes neuronais, também há um conjunto inteiro de estruturas complexas parecidas com «bioartificial». Se estiveres disposto a mergulhar, vais descobrir que há muitas coisas surpreendentes.

Eu acho que nós acabámos de começar a abrir devagar a cortina. É tão incrível. Há coisas demais para descobrir. Nós só começámos a abrir as portas, e eu sinto que as descobertas que vêm a seguir vão ser muito excitantes e maravilhosas. Às vezes imagino que, daqui a dez anos, entro numa livraria e compro um livro didático sobre interpretabilidade de redes neuronais, ou um livro que conte mesmo a biologia das redes neuronais, com todo o tipo de conteúdo surpreendente. Eu acredito que, nos próximos dez anos — ou mesmo nos próximos alguns anos —, nós vamos começar a descobrir verdadeiramente estas coisas. E vai ser uma viagem louca e magnífica.

Jack Clark:

Há alguns anos, se alguém dissesse: «O governo vai criar novas instituições para testar e avaliar sistemas de IA, e essas instituições vão ser altamente especializadas e funcionar de verdade.» tu não acreditarias. Mas já aconteceu. Podemos dizer que o governo já criou um «novo grande embaixada» para lidar com esta categoria nova de tecnologia. Estou curioso para ver aonde isto vai dar. Eu acho que, na prática, isso significa que os Estados têm capacidade de responder a esta transição social, não dependendo apenas de empresas. Estou feliz por poder participar.

Daniela Amodei:

Eu já me sinto entusiasmada com isto. Mas eu acho que, só de imaginar o que a IA pode fazer pelas pessoas, é muito difícil não ficar entusiasmada. Mesmo agora, há indícios de que o Claude pode ajudar a desenvolver vacinas, fazer investigação sobre cancro e investigação em biologia — e isso já é incrível. Ver o que ele já consegue fazer é impressionante. E quando penso nos próximos três a cinco anos e imagino que o Claude pode realmente resolver muitos problemas fundamentais que os humanos enfrentam, sobretudo na área da saúde, isso também me deixa muito entusiasmada. Quando eu penso nos meus dias de trabalho no desenvolvimento internacional, imagino como seria extraordinário se, naquela altura, o Claude tivesse conseguido ajudar a fazer aquele trabalho de forma mais eficiente, apesar de ser pouco eficiente.

Tom Brown:

Do ponto de vista pessoal, eu gosto muito de usar o Claude no meu trabalho. Então, recentemente, em casa também tenho usado o Claude para conversar sobre algumas coisas. A grande mudança mais recente é o código. Há seis meses, eu ainda não usava o Claude para qualquer trabalho relacionado com programação; a nossa equipa também quase não usava o Claude para escrever código. Mas agora isso mudou bastante. Por exemplo, na semana passada, num evento da Y Combinator, fiz uma apresentação. No início, eu perguntei: «Quantas pessoas estão a usar o Claude para programar?» E o resultado foi quase 95% das pessoas levantaram a mão. Quase toda a sala levantou a mão. Isto é completamente diferente de quatro meses antes.

Dario Amodei:

Quando eu penso no que me entusiasma, uma das coisas que me ocorre é aquele tipo de «consenso que parecia já ter sido alcançado, mas na verdade vai ser quebrado». Uma das partes disso é a interpretabilidade. Eu acho que a interpretabilidade não é apenas uma chave para orientar e garantir a segurança dos sistemas de IA; ela também inclui insights profundos sobre problemas de otimização de inteligência e sobre como funciona o cérebro humano. Eu já disse que o Chris Olah vai ganhar o Prémio Nobel de medicina no futuro.

Porque eu já fui neurocientista. E muitas das doenças psicológicas que ainda não resolvemos — como esquizofrenia ou distúrbios emocionais — eu suspeito que estejam relacionadas com algum tipo de problema de sistema em níveis mais altos. Mas, como o cérebro humano é complexo e difícil de estudar diretamente, é difícil compreender completamente estes problemas. As redes neuronais, embora não sejam um análogo perfeito, não são tão difíceis de decifrar e de interagir quanto o cérebro humano. Com o tempo, as redes neuronais vão tornar-se uma ferramenta de analogia melhor.

Outro campo relacionado é a aplicação de IA na biologia. A biologia é um problema extremamente complexo e, por múltiplas razões, as pessoas ainda têm ceticismo sobre isso. Mas eu acho que este consenso de ceticismo está a começar a desmoronar. Já vimos o Prémio Nobel em química ser atribuído ao AlphaFold — e foi uma conquista incrível. Nós deveríamos esforçar-nos por desenvolver ferramentas que nos ajudem a criar centenas de «AlphaFolds».

Por fim, a última área é: usar IA para reforçar a democracia. Nós estamos preocupados com o facto de, se a IA for desenvolvida de forma errada, ela se tornar uma ferramenta do autoritarismo. Então, como é que se faz com que a IA seja uma ferramenta para promover a liberdade e a autodeterminação? Eu acho que esta área pode até começar um pouco mais cedo do que as duas primeiras, mas a sua importância não é de modo nenhum menor.

Jared Kaplan:

Eu queria pelo menos destacar dois aspetos que ecoam o que tu disseste antes. Um é que, eu acho que muitas pessoas se juntam à Anthropic porque têm uma curiosidade enorme sobre a ciência da IA. À medida que a tecnologia de IA avança, elas vão aceitando progressivamente que precisamos de não só impulsionar o avanço da tecnologia, mas também compreendê-la mais profundamente e garantir a sua segurança. Eu acho empolgante trabalhar com um número crescente de pessoas que têm uma visão comum sobre o desenvolvimento de IA e a responsabilidade. E eu acho que muitos avanços tecnológicos ocorridos no último ano, de facto, promoveram a formação desse consenso.

Outro aspeto, voltando aos problemas práticos, é que eu acho que nós já fizemos muito trabalho em segurança de IA. Mas com alguns desenvolvimentos recentes, começámos a ter uma compreensão inicial sobre os riscos que sistemas muito avançados podem trazer. Isso permite-nos estudar e investigar diretamente estes riscos — através da investigação em interpretabilidade e de outros tipos de mecanismos de segurança.

Desta forma, conseguimos entender de forma mais clara os riscos que sistemas avançados de IA podem trazer. E isso vai permitir-nos avançar na nossa missão de um modo mais científico e baseado em evidência. Por isso, eu estou mesmo entusiasmado com os próximos seis meses: vamos usar a compreensão dos potenciais problemas dos sistemas avançados para investigar mais a fundo e encontrar maneiras de evitar estas armadilhas.

Ver original

Reunião de sete cofundadores: Como nasceu a Anthropic?

Principais destaques

Sete cofundadores, identificação rápida

Resumo de ideias marcantes

Por que estudar IA?

Escalabilidade transformadora

Fase inicial da IA

Atitudes do público em relação à inteligência artificial

Política responsável de escalabilidade: assegurar o desenvolvimento seguro da IA

Então, em que outras áreas o RSP influenciou as pessoas?

A história da criação da Anthropic

Como construir uma cultura de confiança

A corrida ao auge da IA

Perspetivas para o futuro da inteligência artificial

Tópicos em destaque

AprilMarketOutlook

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

GoldSilverRally

ClaudeCode500KCodeLeak

Gate Fun tendência

bababoyi

bababoyi

APRIL

APRILIA

mtt

mtt sports

PYL

Pylora

TT

TRUMP TOWER

Fixar