Anthropic esorta a una pausa coordinata e verificabile per l'IA di frontiera

Anthropic esorta a una pausa coordinata e verificabile per l'IA di frontiera

      Lo scenario che preoccupa Anthropic è quello in cui la tecnologia smette di aspettare il permesso. Giovedì, l'azienda ha sostenuto che gli sviluppatori di AI all'avanguardia dovrebbero costruire un meccanismo coordinato e verificabile per rallentare o sospendere temporaneamente lo sviluppo se i sistemi avanzati iniziano a migliorarsi più rapidamente di quanto la società possa gestire le conseguenze.

      La proposta è meno un annuncio di prodotto che una richiesta affinché l'industria concordi su un freno prima che ce ne sia bisogno.

      Il fattore scatenante nominato da Anthropic è il miglioramento auto-recusivo, sistemi di AI capaci di accelerare significativamente il proprio sviluppo. Questa capacità “sarebbe un grande sviluppo nella storia della tecnologia”, ha dichiarato l'azienda, ma il pieno miglioramento auto-recusivo “potrebbe anche aumentare i rischi che gli esseri umani perdano il controllo sui sistemi di AI.”

      Come indicazione di quanto lontano sia già arrivata l'automazione del proprio lavoro, Anthropic ha dichiarato che, a partire da maggio, oltre l'80% del codice fuso nel suo codice sorgente è stato scritto dal suo modello, Claude.

      L'argomento ha un taglio netto riguardo alla coordinazione piuttosto che alla cautela. Una pausa unilaterale da parte di un'azienda sarebbe più facile da attuare, ha ammesso Anthropic, ma consegnerebbe principalmente la leadership a chiunque continui, spostando il confine piuttosto che rallentarlo.

      Una pausa che significasse qualcosa richiederebbe un accordo tra “più laboratori ben finanziati” al confine tecnologico, oltre a regole su quali condizioni la attiverebbero o la solleverebbero e chi supervisionerebbe l'intero accordo.

      La preoccupazione per il miglioramento è self è una questione non ipotetica da parte di Anthropic; punta alle proprie operazioni come prova. Se un modello scrive già la stragrande maggioranza del codice che costruisce il modello successivo, il ciclo tra un sistema e il proprio miglioramento non è più teorico, ma solo parziale.

      L'argomento di Anthropic è che il ciclo si stringe da qui in avanti, e che il momento di concordare un freno è mentre è ancora parziale piuttosto che dopo che si chiude.

      Questa è la parte difficile, e Anthropic non fa finta di essere altrimenti. Una pausa verificabile implica laboratori in grado di confermare che i rivali si sono effettivamente fermati, soglie concordate per ciò che conta come troppo veloce e un ente con l'autorità per dichiararlo. Nulla di tutto ciò esiste oggi, e le aziende che dovrebbero partecipare sono concorrenti diretti in un mercato dove essere i primi è stato l'intero obiettivo.

      La risposta di Anthropic è iniziare a parlare. Nei prossimi mesi, l'azienda ha dichiarato che intende convocare discussioni con i responsabili politici, i ricercatori, i gruppi della società civile e altre aziende di AI per affrontare come gestire i rischi come il miglioramento auto-recusivo e come migliorare i meccanismi di coordinamento. Si sta posizionando come convocatore di una conversazione che desidera che il resto dell'industria partecipi.

      La mossa si inserisce in un modello per un'azienda che ha costruito il proprio marchio evidenziando i pericoli della cosa che vende. L'obiezione ovvia si scrive da sola: un laboratorio che propone all'industria di concordare quando fermarsi è anche un laboratorio che continua a costruire fino a quando non lo fa.

      Se i concorrenti trattano la proposta come un genuino problema di coordinamento o come un tentativo di un rivale di stabilire le condizioni è la domanda a cui i prossimi mesi risponderanno. Per ora, Anthropic ha messo un freno sul tavolo. Nessun altro ha accettato di afferrarlo.

Altri articoli

Anthropic esorta a una pausa coordinata e verificabile per l'IA di frontiera

Anthropic afferma che i laboratori di frontiera hanno bisogno di un modo coordinato e verificabile per rallentare o mettere in pausa lo sviluppo dell'IA se i sistemi iniziano a migliorarsi troppo rapidamente.