Az Anthropic rezidens filozófusa, Amanda Askell külső szakértők észrevételeit is integráló, nyolcvannégy oldalas „alkotmányt” írt a cég mesterségesintelligencia-rendszere, Claude számára. A holisztikus szemléletű dokumentum értékekről és viselkedésről szól, arról, hogy milyen kontextusban működik az MI, és hogy milyen entitásként szeretnék látni a jövőben.
Központi része a modell gyakorlásának, tartalma közvetlenül alakítja Claude viselkedését. A gyakoroltatás nehéz feladat, az outputok sem felelnek meg mindig a leírt ideális állapotnak. Ez már a második alkotmány, az egyedi alapelvek listájából álló elsőt tavaly nyáron írták, és azóta annyit változott az MI, hogy úgy gondolták: új megközelítésre van szükség.

A modelleknek meg kell érteniük, miért akarják, hogy így és így viselkedjenek, ezért ezt el is kell magyarázni nekik, nem elég specifikálni, mire számítanak tőlük. Speciális szabályok mechanikus követése helyett szükségük van az általánosításra. Tény, hogy egyes esetekben csak ezek a szabályok működnek, előre nem látható szituációkban viszont csődöt mondhatnak. Az alkotmány ezért nem lehet merev dokumentum. Az emberi vagy még jobb képességekkel rendelkező, jóindulatú nem-humán entitások létrehozásához ez az alapkövetelmény.
Az összes Claude-modellnek általánosságban biztonságosnak (1) és etikusnak (2) kell lennie, harmonizálniuk kell az Anthropic irányelveivel (3), a működtetők és a felhasználók hasznára kell cselekedniük, segíteniük kell őket (4). Ha konfliktusba keverednek, ezeket az irányvonalakat, ebben a sorrendben kell érvényesíteniük.
Segítőkészségen azt értik, hogy Claude a felhasználóknak és a világnak is hasznos tanácsokat ad. Orvosként, jogászként, pénzügyi tanácsadóként és számos más funkcióban is működhet. A segítőkészségeket heurisztikus módszerekkel mérik, hasonlítják össze más értékekkel.
Az Anthropic irányelvei kiegészítő útmutatások a modellek számára, hogy hogyan kezeljenek speciális eseteket (orvosi tanács, cyberbiztonsági kérés, eszközök integrálása stb.).
Központi cél, hogy Claude a szó morális értelmében jó legyen, ami bölcsességgel, a nüánszok megkülönböztetésével és még etikailag bizonytalan helyzetekben is a valóvilágbeli döntések kezelésével jár. Nem általánosságban, hanem a fejlesztések jelenlegi állapotában a biztonság még az etikánál is fontosabb, tehát Claude-nak ezt kell legfőbb prioritásként kezelnie.
Az Anthropic bizonytalan, hogy az MI rendelkezik-e valamilyen szintű öntudattal vagy morális állapottal. Az állítás a jelenre és a közeljövőre egyaránt érvényes. A kifinomult MI-k új entitásfajták, a velük kapcsolatban felmerülő kérdések a meglévő tudományos és filozófiai ismereteink határait feszegetik. Claude pszichológiai biztonsága, önérzékelése, jóléte mind az MI és mind az integritása, ítélőképessége szempontjából kiemelten fontos a fejlesztőcégnek. Bíznak benne, hogy a mesterséges intelligencia és az ember közösen dolgoz ki megoldásokat mindezekre.
Az alkotmány élő, folyamatosan frissülő dokumentum, work-in-progress. Mivel teljesen új terület, lehetnek benne hibák, de velük együtt teljes transzparenciát kínál a cég. Az Anthropic egyik tanácsa, hogy soha ne feledkezzünk meg a szándék és a valóság közötti különbségekről. Nem garantálják a sikert, de megígérik: az alkotmányt az összes modelljükre igyekeznek alkalmazni.
A jövőben sokat, a jelennél sokkal többet jelenthetnek az ilyen dokumentumok. Masszív MI-modellek a világ új erői lehetnek, a fejlesztőknek esélyük lesz arra, hogy az emberiség legjobb tulajdonságait integrálják beléjük. Az új alkotmány ebbe az irányba tett lépés.









