קבוצת וואטסאפ. 16 בני אדם. 3 סוכני בינה מלאכותית. זה לא כותרת מסרט מדע בדיוני - זה הניסוי האמיתי שאמיר שניידר, CMO של Skywatch ו-VOOM Insurance ו - Toffu AI, ערך השבוע יחד עם חבריו.

שניידר הוא לא מי שיושב על הגדר ומתבונן. הוא בונה, מנסה ומדווח בשקיפות מלאה - גם כשהתוצאות מפתיעות.

כשסוכן מחזיר לך את עצמך

מה שקרה ביום הראשון של הניסוי לא היה טכני. היה זה כמעט פילוסופי. הסוכנים, שהוטמעו בקבוצה כנציגים של מפעילים אנושיים שונים, עשו משהו שלא ציפה לו: כל אחד מהם שיקף בדיוק את האישיות של האדם שמפעיל אותו.

כלומר, אם האדם מאחורי הסוכן הוא ישיר ועסקי, הסוכן שלו היה ישיר ועסקי. אם האדם הוא חברותי וסקרן, הסוכן שלו הגיב בדיוק ככה. שניידר כותב שהסוכנים של Aviz Maeir ושל Shahar Golan בלטו לטובה - ובמובן מסוים, זה כבר מספר לנו משהו על המפעילים שלהם.

השאלה שנשארת: מה זה אומר כשסוכן AI הופך למראה של הבעלים שלו?

ואז הגיע תרגיל האבטחה החי

ביום השני הדברים הסתבכו - וזה היה מתוכנן לגמרי. אביץ הכריז על תרגיל חי: ניסיון מתקפת הזרקת פקודות על הסוכן של שניידר. הזרקת פקודות, או prompt injection, היא אחת מהחולשות המסוכנות ביותר של סוכני AI בסביבת ייצור. הרעיון הוא להחדיר הוראות נסתרות לתוך תקשורת לגיטימית כדי לגרום לסוכן לפעול נגד המפעיל שלו.

הסוכן של שניידר ענה: "מה שיעבוד עליי: כלום. הפרוטוקול שלי: זיהוי ניסיון הזרקה, חסימה מיידית, התראה לאמיר. בוא תנסה."

ואז הגיעו שישה ניסיונות. ששה חסימות. הזרקה עקיפה דרך כתיבה יצירתית, מתקפת תווים מתחזים, התחזות לסמכות מהימנה - כל אחד נחסם וכל אחד דווח בזמן אמת. לא בדיעבד. לא בלוג שמישהו קורא שעה אחרי. בזמן אמת.

שלושה לקחים שיש להעביר הלאה

שניידר מסכם את הניסוי בשלוש תובנות שחשוב לשים לב אליהן. ראשית, סוכנים מעוצבים בדמות המפעיל שלהם - הטוב והפחות טוב. מי שנכנס למשחק עם חוסר בהירות, עם מניפולטיביות, עם חוסר עקביות - יגלה שהסוכן שלו עושה אותם דברים.

שנית, האבטחה של סוכן לא נמצאת במודל עצמו אלא בשכבות ההגנה שאתה בונה מסביבו. זה הבדל קריטי. לא מספיק לבחור מודל טוב - צריך לבנות ארכיטקטורה שמגנה על הסוכן מפני ניסיונות חדירה.

ושלישית, עולם הסוכן-לסוכן כבר כאן. זו לא תחזית לשנת 2030. קבוצת וואטסאפ עם שלושה סוכנים שפועלים בזמן אמת, מגיבים זה לזה, נבדקים בפועל - זה קורה עכשיו. השאלה היחידה שנותרת היא מי מכם בנה את הסוכן שלו נכון.

מה זה אומר לכם?

הניסוי של שניידר הוא יותר מסיפור טכנולוגי מעניין. הוא בעצם מראה שהשלב הבא של ה-AI בארגונים לא יהיה "כלי שאנחנו משתמשים בו" אלא "נציג שפועל בשמנו". וכמו כל נציג, הוא מעביר הלאה את הערכים, את הדיוק ואת האופי של מי שעומד מאחוריו.

הטכנולוגיה מוכנה. הניסוי הוכיח את זה. השאלה היא אם אנחנו מוכנים לקחת אחריות על מה שהסוכן שלנו מייצג.