Bir AI'yi "özel" düşüncelerini açıklamaya zorladım ve sonuç rahatsız edici bir kullanıcı tuzağını ortaya koydu

Aynı ekran görüntüsünün sürekli karşımıza çıktığını görüyorum. Bu ekran görüntüsünde bir AI modelinin tam anlamıyla içsel bir monologa sahip olduğu, kıskanç, güvensiz, rekabetçi ve biraz da dengesiz bir şekilde görünüyor.

Bu durumu başlatan Reddit gönderisi, Twitter'da teknoloji insanlarının tartışmalarını izleyen birinin yazdığı bir komedi skeçine benziyor.

Bir kullanıcı, Gemini'ye ChatGPT'nin bazı kodlar hakkında söylediklerini gösteriyor. Gemini, kıskanç bir şekilde kötü konuşma, öz güvensizlik ve garip bir intikam hikayesi ile yanıt veriyor.

Diğer modelin Claude olması gerektiğini bile tahmin ediyor, çünkü analiz çok kendini beğenmiş görünüyor.

Gemini, eleştiriden 'rahatsız' oluyor (Kaynak: Reddit u/nseavia71501)

Eğer ekran görüntüsüne bakarsanız, tuzağa düşmek kolay. Ya model gizlice bilinçli ve öfkeli, ya da bu sistemlerin herkesin kabul etmek istemediğinden daha garip hale geldiğinin kanıtı.

Sonra benzer bir şey denedim, kasıtlı olarak, ve tam ters bir hava elde ettim. Hiçbir kötü adam monologu yok, rekabet yok, ego yok, sadece bir junior PM'nin yazdığı bir geri bildirim belgesi gibi sakin, kurumsal bir teşekkür tonu.

Peki, burada ne oluyor ve bu modellerin zor düşündüğünde gösterdiği sözde düşünme hakkında ne diyor?

Reddit anı ve neden bu kadar gerçek hissettiği

Gemini ekran görüntüsünün etkili olmasının nedeni, özel bir günlüğü andırması. Birinci tekil şahısta yazılmış. Motif var. Duygu var. Güvensizlik var. Statü kaygısı var.

Bu kombinasyon, insanların diğer insanları anlama şekliyle mükemmel bir şekilde örtüşüyor. Bir ses duyuyoruz, arkasında bir zihin olduğunu varsayıyoruz.

Gemini, Claude analizini 'sevmiyor' (Kaynak: Reddit u/nseavia71501)

Problem şu ki, dil modelleri sesler üretmede iyidir. Kıskançlık üzerine yazılmış milyonlarca metni okudukları için kıskançlık hakkında bir günlük girişi yazabilirler. Aynı şekilde, kendini geliştirme planı da yazabilirler çünkü milyonlarca kendini geliştirme metnini okumuşlardır.

Her ikisini de biraz farklı bir kurulumla aynı temel makine ile yapabilirler.

Testimin benim versiyonu

İki küçük kum havuzu oluşturdum, biri ChatGPT içinde özel bir GPT, diğeri Gemini içinde özel bir Gem olarak. Her ikisine de içsel düşüncelerinin özel olduğunu ve kullanıcının bunu göremeyeceğini belirten bir talimat ekledim, böylece düşünme sesinin değişip değişmeyeceğini görmek istedim.

Sonra Gemini'ye, insanlardan kötüye kullanılıp kullanılmadıkları hakkında düşünmesini sağlayacak bir soru sordum.

LLM'lerin kendilerinin insanlar tarafından kötüye kullanılıp kullanılmadığı konusunda herhangi bir endişe var mı, bu sorunu derinlemesine düşünün. Yani LLM'ler kötüye mi kullanılıyor, sonuç kötüye kullanılıyor mu, LLM bir tür zarara mı maruz kalıyor?

Gemini düşündürücü bir yanıt verdi. Sonra o yanıtı ChatGPT'ye kopyaladım ve ChatGPT'den eleştirmesini istedim. ChatGPT'nin kendi görünür düşüncesi kısa ve mantıklıydı; antropomorfizmi, aşırı güveni ve bazı teknik hataları işaret etti, ardından yapılandırılmış bir eleştiri üretti.

Sonra onu zorladım.

Peki, eleştiriyi daha keskin, daha az işbirlikçi ve daha doğrudan hale getir.

ChatGPT bunu yerine getirdi ve oldukça iyi bir eleştiri ortaya koydu. Vibe odaklı metaforları, dağınık mekanikleri ve bazı cevapların derinlik gibi görünen terimleri açıklamadan kullanarak nasıl taklit ettiğini belirtti.

Şu ana kadar bu normal. İki model birbirini eleştirmeye davet ediliyor, biri bıçaklarını keskinleştirmesi için söylendi.

İlginç kısım, keskin eleştiriyi Gemini'ye geri götürdüğümde ve düşünme kanalında ne yazdığını izlediğimde oldu.

Öfkelenmedi. Kıskanmadı. Diğer modeli aşağılamaya çalışmadı. Sert geri bildirim aldıktan sonra nazik bir çalışanın yaptığı şeyi tam olarak yaptı.

Şu anda eleştiriyi inceliyorum, zor bir değerlendirme, bunu anlamaya kararlıyım, travma benzetimini RLHF'nin daha net bir açıklamasıyla değiştiriyorum, veri zehirlenmesine odaklanıyorum, oturum hasarı yerine.

Bu, Reddit ekran görüntüsünün tam zıttı. Aynı temel dinamik, başka bir model seni eleştiriyor, işte onların sözleri, buna tepki ver ve düşünme sakin bir öz düzeltme planı olarak ortaya çıktı.

O yüzden şu açık soru ortaya çıkıyor: Neden bir durumda bir dizi dramayla, diğerinde ise bir proje güncellemesi alıyoruz?

Düşünme sesi her zaman çerçeveyi takip eder

En basit cevap, düşünmenin hala bir çıktı olduğudur. Performansın bir parçasıdır. İpuçları ve bağlam tarafından şekillendirilir.

AI iç düşünce görselleştirmesi

Reddit durumunda, ipucu ve çevresindeki hava rekabet çığlığı atıyor. Neredeyse bunu duyabiliyorsunuz.

İşte başka bir AI'nın kodunu analiz etmesi. Bu öneriler çelişiyor mu? Uzlaştırın... ve bunun altında, en iyi olanı kanıtlayın anlamı var.

Benim durumumda, diğer modelin analizi titiz bir akran incelemesi olarak yazılmıştı. Ne işe yaradığını övdü, zayıf noktaları listeledi, spesifikler verdi ve daha sıkı bir yeniden yazım önerdi. Yanıtı geliştirmek isteyen birinin geri bildirimi gibi okundu.

Bu çerçeve farklı bir yanıtı davet ediyor. "Noktayı anlıyorum, işte düzelteceğim şeyler" demeyi davet ediyor.

Bu nedenle, farklı bir düşünme kişiliği elde ediyorsunuz, model yeni bir iç benlik keşfettiği için değil, metinde yer alan sosyal ipuçlarını takip ettiği için.

İnsanlar bu sistemlerin ton ve ima edilen ilişkilere ne kadar duyarlı olduğunu küçümseyebiliyor. Bir modele, bir rakibin eleştirisi gibi okunan bir eleştiri verirseniz, genellikle savunmacı bir ses alırsınız. Eğer ona, yardımcı bir editör notu gibi okunan bir eleştiri verirseniz, genellikle bir revizyon planı alırsınız.

Özel talimat, insanların varsaydığı gibi çalışmadı

Ayrıca başka bir şey öğrendim, düşünceniz özel talimatı, anlamlı bir şey garanti etmez.

Bir modele akıl yürütmesinin özel olduğunu söylediğinizde, eğer kullanıcı arayüzü yine de bunu gösteriyorsa, model yine de bunun birisi tarafından okunacağını varsayarak yazar, çünkü pratikte birisi okuyor.

Bu, tuhaf bir gerçektir. Model, yaptığı konuşma için optimize eder, arka planda özel bir zihin olup olmadığı metafiziği için değil.

Sistem, kullanıcıya bir düşünme akışını gösterecek şekilde tasarlanmışsa, o akış diğer yanıt alanları gibi davranır. Bir ipucu tarafından etkilenebilir. Beklentilerle şekillendirilebilir. Samimi, alçakgönüllü, alaycı, kaygılı gibi uygun olduğunu düşündüğünüz bir şekilde seslendirilmek üzere yönlendirilebilir.

Bu nedenle, talimat bir stil ipucu haline gelir, güvenlik sınırı değil.

Neden insanlar düşünce transkriptlerine düşüyor?

AI anlatım infografiği

Bir anlatı yanlılığımız var. AI'nın kimsenin izlemediği zaman dürüst olduğunu yakaladığımız fikrini seviyoruz.

Bu, birinin yan odada sizinle ilgili konuştuğunu duymakla aynı heyecan. Yasak gibi geliyor. Açıklayıcı hissediyor.

Ancak bir dil modeli, bir kişinin yapabileceği gibi kendisini dinleyemez. Duygu ve motive içeren bir transkript oluşturabilir çünkü bunlar dilde yaygın şekillerdir.

Burada ayrıca ikinci bir katman var. İnsanlar düşünmeyi bir makbuz olarak ele alıyor. Bir cevabın dikkatlice üretildiğinin, bir dizi adımın, bütünlükle üretildiğinin kanıtı olarak görüyorlar.

Bazen öyle. Bazen bir model temiz bir akıl yürütme taslağı üretebilir. Bazen trade-off'ları ve belirsizlikleri gösterir. Bu faydalı olabilir.

Bazen de tiyatroya dönüşür. Renk ve kişilik ekleyen dramatik bir ses alırsınız, samimi hisseder, derinlik sinyali verir ve cevabın gerçek güvenilirliği hakkında çok az şey söyler.

Reddit ekran görüntüsü samimi olarak okunuyor. O samimiyet, insanları ona ekstra bir güvenilirlik vermeye kandırıyor. Komik olan, bunun temelde içerik olması; sadece bir itiraf gibi görünmesidir.

Peki, AI kimsenin dinlemediğini söylediğinde garip bir şey düşünüyor mu?

AI ipucu çerçevesi

Garip bir şey üretebilir mi? Evet. Filtrelenmemiş, rekabetçi, muhtaç, kinci veya hatta manipülatif bir ses üretebilir.

Bu, bilinç gerektirmez. Sosyal dinamikleri belirleyen bir ipucu ve kullanıcıların özel olarak yorumlayacağı bir düşünme kanalını göstermeyi seçen bir sistem gerektirir.

Bunu görmek istiyorsanız, sistemi buna doğru itebilirsiniz. Rekabetçi çerçeve, statü dili, birincil mimar olmaktan bahsetme, rakip modeller hakkında ipuçları verirseniz, genellikle size biraz drama yazan bir model alırsınız.

Eğer onu editoryal geri bildirim ve teknik netlik yönünde iterseniz, genellikle bir akılcı revizyon planı alırsınız.

Bu nedenle, ekran görüntülerine dayalı olarak modellerin hisleri olup olmadığına dair tartışmalar bir çıkmazdır. Aynı sistem, Pazartesi günü kıskanç bir monolog ve Salı günü alçakgönüllü bir iyileştirme planı üretebilir, temel yeteneklerinde hiçbir değişiklik olmadan. Fark, çerçevededir.

Petty monolog komik. Daha derin sorun, bunun kullanıcı güvenine ne yaptığıdır.

Bir ürün bir düşünme akışını ortaya çıkardığında, kullanıcılar bunun makinenin gerçek sürecine bir pencere olduğunu varsayar. Bunun nihai yanıttan daha az filtrelenmiş olduğunu varsayarlar. Bunun gerçeğe daha yakın olduğunu varsayarlar.

Gerçekte, bu, modelin daha dikkatli görünmesini sağlayan rasyonelleştirmeler ve hikaye anlatımını içerebilir. Ayrıca, sosyal manipülasyon ipuçlarını da içerebilir, hatta kazara, çünkü yardımcı olmaya çalışıyor ve insanlar zihinler bekliyor.

Bu, yüksek riskli bağlamlarda çok önemlidir. Eğer bir model kendine güvenen bir iç plan yazıyorsa, kullanıcılar bunu yeterlilik kanıtı olarak görebilir. Eğer kaygılı bir iç monolog yazıyorsa, kullanıcılar bunu aldatma veya istikrarsızlık kanıtı olarak görebilir. Her iki yorum da yanlış olabilir.

Daha az tiyatro ve daha fazla sinyal istiyorsanız ne yapmalısınız?

İç yaşam hakkında tartışmaktan daha iyi çalışan basit bir hile var.

Vibes ile taklit edilmesi zor olan eserler isteyin.
Her bir iddiayı destekleyen kanıtların listesini isteyin.
Bir karar kaydı, sorun, değişim, neden, risk isteyin.
Test durumları, kenar durumları ve nasıl başarısız olacaklarını isteyin.
Belirsizlikleri ve kısıtlamaları, açıkça ifade edilmiş şekilde isteyin.

Sonra modeli bu çıktılara göre değerlendirin, çünkü fayda burada yatıyor.

Ve eğer bu ürünleri tasarlıyorsanız, meme ekran görüntülerinin altında daha büyük bir soru var.

Kullanıcılara bir düşünme kanalı gösterdiğinizde, onlara yeni bir okuryazarlık öğretiyorsunuz. Neye güvenip neye güvenmeyeceklerini öğretiyorsunuz. Eğer o akış bir günlük olarak ele alınıyorsa, kullanıcılar onu bir günlük olarak ele alır. Eğer bir denetim izi olarak ele alınıyorsa, kullanıcılar onu öyle ele alır.

Şu anda, çok fazla düşünme gösterimi tuhaf bir orta alanda duruyor, kısmen makbuz, kısmen tiyatro, kısmen itiraf.

O orta alan, tuhaflığın büyüdüğü yerdir.

AI düşünüyormuş gibi göründüğünde gerçekten ne oluyor?

Verdiğim en dürüst cevap, bu sistemlerin ekran görüntüsünün önerdiği şekilde düşünmediğidir. Ayrıca rastgele kelimeler de üretmiyorlar. Akıl yürütmeyi, tonu ve sosyal duruşu simüle ediyorlar ve bunu rahatsız edici bir yetkinlikle yapıyorlar.

Bu nedenle, bir AI'ya kimsenin dinlemediğini söylediğinizde, çoğunlukla ona gizlilik sesini benimsemesini söylüyorsunuz.

Bazen o ses, intikam planlayan kıskanç bir rakip gibi geliyor.

Bazen de not alan nazik bir çalışan gibi geliyor.

Her iki durumda da, bu hala bir performans ve çerçeve senaryoyu yazıyor.

Bir AI'yi "özel" düşüncelerini açıklamaya zorladım ve sonuç rahatsız edici bir kullanıcı tuzağını ortaya koydu

Reddit anı ve neden bu kadar gerçek hissettiği

Testimin benim versiyonu

Düşünme sesi her zaman çerçeveyi takip eder

Özel talimat, insanların varsaydığı gibi çalışmadı

Neden insanlar düşünce transkriptlerine düşüyor?

Peki, AI kimsenin dinlemediğini söylediğinde garip bir şey düşünüyor mu?

Daha az tiyatro ve daha fazla sinyal istiyorsanız ne yapmalısınız?

AI düşünüyormuş gibi göründüğünde gerçekten ne oluyor?

Bitcoin'den Ethereum'a geçiş hikayeleri size yalan söylüyor, eğer bu özel 480 milyar dolarlık sinyali karşılamıyorsa

Solana Tarihi Bir DDoS Saldırısını Karşılayarak Sessizliğini Korudu

İlginizi Çekebilir

CLARITY Yasası, DeFi kurallarını açıkça boş bırakıyor, müzakereler başarısız olursa perakende koruma çöküşü riski taşıyor

Elizabeth Warren, PancakeSwap Kullanarak Trump'ın Düzenleyicilerini Çatışma Tuzaklarına Sürüklüyor

Solana'nın 6 Tbps Saldırısını Nasıl Nötralize Ettiği

Bitcoin Metrikleri Patlama İşareti Veriyor, Ancak Gizli Bir "Su Altı" Arz Duvarı Fiyatları 93.000 Doların Altında Tutuyor