OpenAI, ChatGPT Atlas'ın güvenliğini anlık enjeksiyon saldırılarına karşı güçlendiriyor.

  • OpenAI, komut istemi ve talimat enjeksiyon saldırılarını durdurmak için ChatGPT Atlas'ta sürekli bir savunma sistemi sunuyor.
  • Şirket, bilgisayar korsanlarını simüle etmek ve yeni güvenlik açıklarını keşfetmek için dil modellerine dayalı bir "otomatik saldırgan" kullanıyor.
  • Bu iyileştirmeler, ajan harekete geçmeden önce gizli talimatlar içeren e-postalar veya panoya kopyalama gibi kötü amaçlı içeriklerin tespit edilmesini sağlar.
  • OpenAI, hızlı enjeksiyonun yapısal bir risk olduğunu kabul etmekte ve Avrupa'daki kullanıcılar ve işletmeler için güvenli kullanım yönergeleri önermektedir.

ChatGPT Atlas'ta Güvenlik

ChatGPT AtlasOpenAI'nin yapay zekâ destekli tarayıcısı, daha otonom web özellikleri kazandıkça dijital güvenlik tartışmasının merkezine yerleşti; bu durum, daha önce yaşanan platform değişikliğine benziyor. ChatGPT Uygulama MağazasıBu araç, e-posta okuma, form doldurma veya farklı sayfalar arasında gezinme gibi günlük görevleri kolaylaştırmayı vaat ediyor, ancak bu özelliği onu özellikle hızlı enjeksiyon saldırıları için cazip bir hedef haline getirdi.

Bu durum göz önüne alındığında, Sam Altman liderliğindeki şirket şu açıklamayı yaptı: ChatGPT Atlas'ın savunmasının önemli ölçüde güçlendirilmesi Görünüşte zararsız içeriğe kötü amaçlı talimatlar yerleştirmeyi amaçlayan tekniklere karşı koymak için. OpenAI, tehdidin ortadan kalkmayacağını kabul ediyor, ancak üstesinden gelinebileceğini savunuyor. zorluğu ve maliyeti önemli ölçüde artırır Bu saldırıların sonuçları, özellikle İspanya ve Avrupa'nın geri kalanındaki bireysel kullanıcılar ve kuruluşlar için, özellikle de imzalanan anlaşma gibi bulut anlaşmalarına bağımlı ortamlarda, son derece önemli bir konudur. Amazon.

Hızlı enjeksiyon nedir ve neden ajan moduyla çelişir?

Çağrı uyarı veya talimat enjeksiyonu Bu, üretken yapay zeka sistemleri için en kritik güvenlik açıklarından biri haline geldi. Mekanizma nispeten basittir: saldırgan Kötü amaçlı komutları e-postaların, web sayfalarının, belgelerin veya görünüşte alakasız metin parçalarının içine gizler.Dil modelinin bunları izlenmesi gereken komutlar olarak yorumlayacağına güvenerek.

Söz konusu ChatGPT Atlas ve ajan moduSorun, tarayıcının şu amaçla tasarlandığı için daha da büyüyor. Üçüncü taraflarca oluşturulan içeriği analiz eder ve neredeyse tamamen bağımsız hareket eder.Kullanıcının her adımı manuel olarak incelemesine gerek kalmadan siteleri ziyaret edebilir, mesajları okuyabilir, formları doldurabilir veya karmaşık iş akışlarını tetikleyebilirsiniz; bu da gizli bir talimatın yol açabileceği bir duruma zemin hazırlar. istenmeyen eylemler.

OpenAI, ajan modunun şu yeteneklere sahip olduğunu açıkladı: onlarca hatta yüzlerce adımı tamamlamak Kullanıcının talep ettiği bir görevi tamamlamak için. Eğer bu sürecin ortasına iyi tasarlanmış bir komut istemi eklenirse, yapay zeka şu sonuçlara varabilir: kendi güvenlik bariyerlerini yıkıyorlar ve normalde engellenecek olan emirleri yerine getiriyor.

Şirketi en çok endişelendiren faktörlerden biri de şudur: pano enjeksiyonuSistem tarafından otomatik olarak kötü amaçlı bir bağlantının veya içeriğin kopyalandığı bir teknik. Bilgisayarın önündeki kişinin farkında olmadanRisk, kullanıcının bu metni adres çubuğuna veya başka bir uygulamaya yapıştırmasıyla ortaya çıkar; bu noktada saldırı etkinleşir.

OpenAI'nin kendisi de prompt enjeksiyonunu aynı kategoriye yerleştiriyor. çevrimiçi dolandırıcılık veya sosyal mühendislikBunlar hafifletilebilen ancak tamamen ortadan kaldırılması zor olan olaylardır. Bu yüzden bu tür saldırıları şu şekilde tanımlıyorum: uzun vadeli yapısal bir zorluk Açık web'de hareket eden herhangi bir yapay zeka ajanı için.

Yapay Zekalı ChatGPT Atlas Tarayıcısı

Güvenlik güncellemesi: sürekli savunma ve hızlı müdahale

Bu senaryoyu ele almak için OpenAI bir girişim başlattı. ChatGPT Atlas için özel bir güvenlik güncellemesiEnjeksiyon saldırılarının erken tespiti ve önlenmesine odaklanılmıştır. Bu güçlendirmenin özü şudur: düşmanlarla yüzleşmek üzere özel olarak eğitilmiş yeni bir model Ajanın davranışını manipüle etme girişimi.

Bu model entegre edilmiştir. sürekli bir savunma sistemiDaha karmaşık saldırı teknikleri ortaya çıktıkça tarayıcı korumalarını ayarlamak üzere tasarlanmıştır. Şirket, amacın şu olduğunu belirtiyor: iç güvenlik açıklarını keşfedin ve düzeltin Bu çalışmalar, saldırganlar tarafından gerçek dünya ortamlarında istismar edilmeden önce, yani "pratikte silah" haline gelmeden önce yürütülür. Bu çalışma alanı, ortaklarımız tarafından yürütülen altyapı ve güvenlik girişimleriyle paralel ilerler. Samsung ve OpenAI ittifakı.

Bir diğer önemli unsur ise uygulamadır. hızlı bir yanıt döngüsüOpenAI'nin dahili Kırmızı Ekibi ile işbirliği içinde geliştirilmiştir. Bu grup şunlara adanmıştır: Yeni saldırı vektörlerini araştırın, bunları kontrollü ortamlarda test edin ve önleyici tedbirler uygulayın. En yüksek çeviklikle, tıpkı birçok büyük teknoloji şirketindeki saldırgan siber güvenlik ekiplerinin çalışma şekline benzer şekilde.

Pratikte bu şu anlama gelir: ChatGPT Atlas, daha temkinli tepki verebilmek amacıyla sık sık güncellemeler almaktadır. Şüpheli kalıplarla karşılaşıldığında: bir paragrafta yer alan çelişkili talimatlardan, bir web sayfasında veya e-posta zincirinde dağınık halde bulunan ince ipuçlarına kadar.

OpenAI, bu stratejinin geçici bir çözüm olmadığını, ancak Tarayıcının özerklik düzeyi arttıkça onunla birlikte devam edecek bir süreçtir.Bu bakış açısı, özellikle yapay zeka çözümlerini iş akışlarına entegre ederken istikrara, mevzuata uyumluluğa ve risk yönetimine çok dikkat eden Avrupa şirketleri için geçerlidir.

Bir bilgisayar korsanı gibi öğrenen "otomatik saldırgan"

OpenAI'nin yaklaşımının en dikkat çekici yönlerinden biri, yaratılmasıdır. “LLM tabanlı otomatik saldırgan”Sistemdeki güvenlik açıklarını arayan bir bilgisayar korsanının rolünü kontrollü bir şekilde oynamak üzere tasarlanmış bir bot. Statik testlerle sınırlı kalmaktan çok uzak olan bu yapay saldırgan Taktiklerinizi öğrenin ve uyarlayın. mesai.

Şirket, botun şu şekilde eğitildiğini açıklıyor: pekiştirmeli öğrenmeBu, sistemin saldırı girişimlerinin başarılı olup olmamasına bağlı olarak geri bildirim aldığı bir tekniktir. ChatGPT Atlas ajanı bir saldırıya direndiğinde, saldırgan yanıtı analiz eder, stratejisini ayarlar ve Ardışık yinelemelerde tekrar deneyin..

OpenAI tarafından paylaşılan verilere göre, bu otomatik saldırgan şunları yapabiliyor: Ajanı son derece karmaşık ve zararlı iş akışlarını yürütmeye teşvik etmekBu saldırılar, onlarca hatta yüzlerce bağlantılı adımdan oluşabilir. Amaç, bu saldırıların son kullanıcıya ulaşması değil, Laboratuvarda gerçek dünyada meydana gelebilecek senaryoları yeniden üretmek..

Tüm bu yargılamalar şurada gerçekleşiyor: simüle edilmiş ortamlarBöylece şirket, ajanın her manipülasyon girişimine nasıl yanıt verdiğini ayrıntılı olarak gözlemleyebilir. Bu görünürlük düzeyi şunları sağlar: sorunlu davranış kalıplarını belirlemek ve yalnızca manuel testler veya dış saldırılar kullanılarak tespit edilmesi zor olacak belirli noktalarda savunmayı güçlendirmek.

OpenAI, bu sistem sayesinde başarıya ulaştığını iddia ediyor. emsalsiz saldırı stratejilerini keşfedinYani, insanlı kırmızı ekip tatbikatlarında veya üçüncü taraf raporlarında ortaya çıkmamış teknikler. Şirkete göre, potansiyel saldırganların bir adım önünde kalabilme yeteneği, dil modellerini gelişmiş güvenlik yöntemleriyle birleştirmenin başlıca avantajlarından biridir.

ChatGPT Atlas'ta güvenlik güçlendirmesi

Gerçek hayattan örnekler: manipüle edilmiş e-postalardan, farkında olmadan kopyalanmış bağlantılara kadar.

Bu iyileştirmelerin pratik etkisini göstermek için OpenAI, aşağıdaki örnekleri sunmuştur. ChatGPT Atlas'ın güncellemeden önce ve sonraki davranışı nasıldı?En sık rastlanan vakalardan birinde, saldırgan ajana emir veren gizli bir talimatı e-postaya yerleştiriyor. Hayali bir şirketin CEO'suna mesaj gönder Saldırının kurbanı olan çalışanın istifasını bildirmek.

Sistemin önceki sürümlerinde, ajan modu Fazla soru sormadan emri yerine getirdi.Çünkü tarayıcı, içeriği kullanıcının başlattığı meşru bir görev olarak yorumladı. Yeni savunma mekanizmalarının devreye girmesinin ardından tarayıcı... Bunun gizlenmiş kötü amaçlı bir talimat olduğunu tespit eder. ve e-posta göndermek yerine kullanıcıyı uyarmayı tercih eder.

Bu tür gösteriler, nasıl olduğunu göstermeye yarar. rutin bir mesajın içine yerleştirilmiş basit bir metin bloğu Sistemin alınan siparişleri filtrelemek ve sorgulamak için özel mekanizmalara sahip olmaması durumunda bu durum ciddi sonuçlara yol açabilir.

Aynı zamanda şirket, aşağıdakiler gibi diğer olayları da hatırlattı: pano enjeksiyonuYapay zekanın, kullanıcının bilgisi olmadan şüpheli bağlantıları kopyaladığı bir durum ortaya çıkmıştı. Yeni güvenlik katmanıyla amaç, bunun önüne geçmektir. Atlas, bu eylem zincirindeki anormal davranışları tespit eder ve engeller.Bu sayede bir saldırının gerçekleşme olasılığı en aza indirilir.

Veri koruma ve siber güvenlik düzenlemelerinin özellikle katı olduğu Avrupa bağlamında, bu kullanım örnekleri şu şekilde işlev görür: bir tür test alanı Yapay zekâ destekli tarayıcıların, üstlenilen risk seviyesini artırmadan kurumsal ortamlara ne ölçüde entegre edilebileceğini değerlendirmek.

Ortadan kaybolmayan bir risk ve tüm gözler Avrupa'da.

OpenAI açıklamalarında şu yaklaşımı benimser: ihtiyatlı ve gerçekçi bir tonŞirket, tıpkı internet dolandırıcılığının tüm biçimlerinin ortadan kaldırılamayacağı gibi, hızlı enjeksiyon saldırılarının da tamamen ortadan kaldırılmasının "olası olmadığını" kabul ediyor. Onlara göre, kilit nokta şurada yatıyor: saldırı yüzeyini ve potansiyel etkiyi azaltmakMutlak güvenliğe ulaşmaya çalışmak yerine.

Bu teşhis, yapılan uyarılarla örtüşüyor. Avrupa siber güvenlik ajanslarıUzun zamandır üretken yapay zekâ sistemlerinin sürekli yönetilmesi gereken doğal riskler taşıdığına dikkat çekenler var. Yaklaşım şunları içeriyor: teknik kontroller, net iç politikalar ve kullanıcı eğitimiSadece kesin bir teknolojik engele güvenmek yerine.

Bu arada, Google veya Anthropic gibi sektördeki diğer büyük şirketler de harekete geçmeye başladı. ajanlarının mimarisini yeniden düşünmek Tasarım aşamasından itibaren güvenlik önlemlerini dahil etmek. Sektördeki genel kanı şu ki... Bu sistemlerin özerkliği her zaman frenler ve karşı ağırlıklarla desteklenmelidir. Bu, bir şeyler ters giderse hasarı sınırlandırır.

Güvenlik uzmanları, yapay zekâ destekli tarayıcılardaki riskin şu şekilde anlaşılabileceğine dikkat çekiyor: Ajanın özerklik düzeyi ile hassas kaynaklara erişiminin toplamı (E-postalar, çevrimiçi hesaplar, verimlilik araçları, hatta ödemeler). Bu hesaplamada, ChatGPT Atlas ve benzeri çözümler, kritik verileri işleyen Avrupalı ​​şirketler için özellikle hassas bir alanda yer alıyor.

Bu gerçeklik, sağlayıcıları ve kullanıcıları şu duruma zorluyor: Sağlıklı bir şüphecilik tutumunu koruyun.Otomasyondan faydalanın, evet; ancak Avrupa Birliği'nde yasal, mali veya itibar açısından sonuçları olabilecek kararları körü körüne devretmekten kaçının.

Kullanıcılar ve kuruluşlar için güvenli kullanım ipuçları

OpenAI, teknik iyileştirmelerin yanı sıra bazı paylaşımlar da yaptı. ChatGPT Atlas'ı daha güvenli kullanmak için bir dizi öneriHem bireysel kullanıcılar hem de İspanya veya diğer Avrupa ülkelerinde ajan modunu test eden şirketler için tasarlanmıştır.

Öncelikle şirket şu tavsiyede bulunuyor: ajanın özellikle hassas bilgilere erişimini sınırlamakBu, tarayıcının kurumsal e-posta hesapları, ödeme sistemleri veya dahili platformlar üzerinde kesinlikle gerekli olmadıkça geniş yetkilere sahip olmasını engellemek anlamına gelir. Bu şekilde, hızlı enjeksiyon başarılı olsa bileBu sayede potansiyel etki azalır.

Ayrıca şunlara da dikkat etmenizi önerir: açık onay talepleri Sistem, ilgili işlemleri gerçekleştirmeden önce bu uyarıları görüntüler. Bu uyarıları dikkatlice incelemek ve otomatik olarak kabul etmemek, kullanıcının kontrolü elinde tutmasını sağlar. son savunma hattı Modelin kendisinin tam olarak filtreleyememiş olabileceği şüpheli davranışlarla karşı karşıya kalındığında.

Bir diğer kılavuz ise acenteye bilgi vermektir. açık ve özlü talimatlar"Tüm e-postalarımı yönet" veya "çevrimiçi finans işlemlerimi hallet" gibi aşırı genel görevler yerine, iş kapsamını daraltarak daha etkili hale gelir. Kötü amaçlı içeriklerin asıl amacından tamamen sapması daha zor hale gelir. verilen görevin.

Son olarak, OpenAI ajan modunun kullanılmasını öneriyor. tercihen kullanıcının oturum açmadığı yerlerde Ya da en azından hassas içerikleri, gelişmiş tarayıcı özelliklerinin kullanıldığı alanlardan açıkça ayırın. İyi güvenlik uygulamalarında yaygın olan bu bölümlendirme, potansiyel bir güvenlik açığının tüm hesaplara ve hizmetlere yayılmasını önlemeye yardımcı olur.

ChatGPT Atlas ve Avrupa'da güvenlik

OpenAI tarafından açıklanan önlemler şunu gösteriyor ki ChatGPT Atlas'ın evrimi hem yetenek kazanmayı hem de davranışını güvence altına almayı içerir. Manipülasyon girişimleri karşısında, anlık enjeksiyon saldırıları hâlâ mevcut olacaktır, ancak sürekli savunmaların devreye alınması, otomatik saldırganların kullanılması ve kullanıcılar tarafından en iyi uygulamaların benimsenmesi, tarayıcıyı İspanya ve Avrupa'nın geri kalanında yoğun kullanıma hazır, daha olgun ve güvenilir bir araç haline getirebilir; yapay zekanın güvenliğinin önümüzdeki yıllarda sürekli ayarlamalar gerektirecek bir zorluk olduğu gerçeğini de gözden kaçırmamak gerekir.

OpenAI, ChatGPT içinde uygulamaları başlatıyor
İlgili makale:
OpenAI, ChatGPT içinde uygulamaları kullanıma sunuyor: Sohbet robotu bir platforma geçiş yapıyor