Google’ın suni zekası, hangi makine öğrenimi modellerinin en iyi netice vereceğini seçebiliyor

Google suni zekası ile, hangi makine tahsil modellerinin en iyi neticeleri üreteceğini tahmin etme kabiliyetine haiz olarak karşımıza çıkıyor. Google’ın yeni yayınladığı bir blog yazısında, Google AI araştırmacıları ekibi, suni zekanın performansını değerlendiren “siyaset dışı sınıflandırma” yada OPC dedikleri şeyi öneriyor. Bunun da değerlendirmeyi sınıflandırma problemi olarak ele alındığını belirtelim.

Ekip, yaklaşımlarının görüntü girdileriyle çalıştığını ve gösterime dayalı robotik kavrama da dahil olmak suretiyle görevlere ölçeklendiğini belirtiyor. Google’ın yazılım mühendisi Alex Irpan‘ın yazdığı yazıya nazaran, siyaset dışı güçlendirme öğrenmesi bir robotla meydana getirilen suni zeka model eğitimini sağlıyor, sadece değerlendirme yapmıyor. Dahası, temel doğruluk değerlendirmesinin fazlaca sayıda modelin değerlendirilmesini gerektiren yöntemlerde çoğu zaman fazlaca yetersiz olduğuna işaret ediliyor.

Çözüm önerilerine nazaran OPC, eldeki görevlerin, durumların iyi mi değişmiş olduğu mevzusunda asla ya da asla rastlantısallık içermediği varsayılarak ve ajanların deneysel denemelerin sonunda başarıya ulaşmış ya da başarısız bulunduğunu varsayarak bu problemi gideriyor. İki varsayımın ikincisinin ikili niteliği, iki sınıflandırma etiketinin (başarı için “etkili” yada başarısızlık için “yıkım”) atanmasına izin veriyor.

OPC ek olarak, eylemlerin gelecekteki toplam ödüllerini kestirmek için bir Q-öğrenme algoritması kullanıyor. Temsilciler, öngörülen en büyük ödülleri olan eylemleri seçiyorlar ve performansları, seçilen eylemlerin ne kadar etkili olduğuna nazaran ölçülüyor. Akabinde sınıflandırma doğruluğu siyaset dışı değerlendirme puanı olarak işlev görüyor.

Google AI ekibi, siyaset dışı güçlendirme öğrenimini kullanarak simülasyonda makine öğrenme politikalarını eğitti ve hemen sonra önceki gerçek dünya verilerinden alınan siyaset dışı puanları kullanarak bu tarz şeyleri değerlendirdi. Bir robot kavrama görevinde, bilhassa bir OPC varyantının (SoftOPC) nihai başarı oranını tahmin etmede en iyi performansı gösterdiğini bildirildi. Gelecekteki çalışmalarda ise araştırmacılar, gürültülü ve ikili olmayan dinamiklerle görevleri keşfetmeyi hedefliyorlar.