2021’in ilk günlerinde, elde ettiği başarı ile ses getirmiş yapay zeka GPT-3’ün arkasındaki araştırma kuruluşu olan OpenAI, DALL-E adlı yeni bir yapay zeka geliştirdiğini açıkladı. GPT-3’den daha az ilgi çekse de, DALL-E’nin, yapay zekanın geleceği için daha da derin etkileri hakkında ipucu veriyor. İspanyol sürrealist sanatçı Salvador Dalí ve Pixar’ın bilimkurgu robotu WALL-E’nin adının karışımı olan DALL-E, bir sanatçı kadar yaratıcı ve bir robot kadar güçlü.
Özetle DALL-E, metin başlıklarını girdi olarak alır ve çıktı olarak orijinal görüntüler üretir. Örneğin, “beşgen yeşil bir saat”, “ateşten yapılmış bir küre” ya da “bir binanın yan tarafındaki mavi balkabağı duvar resmi” gibi çeşitli ifadeleri giriş yapıldığında, DALL-E, şaşırtıcı derecede doğru olan görsel yorumlamalar yapabiliyor. Bunlarla geleceği merak edenler de oynayabiliyor.
DALL-E Neden Önemlidir ?
Her şeyden önce bu geleceğe doğru atılan adım, yapay zekanın ne olacağınıi tanımlayacak gibi görünen ve “çok yönlü yapay zeka” olarak bilinen yeni bir yapay zeka paradigmasının doğuşunu öngörüyor. Çok yönlü yapay zeka sistemleri, birden çok bilgi modeli arasında yorumlama, sentezleme ve dönüştürme işlemlerini gerçekleştirebilir. DALL-E ise, dil ve görüntü işleme yeteneğine sahip bir yapay zeka işlemcisi. DALL-E, çok yönlü yapay zekanın ilk örneği değil; fakat, bugüne kadar yapılanlar arasında en etkileyici olanıdır. OpenAI kurucu ortağı Ilya Sutskever bu durumu şöyle özetliyor:
“Dünya, sadece bir metinden ibaret değildir. İnsanlar sadece konuşmazlar, görürler de. Pek çok önemli bağlam, görmekten gelir. Doğal dilde ifade edilebilen çok çeşitli kavramlar için metin başlıklarından görüntüler oluşturan DALL · E adlı bir sinir ağını eğittik.” Bu kavram elbette ki tam olarak açıklayıcı
değil. OpenAI bir ticari kuruluş ve bu sistemi nasıl ortaya çıkardıklarını ne yazık ki pazarlama
teknikleriyle açıklıyorlar.
Mega PLC ekibi olarak tam bu noktada “Yapay Sinir Ağları” hakkında detaylı bilgiye sahip
olmanız gerektiğine kanaat getirdik. Yapay Sinir Ağı nedir?
Yapay Sinir Ağları (YSA)
insan beyninin bilgi işleme sisteminden türetilen bir bilgi işleme teknolojisidir. YSA ile sinir sisteminin işleyişi kolayca modellenir. Diğer bir deyişle, canlı nöron hücrelerinin dijital dizilimi ve bu hücrelerin birbirine bağlandığı sinaptik bağlantılardır.
Nöronlar kendilerini farklı şekillerde bağlayarak ağlar oluştururlar. Bu ağlar, veriler arasındaki ilişkileri öğrenme, yakalama ve ortaya çıkarma yeteneğine sahiptir. Başka bir deyişle, YSA’lar genellikle insanın doğal düşünme ve görme yeteneklerini gerektiren sorunlara çözümler üretir.
İnsanların düşünme ve gözlem gerektiren sorunlara çözüm üretebilmelerinin temel nedeni, insan beyninin ve dolayısıyla yaşayarak veya deneyimleyerek öğrenme yeteneğidir.
YSA, ağırlıklı olarak birbirine bağlanan çoklu işlem birimlerinden (nöronlar) oluşan matematiksel bir algoritmadır. Bir iş birimi, aslında, yaygın olarak transfer fonksiyonu olarak adlandırılan bir ölçü birimidir.
Bu işlem birimi, diğer nöronlardan gelen sinyalleri alır; bunları birleştirin, dönüştürün ve sayısal sonuçlar oluşturun. Genel olarak, işlem birimleri gerçek nöronlara karşılık gelir ve bir ağa bağlıdır; Bu mimari bir sinir ağı oluşturur. Fakat burada en tehlikeli durum sinir ağlarının içerisinde ne olduğunu ya da ne oluştuğunu bilemiyor olmamızdır.
Yapay zeka sistemleri insanların hayatlarını ne kadar güzelleştirip kolaylaştırsada yıllardır süre gelen “Robotlar insanları ele geçirecek” korkusu gün geçtikçe daha da yaklaşıyor diyebiliriz.
Bugün var olan çoğu yapay zeka sistemi yalnızca 1 tür veri ile işlem yapar. NLP modelleri (örn. GPT-3) yalnızca metin üzerinden işlem yapar; bilgisayarla görme modelleri (örn. yüz tanıma sistemleri) yalnızca görüntüleri kullanır. Bu yapay zeka modelleri, tüm bunları fazla bir çaba harcamadan gerçekleştiren, insan zekasına göre çok daha az zenginlikteki bir zekayı ifade ediyor. İnsanlar ise sürekli olarak 1 değil, 5 duyudan bilgi alıyor ve birleştirip işliyor. İnsan türü dünyayı görme, duyma, dokunma, koku ve tat alma kombinasyonuyla anlamlandırılabilir.
Bilgileri dünyaya çeşitli yollarla etkileşim haline getiriyor: konuşma, metin, vücut dili, yüz ifadesi, müzik bu durumdaki etkileşimler için önemli örnekler. Doğal dil anlayışını, başka bir anlam ile, hem “okuyabilen” hem de “görebilen” görsel temsiller üretme becerisi ile birleştirebilen DALL-E, çok yönlü yapay zekanın potansiyelinin şu ana kadar yaratılmış en güçlü göstergesidir. DALL-E, sadece başlangıç. Önümüzdeki aylar ve yıllar içinde, ses, video, konuşma, görüntüler, yazılı metinler, dokunsal geri bildirim (“haptics”) ve ötesinde sorunsuz bir şekilde etkileşime girebilen yapay zeka sistemleri oluşturacak gibi görünüyor. Yapay zeka, gitgide daha sofistike yollarla birden fazla bilgi yöntemini birleştirmeyi öğrenmeyi başardıkca, dünyayı anlama ve yeni içgörüler üretme yeteneği, birleşimsel olarak büyük bir etkiye sahip olacak.
DALL-E, daha da temel bir nedenle önemlidir: Yapay zekanın yaratıcılık yeteneğine sahip olduğunu kabul etmemek, gittikçe zorl bir hale geliyor. DALL-E, ne Dünya’da ne de herhangi birinin hayal gücünde var olmayan görüntüler oluşturma potansiyeline sahip bir yapay zeka platformu olarak karşımıza çıkıyor. Bu betimlemeler, internetteki mevcut görüntülerin basit manipülasyonları değil; zaman zaman akıllılığı ve özgünlükleri ile nefes kesen yeni yorumlardır. Bu tasvirler, DALL-E’nin insan yaratıcılarının pek çok durumda beklemediği ve tahmin edemeyeceği görüntüler halindedir. DALL-E’nin nefis, yaratıcı “şirin bir kase ramen emojisi” ya da “avokadodan yapılmış bir penguen” resimlerini yaptığını bir düşünüldüğünde yeni bir dünyanın kapıları açılmış oluyor.
Bu görüntüler bir insan tarafından yaratılmış olsaydı, bir an bile düşünmeden onları yaratıcı bir sürecin ürünü olarak tanımlanırdı. Bu çıkan son görüntüleri DALL-E yaptığında, yaratıcılığın eseri olduğunu inkar edilemeyecek kadar şaşırtıyor. Bu yaratıcılık kapasitesi, DALL-E’ye ürün tasarımı, moda ve mimari gibi alanlarda anında gerçek dünya ile bağın kurulmasını sağlar. Çok geçmeden, insan tasarımcıların DALL-E gibi bir yapay zekayı bir fikir ortağı ve ilham kaynağı olarak kullanması çok daha fazla alana yayılacak. Örnek vermek gerekirse, “halka şekilli tatlı çörek tarzında bir koltuk” tasarlaması istendiği zaman, DALL-E, çeşitli yaratıcı seçenekler üretebilmektedir. Elbette ki, bazıları diğerlerinden daha iyi tasarlanmış ve daha iyi üretimlerde bulunabilir.
Yapay zeka algoritmaları, eğitimlerinde kullanılan veri kümelerindeki hatalar nedeniyle görüntü oluşturma konusunda başarısı azalma eğilimindedir. Bununla birlikte DALL-E, sadece pratik nesnelerin değil, aynı zamanda soyut kavramların da mantıklı görüntü yorumlamalarını üretebilir. Örneğin, gün doğumunda bir tarladaki bir kapibarayı anlatan bir metinde, DALL-E beklenmedik bir şekilde, metinde özel olarak belirtilmemiş olmasına rağmen, yaptığı betimlemede nesnenin gölgesinin düşmesini sağlayarak veya köpeğini gezdiren, balerin eteği giymiş, havuç şeklinde bir bebek turp metni verildiğinde oluşturduğu tasvirdeki nesnelere duygu durumu bildiren yüz ifadelerini de eklenmesi ile mantıksal akıl yürütme yapmıştır.
Aktarılan bilgiler arasında bir müzik aleti olan arpın, kemerli kısmını salyangoz kabuğunun eğrisiyle ilişkilendirerek arp dokulu bir salyangoz oluşturmak ve her iki unsuru da tek bir kavramda yaratıcı bir şekilde birleştirmek gibi harikulade soyut olan hayali kavramları hayata geçirmede de iyi bir muhakeme göstermeyi başardığı yer alıyor.
Bir mobilya tasarımcısı; DALL-E ile denemeler yaptığını, modelin ürünlerini incelediğini, metin giriş istemlerinde yinelediğini ve ardından yapay zekanın tasarımlarını kendi koltuk kreasyonları için iyi bir ilham kaynağı olarak kullandığını fikrinin belirmesi hiç zor değil. Benzer bir yaratıcı süreç, arabalardan ışıklandırma armatürlerine, mücevherlerden evlere varan bir yelpaze içerisinde birçok ürün tasarımları için kullanılabilir.
Yine de, DALL-E, henüz mükemmel çalışmalar yapamıyor. Yarattığı görüntüler, beslendiği metnin ya da kelimelerin her zaman doğru temsilleri olarak ortaya çıkmıyor. Örneğin, genellikle renkleri, miktarları veya uzamsal ilişkileri doğru alamıyor.
OpenAI’ın halka açık hale getirdiği DALL-E’nin çalışma örnekleri, OpenAI ekibi tarafından elle seçilmiyor, ilk olarak CLIP adı verilen başka bir görüntü işleme algoritması tarafından her başlık için 512 tanesinden yalnızca ilk 32 DALL-E tasviri derecelendirme yapılmış ve seçilmiş. Başka bir deyişle DALL-E, daha az etkileyici olan birçok avokado pengueni ve halka koltuk tasviri de meydana getirilmiş. Buna rağmen, DALL-E’nin üretkenlik yetenekleri beklentinin çok üstü boyutta ve teknolojisi de hızla gelişmeye devam ediyor.
Marcus’un olanlara bakışı ciddiye alınmaya değer. DALL-E ve GPT-3 modellerinin arkasındaki son teknoloji trafo (transformatör) mimarisi dahil olmak üzere geniş bir öğrenme, kavramsal bir zeka modeli olarak ciddi sınırlamalar bulunuyor.
Yine de bir bakıma bu tartışma içerisinde asıl noktayı kaçırmış oluyor: OpenAI’ın yeni modeli “yapay genel zeka”ya doğru gerçek bir adımı temsil etse de etmese de, derin öğrenme insan bilişi kadar sağlam makine zekası için uygun bir yol olsun ya da olmasın, gerçek şu ki, DALL-E olağanüstü yeni yeteneklere sahip yeni bir sistem olarak insanlığın karşısına çıkıyor. OpenAI’ın yeni yapay zeka modelleri, bilgisayar gücünde kesinti meydana gelmeden, doğrudan gerçek dünya değerine sahip olan görünürde kolay görevleri yerine getirirken, genel zekanın tanınabilir unsurlarını sergileme yeteneği gösteren yeni makine öğrenimi sistemleri icat etmeye yönelik sektördeki en son ve en büyük çabalarının yine en büyük temsili olarak insanlığa sunulmuş oluyor.
DALL-E Ne Gibi Tehlikelere Neden Olabilir ?
Günümüzde halen yapay zeka sistemleri oldukça kolay ya da tehlikeli olmayan alanlarda bizlere hizmet veriyor olsalarda genel olarak DALL-E değil de “Yapay Zeka” sistemlerinin detaylarına bakmamız gerekmektedir.
Çünkü yapay zekayı ortaya çıkaran yapay sinir ağlarının avantajlarının yanında bazı dezavantajları da bulunmaktadır. Bu sakıncalar ise şu şekilde sıralanabilir:
- Yapay Sinir ağları gün geçtikçe öğrenir ve kendisini geliştirir. Bu gelişmenin ne yönde olduğu neredeyse kimse tarafından henüz bilinmemektedir. Bu örnek tıpkı iyi insan kötü insan örneği gibidir.
- Yapılan araştırmalara göre bazı yapay sinir ağları arasında tıpkı insan iletişimi gibi özel iletişimlerin kurulduğuna hatta organize hareket etmeye çalışma gibi olayların yaşandığı tespit edildi. Bu da ilerleyen süreçlerde anlam veremeyeceğimiz tepkiler üretmelerine neden olabilir.
- Normal bir insan beyninden çok daha fazla ve hızlı öğrenme yeteneğine sahipler. Sebebi ise yüzlerce insan tarafından aynı anda ve yoğun bir şekil de kullanılıyor olması.
- Bilim ve teknoloji dünyası tarafından tam anlamıyla anlık durumlarının analizlerinin yapılamıyor olması vb.
Gördüğünüz gibi birbirinden farklı bazı nedenlerden dolayı yapay zekalar bizler için oldukça ilgi çekici olsa da bir süre sonra insan kontrolünden çıkma ihtimali olan sistemlerdir. Fakat şimdilik DALL-E gibi sistemler bir süre daha insanların işlerini kolaylaştırmaya veya onları eğlendirmeye devam edecekler gibi görünüyor.
DALL-E ve ardından gelecek yeni teknoloji adımları, insan ve makine arasındaki yaratıcı ilişkide yeni ihtimallerin kilidini açacaktır ve bu teknolojik zıplama sürecinde, muazzam bir ekonomik değer yaratacak ve yenilikçi girişimler, yeni ürünler dalgasının temelini oluşturacaktır.