Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

REKLAM ALANI

06.11.2025 06:45

A⁺

A^-

Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü çalışmada, YZ modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini (benchmark) inceledi.

Testlerin çoğu ne ölçtüğünü tanımlamıyor

Araştırmaya göre, birçok üst düzey test ne ölçmek istediğini açıkça tanımlamıyor, önceki testlerden veri ve yöntemleri kopyalıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini vurguladı:

“Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” dedi.

Bir diğer yazar Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” ifadelerini kullandı.

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Araştırmada örnek olarak GSM8K adlı test ele alındı. Bu test, yapay zekaların temel matematik problemlerini çözme kabiliyetini ölçüyor ve genellikle “modelin matematiksel akıl yürütme becerisi yüksek” şeklinde yorumlanıyor.

Ancak Mahdi’ye göre doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor:

“Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez.”

Bilim insanlarından daha güvenilir test çağrısı

Araştırma, testlerin “yapı geçerliliği” (construct validity) sorununa dikkat çekiyor; yani testlerin gerçekten ölçmek istedikleri olguyu ölçüp ölçmedikleri belirsiz.

Yazarlar, yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu.

Bu öneriler arasında;

Ölçülen eylemin kapsamının açıkça tanımlanması,

Gerçek becerileri temsil edecek görev setleri hazırlanması,

Sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar yer alıyor.

METR AI araştırma merkezinden Nikola Jurkovic, çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak değerlendirdi.

Gerçek dünyaya dayalı yeni testler yolda

Son dönemde bazı araştırma grupları, YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı.

Eylül sonunda OpenAI, yapay zekanın 44 farklı meslek için gerekli görevlerdeki başarısını ölçen bir test serisi yayımladı. Bu testler, örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevleri kapsıyor.

Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerde yüksek puan alıyor ama testin asıl amacını gerçekte yerine getiremiyor,” dedi.

‘Bilimsel ölçüm yolculuğunun başındayız’

Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı.

Araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.

İlgili

REKLAM ALANI

Yorumlar

Bir Cevap Yazın. Yorumlarınızı Önemsiyoruz! Görüşlerinizi bizimle paylaşmaktan çekinmeyin. Yazılarımız hakkında düşünceleriniz, katkılarınız ve sorularınız bizim için değerli. Yorum yaparken lütfen saygılı ve yapıcı bir dil kullanmaya özen gösterin. şiddet ve Argo, hakaret, ırkçı ifadeler ve ayrımcılık içeren yorumlara izin verilmez. Yorum yapmak için Web Sitemizde ya da Facebook hesabınızla kolayca giriş yapabilirsiniz. Unutmayın, burası birlikte konuşabileceğimiz temiz ve güvenli bir alan!Cevabı iptal et

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.

Benzer Konular

İsrail kabinesinden Batı Şeria’da 19 yeni işgal birimine onay

İsrail’in aşırı sağcı hükümeti, Gazze Şeridi’ne 8 Ekim 2023’te başlattığı saldırıların ardından yasa dışı yerleşim inşası ve İsrail nezdinde de kaçak kabul edilen Yahudi yerleşimlerinin tanınması ve Filistin topraklarının devlet arazisi ilan edilmesi kararlarıyla işgal altında tuttuğu Batı Şeria’yı ilhak etme çabasına hız verdi. Haaretz gazetesinin haberinde, aşırı sağcı Maliye...

DÜNYA

21.12.2025 14:32

ABD, Venezuela açıklarında ikinci bir ticari gemiye el koydu

Noem, ABD merkezli X şirketinin sosyal medya hesabından yaptığı açıklamada, ABD Sahil Güvenliğinin, Venezuela açıklarında ikinci bir petrol tankerine dün düzenlenen operasyonla el konulduğunu bildirdi. ABD’nin yaptırım uyguladığı petrolün “narkoterörizmin finansmanında kullanıldığını” öne süren Noem, “Yaptırımlara tabi petrolün yasa dışı hareketini takip etmeyi sürdüreceğiz. Sizi bulacağız ve durduracağız.” ifadelerini kullandı....

DÜNYA

21.12.2025 13:51

Ateşkesi ihlal eden İsrail ordusu, Gazze’de bir kişiyi daha öldürdü

Hastane kaynaklarından alınan bilgiye göre, İsrail ordusuna ait İHA’dan Şucaiyye’nin Mansura Caddesi’nde bulunan bir grup sivil Filistinlinin üzerine bomba atıldı. Saldırıda yaşamını yitiren 1 kişinin naaşı Ehli Baptist Hastanesine getirildi. Görgü tanıkları, bu saldırının İsrail ordusunun çekildiği ve ateşkes anlaşması kapsamında Filistinlilerin serbestçe hareket etmesine izin verilen bölgede gerçekleştiğini belirtti....

DÜNYA

21.12.2025 13:16

ABD’nin San Francisco kentinde 130 binden fazla ev ve iş yeri elektriksiz kaldı

ABD’nin San Francisco kentinde dün akşam, kentin neredeyse üçte birini etkileyen geniş çaplı elektrik kesintisi meydana geldi. Elektrik kesintisi nedeniyle yaklaşık 130 bin ev ve iş yeri elektriksiz kaldı ve birçok mahalle karanlığa gömüldü. Kesinti nedeniyle restoran ve dükkanlar kapatılırken, elektrik kesintisi toplu taşımada aksamalara yol açtı ve bazı istasyonların...

DÜNYA

21.12.2025 10:49

Tayvan’da 5,1 büyüklüğünde deprem

Merkezi Meteoroloji Bürosundan (CWA) yapılan açıklamada, merkez üssü Hualien il merkezinin 18,3 kilometre kuzeydoğusu olan depremin, 31,6 kilometre derinlikte kaydedildiği belirtildi. 5,1 büyüklüğündeki sarsıntı, Hualien ile kuzeyindeki Yilan ilindeki yerleşimlerde hissedildi. Depremin ardından can kaybı veya hasar bildirilmedi.

DÜNYA

21.12.2025 08:06

İsrailli işgalciler Batı Şeria’da Filistinlilere saldırıyor

Batı Şeria’nın güneyindeki El Halil kentinde Filistin topraklarını gasbeden İsrailliler, Hıllet en-Neşte bölgesine baskın düzenledi. Bölge sakini Sadık İdris, yaptığı açıklamada, saldırgan İsraillilerin düzenlediği baskında bölge sakinlerinin evlerinde kaldığını söyledi. İsrailli işgalcilerin üst üste ikinci gün baskın düzenlediğini belirten İdris, dünkü baskında bir oğlunun hafif bir şekilde yaralandığını, evlerinin taşlandığını...

DÜNYA

21.12.2025 05:20

Son Haberler

Son Yorumlar

Görüntülenecek bir yorum yok.

Hava Durumu

Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak

Samsun

Açık

14°C

Samsun

14°C

Açık

Pazar Çok Bulutlu

15°C

Pazartesi Çok Bulutlu

14°C

Salı Çok Bulutlu

13°C

Çarşamba Az Bulutlu

13°C

Döviz Bilgileri

DOLAR

42,8012

EURO

50,1583

ALTIN

5.973,25

BIST

11.341,90

Güncel Konular

1 İsrail kabinesinden Batı Şeria’da 19 yeni işgal birimine onay

2 ABD, Venezuela açıklarında ikinci bir ticari gemiye el koydu

3 Gabar petrol sahasına yeşil dokunuş: 100 bin fidan toprakla buluşacak

4 Yılmaz: Kanlı Noel, tarihe silinmeyecek bir kara leke olarak kazınmıştır

5 Bakan Kurum Hatay’da deprem konutlarını inceledi

6 Ateşkesi ihlal eden İsrail ordusu, Gazze’de bir kişiyi daha öldürdü

7 28 ilde FETÖ operasyonu: 50 tutuklama

8 Devletten deprem bölgesinin en küçük hak sahibine yeni yuva

9 Yunus Emre Enstitüsünden yapay zeka hamlesi: Dünyaya Türkçe öğretilecek

10 Türk firmaları kapıyı açtı, Afrika’daki savunma buluşması büyüyor

Süper Lig Birinci Lig İngiltere Premier Ligi İspanya La Liga Almanya Bundesliga İtalya Serie A Fransa Lig 1

Süper Lig

	TAKIM	OY	AV	PU
1	Fenerbahçe	17	25	39
2	Galatasaray	16	24	39
3	Trabzonspor	16	14	35
4	Göztepe	16	10	29
5	Beşiktaş	17	8	29
6	Samsunspor	16	4	25

7	Gaziantep FK	16	-2	23
8	Kocaelispor	17	-2	23
9	Başakşehir	16	5	20
10	Alanyaspor	16	-1	18
11	Ç. Rizespor	17	-4	18
12	Konyaspor	17	-8	17
13	Gençlerbirliği	16	-4	15
14	Kasımpaşa	16	-7	15
15	Antalyaspor	17	-15	15
16	Kayserispor	17	-17	15
17	Eyüpspor	17	-14	13
18	F. Karagümrük	16	-16	9

Namaz Vakitleri

Samsun

İMSAK 06:17

GÜNEŞ 07:50

ÖĞLE 12:38

İKİNDİ 14:55

AKŞAM 17:15

YATSI 18:43

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Testlerin çoğu ne ölçtüğünü tanımlamıyor

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Bilim insanlarından daha güvenilir test çağrısı

Gerçek dünyaya dayalı yeni testler yolda

‘Bilimsel ölçüm yolculuğunun başındayız’

PAYLAŞIM YAPMAK İÇİN SEÇ

Bunu beğen:

İlgili

Son Yorumlar