365betÌåÓýÔÚÏßÊÀ½ç±­

  • Altın : 4,233.80
  • BIST 100 : 9,486.56
  • BIST 30 : 10,539.64
  • BTC/USDT : 102,499.00
  • Dolar : 39.28
  • ETH/USDT : 2,453.20
  • Euro : 44.95
YANDEX

Yandex, açık veri seti Yambda'yı yayınladı

Yandex Öneri Sistemleri BaÅŸkanı Nikolai Savushkin, "AraÅŸtırmacılar gerçek dünya ölçütlerine kavuÅŸur, startuplar sadece teknoloji devlerinin eriÅŸebildiÄŸi kaynaklara eriÅŸir ve kullanıcılar da daha iyi bir kullanım deneyiminin keyfini çıkarır" dedi

  • 04.06.2025
  • Enes Ege
  • Istanbul
  • Genel
news

İSTANBUL (AA) - Yandex, müzik akış platformu Yandex Music'teki ses parçalarıyla yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren ve öneri sistemleri için açık veri seti Yandex Music Billion-Interactions Dataset'i (Yambda) yayınladı.

Şirketten yapılan açıklamaya göre, Yambda, öneri sistemlerini kullanan tüm alan adlarında (e-ticaret, sosyal ağlar ve kısa video platformları) yeni yaklaşım ve algoritmaları test etmek için evrensel bir ölçüt olarak hizmet veriyor.

Veri seti, araştırmacıların yeni öneri algoritmalarını baz modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlayarak inovasyonu hızlandırıyor. Sınırlı veriye sahip startup'lar ölçeklendirmeden önce Yambda kullanarak sistem oluşturmak ve test etmek için veri setinden faydalanabiliyor. Böylece, dünya çapında iş ihtiyaçlarına göre uyarlanmış ileri teknolojilerin oluşturulması hızlandırılıyor.

·¡ÄŸ¾±³Ù¾±³¾ verilerinin kalitesi ve ölçeÄŸi, yayın hizmetleri, sosyal aÄŸlar, kısa video uygulamaları ve e-ticaret pazaryerleri gibi platformlarda amaca uygun önerileri sunabilmek için kritik önem taşıyor. Bununla birlikte, öneri sistemlerine yönelik araÅŸtırmalar büyük ölçekli veri setlerine sınırlı eriÅŸim nedeniyle büyük dil modelleri gibi hızla ilerleyen alanların gerisinde kaldı. Etkili öneri modelleri, ticari platformların sahip olduÄŸu fakat nadiren kamuya açık olarak paylaÅŸtığı terabaytlarca davranış verisi gerektiriyor.

Akademik ortamlarda mükemmel olan modeller gerçek dünya uygulamalarında genellikle düşük performans sergiliyor. Öneri sistemlerini gelişmiş yapılarla entegre etme çabaları da uygun eğitim verilerinin yokluğu nedeniyle kısıtlanıyor.

- Kullanıcıların nasıl etkileşime girdiğine dair önemli bilgiler sağlanıyor

Yambda, aylık yaklaşık 28 milyon kullanıcısı olan müzik akışı servisinin büyük ve anonimleştirilmiş veri setini sunarak öneri sistemi zorluklarına çözüm getiriyor. Bu veri seti, dinleme deneyimini her bir kullanıcının zevkine göre uyarlayan My Wave öneri sistemiyle tanınan Yandex Music servisinin içerikleriyle kullanıcıların nasıl etkileşime girdiğine dair önemli bilgiler sağlıyor.

Gizliliği korumak için tüm kullanıcı ve izleme verileri, gizlilik standartları doğrultusunda sayısal tanımlayıcılarla anonimleştirilmiş oluyor.

Veri seti Spark ve Hadoop gibi dağıtık işleme sistemlerinin yanı sıra Pandas ve Polars gibi analiz kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor.

Yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik olmak üzere üç farklı büyüklükte kullanılabilen Yambda veri seti, farklı ihtiyaçları ve hesaplama kapasiteleri olan araştırmacılara ve geliştiricilere hitap ediyor.

Veri seti, değerlendirme için etkinlik dizilerini korumak amacıyla verileri zaman damgalarına göre bölen bir yöntem olan Global Temporal Split (GTS) kullanılıyor. Test için her kullanıcının geçmişindeki son pozitif etkileşimi kaldıran Leave-One-Out yönteminin aksine GTS, eğitim ve test setleri arasındaki zaman bağlarını koparmıyor. Bu sayede, ileriye dönük verilerin olmadığı gerçek dünya koşullarını taklit eden daha gerçekçi bir modelleme elde edilebiliyor.

Yeni öneri sistemi yaklaşımlarını karşılaştırmaya yönelik ölçütler sunan temel uygulamalar arasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec yer alıyor.

Açıklamada görüşlerine yer verilen Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, öneri sistemlerinin yapısı gereği hassas verilere bağlı olduğunu belirtti.

½¢¾±°ù°ì±ð³Ù±ô±ð°ùin öneri sistemi veri setlerini ancak kapsamlı ve yorucu bir anonimleÅŸtirme iÅŸleminden sonra kamuya açık olarak yayınlayabildiklerine deÄŸinen Savushkin, 'Bu da açık inovasyonu yavaÅŸlatan, yoÄŸun kaynak gerektiren bir süreçtir.' ifadesini kullandı.

Savushkin, Yambda'nın araştırmacıların yenilikçi hipotezlerini test etmelerini ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı olduğunu aktararak, 'Sonuçta, kullanıcılar da mükemmel şarkıyı, ürünü veya hizmeti bularak bundan yararlanıyor.' değerlendirmesinde bulundu.

Sektör liderlerinin zor kazanılan araçları ve verileri paylaştığında, yükselen bir dalga etkisi yarattığını kaydeden Savushkin, 'Araştırmacılar gerçek dünya ölçütlerine kavuşur, startuplar sadece teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha iyi bir kullanım deneyiminin keyfini çıkarır.' ifadelerini kullandı.