Makine Öğrenmesi - Türkçe Haber Metinleri Veri Seti
Türkçe haberler üzerinde çalışan bir sınıflandırıcı için bir süredir Türkçe haber metinleri biriktiriyorum. Geliştirdiğim crawler, farklı kaynaklardan toplamda 50.000’in üzerinde haber biriktirdi ve biriktirmeye devam ediyor. Bu alanda çalışan araştırmacıların güncel veri setlerine erişim zorluğu yaşaması sebebiyle 5 farklı kategoriye ayrılmış toplamda 500 Türkçe haber metnine aşağıdaki bağlantıdan ulaşabilirsiniz.
Veri setinde bulunan haberler, kelime frekanslarını kullanan bir özetleme sistemi vasıtasıyla özetlenmiştir. Haberler;
- Ekonomi
- Politika
- Sanat
- Spor
- Teknoloji olarak kategorilere ayrılmıştır ve her bir kategoriye ait haberler farklı tablolarda bulunmaktadır. Haberler başlık, özet metin, kaynak ve zaman damgası bilgilerini içermektedir.