
Bir yazıyı bilgisayara girseniz ve bilgisayar size bunu kimin yazdığını tahmin etse. Hayal gibi değil mi? Aslında bunun bir kısmı şu an gerçek olmuş durumda. Metin sınıflandırma denilen bu süreçte, makine öğrenme yöntemleriyle ilk önce belli yazarlar için sisteminizi eğitiyorsunuz. Eğitmekten kasıt, mesela yazarları sınıflandıran bir sistem geliştiriyorsanız, her bir yazar için o yazarın yazdığı yazılardan örnekleri sisteme yüklemek. Sonra sistem bunları analiz edip her yazarın dili, kullandığı kelimeler ve kelime sıklıklarıyla ilgili veriler derliyor. Tabir-i caizse her bir yazar için girdiğiniz metin örnekleri doğrultusunda bir profil oluşturuyor.
Daha sonra siz sisteme tanıttığınız bir yazarın, herhangi bir başka yazısından birkaç paragraf kopyalayıp sisteme yapıştırıp analiz et diyince, sistem çeşitli hesaplamalar yaparak yazının kime ait olduğunu tahmin ediyor.
Ben bu anlattığım süreci örneklendirmek için uClassify sitesi üzerinde Yazar isimli bir metin sınıflandırıcı oluşturdum. Daha sonra 4 yazar seçtim: Ahmet Turan Alkan, Cengiz Çandar, Cüneyt Özdemir ve Ezgi Başaran. Her bir yazar için bir sınıf/profil oluşturup yazarların internetteki yazılarından parçaları sisteme girdim. Sistem bu yazıları analiz edip her bir yazarın profilini oluşturdu. Daha sonra sistemi denemek için Cengiz Çandar’ın hiç görmediğim bir yazısından birkaç paragrafı sisteme yapıştırdım ve sistem %97 güven oranıyla bu yazının Cengiz Çandar’a ait olduğunu tespit etti. Benzer şekilde diğer 3 yazarı da sistem başarılı şekilde tanıdı. Çok eğlenceli değil mi?
Aslında vakit olursa sistemi pek çok sayıda yazarı tanıyacak şekilde genişletmek mümkün.
Metin sınıflandırıcıma ulaşmak için tıklayın
# otomatik metin sınıflandırma