Wikipedia is a free encyclopedia which has millions of articles. Since articles are
collaboratively edited by many users there is no standard in the quality of articles.
Although there are articles which have high quality (such as featured articles), some
articles have poor quality or insufficient information.
In this work we propose to use monthly revision histories of articles in order to assess
article quality. We use featured articles in Wikipedia as our standard for quality articles.
We extract features from revision history of each article and try to classify articles as
featured and non-featured using well-known machine learning algorithms. We achieve a
satisfactory classification performance using our methodology as the experimental
results on a Wikipedia article dataset that we create shows. We think that this
performance is open to further improvement by extracting more features.
Wikipedia milyonlarca makale içeren ücretsiz bir ansiklopedidir. Makaleler bir çok
kullanıcı tarafından ortaklaşa yazıldığı için makalelerde eşit bir kalite standardı
bulunmamaktadır. Çok kaliteli makaleler olduğu gibi (örn., seçkin içerikli makaleler),
kalitesiz ya da yeterli bilgi içermeyen makaleler de mevcuttur.
Bu çalışmada makalelerin değişikliklik geçmişlerini inceleyerek kalitelerini
değerlendirmeyi öneriyoruz. Kalite standardı olarak Wikipedia'daki seçkin içerikli
makaleleri kullandık. Makalelerin değişiklik geçmişlerinden özellikler çıkararak, bilinen
makina öğrenmesi yöntemleriyle makaleleri seçkin içerikli ve seçkin içerikli olmayan
şeklinde sınıflamaya çalıştık. Wikipedia'daki makalelerden oluşturduğumuz bir veri seti
üzerinde elde edilen deneysel sonuçlar göstermektedir ki geliştirdiğimiz yöntemle
tatmin edici bir düzeyde sınıflama performansı elde edilebiliyor. Yeni özellikler
çıkararak bu performansın daha da artırılabileceğini düşünüyoruz.