DSpace Kurumsal Arşivi

New cluster ensemble algorithm with automatic cluster number and new pruning technique for fast detection of neighbors on binary data

Basit öğe kaydını göster

dc.contributor.advisor Mimaroğlu, Selim Necdet
dc.contributor.author Mehmet Emin, Akşehirli
dc.date.accessioned 2024-07-12T10:51:23Z
dc.date.available 2024-07-12T10:51:23Z
dc.date.issued 2011-06
dc.identifier.uri http://hdl.handle.net/123456789/1347
dc.description.abstract Cluster analysis is to group similar, real or abstract data objects together in an unsupervised way. Cluster analysis, or clustering is a very important tool for data analysis and widely-used in almost every scientific field including data mining, machine learning, bioinformatics, and social network analysis. Unsupervised nature of clustering comes with unique opportunities and challenges. Applying the optimum clustering algorithm with correct parameters is not straight forward. Moreover, unlike classification algorithms which use the provided labels, clustering algorithms extract the information from the data itself, therefore most of the algorithms suffer from long execution times. Combining multiple clusterings methods emerge as a promising solution that not only ease the algorithm and parameter selection for cluster analysis but also solve some unique clustering problems. In this theses we discuss the methods that combine multiple clusterings to obtain a better overall clustering of the data, including a recent method: Di- CLENS. DiCLENS does not take any input arguments and finds the number of clusters automatically using objective measures. Although finding the co-associations between objects is a computationally expensive task, it is one of the strongest similarities in the field. DiCLENS utilizes a recent method to compute the similarities in an efficient way. Our experiments show that DiCLENS produces a better final clustering at almost all of the scenarios. Moreover execution time of the DiCLENS is very good compared to other methods. We also discuss DBSCAN BV, a novel method that improves the execution time performance of DBSCAN clustering algorithm by utilizing a pruning method on binary data and Hamming distance. DBSCAN is a well-known density-based algorithm. Even though space indexing techniques are widely used with DBSCAN, they do not perform well on categorical and binary data sets. Extensive tests show that DBSCAN BV works up to 40 times faster than DBSCAN while keeping the same clustering accuracy. Tests also show that the new pruning method allows the application of DBSCAN to resource limited environments. tr_TR
dc.description.abstract Kümeleme, birbirine benzeyen gerçek ya da soyut nesnelerin denetimsiz bir biçimde bir araya gruplanmasıdır. Küme analizi ya da kümeleme, veri analizi için çok önemli bir araçtır ve veri madenciliği, makina öğrenmesi, bioinformatik ve sosyal ağ analizi de dahil olmak üzere neredeyse bütün bilimsel alanlarda sıklıkla kullanılır. Kümelemenin denetimsiz doğası özgün fırsatlara ve sorunlara neden olur. Doğru kümeleme algoritmasını veriye uyacak parametreler ile uygulamak kolay değildir. Dahası, sağlanan etiketleri kullanan sınıflama algoritmalarının aksine kümeleme algoritmaları bilgiyi verinin kendisinden çıkarttığı için çoğu algoritmanın çalışması uzun sürer. Çoklu kümelemeleri birleştiren metodlar yalnızca algoritma ve parametre seçimini kolaylaştıran değil aynı zamanda bazı özgün kümeleme sorunlarını da çözen, umut vadeden çözümler olarak belirmiştir. Bu tezde daha iyi bir kümeleme elde etmek için eldeki çoklu kümelemeleri birleştiren metodları ve bunlardan biri olan DiCLENS’i gösteriyoruz. Di- CLENS hiç bir argüman almadan çalışır ve nesnel ölçümler kullanarak kümelerin sayısını otomatik olarak bulur. Nesneler arasında es¸-atamaların bulunması fazla hesaplama gerektirse de, eş-atamalar alandaki en güçlü benzerliklerden biridir. DiCLENS benzerlikleri etkin bir biçimde hesaplamak için yeni bir metod kullanmaktadır. Deneylerimiz Di- CLENS’in neredeyse bütün senaryolarda daha iyi bir sonuç kümelemesi ürettiğini göstermiştir. Dahası diğer metodlar ile karşılaştırıldığında DiCLENS’in çalışma zamanı oldukça iyidir. Aynı zamanda, ikili veri ve Hamming uzaklığı üzerinde bir budama yöntemi kullanarak DBSCAN kümeleme algoritmasının çalışma hızı performasını artıran DBSCAN BV’yi de gösteriyoruz. DBSCAN oldukça iyi bilinen bir yoğunluk temelli kümeleme algoritv masıdır. Uzam dizinleme teknikleri DBSCAN ile birlikte yaygın olarak kullanılsa da, bu teknikler kategorik ve ikili veri setlerinde düşük performans gösterirler. Yoğun testler, kümeleme doğruluğu aynı kalmakla birlikte DBSCAN BV’nin DBSCAN’den 40 kata kadar daha hızlı çalıştığını göstermiştir. Testler aynı zamanda yeni budama metodunun DBSCAN’in kaynağı sınırlı olan ortamlarda da kullanımının yolunu açtığını göstermektedir.
dc.language.iso en tr_TR
dc.publisher Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü tr_TR
dc.subject Clustering
dc.subject Combining multiple clusterings
dc.subject Clustering ensemble
dc.subject DBSCAN
dc.subject DiCLENS
dc.subject Kümeleme
dc.subject Çoklu kümelemelerin birleştirilmesi
dc.subject Kümeleme topluluğu
dc.title New cluster ensemble algorithm with automatic cluster number and new pruning technique for fast detection of neighbors on binary data tr_TR
dc.type Thesis tr_TR


Bu öğenin dosyaları

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster