Yüksek Lisans & Doktora

Permanent URI for this communityhttp://acikerisim.bau.edu.tr:4000/handle/123456789/11

Browse

Search Results

Now showing 1 - 10 of 24
  • Item
    GSM şebekelerinde sahtekarlık yönetimi için veri madenciliği yöntemlerinin uygulanması
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2012-02) Tavacı, Hülya; Karahoca, Adem
    Teknolojinin ve yerel ağ sistemlerinin hızlı gelişip yayılması, ağ sistemlerine izinsiz girişi de beraberinde getirdi. Bu zararı önlemek için, şirketler sahip olduğu ağlardaki veri akışının güvenliğini sağlamak amacıyla yeni sistemler geliştirmeye başladılar. Veri madenciliği tüm iş alanlarında uygulanabilen bir yöntem olsada, sıklıkla finans sektöründe, bankacılıkta, GSM sektöründe ve biomedical alanlarda; sahtekarlık belirleme, müşteri tutma, pazarlama ve risk yönetimi gibi amaçlar için kullanılmaktadır. Sahtekarlık yönetimi (Fraud Management) alanı, veri madenciliği teknikleri uygulanarak, verilerin anlamlı bilgilere dönüştürülebileceği alanlardan biridir. Geçmişte bu konuyla ilgili bir çok çalışma yapılmıştır. Bu çalışmalara, alan yazım çalışması bölümünde örnekler verilmiştir. Bu çalışmada; GSM sektörlerindeki sahtekarlık yönetimi için, müşteri verilerinin sınıflandırılması problemi üzerinde durulmuş ve sahtekarlık çeşitlerinden olan abone sahtekarlığı (invoice) incelenmiştir. Müşteri bilgileri olarak; yaş, cinsiyet, abonelik yaşı, ortalama aylık fatura tutarı, ortalama aylık kullanılan sms sayısı, geç ödenen fatura sayısı, son borç durumu, sondan 3. fatura ödemesi, sondan 2. fatura ödemesi, son fatura ödemesi ve fraud mu abone bilgilerine sınıflandırma yöntemleri uygulanmıştır. Sahtekarlığın kesin tanısının konulmasında ise, abonelerin ödeme ve ödememe durumları göz önünde bulundurulmuştur. Çalışmada uygulanan sınıflandırma yöntemleri; Weka 3.7.1 (Witten & Frank, 2005) veri madenciliği ara yüzü ile; Karar Ağaçları, Çok Katmanlı Algılayıcı, Bayes Kuralı, Bayesian Ağları, Part, Zeror, Oner, Rbf Ağları‟ dır. MATLAB 7.8.0 (R2009a) (Moler, 2008) Bulanık Mantık aracı kullanılmıştır. Uygulanan sınıflandırma yöntemleri neticesinde; Bulanık Mantık ile diğer sınıflandırma yöntemlerinin performansları kıyaslanmıştır. Yapılan çalışmalar sonucunda, Bulanık Mantık çalışmasının performansının diğer sınıflandırma yöntemleri olan, Karar Ağaçları, Çok Katmanlı Algılayıcı, Bayes Kuralı, Bayesian Ağları, Part, Zeror, Oner, Rbf Ağları‟ na göre daha tutarlı ve güvenilir olduğu gözlemlenmiştir.
  • Item
    E-ticarette kullanıcı davranışlarının veri madenciliği yöntemleriyle incelenmesi
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2013-06) Kahraman, Nuri; Tunga, M. Alper
    Elektronik ticaret, insan hayatına getirdiği kolaylıklardan dolayı dünya üzerinde çok yaygınlaşmıştır. Bu nedenle insanlar gün geçtikçe internet ortamlarından daha fazla ürün ve hizmet almaya başlamışlardır. Talep arttıkça da e-ticaret firmalarının sayıları artmış ve bu alanda kıyasıya bir rekabet ortamı oluşmuştur. Bu rekabet ortamında tüketiciyi yani e-ticaret kullanıcısını anlamak onların ne istediklerini tahmin etmek büyük önem kazanmıştır. E-ticaret gibi son yıllarda gelişen bir alan daha vardır ki adına veri madenciliği denmektedir. Şüphesiz ki günümüzde en önemli şey bilgidir. Teknolojinin gelişmesi ile paralel olarak büyük veritabanları oluşmuştur ve hayata dair her türlü veri bu veritabanlarında tutulmaya başlanmıştır. Böylece büyük veri yığınları meydana gelmiştir. Ancak bu büyük veri yığınları arasından sade ve duru bilgilere ulaşmak aynı oranda zorlaşmıştır. İşte tam bu nedenle veri madenciliği fikri ortaya çıkmıştır. Veri madenciliği büyük ve anlaşılması güç olan veri yığınları içerisinden, insanların anlayabilecekleri ve kullanabilecekleri anlamlı verileri açığa çıkarmaktadır. Bu tez çalışmasının amacı, e-ticaret kullanıcılarının davranışlarını veri madenciliği yöntemlerini kullanarak incelemektir. Böylece tüketicilerin ne istediklerini, onları nelerin memnun edeceğini anlayabilmek mümkün olabilecektir. Bu çalışmaya konu olacak verileri elde etmek amacıyla bir anket çalışması düzenlenmiştir. Anket çalışması kullanıcıların demografik bilgilerini ve tüketici davranışlarını ölçmeye yönelik sorulardan oluşmaktadır. Daha sonra elde edilen veriler, SPSS İstatistik Programı ve SPSS Clementine Veri Madenciliği programı yardımıyla incelenmiştir. İncelemede kümeleme yaklaşımı ve birliktelik kuralı yaklaşımları tercih edilmiştir. Kümeleme yaklaşımında Kohonen algoritması, birliktelik kuralı yaklaşımında ise GRI (Generalized Rule Induction) algoritması kullanılmıştır.
  • Item
    Metin madenciliği ile dokümanlar arasındaki benzerliklerin bulunması
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2013-06) Döven, Selçuk; Tunga, M. Alper
    Metin madenciliği, yapısal olmayan kaynaklar (metin, resim vb.) içinde çeşitli yöntemler kullanarak veriler arasında sınıflandırma ve benzerlik gibi işlemler yapan bir uygulama alanıdır. Bu tezde bahsedilen metin madenciliği ile dokümanlar arasındaki benzerliklerin bulunmasını (örüntü tarama) bir uygulama üzerinde anlatmak için masaüstü uygulaması geliştirilmiştir. Uygulama, yalnızca algoritmaların çalışma mantığını gösterecek şekilde basit yapı olarak değil gerçek uygulamalar yapabilecek kapsamlı bir şekilde oluşturulmuştur. Uygulamayı diğer tez uygulamalarından ayıran özelliği, yalnızca iki doküman arasında değil kullanıcının ihtiyacına göre n sayıda doküman arasındaki benzerliklerin karşılaştırılmasını yapılabilmesidir. Uygulamaya yüklenen bir doküman içerisinde bulunan her cümlenin diğer dokümanlar içerisinde bulunan tüm cümleler ile benzerlik hesaplaması yapılmaktadır. Yine uygulama, sonuç kısmında karşılaştırılan cümlelerin sayısal olarak sonuçlarını göstermekte, her karşılaştırılan dosyayı ve karşılaştırılan bütün cümlelerin tamamını sayısal sonuçları ile birlikte sonuç tablosunda göstermektedir. Bu sayede kullanıcının cümlelere bakarak hangi cümlelerin hangi algoritma için nasıl bir sonuç ürettiğinin görülmesi sağlanmıştır. Uygulama için en çok kullanılan metin madenciliği bezerlik hesaplama algoritmaları olan kosinüs (cosine) ve jaccard algoritmaları kullanıp başarıları test edilmiştir.
  • Item
    Analysis of impact on ethical values of internet use : a data mining model approach
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2015-05) Arıtürk, Merve; Karahoca, Dilek
    The purpose of this study, analyse the usage of Internet between awareness of information and faith with investigating the experiences of people who live in Turkey. The problem is trying to demonstrate the format of ethical behaviour for different users with their perspective. In this study, the universe of the sample was reached by the social media platforms. The average age of the participants was calculated as 21. Scanning Model is used with the survey that was named as “Ethical Internet Usage” was performed on the Internet. While maintaining this work, the questions which were on different surveys with the related to our work were analysed. After analysing, the questions were selected with the existing correlation value that significantly depends on the information. Then, the arff file is created with the factors and the data. According to the arff file, some data mining techniques are used to make predictions. The best result is gained from the NaiveBayes classification method. Based on the results, women have more ethical behaviour than men. There is a strict relationship between the ethical personal behaviour and the education level of parents. According to the classification methods, the scale will be created with the results which are significant. If there is a new value or data about the research, the scale shows the user behaviour that is assuming based on users’ demographical information.
  • Item
    An application of adaptive-network-based fuzzy inference system on automated teller machine data and comparison of different data mining algorithms
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2011-09) Kara, Mustafa; Karahoca, Adem
    Data mining applications have been shown to be highly effective in addressing many important business problems. Data mining in various forms is becoming a major component of business operations. Almost every business process today involves some form data mining. In this study, data mining techniques used for prediction of drawn amount in Automated Teller Machine (ATM).At the end of the study predictions of different data mining algorithms are compared to each other to see which method is better and efficient on large amount of datasets.
  • Item
    Yeniden sıralamalı yüksek boyutlu model gösterilim ile veri modellemesi
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2011-05) Aksu, Çağrı; Tunga, M. Alper
    Bu tez çalışmasında, çok değişkenli fonksiyonların yaklaştırımı ve sınıflandırma problemleri ile ilgilenilmektedir. Bu amaçla bilimsel yazında geçmekte olan Yüksek Boyutlu Model Gösterilim Yöntemi (YBMG) ve Yeniden Sıralamalı Yüksek Boyutlu Model Gösterilim Yöntemi (YSYBMG) incelenmektedir. Bu tezin amacı, YSYBMG yöntemi ile gerçek veri kümeleri üzerinde sınıflandırma çözümleri üretmektir. Bu amaçla bu tez içerisinde YSYBMG yöntemi farklı yaklaşımlar ile yeniden yapılandırılmıştır. Elde edilen farklı modellerin sınıflandırma başarıları ölçülmüştür. Bu tez içerisinde yapılan analiz çalışmaları IHDMR yazılımı ile yapılmıştır. IHDMR yazılımı bu analiz çalışmaları için geliştirilmiştir. Elde edilen sonuçlar bilinen sınıflandırma algoritmalarının sonuçları ile karşılaştırılmıştır. Analiz çalışmaları sonucunda, 16 farklı model oluşturulmuştur. Bu modeller, farklı 7 veri kümesi üzerinde denenmiştir. Oluşturulan yeni YSYBMG modellerinin sınıflandırma problemlerinde başarılı sonuçlar verdiği gözlenmiştir.
  • Item
    Aggregating advantages of a set of clusterings into a final clustering using object-wise similarity graph
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2011-06) Erdil, Ertunç; Mimaroğlu, Selim Necdet
    Clustering is the process of grouping objects that are similar, where similarity between objects is usually measured by a distance metric. Clustering is a hard problem since the natural grouping of a data set is unknown. Clustering aims to divide a data set into meaningful groups where each group formed by a clustering method is referred as a cluster. Clustering is a useful starting point for different purposes such as data understanding and summarization. In the literature, there are numerous applications of clustering ranging from biology to economics. Clustering has a long and rich history in a variety of scientific fields. Themain contributing research areas to clusteringmethodology areMachine Learning, DataMining, and Pattern Recognition. Each clustering technique possess some advantages and disadvantages. Some clustering algorithms may even require input parameters which strongly affect the outcome. Some clustering techniques make some assumptions about the properties of the data sets and good quality clusterings are obtained, when the assumption holds. Distance metric also plays an important role in the process of producing a clustering. Especially in high dimensional data sets, it is hard to identify similarity or distance between objects. In most cases, it is not possible to choose the best distance metric, the best clustering method, and the best input parameter values for an input data set. Therefore, multiple clusterings can be obtained on a data set. And, multiple clusterings can be combined into a new and better quality final clustering. In this thesis, we propose a graph based combining multiple clusterings algorithm that is scalable, robust, and intuitive. Combiningmultiple clusterings requires reusing preexisting knowledge and producing a novel final clustering having better overall quality. Our new algorithm, COMUSA, works on an object-wise weighted similarity graph which is constructed by using the evidence accumulated from multiple input clusterings. COMUSA offers good quality final clusterings by working at object level in a short amount of time. Extensive experimental evaluations on some very challenging real, synthetically generated and gene expression data sets from a diverse set of domains establish the usefulness of our methods in terms of both quality and execution time.
  • Item
    An approach for classifying alerts of intrusion detection systems
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2014-01) Pourabbas, Farshid; Karahoca, Adem
    With the growth of the Internet networks today, security of data exchange is considered as an important task. Therefore, the use of security tools is increasing day by day. Intrusion detection systems are among these tools. They are only able to label a message received from a network as ‘alert’, but they are unable to describe system status. Some methods have been developed to solve the above problem through correlating the alerts received from intrusion detection systems. By correlating the interrelated alerts, the methods would be able to describe system status. One of the steps of correlation methods of alerts is to classify them. System status can be described well when classification is performed efficiently. Here, we present a method for classifying alerts.
  • Item
    Predicting alzheimer’s disease using adaptive neuro fuzzy inference system
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2013-08) Çıkrıkçılı, Onur; Karahoca, Adem
    Alzheimer's disease (AD) one of the major health problem all around the world and unmitigated cure has not been found yet. A correct diagnosis of AD can be affirmed by histopathologic tests. In addition, mental tests and daily activities can lead diagnose of patients' mental condition. The goal of this study is to develop a data mining solution using neuropsychological test results that makes diagnosis of AD and its stages as accurate as possible and assist to medical doctors' final decision. In this study, Sugeno-Type adaptive-network-based fuzzy inference system (ANFIS), multilayer perceptron (MLP), Iterative Dichotomiser 3 (ID3) and One Rule (OneR) algorithms were assessed whether to could predicting AD. The data set is collected from 264 patients who complained about their health problems and applied to Istanbul University's Department of Neurology. All of the subjects’ ages are 65 or over. The blind data records has 11 attributes that covers basic demographic information and neuropsychological test results. Using “Information Gain” filter, ineffective attributes are eliminated. According to the results, ANFIS classified the instances with the highest correctness rate which is %96 and MLP classified an accuracy of 87%, ID3's is 76% and OneR's is 76%. In addition ANFIS has a high performance based on the methods that sensitivity, specificity and root mean square error.
  • Item
    Veri madenciliği yöntemleri ile kardiyovasküler hastalık tahmini yapılması
    (Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, 2015-01) Erkuş, Serap; Tunga, M. Alper
    Bu çalışmada biyomedikal veriler incelenerek dünyanın bir numaralı ölüm sebebi olan kalp ve damar hastalıklarının erken teşhisine katkıda bulunabilecek başarılı bir model oluşturmak hedeflenmiştir. Çalışmada kullanılan veri kümesi 604 kayıt içermektedir. Üç farklı yöntem kullanılarak referans değer aralıklarına göre dönüştürülen bu veri ile üç veri kümesi elde edilmiştir. Oluşan bu üç veri kümesi üzerinde nitelik seçim işlemleri ile belirlenen parametrelere, on sınıflandırma yöntemi uygulanmıştır. Veri kümeleri ve kullanılan algoritmaların başarı durumları incelenmiş ve bu incelemeyi desteklemek amacıyla diğer bazı performans ölçme metrikleri de kullanılarak en başarılı veri kümesi ve algoritma belirlenmiştir. Bu çalışma, oluşan modeli kullanarak hasta laboratuvar sonuçlarından otomatik olarak tanı üreten bir program yazılması ile geliştirilebilir.