Statistical learning in modeling interrelations among veriables: an aplication to metabolomics
No Thumbnail Available
Files
Date
2011-01-27
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü
Abstract
In some machine learning problems, large datasets are naturally organized into some
groups of variables, which are called views in the literature. Views can be used to
predict the same target variable, such as the class of a given sample, such as in Parallel
Interacting Multi-view Learning (PIML). In this thesis, we deal with a more general
case, where the views are designed to predict different but related target variables. The
goal here is to develop a mechanism for incorparating the interrelations among the
target variables into their predictions, along with the input variables in their own views.
In this study, the predictions obtained from the training phase of each view are used as
additional inputs to the next iteration. Iterations are repeated until the interactions
between the views in consecutive iterations become stable. The interrelations and
interactions among the views are modeled using Support Vector Machines (SVM) along
with optimization-related methods such as leave-one-out cross-validation, k-fold crossvalidation,
grid search and bootstrap resampling. The proposed method is compared
with the classical regression implemented on single view in its application to a toy
dataset and a real-world dataset of cancer (a metabolomics dataset obtained through
nuclear magnetic resonance spectroscopy on tissue samples from healthy and cancerous
human subjects in a study conducted by the biomedical engineering department at the
University of North Carolina). The web of interrelations among the views might give
insight to the clinicians in their research.
Bazı yapay öğrenme problemlerinde büyük veri setleri literatürde bakış olarak bilinen doğal gruplara ayrılmıştır. Farklı bakışlar, aynı hedef değişkeni kestirmek için kullanılabilir, örneğin farklı bakışları verilen bir örneğin sınıfını kestirmede kullanılan paralel etkileşimli çok bakışlı öğrenmede (PIML) yapıldığı gibi. Buradaki amaç ise, bunun daha genel bir hali olarak, aralarında bazı istatistiksel ilişkiler olan farklı değişkenlerin, kendi bakışlarından kestiriminde nasıl birleştirilebileceğini ele alacağız. Amacımız, farklı bakışların farklı hedef değişkenlerini kestirmesi sırasında, bu farklı hedef değişkenler arasındaki bağıntıları da kullanan bir yöntem geliştirmektir. Bu çalışmada bir hedef değişken için eğitim safhasında elde edilen tahminler bir sonraki iterasyonun, kendi bakışındaki değişkenlere ilaveten ek girdi olarak kullanılmıştır. Iterasyonlar bakışların birbiri ile etkileşimi sabit hale gelinceye kadar tekrar ettirilmiştir. Bakışlar arası iletişim ve etkileşim destek vektör makinesi (DVM) ile modellenmiştir. DVM optimizasyonu için birini-dışarıda-bırak çapraz sağlama, k-kat çapraz sağlama, ızgara arama ve kendini yükleme tekrar örnekleme metotları uygulanmıştır. Önerilen yöntem sentetik veri kümesi ve gerçek bir kanser veri kümesi (North Carolina Üniversitesi biyomedikal mühendisliği bölümünde sağlıklı ve kanserli insan deneklerinden nükleer manyetik rezonans spektroskopisiyle elde edilmiş metabolomik bir veri kümesi) üzerinde uygulanmış ve tek bakışlı klasik bağlanım yöntemiyle karşılaştırılmıştır. Bakışlar arasındaki ilişkilerin ortaya çıkarılması ve birbirlerini nasıl etkilediklerini bu şekilde ortaya koymak, klinik çalışmalara, az da olsa, katkı sağlayabilir.
Bazı yapay öğrenme problemlerinde büyük veri setleri literatürde bakış olarak bilinen doğal gruplara ayrılmıştır. Farklı bakışlar, aynı hedef değişkeni kestirmek için kullanılabilir, örneğin farklı bakışları verilen bir örneğin sınıfını kestirmede kullanılan paralel etkileşimli çok bakışlı öğrenmede (PIML) yapıldığı gibi. Buradaki amaç ise, bunun daha genel bir hali olarak, aralarında bazı istatistiksel ilişkiler olan farklı değişkenlerin, kendi bakışlarından kestiriminde nasıl birleştirilebileceğini ele alacağız. Amacımız, farklı bakışların farklı hedef değişkenlerini kestirmesi sırasında, bu farklı hedef değişkenler arasındaki bağıntıları da kullanan bir yöntem geliştirmektir. Bu çalışmada bir hedef değişken için eğitim safhasında elde edilen tahminler bir sonraki iterasyonun, kendi bakışındaki değişkenlere ilaveten ek girdi olarak kullanılmıştır. Iterasyonlar bakışların birbiri ile etkileşimi sabit hale gelinceye kadar tekrar ettirilmiştir. Bakışlar arası iletişim ve etkileşim destek vektör makinesi (DVM) ile modellenmiştir. DVM optimizasyonu için birini-dışarıda-bırak çapraz sağlama, k-kat çapraz sağlama, ızgara arama ve kendini yükleme tekrar örnekleme metotları uygulanmıştır. Önerilen yöntem sentetik veri kümesi ve gerçek bir kanser veri kümesi (North Carolina Üniversitesi biyomedikal mühendisliği bölümünde sağlıklı ve kanserli insan deneklerinden nükleer manyetik rezonans spektroskopisiyle elde edilmiş metabolomik bir veri kümesi) üzerinde uygulanmış ve tek bakışlı klasik bağlanım yöntemiyle karşılaştırılmıştır. Bakışlar arasındaki ilişkilerin ortaya çıkarılması ve birbirlerini nasıl etkilediklerini bu şekilde ortaya koymak, klinik çalışmalara, az da olsa, katkı sağlayabilir.
Description
Keywords
Multi-view machine learning, Support vector machines, Parallel interactive multiview learning, Prostate cancer metabolomics dataset, Çok bakışlı yapay öğrenme, Destek vektör makinesi, Paralel etkileşimli çok bakışlı öğrenme, Prostat kanseri metabolomik veri kümesi