dc.contributor.advisor |
Ünay, Devrim |
|
dc.contributor.author |
Kocatekin, Tuğberk |
|
dc.date.accessioned |
2024-07-23T10:53:27Z |
|
dc.date.available |
2024-07-23T10:53:27Z |
|
dc.date.issued |
2013-09 |
|
dc.identifier.uri |
http://hdl.handle.net/123456789/1393 |
|
dc.description.abstract |
Text mining and text classification is a popular area of machine learning and information
retrieval. Automated categorization and analysis of medical documents may improve work
flow, and aid in better diagnosis and therapy planning. There is already some research done on
analysis and categorization of radiology reports. However, to the best of our knowledge there
is no prior work on anatomical region based classification of Turkish radiology reports. In order
to fill this gap, this thesis focuses on dictionary-based classification of Turkish radiology reports
into anatomical regions.
The proposed solution is intented to automatize, speed up, and improve the accuracy of the task
of classifying these documents, which is manually realized traditionally.
The proposed solution, implemented in Bash environment, consists of header-footer removal,
Turkish character elimination, stemming, word frequency analysis, normalization, and scoring
steps. Training (n=69) and performance evaluation (n=161) of the system is realized using a
total of 230 Turkish radiology reports from 8 different anatomical regions acquired from routine
clinical practice. F-score of the system is measured as 98,6%, and it is observed that the
proposed system correctly identifies the actual classes of 7 reports that were previously
misclassified by the radiology staff.
In order to improve the accuracy of the system one can increase the size of the training set,
incorporate natural language processing solutions, or make use of ontologies that encode
anatomical/pathological knowledge. In addition to that, the proposed system can be integrated
with speech processing solutions to automatically create radiology reports from audio
recordings of radiologists. Lastly, the system can be further improved by user feedback. |
tr_TR |
dc.description.abstract |
Metin madenciliği ve sınıflandırma, makine öğrenmesi ve bilgi erişimi alanlarında popüler bir
konudur. Tıbbi metinlerin otomatik analizi ve sınıflandırılması medikal veri akışında verimliğin
artırılması, teşhis ve tedavinin iyileştirilmesi gibi konularda katkı sağlayabilir. Literatürde
radyoloji raporlarının analizi ve sınıflandırılması konusunda çalışmalar mevcuttur. Ancak
bahsedilen çalışmalar Türkçe raporların anatomik bölgeye göre sınıflanması problemine
eğilmemiştir.
Dolayısıyla bu tez, metin madenciliği kullanarak sözlük temelli bir yöntemle Türkçe radyoloji
raporlarını anatomik bölgelere göre sınıflandırmayı hedefleyerek literatürdeki eksiği kapatmayı
amaç edinmiştir. Önerilen çözüm, radyoloji departmanlarında teknisyenler tarafından elle
yapılan bu işin hızlandırılmasını, otomatikleştirilmesini ve doğruluğunun artırılmasını
sağlayacaktır.
Raporlardaki alt ve üst bilgilerinin silinmesi, Türkçe karakterlerin elenmesi, kök bulma, kelime
frekans analizi, normalizasyon ve skorlama aşamalarından oluşan önerilen yöntem Bash
ortamında tasarlanmıştır. Yöntemin geliştirilmesi(n=69) ve başarımının ölçülmesi(n=161) için
hastane ortamında rutin olarak hazırlanan 8 farklı anatomik bölgeye ait toplam 230 Türkçe
radyoloji raporu kullanılmıştır. Önerilen yöntemin başarımı F-ölçütü kriterine göre %98,6
olarak ölçülmüştür. Ayrıca yöntemin elle sınıflamada hatalı sınıfa atanmış olan 7 adet raporu
doğru sınıfladığı gözlenmiştir.
Önerilen yöntemin başarımının artırılması için öğrenme kümesinin büyütülmesi, doğal dil
işleme çözümlerinden yararlanılması ve anatomik/patolojik bilgileri kodlayan ontolojilerin
kullanılması gibi yollar denenebilir. Buna ek olarak bu yöntem konuşma tanıma çözümleri ile
birlikte kullanılarak radyologların ses kayıtlarından raporların otomatik üretilmesi
gerçekleştirilebilir. Son olarak, bu sistem kullanıcı geribildirimi yoluyla geliştirilebilir. |
|
dc.language.iso |
en |
tr_TR |
dc.publisher |
Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü |
tr_TR |
dc.subject |
Turkish |
tr_TR |
dc.subject |
Text mining |
tr_TR |
dc.subject |
Text classification |
tr_TR |
dc.subject |
Radiology reports |
tr_TR |
dc.subject |
Text categorization |
tr_TR |
dc.subject |
Frequency analysis |
tr_TR |
dc.subject |
Dictionary |
tr_TR |
dc.subject |
Stemming |
tr_TR |
dc.subject |
Normalization |
tr_TR |
dc.subject |
Türkce |
tr_TR |
dc.subject |
Metin madenciliği |
tr_TR |
dc.subject |
Metin sınıflandırma |
tr_TR |
dc.subject |
Radyoloji raporları |
tr_TR |
dc.subject |
Frekans analizi |
tr_TR |
dc.subject |
Sözlük |
tr_TR |
dc.subject |
Kök bulma |
tr_TR |
dc.subject |
Normalizasyon |
tr_TR |
dc.title |
Text mining in Turkish radiology reports |
tr_TR |
dc.type |
Thesis |
tr_TR |