web madenciliği etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
web madenciliği etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

1 Mayıs 2014 Perşembe

Bilişim Alanında Yapılan Veri Madenciliği Çalışmaları

1.      GİRİŞ

Eldeki potansiyel verilerin belirli yöntemlerle incelenip analiz edilmesi sonrası ortaya kullanışlı veriler çıkarma işlemine veri madenciliği denir. Bu tanımlamaya benzer bir sürü tanımı yapılabilir veri madenciliğinin. Yapılan çalışmaların niteliğine ve amacına göre veri madenciliği çalışmalarının sonucu, belirli bir soruna çözümler üretilebilir, neden sonuç ilişkisine dayalı tüketim, sağlık vb alanlar ile alakalı çıkarımlarda bulunulur ve bunlara benzer birçok alanda birden fazla yararlı çıktı elde edilebilir.

            İnternetin tüm dünyada hızla gelişmesi sonucu hayatımızda kullanım alanı arttı ve mobil cihazlarla birlikte de her geçen günde artmaya devam etmektedir. Bu kadar hayatımıza girmiş bir şeyin kontrolü güvenliği vb alanlarda kontrolü için ihtiyaçlar doğmaktadır. Bilişim dünyasında veri havuzunu oluşturan çok fazla girdi çeşidi ve kaynak bulunmaktadır. Örneğin kullanım girdileri kendi içinde alt başlıklara ayrılabilecek çok fazla veriye sahiptir. Bunun yanında güvenlik sektörüne kaynak sağlayan verilerde çok fazladır ki bu veriler katman tabanlı ayırılsa bile yine de elde tek tek incelenmesi mümkün olmayacak kadar çok fazla veri olacaktır. Bu yüzden bilişim dünyasındaki veriler gelişi güzel incelenmeye çalışılsa veri havuzunda boğulmak kaçınılmaz olacaktır. Bu yüzden bu veri havuzundaki veriler incelenirken veri madenciliği tekniklerini kullanmak gerekmektedir.

            Bilişim dünyasında verileri incelerken yukarıda bahsedildiği üzere iki ana başlığa ayırmak işi kolaylaştıracaktır. Bu ayrım web loğları ve ağ trafiği loğları olarak yapılabilir. Nitekim yapılan çalışmalarda analizlerin bu şekilde ayrıldığını göstermektedir. İlk olarak yedinci katman diye adlandırılan uygulama katmanının bir üyesi olan www (World Wide Web) tarafında yapılan çalışmalara değinelim. Web tarafından elde edilen veriler üzerinde yapılan bu çalışmaları ilk kez Etzioni 1996 yılında web madenciliği olarak adlandırmıştır[1].

            Web madenciliği çalışmalarında, web sunucudan elde edilen loglar incelenerek yapılır. Yine bu alanda yapılan çalışmalar “Web İçerik Madenciliği”, Web Yapı Madenciliği” ve “Web Kullanım Madenciliği olmak üzere üç alt başlıkta ele alınmıştır ve yapılan her çalışmanın da kendine özgü amaçları bulunmaktadır.

            Web içerik madenciliği çalışmaları, kullanıcıların internette gezerken ilgilendiği içerikler üzerinde çalışır. Yani kullanıcı hangi videoyu izledi, hangi resme baktı vb kayıtları tutar. Günümüzde bir haber sitesinde haberin altında “Bu haberi okuyan şu haberi de okudu” ya da bir alış veriş sitesinde “Bu ürünü alan şu ürünü de aldı” gibi dikkat çekici ifadeler karşımıza çıkmaktadır. İşte bu uyarılar Web içerik madenciliğinin ürünü olarak bugün karşımıza çıkmaktadır.

            Web yapı madenciliği, web sitesi ve web sayfası ile ilgili bağlantı verisine bakarak bilgi üretmektedir. Web içerik madenciliği dokümanın içeriğine bakarken web yapı madenciliği dokümanlar arası bağlantılara yoğunlaşmaktadır[2]. Bu alanda yapılan analizlerde daha çok web sayfasının arka planında çalışan HTML (Hyper Text Markup Language) ve XML (Extensible Markup Language) yapıları ile ilgili verileri incelenir.

Web kullanım madenciliği alanında yapılan çalışmalarda ise kullanıcıların tıkladıkları bağlantılar ve bunların ilişkileri incelenmektedir. Yani kullanıcı bir fotoğrafa tıklamak koşulu ile mi ilgili bağlantıya gitti, ya da tıkladığı bağlantı en üstte miydi vb. durumların ilişkilerini inceleyerek, web sayfası tasarlayanlara bilgi sunmaktadır.
           
2.      YAPILAN ÇALIŞMALAR

Web madenciliği olarak sınıflandırılan çalışmalarda web sunucularının logları kullanılmaktadır. Bu loglar sunucuların versiyonlarına göre farklılık gösterse de genel olarak şekli aynı sayılır. Bu alanda yapılan çalışmalarda, web sunucu loglarını incelerken, açık kaynak kodlu veri analiz aracı olan Waikato Üniversitesi tarafından geliştirilen ve adını "Waikato Environment for Knowledge Analysis" kelimelerinin baş harflerinden alan Weka uygulamasının kullanıldığı görülmüştür.

 Web madenciliği alanında yapılan çalışmaların çoğu istatistiksel amaçlı olsa da güvenlik sektörüne yönelik yapılan çalışmalar vardır. Başkent Üniversitesindeki araştırmacılar tarafından yapılan çalışmada, [3] üniversitenin web sitesini geliştirmek için web sitelerindeki davranışları incelenmişler. Kullanıcı isteklerini belirlenmiş, bu şekilde elde edilen veriye dayanarak web sitelerinin yeniden tasarım veya geliştirilmesi konusunda karar vermeyi sağlayan bilgi elde edilmiştir. Hangi sayfalara daha sık girildiği, hangi sayfaların birlikte ziyaret edildiği gibi bilgiler sitenin yeniden düzenlenmesinde faydalı olacak bilgilerdir. Bu uygulamaların amacı, istatistiksel yöntemlerle kullanıcıların davranışlarını öğrenmek, böylece site içeriği ve tasarımını bu bilgiler ışığında yenilemektir.
Yapılan bir başka çalışmada ise İzmir İleri teknoloji Enstitüsünün web sunucu logları analiz edilmiştir. Bu çalışmada web kullanım madenciliği yöntemleri ile web içeril madenciliği teknikleri birleştirilip kullanıcıların kullanım modeli çıkarılmaya çalışılmıştır. Çalışma sırasında kullanıcıların eriştikleri sayfalar, erişim süreleri ve ulaşılamayan sayfalar incelenmiştir.[2]

İnternetin bu kadar aktif kullanıldığı bir dünyada elbet kötü niyetli kişilerde olacaktır ki bir sürü örneğini de son beş yılda oldukça fazla görmekteyiz. Kötü niyetli saldırganların yanında toplumsal olaylara vs. tepki göstermek amacıyla ortaya çıkan hacktivist olarak adlandırılan saldırganlar da vardır. Saldıranın olduğu bir yerde savunanda olacaktır. Veri madenciliği teknikleri bu seferde karşımıza saldırıların tespitinde çıkıyor. Yine web sunucularının oluşturduğu loglar veri madenciliği teknikleri incelenerek saldırı hareketleri tespit edilmeye çalışılıyor.

Web madenciliği teknikleri ile saldırı tespiti alanında yapılan çalışmalara örnek olarak Kaliforniya Üniversitesindeki araştırmacılar tarafından geliştirilen saldırı tespit aracı verilebilir. Bu çalışmada araştırmacılar, web uygulamalarına yapılan saldırı yöntemlerine göre farklı başlıklar altında sıralamışlardır. Sonrasında her saldırı türüne yönelik analizleri yaparak saldırı tespit aracını geliştirmişlerdir[4].

Web madenciliği alanında yapılan başka bir çalışmada, WEKA kullanılarak öncelikle veri setinden çıkarılacak istatistiksel sonuçlar incelenmiş ardından, incelenen veri setinde herhangi bir saldırı örüntüsü olup olmadığını tespit etmek amacıyla WEKA’da bulunan çeşitli algoritmalardan faydalanılmıştır.[5] Yapılan bu çalışmada resim ve diğer bağlı olan dosyalar olmadan  kaç ziyaret olduğunu tespit etmek amacıyla .gif, .jpg, .css, .js, .png, javascript uzantılı dosyalar silinmiştir.

Veride “boyut” alanındaki değerler sürekli olduğu için bu alan 4 sınıfa ayrılarak her bir aralığa yeni atamalar yapılmıştır. Önişlemden geçirilen veri setinin WEKA programına yüklenebilmesi için ARFF formatına dönüştürülmesi gerekmektedir. ARFF, CSV, C4.5 formatında bulunan dosyalar WEKA programına eklenebilmektedir. Herhangi bir text dosyasındaki veriler WEKA ile işlenememektedir. Excel dosyasını ARFF formatına dönüştürmek için Excel2ARFF Convertor adlı program kullanılmıştır[5].

Gebze İleri teknoloji Enstitüsünde, davranışları modellemek için bu çalışmada en yakın k komşu tabanlı yeni bir algoritma kullanılmıştır. Y. Liao tarafından sistem çağrılarına uygulanan algoritma burada web sayfa isteklerine uygulanmıştır.  Yapılan saldırı tespiti çalışması metin sınıflama çalışmasına benzetilerek yapılmıştır. Metin sınıflamaya göre daha az nesne ile çalışıyor olması ise bu çalışmanın en büyük avantajı olmuştur[6].

Web madenciliği dediğimiz teknik ile daha çok web sunucularının web uygulamalarına ya da web sitelerine yönelik yapılan saldırıların tespiti üzerinde çalışılır. Buna ilaveten ağ katmanı denilen IP (Internet Protocol) haberleşmesi katmanında yapılan saldırılar da vardır. Burada ise yerel ağda bulunan sunucuların oluşturduğu sistem, güvenlik vb. logları incelenir. Aslında saldırıların katmanı farklı olsa da yöntemler çokta farklı olmayacaktır. Veri madenciliği teknikleri kullanılarak ağ trafiğinde oluşan loglar analiz edilir ve anormal durumlar ayırt edilir. Bu yaklaşım ile saldırı tespiti üzerinde çalışmalar yapılır.

Bu alanda yapılan çalışmalara ise anomali analizi yaparak saldırı tespiti geliştirmeye çalışan güvenlik firmaları örnek verilebilir.

Özetlemek gerekirse, sağlık, ticaret, vb alanda olduğu gibi bilişim alanında da incelenecek, belki istatistiki verileri çıkarılıp tespiti yapılmaya çalışılan bir sürü konu vardır. Tüm bu çalışmaların ortak noktası elde derlenmeye analiz edilmeye ihtiyaç bir sürü veri olmasıdır ve bu verilerin her geçen gün artmasıdır. İşte bu verileri doğru ve hızlı bir şekilde analiz edebilmek için veri madenciliği tekniklerine ihtiyaç vardır. Doğru modelleme yaklaşımları ile çok hızlı sonuçlar elde edilebilir.

3.      REFERANSLAR

1.      Etzioni, O., 1996, The World Wide Web:Quagmire or Gold Mine
2.      Özakar, B., Püskülcü, H.,2002, Web İçeril ve Web Kullanım Madenciliği Tekniklerinin Entegrasyonu ile Oluşmuş Bir Veri Tabanından Nasıl Yararlanılabilir?
3.      Haberal, İ., Veri Madenciliği Algoritmaları Kullanılarak Web Günlük Erişimlerinin Analizi
4.      Vigna, G., Robertson, W., Kher, V., Kemmerer, R.A., A Stateful Intrusion Detection System for World Wide Web Servers
5.      Çınar, I., Çınar, M.S., Bilge, H.Ş., Web Sunucu Loglarının Web Madenciliği Yöntemleri ile Analizi

6.      Takcı, H., Soğukpınar, İ., Saldırı Tespitinde en Yakın k Komşu Uygulaması