1.
GİRİŞ
Eldeki potansiyel verilerin belirli yöntemlerle
incelenip analiz edilmesi sonrası ortaya kullanışlı veriler çıkarma işlemine
veri madenciliği denir. Bu tanımlamaya benzer bir sürü tanımı yapılabilir veri
madenciliğinin. Yapılan çalışmaların niteliğine ve amacına göre veri
madenciliği çalışmalarının sonucu, belirli bir soruna çözümler üretilebilir,
neden sonuç ilişkisine dayalı tüketim, sağlık vb alanlar ile alakalı
çıkarımlarda bulunulur ve bunlara benzer birçok alanda birden fazla yararlı
çıktı elde edilebilir.
İnternetin tüm dünyada hızla
gelişmesi sonucu hayatımızda kullanım alanı arttı ve mobil cihazlarla birlikte
de her geçen günde artmaya devam etmektedir. Bu kadar hayatımıza girmiş bir
şeyin kontrolü güvenliği vb alanlarda kontrolü için ihtiyaçlar doğmaktadır.
Bilişim dünyasında veri havuzunu oluşturan çok fazla girdi çeşidi ve kaynak
bulunmaktadır. Örneğin kullanım girdileri kendi içinde alt başlıklara
ayrılabilecek çok fazla veriye sahiptir. Bunun yanında güvenlik sektörüne
kaynak sağlayan verilerde çok fazladır ki bu veriler katman tabanlı ayırılsa
bile yine de elde tek tek incelenmesi mümkün olmayacak kadar çok fazla veri
olacaktır. Bu yüzden bilişim dünyasındaki veriler gelişi güzel incelenmeye
çalışılsa veri havuzunda boğulmak kaçınılmaz olacaktır. Bu yüzden bu veri
havuzundaki veriler incelenirken veri madenciliği tekniklerini kullanmak
gerekmektedir.
Bilişim dünyasında verileri incelerken
yukarıda bahsedildiği üzere iki ana başlığa ayırmak işi kolaylaştıracaktır. Bu
ayrım web loğları ve ağ trafiği loğları olarak yapılabilir. Nitekim yapılan
çalışmalarda analizlerin bu şekilde ayrıldığını göstermektedir. İlk olarak
yedinci katman diye adlandırılan uygulama katmanının bir üyesi olan www (World
Wide Web) tarafında yapılan çalışmalara değinelim. Web tarafından elde edilen
veriler üzerinde yapılan bu çalışmaları ilk kez Etzioni 1996 yılında web madenciliği
olarak adlandırmıştır[1].
Web madenciliği çalışmalarında, web
sunucudan elde edilen loglar incelenerek yapılır. Yine bu alanda yapılan
çalışmalar “Web İçerik Madenciliği”, Web Yapı Madenciliği” ve “Web Kullanım
Madenciliği olmak üzere üç alt başlıkta ele alınmıştır ve yapılan her çalışmanın
da kendine özgü amaçları bulunmaktadır.
Web içerik madenciliği çalışmaları,
kullanıcıların internette gezerken ilgilendiği içerikler üzerinde çalışır. Yani
kullanıcı hangi videoyu izledi, hangi resme baktı vb kayıtları tutar. Günümüzde
bir haber sitesinde haberin altında “Bu haberi okuyan şu haberi de okudu” ya da
bir alış veriş sitesinde “Bu ürünü alan şu ürünü de aldı” gibi dikkat çekici
ifadeler karşımıza çıkmaktadır. İşte bu uyarılar Web içerik madenciliğinin
ürünü olarak bugün karşımıza çıkmaktadır.
Web yapı madenciliği, web sitesi ve
web sayfası ile ilgili bağlantı verisine bakarak bilgi üretmektedir. Web içerik
madenciliği dokümanın içeriğine bakarken web yapı madenciliği dokümanlar arası
bağlantılara yoğunlaşmaktadır[2]. Bu alanda yapılan analizlerde daha çok web
sayfasının arka planında çalışan HTML (Hyper Text Markup Language) ve XML
(Extensible Markup Language) yapıları ile ilgili verileri incelenir.
Web kullanım madenciliği alanında yapılan çalışmalarda
ise kullanıcıların tıkladıkları bağlantılar ve bunların ilişkileri
incelenmektedir. Yani kullanıcı bir fotoğrafa tıklamak koşulu ile mi ilgili
bağlantıya gitti, ya da tıkladığı bağlantı en üstte miydi vb. durumların
ilişkilerini inceleyerek, web sayfası tasarlayanlara bilgi sunmaktadır.
2.
YAPILAN ÇALIŞMALAR
Web madenciliği olarak sınıflandırılan çalışmalarda
web sunucularının logları kullanılmaktadır. Bu loglar sunucuların versiyonlarına
göre farklılık gösterse de genel olarak şekli aynı sayılır. Bu alanda yapılan
çalışmalarda, web sunucu loglarını incelerken, açık kaynak kodlu veri analiz
aracı olan Waikato Üniversitesi tarafından geliştirilen ve adını "Waikato
Environment for Knowledge Analysis" kelimelerinin baş harflerinden alan Weka
uygulamasının kullanıldığı görülmüştür.
Web madenciliği
alanında yapılan çalışmaların çoğu istatistiksel amaçlı olsa da güvenlik
sektörüne yönelik yapılan çalışmalar vardır. Başkent Üniversitesindeki
araştırmacılar tarafından yapılan çalışmada, [3] üniversitenin web sitesini
geliştirmek için web sitelerindeki davranışları incelenmişler. Kullanıcı
isteklerini belirlenmiş, bu şekilde elde edilen veriye dayanarak web sitelerinin
yeniden tasarım veya geliştirilmesi konusunda karar vermeyi sağlayan bilgi elde
edilmiştir. Hangi sayfalara daha sık girildiği, hangi sayfaların birlikte
ziyaret edildiği gibi bilgiler sitenin yeniden düzenlenmesinde faydalı olacak
bilgilerdir. Bu uygulamaların amacı, istatistiksel yöntemlerle kullanıcıların
davranışlarını öğrenmek, böylece site içeriği ve tasarımını bu bilgiler
ışığında yenilemektir.
Yapılan bir başka çalışmada ise İzmir İleri teknoloji Enstitüsünün
web sunucu logları analiz edilmiştir. Bu çalışmada web kullanım madenciliği
yöntemleri ile web içeril madenciliği teknikleri birleştirilip kullanıcıların
kullanım modeli çıkarılmaya çalışılmıştır. Çalışma sırasında kullanıcıların
eriştikleri sayfalar, erişim süreleri ve ulaşılamayan sayfalar incelenmiştir.[2]
İnternetin bu kadar aktif kullanıldığı bir dünyada
elbet kötü niyetli kişilerde olacaktır ki bir sürü örneğini de son beş yılda
oldukça fazla görmekteyiz. Kötü niyetli saldırganların yanında toplumsal
olaylara vs. tepki göstermek amacıyla ortaya çıkan hacktivist olarak
adlandırılan saldırganlar da vardır. Saldıranın olduğu bir yerde savunanda
olacaktır. Veri madenciliği teknikleri bu seferde karşımıza saldırıların tespitinde
çıkıyor. Yine web sunucularının oluşturduğu loglar veri madenciliği teknikleri
incelenerek saldırı hareketleri tespit edilmeye çalışılıyor.
Web madenciliği teknikleri ile saldırı tespiti
alanında yapılan çalışmalara örnek olarak Kaliforniya Üniversitesindeki
araştırmacılar tarafından geliştirilen saldırı tespit aracı verilebilir. Bu çalışmada
araştırmacılar, web uygulamalarına yapılan saldırı yöntemlerine göre farklı
başlıklar altında sıralamışlardır. Sonrasında her saldırı türüne yönelik
analizleri yaparak saldırı tespit aracını geliştirmişlerdir[4].
Web madenciliği alanında yapılan başka bir çalışmada, WEKA
kullanılarak öncelikle veri setinden çıkarılacak istatistiksel sonuçlar
incelenmiş ardından, incelenen veri setinde herhangi bir saldırı örüntüsü olup
olmadığını tespit etmek amacıyla WEKA’da bulunan çeşitli algoritmalardan
faydalanılmıştır.[5] Yapılan bu çalışmada resim ve diğer bağlı olan dosyalar
olmadan kaç ziyaret olduğunu tespit
etmek amacıyla .gif, .jpg, .css, .js, .png, javascript uzantılı dosyalar
silinmiştir.
Veride “boyut” alanındaki değerler sürekli olduğu için
bu alan 4 sınıfa ayrılarak her bir aralığa yeni atamalar yapılmıştır. Önişlemden
geçirilen veri setinin WEKA programına yüklenebilmesi için ARFF formatına
dönüştürülmesi gerekmektedir. ARFF, CSV, C4.5 formatında bulunan dosyalar WEKA
programına eklenebilmektedir. Herhangi bir text dosyasındaki veriler WEKA ile
işlenememektedir. Excel dosyasını ARFF formatına dönüştürmek için Excel2ARFF
Convertor adlı program kullanılmıştır[5].
Gebze İleri teknoloji Enstitüsünde, davranışları
modellemek için bu çalışmada en yakın k komşu tabanlı yeni bir algoritma
kullanılmıştır. Y. Liao tarafından sistem çağrılarına uygulanan algoritma
burada web sayfa isteklerine uygulanmıştır.
Yapılan saldırı tespiti çalışması metin sınıflama çalışmasına
benzetilerek yapılmıştır. Metin sınıflamaya göre daha az nesne ile çalışıyor
olması ise bu çalışmanın en büyük avantajı olmuştur[6].
Web madenciliği dediğimiz teknik ile daha çok web
sunucularının web uygulamalarına ya da web sitelerine yönelik yapılan
saldırıların tespiti üzerinde çalışılır. Buna ilaveten ağ katmanı denilen IP (Internet
Protocol) haberleşmesi katmanında yapılan saldırılar da vardır. Burada ise
yerel ağda bulunan sunucuların oluşturduğu sistem, güvenlik vb. logları
incelenir. Aslında saldırıların katmanı farklı olsa da yöntemler çokta farklı olmayacaktır.
Veri madenciliği teknikleri kullanılarak ağ trafiğinde oluşan loglar analiz
edilir ve anormal durumlar ayırt edilir. Bu yaklaşım ile saldırı tespiti
üzerinde çalışmalar yapılır.
Bu alanda yapılan çalışmalara ise anomali analizi
yaparak saldırı tespiti geliştirmeye çalışan güvenlik firmaları örnek
verilebilir.
Özetlemek gerekirse, sağlık, ticaret, vb alanda olduğu
gibi bilişim alanında da incelenecek, belki istatistiki verileri çıkarılıp
tespiti yapılmaya çalışılan bir sürü konu vardır. Tüm bu çalışmaların ortak
noktası elde derlenmeye analiz edilmeye ihtiyaç bir sürü veri olmasıdır ve bu
verilerin her geçen gün artmasıdır. İşte bu verileri doğru ve hızlı bir şekilde
analiz edebilmek için veri madenciliği tekniklerine ihtiyaç vardır. Doğru modelleme
yaklaşımları ile çok hızlı sonuçlar elde edilebilir.
3.
REFERANSLAR
1.
Etzioni, O.,
1996, The World Wide Web:Quagmire or Gold Mine
2.
Özakar, B.,
Püskülcü, H.,2002, Web İçeril ve Web Kullanım Madenciliği Tekniklerinin
Entegrasyonu ile Oluşmuş Bir Veri Tabanından Nasıl Yararlanılabilir?
3.
Haberal, İ., Veri
Madenciliği Algoritmaları Kullanılarak Web Günlük Erişimlerinin Analizi
4.
Vigna, G., Robertson,
W., Kher, V., Kemmerer, R.A., A Stateful Intrusion Detection System for World
Wide Web Servers
5.
Çınar, I., Çınar,
M.S., Bilge, H.Ş., Web Sunucu Loglarının Web Madenciliği Yöntemleri ile Analizi
6.
Takcı, H., Soğukpınar,
İ., Saldırı Tespitinde en Yakın k Komşu Uygulaması
Hiç yorum yok:
Yorum Gönder