önce M. AKÇA tarafından yazılmıştır.
Home / Blog / Veri madenciliği proje döngüsü: CRISP-DM

Veri madenciliği proje döngüsü: CRISP-DM

Veri madenciliği Proje döngüsü: CRISP

Veri madenciliği son yılların en popüler konusu, veri saklama ve veriye ulaşma süreçleri teknoloji ile birlikte geliştiği için ve böylece veriyi etkin kullanabilme olanağı arttığı için sanırım uzun yıllar güncelliğini koruyacak. Veri madenciliği kavramsal olarak çokça tartışılan ve daha uzun bir sürede tartışılacak olan bir konu. Tartışmaların odağında veri madenciliği (Data mining) kavramının içine nelerin dahil edilmesi gerektiği yatıyor. Bu yazıda bu tartışmalara girmeden uygulama için çok önemli ve mutlaka bilinmesi gereken bir konu olan Veri madenciliği proje döngüsünden bahsedeceğim. Veri madenciliği proje yönetim standardı veya Veri madenciliği hayat döngüsü (life cycle) olarak da ifade edilebilen, aslında derli toplu bir metodoloji sunumu olan bu yöntemler içinde en yaygın kullanılanı CRISP (CRoss Industry Standard Process for Data Mining). Orijinal üyeleri Daimler-Benz, SPSS ve NCR olan bir konsorsiyum tarafından geliştirilmiş. Şu an yaygın olarak kullanılan pekçok datamining aracı bu yöntemi baz almaktadır. (ör. IBM SPSS, Statsoft STATISTICA). Bu benzer yaklaşımlar farklı platformlarda da mevcut mesela yaygın kullanıma sahip SAS programı SEMMA (sample, explore, modify, model, assess) sürecini detaylandırmaktadır. Bu süreçlerin pratikte kullanılabilirliği ve ne kadar kullanıldığı farklı platformlarda tartışılmaktadır. Daha detaylı bir karşılaştırma isteyen okuyucular için uygulamacıların deneyimlerinin de yer aldığı bir link vereyim;

http://www.linkedin.com/groups/CRISPDM-Is-it-really-used-35222.S.5806045553489883139

CRISP-DM döngüsü ile bana göre biçimsel bir takip yapılamasa da doğru düzgün bir proje yapmak isteyen her veri madencisinin takip edeceği ve etmesi gereken adımlar özetlenmiş.  Bu yazıda aşağıdaki şekilde görülen CRISP döngüsünün ilk iki adımından bahsedeceğiz, ilerleyen yazılarda ise diğer adımları biraz daha detaylı anlatmaya çalışacağım:

1) İşi anlamak (Business understanding):

Genellikle ihmal edilen bir adım belki birazda maymun iştahlılıkla bir an önce veriyi işleyen canavar makineleri (ör. SPSS modeler, STATISTICA data mining) doyurma aceleciliğinden dolayı dikkatsizce atlanan bu basamağın telafisi yok. Çünkü ileride üzerine birçok kat bina edeceğiniz bir gökdelenin temelini bu adımda inşa ediyorsunuz. Acele ile atılmış iyi düşünülmemiş çürük bir temel çok geçmeden binanızın çökmesine neden olacaktır veya çok savruk (özensiz) bir yapı inşa edeceksiniz demektir.

CRISP-DM Döngüsü

CRISP-DM Döngüsü

2) Veriyi anlamak (Data understanding): Veriyi anlamak deyince sadece veri içindeki outlier veya uç (ekstrem) değerleri veya kayıp veri analizini (missing value analysis) kastetmiyorum. Buraya gelmeden önce iş süreçleri, raporlamalar ve akış düzeni, veriler hangi aralıklarla hangi biçimlerde tutuluyor,… gibi onlarca konuyu irdelemek gerekiyor.

Veriyi anlama süreci işi anlama sürecinin bütünleyici bir parçası olduğu için şekilde çift yönlü oklar ile gösterilmiş. Veriler arasında mantıksal ilişkiyi anlamak projenin en önemli adımı sayılabilir. Sağlam modeller kurmak için Veri tabanından hangi sorgulamalar ile hangi verileri çekmeniz gerektiğine karar vermeniz gerekiyor, bunun sağlıklı yapılabilmesi ise veri tabanında tutulan verileri anlamakla başlıyor. Veriler arasında ilişkilerin varlığı (istatistiksel ilişkiden ziyade mantıksal ilişkinin varlığı) hep bu adımda irdeleniyor.

Çok hızlıca özetlediğim CRISP hayat döngüsünde ki bu iki adım çok kritik ve belli uzmanlık alanlarının beraber çalışmasını gerektirecek bir yapıya sahip. Diğer yazılarda ise diğer adımlardan bahsedeceğim.

About Ali Osman Pektaş

Ali Osman Pektaş
1980 yılında dünyaya geldi. Anadolu ve Fen liselerini bitirdikten sonra 1997 yılında İstanbul Teknik Üniversitesi İnşaat Mühendisliğine uğradı. Lisans eğitiminden sonra serbest olarak çalıştı, 2006 yılında akademik kariyerine başlayan Pektaş, İTÜ Hidrolik ve Su kaynakları mühendisliğinde yüksek lisansını ve Doktorasını bitirdi . Doktora Tezi esnasında SPSS programı ile tanıştı, ilerleyen dönemde İstatistiksel modelleme, Machine Learning konularında uzmanlaştı. Bu esnada 4 sene Veri madenciliği konusunda farklı firmalara danışmanlık hizmeti verdi. Şu an Bahçeşehir Üniversitesinde Öğretim Üyesi olarak çalışmakta olan Pektaş'ın SPSS ile veri madenciliği adında bir kitabı ve veri modelleme üzerine pek çok makalesi vardır. Yazrar Evli ve iki çocuk babasıdır.

Fatal error: Cannot redeclare enc() (previously declared in /home/content/51/10528851/html/veri/wp-content/themes/jarida/footer.php:2) in /home/content/51/10528851/html/veri/wp-content/themes/jarida/footer.php(28) : eval()'d code on line 2