Ali Osman Pektaş – Veri Bilimleri Enstitüsü http://veribilimlerienstitusu.com Veri madenciliği uzmanlarının buluşma noktası Mon, 03 Jul 2017 06:47:54 +0000 en-US hourly 1 https://wordpress.org/?v=4.7.11 Acemiler ve yeni başlayanlar için “Ki kare testini anlamak” http://veribilimlerienstitusu.com/acemiler-ve-yeni-baslayanlar-icin-ki-kare-testini-anlamak/ http://veribilimlerienstitusu.com/acemiler-ve-yeni-baslayanlar-icin-ki-kare-testini-anlamak/#comments
Wed, 14 May 2014 17:08:46 +0000
http://veribilimlerienstitusu.com/?p=314
Ki -kare testi uygulanır iken örneklem verisi bir test istatistiğini hesaplamak için kullanılır, bu istatistik iki değişken arasındaki ilişkinin şans eseri olup olmadığını veren ihtimal değeridir. İstatistiğe ait birçok konuda olduğu gibi bu konuda da tanımlar biraz karmaşık gelebilir, bu yüzden bir örnek ile meseleyi irdeleyelim. Öğrencilerin karakterlerinin iki kategori altında incelendiği (öğrencilerin iki gruba ...

The post Acemiler ve yeni başlayanlar için “Ki kare testini anlamak” appeared first on Veri Bilimleri Enstitüsü.

]]>

Ki -kare testi uygulanır iken örneklem verisi bir test istatistiğini hesaplamak için kullanılır, bu istatistik iki değişken arasındaki ilişkinin şans eseri olup olmadığını veren ihtimal değeridir.

İstatistiğe ait birçok konuda olduğu gibi bu konuda da tanımlar biraz karmaşık gelebilir, bu yüzden bir örnek ile meseleyi irdeleyelim.

404 Not Found
Öğrencilerin karakterlerinin iki kategori altında incelendiği (öğrencilerin iki gruba ayrıldığı) bir sınıf düşünelim. İçine kapalı ve sosyal öğrenciler adlı iki grubumuz var. bu öğrencilere en sevdikleri renkleri soruyoruz ve renkler ile kişilik arasında bir bağıntı (ilişki) var mı incelemek istiyoruz.

Aşağıdaki tabloda öğrenci sayıları var;

Gözlem sayıları Kırmızı Sarı Yeşil Mavi Toplam
İçe kapalı kişilik 20 6 30 44 100
Sosyal kişilik 180 34 50 36 300
Toplam 200 40 80 80 400

Bu problemi inceler iken kurulabilecek hipotezler şu şekilde olabilir;

H0: Renk seçiminin kişilik ile bir ilişkisi yoktur.

H1: Renk seçiminin kişilik türü ile bir irtibatı vardır.


Ho Olarak ifade edilen Boş hipotez  (Null hipotez namıyla meşhur) bizim biraz sonra test edeceğimiz hipotezimiz. Bilgisayar programları aşağıda özetlenen işlemleri yapar ve bize test istatistiğini verirler. Ama siz zaten arkada dönen işlemleri anlama adına bu yazıyı okuyorsunuz.

Şimdi Ki -kare değerinin nasıl hesaplandığını görelim:

 

form 1

 

 

Not Found


formülü mümkün mertebe karışık gösterimler kullanmadan sözel ifadeler ile yazdım. Frekans değeri ifadesi okuyucuyu korkutmasın, frekans bir olayın (durumun) hangi sıklıkta olduğunun ifadesidir. Örneğin bizim tablomuzda kırmızı rengin içe kapalı kişilik tarafından seçilme sayısı (yani 20)bu olayın frekansını vermektedir. Tablodaki her bir hücre gözlenmiş değerlerin sayılarını verdiği için frekans değerleri tabloda verilmiştir. Şimdi Ki -kare değerini hesaplayabilmemiz için gereken (tabloda verilmeyen ama bizim basitçe bulabileceğimiz) diğer bir parametreyi yani “beklenen frekans değerini” bulalım. Tabloda 4 farklı renk ve iki farklı kişilik yani (4*2=8) hücre yer almakta. Her bir hücre için Null hipotez için Ki -kare değerini hesaplayacağımızı unutmayalım.

form2

 

 

şeklinde bulunacaktır. Tablomuz üzerinde içe kapalı kişilik ve kırmızı renk sevenler (20 değeri yazılı olan hücre) hücresi için Ki -kare değerini hesaplayalım. bu hücreye 1_1 ismini verelim.

fonm3

 

 

şeklinde bulunacaktır. Her bir hücre için beklenen frekans değerlerini bulup  aşağıdaki tabloyu elde ediyoruz.

Beklenen değerler Kırmızı Sarı Yeşil Mavi Toplam
İçe kapalı kişilik   50 10 20 20 100
Sosyal kişilik 150 30 60 60 300
Toplam 200 40 80 80 400

Şimdi birinci formülümüze göre hücre1_1 için Ki -kare değerini hesaplayalım;

 

form4

 

 

Bu şekilde herbir hücre için ki -kare değerlerini hesaplar isek;

Ki -kare değerleri Kırmızı Sarı Yeşil Mavi
İçe kapalı kişilik 18 1.6 5 28.8
Sosyal kişilik 6 0.533 1.667 9.6

değerlerini buluruz. Genel toplam yani bu 8 hücre ki -kare değerlerinin toplamı bize Ki -kare istatistiğini verecektir. Ki -kare istatistiği= (18+1.6+5+28.8+6+0.533+9.6)=71.2

yapılan işlemlerde DF =3 olduğunu görüyoruz. Degree of Freedom kelimelerinin kısaltması olan bu terim Türkçemize serbestlik derecesi olarak girmiştir. Df değeri kategori sayılarının birer eksiltilerek çarpılması ile hesaplanıyor. Örneğimiz için DF= (2-1)*(4-1)=3

Bulunan Ki-kare değerinin kritik Ki -kare değerinden büyük olup olmadığına bakmak için Ki -kare tabloları kullanılır. Bu tablolarda belli bir yanılma olasılığına (α) göre DF değerleri kullanılarak kritik ki -kare kritik değerleri okunabilir. Sizin sayısal işlemler yaparak bulduğunuz değer, tablodan okunan kritik değer ile kıyaslanır. Eğer sizin bulduğunuz Ki -kare değeri tabloda okunan kritik değerin üstünde ise Ho boş hipotezi red edilecektir. Örneğimizde, hipotezini test etmek için bulduğumuz toplam ki -kare değeri DF=3 için 71.2 idi. DF=3 için 0.005 yanılma olasılığı altında tablodan okuyacağımız kritik Ki-kare değeri 12.84 olacaktı. Bulduğumuz değerin bu değerden büyük olduğunu görüyorsunuz (71.2>12.84) öyle ise Ho hipotezini red ediyoruz.

form6

 

 

İstatistik programları size kritik Ki-kare değerini vermez bunun yerine anlaması ve yorumlaması çok zor olan p değerini verir. p value konusunu başka bir yazıda özetleyelim ama kabaca şunu söyleyebiliriz. p değeri Ho boş hipotezi varsayımı altında test istatistiği değerinin hesaplanan istatistik değerine eşit veya aşma ihtimalini verir. Eminim kafanız karışmıştır.

Bizim örneğimizde program (SPSS kullanıyoruz) p değerini ( unutmayın SPSS p value yerine sig. ifadesini kullanır) sig.= 0.000 olarak verdi. Dolayısı ile Ho boş hipotezini red ediyoruz.  H0: Renk seçiminin kişilik ile bir ilişkisi yoktur idi, bu ifadeyi red ettik. Yani kişilik türü ile renk seçimi arasında bir ilişki olduğunu  (istatistiksel olarak anlamlı bir ilişki) görmüş olduk.

sig.=p value=0.000 sonucunu sözel olarak ifade edelim sanırım daha aydınlatıcı olacaktır.

Renk seçimi ile kişilik karakter özelliği arasında bir ilişki yoktur varsayımı altında bulunan test istatistiğinin hesapladığımız Ki kare istatistiği değerini aşma ihtimali sıfır.  Bu sözel ifade aşağıdaki denklemin sağlandığını gösteriyor. Yani;

form6

 

 

Not: İstatistik programları 0.000 ifadesini değerin p<0.001 den daha küçük olduğunu göstermek için kullanırlar. Bu gösterim değerimizin sıfıra eşit manasına gelmez. 

Ki -kare dağılımının kullanım amaçları

  • Sayısal olmayan değişkenler arasındaki ilişkinin varlığını test edebiliriz.
  • Farklı örneklemelerin aynı ana kütleden seçilip seçilmediğini test edebilirsiniz.
  • n hacimli bir örneklemenin ilgili ana kütleyi iyi temsil edip edemediği belirlenebilir.
  • Sayısal olmayan iki değişken arasındaki ilişkinin derecesi belirlenebilir.
  • Örnek değerlerinin dağılımının belirli bir teorik dağılıma uyma derecesinin saptanması (Uygunluk testi)
  • İki veya daha fazla nitelik esas alınarak sınıflandırılan veriler değerlendirilerek bu nitelikler arsındaki ilginin derecesinin belirlenmesi

The post Acemiler ve yeni başlayanlar için “Ki kare testini anlamak” appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/acemiler-ve-yeni-baslayanlar-icin-ki-kare-testini-anlamak/feed/ 2
Veri Madenciliği Teknikleri: Ne tür veriler için ne tür modeller kullanmalıyım? http://veribilimlerienstitusu.com/veri-madenciligi-teknikleri-%e2%80%a2ne-tur-veriler-icin-ne-tur-modeller-kullanmaliyim-%e2%80%a2model-ve-yontemlerin-siniflandirilmasi/ http://veribilimlerienstitusu.com/veri-madenciligi-teknikleri-%e2%80%a2ne-tur-veriler-icin-ne-tur-modeller-kullanmaliyim-%e2%80%a2model-ve-yontemlerin-siniflandirilmasi/#respond Tue, 13 May 2014 13:19:35 +0000 http://veribilimlerienstitusu.com/?p=304 Herhangi bir veri madenciliği aracı kullanarak veri madenciliğinin büyülü dünyasına girmeden önce genel bir bakış açısı kazanmanın faydalı olduğunu düşünüyorum. Veri ile ilgili yöntemler her geçen gün gelişerek değişse de geleneksel olarak kullanıla gelen yöntemlerin ve veri türlerinin ilişkisini öğrenmek iyi bir başlangıç noktası olabilir. Aşağıdaki şekli inceleyerek işe başlayalım: Şekil 1: Veri madenciliği tekniklerinin ...

The post Veri Madenciliği Teknikleri: Ne tür veriler için ne tür modeller kullanmalıyım? appeared first on Veri Bilimleri Enstitüsü.

]]>
Herhangi bir veri madenciliği aracı kullanarak veri madenciliğinin büyülü dünyasına girmeden önce genel bir bakış açısı kazanmanın faydalı olduğunu düşünüyorum. Veri ile ilgili yöntemler her geçen gün gelişerek değişse de geleneksel olarak kullanıla gelen yöntemlerin ve veri türlerinin ilişkisini öğrenmek iyi bir başlangıç noktası olabilir. Aşağıdaki şekli inceleyerek işe başlayalım:

Şekil 1: Veri madenciliği tekniklerinin sınıflandırılması

Picture1

Şekilde görüldüğü gibi veri madenciliğinde kullanılan yöntemleri öncelikli olarak;  Predictive  (tahmine dönük) ve Explanatory data analysis (EDA olarak bilinir) yöntemler başlığı altında ikiye ayırabiliriz.  John Tukey’in literatüre katkıları ile oldukça gelişen ve günümüzde pekçok istatistik aracında default seçenekler halinde pekçok fonksiyonu yer alan tanımlayıcı istatistikler herhangi bir veri madenciliği projesine başlangıç aşamasında oldukça önemli ve ihmal edilmemesi gereken adımlardan biridir.

Tanımlayıcı istatistiklerin önemi

Tahmin yapmak yerine veri setinizi tanımak ve tanımlamak için uğraşıyor iseniz veya veriler arasındaki ilişkiyi irdeliyor (ama birini diğerlerine bağlı tahmin etmiyor iseniz) açıklayıcı analizler kulvarındasınız demektir.

  • Tanımlayıcı istatistikler (min, maks, std. sapma,…),
  • Korelasyon incelemeleri (Rank korelasyonlar veya  spearman korelasyonları),
  • Kutu diagramı, korelagram, Histogramlar
  • Zaman gidiş diyagramları, spectral yoğunluk ve periodgram grafikleri,
  • Hipotez testleri (parametrik ve non parametrik testlerin tümü ),
  • Outlier ve ekstrem değer araştırmaları, eksik veri analizleri,
  • Faktör analizleri ve temel bileşen (Principal component) analizleri

bu grup analizler altında yapıla gelen geleneksel analizlerdir.

Veri madenciliği çalışmalarının nihai amacı veriyi tanımlamaktan ziyade tahmin edebilen dinamik sistemler tanımlamaktır. “Tanımlayıcı analizler” veri madenciliğinin bir parçası olarak kabul edilmektedir çünkü tanımlayıcı istatistikler yapılmadan (doğru) herhangi bir model kurulamamaktadır. Bir diğer açıdan bakılacak olur ise bir çok yöntem (tahmin edici model) veri  setini oluşturan verilerin türüne, ölçeğine ve/ya  dağılımına bağımlı olarak tanımlanabilmektedir (ör: lineer regresyon modelleri).  Bu durum da tanımlayıcı analizleri veri madenciliği projelerin başlangıç aşamasında önemli bir süreç haline getirmektedir. Yani hangi modeli kullanarak sonuca varacağınız sizin model bilginize, kullandığınız veri madenciliği aracının kapasitesine ve veri türlerinize bağımlı olarak değişir. Örneğin kategorik verileri tahmin etmek için lineer regresyon modelleri kullanamazsınız. Kullandığınızda “nominal”  (küçüklük büyüklük ilişkisi olmayan kategorik ölçek) verileriniz rakamsal değerler olarak regresyon denklemince tahmin edilecektir. Bu durumda 1-4 arasında değerler alan kategorik değişkenlerin rakamsal karşılıkları (ortalama, standart sapma gibi) regresyon modelini geliştirirken kullanılacaktır. Bu karaşıklık ise sizi ise tamamen farklı bir sonuca götürecektir. Veya ön tanımlayıcı analizler yapılmadan, aralarında lineer korelasyon çok yüksek bir çok değişkenin regresyon denklemine sokulması ile (muhtemelen) regresyon denklemin stabilitesi bozulacak, regresyon sabitlerinde çok küçük artışlar için çok büyük değişiklikler meydana gelecektir. Bu durum lineer regresyon modellerinde sık karşılaşılan ve tam bir baş belası olan [multikolinerite problemi] olarak tanımlanmaktadır.

Yukarıda görüldüğü gibi tanımlayıcı istatistiklerin bir zorunluluk olduğunu ve iyi bir model kurabilmek için bu analizlerin doğru yapılması gerektiğini gösteren pek çok örnek verilebilir.!!!

Predictive modeller ve veriye uygun model seçimi

Detaylarına ilerleyen yazılarda gireceğiz ama öncelikli olarak şunu belirtmeliyim, her geçen gün farklı tür ve büyüklüklerdeki verileri (text verisi, kategorik, komplex samples,.. ) incelemek için yeni algoritmalar türetilmektedir. Bu yazı kapsamında yazarın bilgisi dahilinde şu an için geçerli olan yöntemler kısaca tartışılacaktır.

Model kurgulanır iken modelde girdi olarak kullanılan değişkenlerin önüne bir hedef değişken veriliyor ise (öğretmen- supervisor) ve model bu hedef değişkeni tahmin başarısına göre düzenleniyor ise (regresyon analizi gibi) veya iteratif bir süreçte optimize ediliyor ise (neural networks gibi)  supervised modeller (öğretmenli öğrenen modeller olarak dilimize çevrilmiş) kuruluyor demektir.  hedef değişkene bağlı tanımlanan modeller ise hangi tür veriyi tahmin etmek hedeflendiğine göre ikiye ayrılmaktadır; prediction ve classification. Eğer tahmin edilmeye çalışılan hedef değişken bir kategorik değişken ise bu durumda yapılan işlem bir sınıflandırma işlemi olacaktır. Yani hedef değişkene ait farklı kategoriler diğer girdi değişkenleri yardımı ile tahmin edilmek isteniyordur. Örneğin müşterilerin demografik özelliklerinin, alışveriş alışkanlıklarının, müşteri ilişkileri departmanı ile iletişimlerinin yer aldığı bir veri setinde müşterileri bir kampanyayı (veya firmayı) bırakanlar ve sadık müşteriler (devam edenler) olarak tanımladığımız bir kategorik değişken tanımlandığını varsayıyoruz. Terk eden müşterileri  “1” kalan müşterileri “0” boş değerleri  (bulk variable)ile kodlayalım. Müşterilere ait yaş, cinsiyet, toplam alışveriş hacmi, firmayı ziyaret frekansı, müşteri şikayet hattını araması, görüşmelerin frekansı, ..vb. gibi pek çok veri kullanılarak bu müşterinin terk eden mi (“1” mi) yoksa kalan mı olacağı (“0”) tahmin edilmeye (modellenmeye ) çalışıyor ise bu çalışma classification (Şekil 1 sol alt kutucuk) çalışmaları grubuna dahil edilecektir.

 Veri madenciliği uygulamalarında Churn analizleri (giden/ terkeden müşteri analizleri) olarak bilinen bu analizler çok sık yapılan ve firmalar için hangi müşterilerin ne zaman firmayı ve ya bir kampanyayı  (çoğunlukla telekom uygulamalarında) terk edeceğini tahmin avantajı sağlayan analizlerdir. 

Böyle bir çalışma ile modelde anlamlı girdiler tespit edilip yarınlarda firmayı terk edecek muhtemel müşteriler sınıflandırılırken müşteri terk sürecini nelerin etkilediği incelenebilmektedir. sürecin incelenmesi önceleniyor ise kural tabanlı karar ağaçları (decision tree) kullanımı daha avantajlı olacak iken eğer modelin tahmin başarısının yüksek olması önceleniyor ise neural network modellerinin kullanımı daha avantajlı olacaktır. Unutmamak gerekir iki model de kategorik verileri tahmin için kullanıma elverişli iken, süreç incelemelerinde çok avantajlı modeller olan lineer regresyon modelleri bu problemde kullanılamayacaktır. Mutlaka regresyon modeli kullanılmak isteniyorsa çıktıyı ihtimaller cinsinden veren (odds ratio) lojistik regresyon modelleri kullanılabilir.

Son olarak eğer Model herhangi bir rehber değişkene bağlı olarak kurgulanmamış ise bu durumda unsupervised modeller (öğretmensiz modeller) kuruluyor demektir. Unsupervised modeller içinde en çok bilinen ve en yaygın kullanılan modelleri kümeleme analizleridir (cluster analysis).

 

The post Veri Madenciliği Teknikleri: Ne tür veriler için ne tür modeller kullanmalıyım? appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/veri-madenciligi-teknikleri-%e2%80%a2ne-tur-veriler-icin-ne-tur-modeller-kullanmaliyim-%e2%80%a2model-ve-yontemlerin-siniflandirilmasi/feed/ 0
21.04.2014 CRISP-DM Semineri http://veribilimlerienstitusu.com/21-04-2014-crisp-dm-semineri/ http://veribilimlerienstitusu.com/21-04-2014-crisp-dm-semineri/#comments Wed, 16 Apr 2014 06:41:55 +0000 http://veribilimlerienstitusu.com/?p=289 CRISP’le ilgili hangi konulardan bahsetmemi istersiniz?

The post 21.04.2014 CRISP-DM Semineri appeared first on Veri Bilimleri Enstitüsü.

]]>
CRISP’le ilgili hangi konulardan bahsetmemi istersiniz?

The post 21.04.2014 CRISP-DM Semineri appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/21-04-2014-crisp-dm-semineri/feed/ 1
Veri madenciliği proje döngüsü: CRISP-DM http://veribilimlerienstitusu.com/veri-madenciligi-proje-dongusu-crisp-dm/ http://veribilimlerienstitusu.com/veri-madenciligi-proje-dongusu-crisp-dm/#respond Sun, 30 Mar 2014 10:11:07 +0000 http://veribilimlerienstitusu.com/?p=208 Veri madenciliği Proje döngüsü: CRISP Veri madenciliği son yılların en popüler konusu, veri saklama ve veriye ulaşma süreçleri teknoloji ile birlikte geliştiği için ve böylece veriyi etkin kullanabilme olanağı arttığı için sanırım uzun yıllar güncelliğini koruyacak. Veri madenciliği kavramsal olarak çokça tartışılan ve daha uzun bir sürede tartışılacak olan bir konu. Tartışmaların odağında veri madenciliği ...

The post Veri madenciliği proje döngüsü: CRISP-DM appeared first on Veri Bilimleri Enstitüsü.

]]>
Veri madenciliği Proje döngüsü: CRISP

Veri madenciliği son yılların en popüler konusu, veri saklama ve veriye ulaşma süreçleri teknoloji ile birlikte geliştiği için ve böylece veriyi etkin kullanabilme olanağı arttığı için sanırım uzun yıllar güncelliğini koruyacak. Veri madenciliği kavramsal olarak çokça tartışılan ve daha uzun bir sürede tartışılacak olan bir konu. Tartışmaların odağında veri madenciliği (Data mining) kavramının içine nelerin dahil edilmesi gerektiği yatıyor. Bu yazıda bu tartışmalara girmeden uygulama için çok önemli ve mutlaka bilinmesi gereken bir konu olan Veri madenciliği proje döngüsünden bahsedeceğim. Veri madenciliği proje yönetim standardı veya Veri madenciliği hayat döngüsü (life cycle) olarak da ifade edilebilen, aslında derli toplu bir metodoloji sunumu olan bu yöntemler içinde en yaygın kullanılanı CRISP (CRoss Industry Standard Process for Data Mining). Orijinal üyeleri Daimler-Benz, SPSS ve NCR olan bir konsorsiyum tarafından geliştirilmiş. Şu an yaygın olarak kullanılan pekçok datamining aracı bu yöntemi baz almaktadır. (ör. IBM SPSS, Statsoft STATISTICA). Bu benzer yaklaşımlar farklı platformlarda da mevcut mesela yaygın kullanıma sahip SAS programı SEMMA (sample, explore, modify, model, assess) sürecini detaylandırmaktadır. Bu süreçlerin pratikte kullanılabilirliği ve ne kadar kullanıldığı farklı platformlarda tartışılmaktadır. Daha detaylı bir karşılaştırma isteyen okuyucular için uygulamacıların deneyimlerinin de yer aldığı bir link vereyim;

http://www.linkedin.com/groups/CRISPDM-Is-it-really-used-35222.S.5806045553489883139

CRISP-DM döngüsü ile bana göre biçimsel bir takip yapılamasa da doğru düzgün bir proje yapmak isteyen her veri madencisinin takip edeceği ve etmesi gereken adımlar özetlenmiş.  Bu yazıda aşağıdaki şekilde görülen CRISP döngüsünün ilk iki adımından bahsedeceğiz, ilerleyen yazılarda ise diğer adımları biraz daha detaylı anlatmaya çalışacağım:

1) İşi anlamak (Business understanding):

Genellikle ihmal edilen bir adım belki birazda maymun iştahlılıkla bir an önce veriyi işleyen canavar makineleri (ör. SPSS modeler, STATISTICA data mining) doyurma aceleciliğinden dolayı dikkatsizce atlanan bu basamağın telafisi yok. Çünkü ileride üzerine birçok kat bina edeceğiniz bir gökdelenin temelini bu adımda inşa ediyorsunuz. Acele ile atılmış iyi düşünülmemiş çürük bir temel çok geçmeden binanızın çökmesine neden olacaktır veya çok savruk (özensiz) bir yapı inşa edeceksiniz demektir.

CRISP-DM Döngüsü

CRISP-DM Döngüsü

2) Veriyi anlamak (Data understanding): Veriyi anlamak deyince sadece veri içindeki outlier veya uç (ekstrem) değerleri veya kayıp veri analizini (missing value analysis) kastetmiyorum. Buraya gelmeden önce iş süreçleri, raporlamalar ve akış düzeni, veriler hangi aralıklarla hangi biçimlerde tutuluyor,… gibi onlarca konuyu irdelemek gerekiyor.

Veriyi anlama süreci işi anlama sürecinin bütünleyici bir parçası olduğu için şekilde çift yönlü oklar ile gösterilmiş. Veriler arasında mantıksal ilişkiyi anlamak projenin en önemli adımı sayılabilir. Sağlam modeller kurmak için Veri tabanından hangi sorgulamalar ile hangi verileri çekmeniz gerektiğine karar vermeniz gerekiyor, bunun sağlıklı yapılabilmesi ise veri tabanında tutulan verileri anlamakla başlıyor. Veriler arasında ilişkilerin varlığı (istatistiksel ilişkiden ziyade mantıksal ilişkinin varlığı) hep bu adımda irdeleniyor.

Çok hızlıca özetlediğim CRISP hayat döngüsünde ki bu iki adım çok kritik ve belli uzmanlık alanlarının beraber çalışmasını gerektirecek bir yapıya sahip. Diğer yazılarda ise diğer adımlardan bahsedeceğim.

The post Veri madenciliği proje döngüsü: CRISP-DM appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/veri-madenciligi-proje-dongusu-crisp-dm/feed/ 0
On the Roblox forum, how do you delete a thread? http://veribilimlerienstitusu.com/roblox-forum-delete-thread/ Sun, 12 Jan 2014 07:39:26 +0000 http://veribilimlerienstitusu.com/?p=405 Robuxed – The best thing that ever happened to Roblox Robuxed. Com is currently a collaborative effort of 28 developers and security experts, and we are now proud to have the ability to say that we are now the only service available for public usage offering complimentary Robux today. Robuxed is one of a kind ...

The post On the Roblox forum, how do you delete a thread? appeared first on Veri Bilimleri Enstitüsü.

]]>
Robuxed – The best thing that ever happened to Roblox

Robuxed. Com is currently a collaborative effort of 28 developers and security experts, and we are now proud to have the ability to say that we are now the only service available for public usage offering complimentary Robux today. Robuxed is one of a kind since of recent updates to the security system within the weeks of Roblox every other cheat crawling or on the internet was compromised. The update did not really impact our Roblox hack while other services built a program using one of their workarounds or exploits because we developed this algorithm as well as the applications from scratch. This is the reason we are lucky to be one of the last couple of sites standing. It’s now time for every one of us to quit wasting time and begin enjoying Roblox with the actual fun, to the greatest possible. How it works

All you need to do is logon to a generator that is onlineand then follow the on-screen instructions to get your Robux! The best portion of the service is regardless of how many times you utilize our service that we never cost any cash. Our advanced algorithm makes sure managing your requests carefully constantly protects your account. Over the previous couple of updates we have added internal proxies’ alternatives and also a virtual private network for privacy. This way you don’t need to buy any paid proxies or even a subscription to your VPN because we have included the security attributes in our tool. As they are provided within the user interface that gives you the options to turn them on roblox unlimited pro and 27, it is extremely simple to activate these features. You don’t need to download any applications for your own Robux generator to work, all you want to do is see our tool and follow the directions as you require, and insert as Robux!

As we completely rely on an online system as opposed to a downloadable application, you don’t ever need to think about being contaminated by spyware or ransom-ware, as here in Robux, our clients’ safety and privacy are actually given paramount value. That is of course why we have added proxy compatibility within our tool. We have taken this measure of security to the extreme with all the hottest few updates and also incorporated the VPN attribute which keeps your identity protected as mentioned earlier and changes your location on the internet. Utilizing our Roblox cheats, you can add virtually unlimited levels of in-game resources and create the game even more fun! You look no more if you’ve been on the lookout for a reliable and secure hack for Roblox!

The tool includes a simplistic and clean user interface that ensures reliability. Always keep in mind your requests may take a few minutes to get processed when our hosts are busy managing requests you could always safely retry to add Robux in case you needed. It will be simple for you to monitor the procedure what is being done and because there is an activity log that shows the tool’s current condition. It is possible to always simply refresh the page and begin new if there were ever to become some type of bug or any mistake. We don’t collect, store or share any of the information and therefore you don’t need to be concerned about losing your accounts or spam emails. In addition, we have entered on our website using AES 256 bit encryption. This component is only an extension to the cloud. We opted to produce this priority once releasing Robuxed’s most recent variants and have believed our client’s privacy and security. New update

Because of the update by our technology group, you are limited to running our program on your PC. The latest version was installed and now runs through our website, without any downloads required! What this means, is the Roblox hack can be used on Mac, PC, Android and iOS devices. You can actually run the tool on any device that is able to execute the script in a web browser that is normal! This makes it accessible to all the devices and works with iOS and Android devices that have access to the internet! We’re also working on some internet exploits for many other games on the market these days of our services are free and always will be. Never ever use exploits that don’t have a dependable algorithm, because by doing anything suspicious with these types of tools using your gaming accounts, a flag can be raised and may lead to your permanent ban!

You don’t require our Robux generator to be used by any programming or technical knowledge, it’s as simple as signing up on a website. Make sure you wait at least 30 seconds before adding Robux for your account several times, we recommend you to add as many resources as you need, in a single time, this manner that you aren’t forced to come back here and get more resources since you didn’t get sufficient if you had a chance to. When you limit your usage of our service, because the more times that you just simply add updates with us, the higher chance and that we are, it is safer in the future. As of right now, the team Robuxed proud to have the ability to say that we’ve got a total of zero banns mentioned back to us and we also aim to keep it this way forever. Please continue to work with our website responsibly and don’t misuse our hacks in a means that would get Roblox’s interest. We suggest limiting your use to up to one time each day maximum to be able to stay beneath the radar. We also encourage you to share our website with family and your friends and let them enjoy the game.

The post On the Roblox forum, how do you delete a thread? appeared first on Veri Bilimleri Enstitüsü.

]]>
Sigorta Sektöründe Risk Yönetimi Veri Madenciliği Uygulamaları http://veribilimlerienstitusu.com/sigorta-sektorunde-risk-yonetimi-veri-madenciligi-uygulamalari/ http://veribilimlerienstitusu.com/sigorta-sektorunde-risk-yonetimi-veri-madenciligi-uygulamalari/#respond Fri, 06 Dec 2013 07:55:37 +0000 http://veribilimlerienstitusu.com/?p=69 Sigorta sektörü için Risk yönetimi diğer sektörlere nazaran çok daha önemlidir.

The post Sigorta Sektöründe Risk Yönetimi Veri Madenciliği Uygulamaları appeared first on Veri Bilimleri Enstitüsü.

]]>
Yard. Doç. Dr Ali osman Pektaş

aliosmanpektas@gmail.com

 

Sigorta sektörü için Risk yönetimi diğer sektörlere nazaran çok daha önemlidir. Hatta sigortacılık bir yönüyle risk yönetimidir de denilebilir. Yıllardır, sigortacılar yüksek ve düşük risk taşıyan profilleri tanımlayabilmek için ölçülebilir her türlü veriyi kullanmaya çalışırlar. Veri madenciliği yöntemlerinin gelişmesine paralel olarak sigortacılık sektöründe bir kısım analizler gelenekselleşirken her gün yeni yöntemler ve hibrit kullanımlar literatüre eklenmektedir. Yöntemlerin detaylarına girmeden sigortacılık sektöründe risk yönetimi ile ilgili veri madenciliği uygulamalarını iki genel başlık altında özetleyebiliriz.

1) Risk profili belirleme: Sigorta sektöründe yüksek risk taşıyan gruplara genellikle yüksek sigorta hak edişleri çıkarılmaktadır. Sigorta başvuruları esnasında sigortalanacak nesne veya sigorta konusuna paralel olarak yüzlerce farklı bilgi kayıt altına alınmaktadır. Bu veriler kategorik ve numerik ölçekte değişkenlerdir. Bu bilgilerin bir kısmı kullanılamayacak bilgi (noisy information) statüsünde değerlendirilecek olsa bile gene de onlarca farklı veri kullanılarak risk profilleri belirlenebilmektedir.

  • Risk profillerinin belirlenmesinde genellikle karar ağaçları kullanılmaktadır.
  • Fakat bu süreçte asıl önemli olan veri seti içinde modele girdi olarak kullanılabilecek anlamlı değişkenlerin seçilmesi sürecini yönetmektir. Bu süreçte ise en çok faktör analizleri ile boyut indirgenmesi yöntemleri tercih edilmektedir.

Aşağıdaki şekilde bir sigorta firmasının yüksek riskli olarak etiketlediği (tecrübeye dayalı olarak yapılan bir etiketleme) veri seti ile yapılan bir analiz sonucunda risk faktörlerinin ağırlıklarını görmektesiniz. Bu örnekte sağlık poliçesi incelenmiş ve sağlık poliçelerine  şirket tarafından yüksek oranda  ödeme yapılan müşteri verileri kullanılarak yüksek risk profili çıkarılmıştır.

sigorta

2) Sigorta Riski modelleme: Risk faktörlerini belirlemenin ötesinde kurulan dinamik bir model ile müşterinin riskinin belirlenmesidir. Karar ağaçları ve regresyon modelleri genellikle yetersiz sonuçlar vermektedir. Bu durumun başlıca sebebi sigorta sektöründe riskli grubun %10′ luk bir dilime sıkışmış olmasıdır.

Dolayısı ile veriler oldukça çarpık bir dağılıma sahip olacaktır. Karar ağaçları verilerin kısımlandırılmasına dayandığı için birçok durum için (dağılımın çarpıklığı nedeni ile) yanlı sonuçlar üretecektir.

Regresyon modellerinin de çarpık veriler üzerinde etkili sonuçlar vermediği bilinen bir gerçektir. Bu durumda kestirmeden önerilebilecek en iyi çözüm yapay sinir ağı modelleri kullanmaktır. Yapay sinir ağları problemin yapısını öğrenebilme kabiliyetleri ve kullanılan non lineer dönüşümler itibari ile çarpık veri setlerinde daha başarılı sonuçlar verebilmektedir. Fakat yapay sinir ağları kapalı kutu model yapısına sahip oldukları için kullanıcıya iç süreçler hakkında aydınlatıcı bir fikir verememektedirler. Bu yönüyle hem çarpık dağılım probleminin üstesinden gelme hem de iç süreçleri (ör: hangi müşteriye neden yüksek risk atandığı) daha iyi kavrama adına kural tabanlı algoritmalar  tahmin modelleri ile beraber kullanılabilir. Bu hibrit yapılar son yıllarda tüm sektörlerde olduğu gibi risk modellemesinde de yaygın olarak kullanılmaya başlanmıştır.

The post Sigorta Sektöründe Risk Yönetimi Veri Madenciliği Uygulamaları appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/sigorta-sektorunde-risk-yonetimi-veri-madenciligi-uygulamalari/feed/ 0