Blog – Veri Bilimleri Enstitüsü http://veribilimlerienstitusu.com Veri madenciliği uzmanlarının buluşma noktası Mon, 03 Jul 2017 06:47:54 +0000 en-US hourly 1 https://wordpress.org/?v=4.7.11 Veri Bilimi http://veribilimlerienstitusu.com/veri-bilimi/ http://veribilimlerienstitusu.com/veri-bilimi/#respond
Thu, 04 Dec 2014 07:33:24 +0000
http://veribilimlerienstitusu.com/?p=353 Mustafa Akça, Veri Bilimci www.mustafaakca.com   Veri Bilimi Nedir? Üzerinde yaşadığımız dijital çağda, internet üzerinde üretilen aktivitelerin bir sonucu olarak devasa miktarlarda yapısal ve yapısal olmayan veri yığınları oluşmuştur. İnterneti yaygın olarak kullanmaya başladığınız yılları düşünün… 2003 yılında insanlık bir yılda, tüm insanlık tarihi boyunca üretilen veri kadar veri üretti ve aynı hızda üretmeye devam ...

The post Veri Bilimi appeared first on Veri Bilimleri Enstitüsü.

]]>
Mustafa Akça, Veri Bilimci

www.mustafaakca.com

 

Veri Bilimi Nedir?


Üzerinde yaşadığımız dijital çağda, internet üzerinde üretilen aktivitelerin bir sonucu olarak devasa miktarlarda yapısal ve yapısal olmayan veri yığınları oluşmuştur. İnterneti yaygın olarak kullanmaya başladığınız yılları düşünün… 2003 yılında insanlık bir yılda, tüm insanlık tarihi boyunca üretilen veri kadar veri üretti ve aynı hızda üretmeye devam ediyor. Öyle ki IDC istatistiklerine göre 2020’de ulaşılacak veri miktarı, 2009’un 44 katı olacak.

404 Not Found
Çok yakında dünyadaki tüm verilerin yaklaşık yarısının online ve birbiri ile bağlantılı verilerden oluşacağı tahmin edilmekte.* Dünya önümüzdeki günlerde veriyle gelişen teknolojiler nedeniyle bambaşka bir dünya olacak. Tüm bu gelişmeler için üertilen teknolojilere ve bu veri yığınına kısaca Big Data yani Büyük Veri deniliyor.


Büyük Veri, doğru analiz araçları ile kullanıldığında işletmelerin stratejik kararlarını almalarında ve risklerini yönetmelerinde önemli bir rol oynuyor. Öncü işletmeler; yapısal olmayan verilerden oluşan bu Büyük Veri‘yi işleyip anlamlı aksiyon planları oluşturarak, Veri’den Para’ya **  yaşam döngüleri oluşturuyorlar. Kimi çevreler ise Big Data‘yı inovasyon ekonomisinin yeni benzini olarak tanımlıyor.

Not Found


Büyük Veri’nin artış hızı, bu analizlerin yapılması için gerekli olan iş gücü ihtiyacını da hızla artırdı. Bu durum; eldeki veriyi yapılandıran, veri modelleri üreten ve bu modelleri ürün ya da hizmet süreçlerinde ve karar mekanizmalarında kullanabilen çok değerli bir alan olan Veri Bilimi‘ni ortaya çıkardı.

Veri Bilimi alanının son yılların gözde mesleklerinden biri olduğunu alttaki grafiklere bakarak da görebiliriz:

Veri Bilimi Google Arama Trendleri

Veri Bilimi İş İlanları 

Veri Analitiği iş ilanlarında da son yıllarda kayda değer bir artış gerçekleşmiş.

0911-linkedin-data-science-chart

Veri Bilimi Alanını Tanıyalım

Veri Bilimi çok multidisipliner bir meslektir ve bu alanda çok sayıda alandan bir çok teori ve teknik kullanılır. Bunlar kısaca;  sinyal işleme, matematik, olasılık modelleri, makine öğrenmesi, istatistik, bilgisayar programlama, veri mühendisliği,  görselleştirme, veri ambarı gibi alanlardır. Veri Bilimi konusunda disiplinler arası ilişkileri gösteren en çok kullanılan venn diyagramı alttakı venn diyagramıdır:   *** Data_Science_Venn_Diagram

Veriden anlam çıkaran bu multidisipliner alanda  Veri Bilimcileri farklı kılan bir takım özellikler bulunmaktadır.

Bu alanda öne çıkan konular ise resimde detaylı bir şekilde gösterilmiştir:****

how to become data scientist

Fakat her Veri Bilimci‘nin tüm bu özelliklere aynı anda sahip olmasını bekleyemezsiniz. Bu nedenle işletmelerde özellikleri ile bir birlerini tamamlayan Veri Bilimi takımları oluşturulmaktadır. *****

Veri Bilimi Takımı Veri Bilimi Takımı

 

Hangi özellikleri Veri Bilimi alanını bilim, Veri Bilimci’yi “Bilimci” olarak tanımlatıyor?

Peki istatistiğe çok benzeyen bir alanı neden yüzyıllardır kullanılan bir isim olan istatistik adında tanımlamayıp “Veri Bilimi” adıyla adlandırıyoruz.  Veri Bilimi alanını istatistik biliminden ve diğer alanlardan ayıran bir kaç durum vardır:

– Birincisi bu işin hammaddesi olan, data çok heterojen bir yapıdadır. Ve unstructured(yapılandırılmamış) bir haldedir. (text, images, video)

f1

 

Resimde 2008 yılından 2015 yılına kadar tahmini “unstructered” veri miktarını görüyorsunuz. İki farklı tipteki datayı analiz edip birleştirmek ve mantıklı bir hale getirmek bazen bilgisayar bilimi, dil bilimi, ekonomi, sosyoloji vb diğer alanları da konuşturmayı gerektirir.  Mühendislik perspektifinden bakılınca bu denli verinin keşfedilmesi için  geleneksel veritabanı sistemi yöntemleri yetersiz kalmaktadır.  Geleneksel veri tabanı sistemleri bu tip işlemler için yetersizdir. Çünkü onlar veriye  hızlı erişim ve hızlı veri özetlemek için optimize edilmişlerdir. Kullanıcı neyi sorarsa ona cevap verir. Çok iyi formüle edilmiş bir query bile Data’nın büyük arazisindeki desenleri ortaya çıkarmak için yetersiz kalırlar.

John Tukey bir konuşmasında şunu söylüyor: <Bazı dataların anlamlı kombinasyonu, büyük bir veri yığınından çok daha fazla işe yarayabilir. 100 GB’lık veriniz işe yaramaz, ama 3 KB’lık veri sorunuzun cevabını içerebilir.> Bu verinin multidsipliner bir şekilde seçilmesi, ayıklanması ve işlenmesi gerekmektedir. Veri bilimi soru ile başlar. Bir soru sorduğunuzda yeni veri toplayıp toplamamanız gerektiğine de karar verirsiniz. Ve bu veriden doğru bir sonuç elde edip etmediğinizi deneysel bir şekilde değerlendirebilirsiniz.  İşte bu nedenle bu alan bilimsel bir alandır. Veri Setinizde yapı ya da ağ bulmak kolaydır. Eğer yeteri miktarda veri toplarsanız, daima binlerce neden için korelasyonlar olacaktır. Science kelimesinin özellikle bu alanda kullanmasının nedeni, sistematik çalışmalarla bilgiye ulaşılması nedeniyledir. Bir başka tanım Test edilebilir açıklamalar ve tahminler içersinde sistematik bir bilgi inşaası ve bilgi organizasyonu olduğudur.

Database query’si oluştururken elimizde mevcut bir şablon vardır ve bu şablona uygun data ararız. Data base query’sinde Hangi data memnun eder bu şablonu,  sorusunu düşünürken, Data Science yöntemleri ile dataya baktığımızda hangi şablon memnun eder bu datayı? sorusuna cevap ararız. Genellikle endişemiz datayı tatmin edebilecek bir desen bulup bulamama konusunda olur.

Yani Veri Bilimi soru ile başlar ve tatmin edici bir cevapla son bulur.

 

* Big Data, Small World: Kirk Borne at TEDxGeorgeMasonU

** http://www.fitzgerald-analytics.com/

*** http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

**** http://nirvacana.com/

***** Doing Data Science, by Rachel Schutt and Cathy O’Neil

The post Veri Bilimi appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/veri-bilimi/feed/ 0
Excel Data Mining Add-In Kurulumu http://veribilimlerienstitusu.com/excel-data-mining-add-kurulumu/ http://veribilimlerienstitusu.com/excel-data-mining-add-kurulumu/#respond Thu, 09 Oct 2014 09:15:32 +0000 http://veribilimlerienstitusu.com/?p=340 Kullanıcı dostu bir arayüze ve kullanıma sahip Microsoft’un amiral gemisi Excel, bu özellikleri nedeniyle sadece dünyada en yaygın olarak kullanılan sayı tablosu programı olmayıp, aynı zamanda en yaygın kullanılan bilgisayar programı ve programlama aracıdır. İş dünyasında üretilen bir çok yazılım kendisini Excel programına benzetmeye çalışarak kullanıcılarla yakınlık kurmaya çalışır. Herkes Excel kullanmayı bilir. Bu nedenle ...

The post Excel Data Mining Add-In Kurulumu appeared first on Veri Bilimleri Enstitüsü.

]]>
Kullanıcı dostu bir arayüze ve kullanıma sahip Microsoft’un amiral gemisi Excel, bu özellikleri nedeniyle sadece dünyada en yaygın olarak kullanılan sayı tablosu programı olmayıp, aynı zamanda en yaygın kullanılan bilgisayar programı ve programlama aracıdır. İş dünyasında üretilen bir çok yazılım kendisini Excel programına benzetmeye çalışarak kullanıcılarla yakınlık kurmaya çalışır. Herkes Excel kullanmayı bilir. Bu nedenle programını Excel’e benzetirsen, herkes kolaylıkla kullanmaya başlar. İşte bu nedenden, Data Mining (Veri Madenciliği) konularına yeni başlayan arkadaşlara microsoft’un kendi ürünü olan ve excel içersinde kullanılan bir eklenti olarak gelen Data Mining Add-Inn programını öneriyorum.

Excel’de Veri Madenciliği yapabilmeniz için gereksinim duyacağınız üç  program var:

1- 2007 sonrası sürüme sahip bir Office programı

2- 2005 sonrası sürüme sahip bir Microsoft SQL Programı

3- Microsoft’un sitesinden edinebileceğiniz Excel Add Inn eklentisi

 

Office programınızın kurulu olduğunu varsayarak adım adım kurulum:

1- Excel Data Mining Add In programına ulaşmak için google’da arama yapabilirsiniz.

0002-Excel Add inn kurulumu

 

 

2- Gelen arama ekranından birinci sıradaki sonuca tıklanır ve alttaki ekran gelir.

0001-Download Center

 

3- Download tuşuna basıldıktan sonra alttaki ekran gelir.

0003-Excel Add inn kurulumu 2

 

4- Burada bilgisayarınız 32 bir ise üstteki seçimi, 64 bir ise alttaki seçimi yaptıktan sonra Next tuşu ile devam edersiniz.

01-ileri dedik bu ekran geldi

 

5- Finish tuşuna bastığınızda alttaki ekran gelecektir.

02-finish dedik bu ekran geldi

6- Close tuşuna bastıtan sonra içersinde Data Mining alıştırmaları yapmak için gerekliolan tabloların bulunduğu bir Excel dosyası açılır.

03-close dedik icinde örneklerin bulundugu bir excel dosyasyı açıldı

7- Var olan SQL veri tabanınızı Data Mining Add-In eklentisine bağlamak için öncelikle SQL Serverda bulunan Analyze Service içersinde gerekli olan veri tabanının oluşturulması gerekiyor. Bunun için Excel Data Mining Add-In programı kurulumu sonrasında gelen Server Configuration Utility programı ile bu işlemi gerçekleştiriyoruz.

14

 

8- Başlat menüsünde bulunan programa tıkladıktan sonra yeni bir veritabanı oluşturmak için gerekli olan ismi girerek seçimimize devam ediyoruz.

15

 

9- Gerekli izin seçimi yapılıp veri tabanı eklenerek ilerlenir.

16

 

10- Ve gerli tablolar otomatik olarak oluşturulur.

17

 

11- Bu işlemler bittikten sonra  SQL Server Configuration Manager’da Da ta Mining Add In programının çalışması içingerkli olan SQL Server Browser servisi “Running” durumuna getirilir.

07

 

12- Sql Server Browser çalışır bir hale getirildikten sonra, Excel içersinde Data Mining eklentisinin sekmesinde bulunan Connection kısmından SQL Veri tabanının Analysis Service hizmetine bağlanmamız gerekecektir.

04-sql kurulumundan sonra bağlamak için

 

13- Analysis Service Connection ekranında yeni bir bağlantı oluşturmak için “New” seçeneği seçilerek devam edilir.

05-sql kurulumundan sonra bağlamak için

 

14- Açılan ekranda, daha önceden oluşturduğumuz veri tabanını seçerek işlemimiz tanımlıyoruz.

19

 

 

Excel’de Data Mining işlemleri yapmanız için gerekli olan kurulum işlemleri işte bu kadar kolay. 🙂

 

The post Excel Data Mining Add-In Kurulumu appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/excel-data-mining-add-kurulumu/feed/ 0
Acemiler ve yeni başlayanlar için “Ki kare testini anlamak” http://veribilimlerienstitusu.com/acemiler-ve-yeni-baslayanlar-icin-ki-kare-testini-anlamak/ http://veribilimlerienstitusu.com/acemiler-ve-yeni-baslayanlar-icin-ki-kare-testini-anlamak/#comments Wed, 14 May 2014 17:08:46 +0000 http://veribilimlerienstitusu.com/?p=314 Ki -kare testi uygulanır iken örneklem verisi bir test istatistiğini hesaplamak için kullanılır, bu istatistik iki değişken arasındaki ilişkinin şans eseri olup olmadığını veren ihtimal değeridir. İstatistiğe ait birçok konuda olduğu gibi bu konuda da tanımlar biraz karmaşık gelebilir, bu yüzden bir örnek ile meseleyi irdeleyelim. Öğrencilerin karakterlerinin iki kategori altında incelendiği (öğrencilerin iki gruba ...

The post Acemiler ve yeni başlayanlar için “Ki kare testini anlamak” appeared first on Veri Bilimleri Enstitüsü.

]]>
Ki -kare testi uygulanır iken örneklem verisi bir test istatistiğini hesaplamak için kullanılır, bu istatistik iki değişken arasındaki ilişkinin şans eseri olup olmadığını veren ihtimal değeridir.

İstatistiğe ait birçok konuda olduğu gibi bu konuda da tanımlar biraz karmaşık gelebilir, bu yüzden bir örnek ile meseleyi irdeleyelim.

Öğrencilerin karakterlerinin iki kategori altında incelendiği (öğrencilerin iki gruba ayrıldığı) bir sınıf düşünelim. İçine kapalı ve sosyal öğrenciler adlı iki grubumuz var. bu öğrencilere en sevdikleri renkleri soruyoruz ve renkler ile kişilik arasında bir bağıntı (ilişki) var mı incelemek istiyoruz.

Aşağıdaki tabloda öğrenci sayıları var;

Gözlem sayıları Kırmızı Sarı Yeşil Mavi Toplam
İçe kapalı kişilik 20 6 30 44 100
Sosyal kişilik 180 34 50 36 300
Toplam 200 40 80 80 400

Bu problemi inceler iken kurulabilecek hipotezler şu şekilde olabilir;

H0: Renk seçiminin kişilik ile bir ilişkisi yoktur.

H1: Renk seçiminin kişilik türü ile bir irtibatı vardır.

Ho Olarak ifade edilen Boş hipotez  (Null hipotez namıyla meşhur) bizim biraz sonra test edeceğimiz hipotezimiz. Bilgisayar programları aşağıda özetlenen işlemleri yapar ve bize test istatistiğini verirler. Ama siz zaten arkada dönen işlemleri anlama adına bu yazıyı okuyorsunuz.

Şimdi Ki -kare değerinin nasıl hesaplandığını görelim:

 

form 1

 

 

formülü mümkün mertebe karışık gösterimler kullanmadan sözel ifadeler ile yazdım. Frekans değeri ifadesi okuyucuyu korkutmasın, frekans bir olayın (durumun) hangi sıklıkta olduğunun ifadesidir. Örneğin bizim tablomuzda kırmızı rengin içe kapalı kişilik tarafından seçilme sayısı (yani 20)bu olayın frekansını vermektedir. Tablodaki her bir hücre gözlenmiş değerlerin sayılarını verdiği için frekans değerleri tabloda verilmiştir. Şimdi Ki -kare değerini hesaplayabilmemiz için gereken (tabloda verilmeyen ama bizim basitçe bulabileceğimiz) diğer bir parametreyi yani “beklenen frekans değerini” bulalım. Tabloda 4 farklı renk ve iki farklı kişilik yani (4*2=8) hücre yer almakta. Her bir hücre için Null hipotez için Ki -kare değerini hesaplayacağımızı unutmayalım.

form2

 

 

şeklinde bulunacaktır. Tablomuz üzerinde içe kapalı kişilik ve kırmızı renk sevenler (20 değeri yazılı olan hücre) hücresi için Ki -kare değerini hesaplayalım. bu hücreye 1_1 ismini verelim.

fonm3

 

 

şeklinde bulunacaktır. Her bir hücre için beklenen frekans değerlerini bulup  aşağıdaki tabloyu elde ediyoruz.

Beklenen değerler Kırmızı Sarı Yeşil Mavi Toplam
İçe kapalı kişilik   50 10 20 20 100
Sosyal kişilik 150 30 60 60 300
Toplam 200 40 80 80 400

Şimdi birinci formülümüze göre hücre1_1 için Ki -kare değerini hesaplayalım;

 

form4

 

 

Bu şekilde herbir hücre için ki -kare değerlerini hesaplar isek;

Ki -kare değerleri Kırmızı Sarı Yeşil Mavi
İçe kapalı kişilik 18 1.6 5 28.8
Sosyal kişilik 6 0.533 1.667 9.6

değerlerini buluruz. Genel toplam yani bu 8 hücre ki -kare değerlerinin toplamı bize Ki -kare istatistiğini verecektir. Ki -kare istatistiği= (18+1.6+5+28.8+6+0.533+9.6)=71.2

yapılan işlemlerde DF =3 olduğunu görüyoruz. Degree of Freedom kelimelerinin kısaltması olan bu terim Türkçemize serbestlik derecesi olarak girmiştir. Df değeri kategori sayılarının birer eksiltilerek çarpılması ile hesaplanıyor. Örneğimiz için DF= (2-1)*(4-1)=3

Bulunan Ki-kare değerinin kritik Ki -kare değerinden büyük olup olmadığına bakmak için Ki -kare tabloları kullanılır. Bu tablolarda belli bir yanılma olasılığına (α) göre DF değerleri kullanılarak kritik ki -kare kritik değerleri okunabilir. Sizin sayısal işlemler yaparak bulduğunuz değer, tablodan okunan kritik değer ile kıyaslanır. Eğer sizin bulduğunuz Ki -kare değeri tabloda okunan kritik değerin üstünde ise Ho boş hipotezi red edilecektir. Örneğimizde, hipotezini test etmek için bulduğumuz toplam ki -kare değeri DF=3 için 71.2 idi. DF=3 için 0.005 yanılma olasılığı altında tablodan okuyacağımız kritik Ki-kare değeri 12.84 olacaktı. Bulduğumuz değerin bu değerden büyük olduğunu görüyorsunuz (71.2>12.84) öyle ise Ho hipotezini red ediyoruz.

form6

 

 

İstatistik programları size kritik Ki-kare değerini vermez bunun yerine anlaması ve yorumlaması çok zor olan p değerini verir. p value konusunu başka bir yazıda özetleyelim ama kabaca şunu söyleyebiliriz. p değeri Ho boş hipotezi varsayımı altında test istatistiği değerinin hesaplanan istatistik değerine eşit veya aşma ihtimalini verir. Eminim kafanız karışmıştır.

Bizim örneğimizde program (SPSS kullanıyoruz) p değerini ( unutmayın SPSS p value yerine sig. ifadesini kullanır) sig.= 0.000 olarak verdi. Dolayısı ile Ho boş hipotezini red ediyoruz.  H0: Renk seçiminin kişilik ile bir ilişkisi yoktur idi, bu ifadeyi red ettik. Yani kişilik türü ile renk seçimi arasında bir ilişki olduğunu  (istatistiksel olarak anlamlı bir ilişki) görmüş olduk.

sig.=p value=0.000 sonucunu sözel olarak ifade edelim sanırım daha aydınlatıcı olacaktır.

Renk seçimi ile kişilik karakter özelliği arasında bir ilişki yoktur varsayımı altında bulunan test istatistiğinin hesapladığımız Ki kare istatistiği değerini aşma ihtimali sıfır.  Bu sözel ifade aşağıdaki denklemin sağlandığını gösteriyor. Yani;

form6

 

 

Not: İstatistik programları 0.000 ifadesini değerin p<0.001 den daha küçük olduğunu göstermek için kullanırlar. Bu gösterim değerimizin sıfıra eşit manasına gelmez. 

Ki -kare dağılımının kullanım amaçları

  • Sayısal olmayan değişkenler arasındaki ilişkinin varlığını test edebiliriz.
  • Farklı örneklemelerin aynı ana kütleden seçilip seçilmediğini test edebilirsiniz.
  • n hacimli bir örneklemenin ilgili ana kütleyi iyi temsil edip edemediği belirlenebilir.
  • Sayısal olmayan iki değişken arasındaki ilişkinin derecesi belirlenebilir.
  • Örnek değerlerinin dağılımının belirli bir teorik dağılıma uyma derecesinin saptanması (Uygunluk testi)
  • İki veya daha fazla nitelik esas alınarak sınıflandırılan veriler değerlendirilerek bu nitelikler arsındaki ilginin derecesinin belirlenmesi

The post Acemiler ve yeni başlayanlar için “Ki kare testini anlamak” appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/acemiler-ve-yeni-baslayanlar-icin-ki-kare-testini-anlamak/feed/ 2
Veri Madenciliği Teknikleri: Ne tür veriler için ne tür modeller kullanmalıyım? http://veribilimlerienstitusu.com/veri-madenciligi-teknikleri-%e2%80%a2ne-tur-veriler-icin-ne-tur-modeller-kullanmaliyim-%e2%80%a2model-ve-yontemlerin-siniflandirilmasi/ http://veribilimlerienstitusu.com/veri-madenciligi-teknikleri-%e2%80%a2ne-tur-veriler-icin-ne-tur-modeller-kullanmaliyim-%e2%80%a2model-ve-yontemlerin-siniflandirilmasi/#respond Tue, 13 May 2014 13:19:35 +0000 http://veribilimlerienstitusu.com/?p=304 Herhangi bir veri madenciliği aracı kullanarak veri madenciliğinin büyülü dünyasına girmeden önce genel bir bakış açısı kazanmanın faydalı olduğunu düşünüyorum. Veri ile ilgili yöntemler her geçen gün gelişerek değişse de geleneksel olarak kullanıla gelen yöntemlerin ve veri türlerinin ilişkisini öğrenmek iyi bir başlangıç noktası olabilir. Aşağıdaki şekli inceleyerek işe başlayalım: Şekil 1: Veri madenciliği tekniklerinin ...

The post Veri Madenciliği Teknikleri: Ne tür veriler için ne tür modeller kullanmalıyım? appeared first on Veri Bilimleri Enstitüsü.

]]>
Herhangi bir veri madenciliği aracı kullanarak veri madenciliğinin büyülü dünyasına girmeden önce genel bir bakış açısı kazanmanın faydalı olduğunu düşünüyorum. Veri ile ilgili yöntemler her geçen gün gelişerek değişse de geleneksel olarak kullanıla gelen yöntemlerin ve veri türlerinin ilişkisini öğrenmek iyi bir başlangıç noktası olabilir. Aşağıdaki şekli inceleyerek işe başlayalım:

Şekil 1: Veri madenciliği tekniklerinin sınıflandırılması

Picture1

Şekilde görüldüğü gibi veri madenciliğinde kullanılan yöntemleri öncelikli olarak;  Predictive  (tahmine dönük) ve Explanatory data analysis (EDA olarak bilinir) yöntemler başlığı altında ikiye ayırabiliriz.  John Tukey’in literatüre katkıları ile oldukça gelişen ve günümüzde pekçok istatistik aracında default seçenekler halinde pekçok fonksiyonu yer alan tanımlayıcı istatistikler herhangi bir veri madenciliği projesine başlangıç aşamasında oldukça önemli ve ihmal edilmemesi gereken adımlardan biridir.

Tanımlayıcı istatistiklerin önemi

Tahmin yapmak yerine veri setinizi tanımak ve tanımlamak için uğraşıyor iseniz veya veriler arasındaki ilişkiyi irdeliyor (ama birini diğerlerine bağlı tahmin etmiyor iseniz) açıklayıcı analizler kulvarındasınız demektir.

  • Tanımlayıcı istatistikler (min, maks, std. sapma,…),
  • Korelasyon incelemeleri (Rank korelasyonlar veya  spearman korelasyonları),
  • Kutu diagramı, korelagram, Histogramlar
  • Zaman gidiş diyagramları, spectral yoğunluk ve periodgram grafikleri,
  • Hipotez testleri (parametrik ve non parametrik testlerin tümü ),
  • Outlier ve ekstrem değer araştırmaları, eksik veri analizleri,
  • Faktör analizleri ve temel bileşen (Principal component) analizleri

bu grup analizler altında yapıla gelen geleneksel analizlerdir.

Veri madenciliği çalışmalarının nihai amacı veriyi tanımlamaktan ziyade tahmin edebilen dinamik sistemler tanımlamaktır. “Tanımlayıcı analizler” veri madenciliğinin bir parçası olarak kabul edilmektedir çünkü tanımlayıcı istatistikler yapılmadan (doğru) herhangi bir model kurulamamaktadır. Bir diğer açıdan bakılacak olur ise bir çok yöntem (tahmin edici model) veri  setini oluşturan verilerin türüne, ölçeğine ve/ya  dağılımına bağımlı olarak tanımlanabilmektedir (ör: lineer regresyon modelleri).  Bu durum da tanımlayıcı analizleri veri madenciliği projelerin başlangıç aşamasında önemli bir süreç haline getirmektedir. Yani hangi modeli kullanarak sonuca varacağınız sizin model bilginize, kullandığınız veri madenciliği aracının kapasitesine ve veri türlerinize bağımlı olarak değişir. Örneğin kategorik verileri tahmin etmek için lineer regresyon modelleri kullanamazsınız. Kullandığınızda “nominal”  (küçüklük büyüklük ilişkisi olmayan kategorik ölçek) verileriniz rakamsal değerler olarak regresyon denklemince tahmin edilecektir. Bu durumda 1-4 arasında değerler alan kategorik değişkenlerin rakamsal karşılıkları (ortalama, standart sapma gibi) regresyon modelini geliştirirken kullanılacaktır. Bu karaşıklık ise sizi ise tamamen farklı bir sonuca götürecektir. Veya ön tanımlayıcı analizler yapılmadan, aralarında lineer korelasyon çok yüksek bir çok değişkenin regresyon denklemine sokulması ile (muhtemelen) regresyon denklemin stabilitesi bozulacak, regresyon sabitlerinde çok küçük artışlar için çok büyük değişiklikler meydana gelecektir. Bu durum lineer regresyon modellerinde sık karşılaşılan ve tam bir baş belası olan [multikolinerite problemi] olarak tanımlanmaktadır.

Yukarıda görüldüğü gibi tanımlayıcı istatistiklerin bir zorunluluk olduğunu ve iyi bir model kurabilmek için bu analizlerin doğru yapılması gerektiğini gösteren pek çok örnek verilebilir.!!!

Predictive modeller ve veriye uygun model seçimi

Detaylarına ilerleyen yazılarda gireceğiz ama öncelikli olarak şunu belirtmeliyim, her geçen gün farklı tür ve büyüklüklerdeki verileri (text verisi, kategorik, komplex samples,.. ) incelemek için yeni algoritmalar türetilmektedir. Bu yazı kapsamında yazarın bilgisi dahilinde şu an için geçerli olan yöntemler kısaca tartışılacaktır.

Model kurgulanır iken modelde girdi olarak kullanılan değişkenlerin önüne bir hedef değişken veriliyor ise (öğretmen- supervisor) ve model bu hedef değişkeni tahmin başarısına göre düzenleniyor ise (regresyon analizi gibi) veya iteratif bir süreçte optimize ediliyor ise (neural networks gibi)  supervised modeller (öğretmenli öğrenen modeller olarak dilimize çevrilmiş) kuruluyor demektir.  hedef değişkene bağlı tanımlanan modeller ise hangi tür veriyi tahmin etmek hedeflendiğine göre ikiye ayrılmaktadır; prediction ve classification. Eğer tahmin edilmeye çalışılan hedef değişken bir kategorik değişken ise bu durumda yapılan işlem bir sınıflandırma işlemi olacaktır. Yani hedef değişkene ait farklı kategoriler diğer girdi değişkenleri yardımı ile tahmin edilmek isteniyordur. Örneğin müşterilerin demografik özelliklerinin, alışveriş alışkanlıklarının, müşteri ilişkileri departmanı ile iletişimlerinin yer aldığı bir veri setinde müşterileri bir kampanyayı (veya firmayı) bırakanlar ve sadık müşteriler (devam edenler) olarak tanımladığımız bir kategorik değişken tanımlandığını varsayıyoruz. Terk eden müşterileri  “1” kalan müşterileri “0” boş değerleri  (bulk variable)ile kodlayalım. Müşterilere ait yaş, cinsiyet, toplam alışveriş hacmi, firmayı ziyaret frekansı, müşteri şikayet hattını araması, görüşmelerin frekansı, ..vb. gibi pek çok veri kullanılarak bu müşterinin terk eden mi (“1” mi) yoksa kalan mı olacağı (“0”) tahmin edilmeye (modellenmeye ) çalışıyor ise bu çalışma classification (Şekil 1 sol alt kutucuk) çalışmaları grubuna dahil edilecektir.

 Veri madenciliği uygulamalarında Churn analizleri (giden/ terkeden müşteri analizleri) olarak bilinen bu analizler çok sık yapılan ve firmalar için hangi müşterilerin ne zaman firmayı ve ya bir kampanyayı  (çoğunlukla telekom uygulamalarında) terk edeceğini tahmin avantajı sağlayan analizlerdir. 

Böyle bir çalışma ile modelde anlamlı girdiler tespit edilip yarınlarda firmayı terk edecek muhtemel müşteriler sınıflandırılırken müşteri terk sürecini nelerin etkilediği incelenebilmektedir. sürecin incelenmesi önceleniyor ise kural tabanlı karar ağaçları (decision tree) kullanımı daha avantajlı olacak iken eğer modelin tahmin başarısının yüksek olması önceleniyor ise neural network modellerinin kullanımı daha avantajlı olacaktır. Unutmamak gerekir iki model de kategorik verileri tahmin için kullanıma elverişli iken, süreç incelemelerinde çok avantajlı modeller olan lineer regresyon modelleri bu problemde kullanılamayacaktır. Mutlaka regresyon modeli kullanılmak isteniyorsa çıktıyı ihtimaller cinsinden veren (odds ratio) lojistik regresyon modelleri kullanılabilir.

Son olarak eğer Model herhangi bir rehber değişkene bağlı olarak kurgulanmamış ise bu durumda unsupervised modeller (öğretmensiz modeller) kuruluyor demektir. Unsupervised modeller içinde en çok bilinen ve en yaygın kullanılan modelleri kümeleme analizleridir (cluster analysis).

 

The post Veri Madenciliği Teknikleri: Ne tür veriler için ne tür modeller kullanmalıyım? appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/veri-madenciligi-teknikleri-%e2%80%a2ne-tur-veriler-icin-ne-tur-modeller-kullanmaliyim-%e2%80%a2model-ve-yontemlerin-siniflandirilmasi/feed/ 0
Veri madenciliği proje döngüsü: CRISP-DM http://veribilimlerienstitusu.com/veri-madenciligi-proje-dongusu-crisp-dm/ http://veribilimlerienstitusu.com/veri-madenciligi-proje-dongusu-crisp-dm/#respond Sun, 30 Mar 2014 10:11:07 +0000 http://veribilimlerienstitusu.com/?p=208 Veri madenciliği Proje döngüsü: CRISP Veri madenciliği son yılların en popüler konusu, veri saklama ve veriye ulaşma süreçleri teknoloji ile birlikte geliştiği için ve böylece veriyi etkin kullanabilme olanağı arttığı için sanırım uzun yıllar güncelliğini koruyacak. Veri madenciliği kavramsal olarak çokça tartışılan ve daha uzun bir sürede tartışılacak olan bir konu. Tartışmaların odağında veri madenciliği ...

The post Veri madenciliği proje döngüsü: CRISP-DM appeared first on Veri Bilimleri Enstitüsü.

]]>
Veri madenciliği Proje döngüsü: CRISP

Veri madenciliği son yılların en popüler konusu, veri saklama ve veriye ulaşma süreçleri teknoloji ile birlikte geliştiği için ve böylece veriyi etkin kullanabilme olanağı arttığı için sanırım uzun yıllar güncelliğini koruyacak. Veri madenciliği kavramsal olarak çokça tartışılan ve daha uzun bir sürede tartışılacak olan bir konu. Tartışmaların odağında veri madenciliği (Data mining) kavramının içine nelerin dahil edilmesi gerektiği yatıyor. Bu yazıda bu tartışmalara girmeden uygulama için çok önemli ve mutlaka bilinmesi gereken bir konu olan Veri madenciliği proje döngüsünden bahsedeceğim. Veri madenciliği proje yönetim standardı veya Veri madenciliği hayat döngüsü (life cycle) olarak da ifade edilebilen, aslında derli toplu bir metodoloji sunumu olan bu yöntemler içinde en yaygın kullanılanı CRISP (CRoss Industry Standard Process for Data Mining). Orijinal üyeleri Daimler-Benz, SPSS ve NCR olan bir konsorsiyum tarafından geliştirilmiş. Şu an yaygın olarak kullanılan pekçok datamining aracı bu yöntemi baz almaktadır. (ör. IBM SPSS, Statsoft STATISTICA). Bu benzer yaklaşımlar farklı platformlarda da mevcut mesela yaygın kullanıma sahip SAS programı SEMMA (sample, explore, modify, model, assess) sürecini detaylandırmaktadır. Bu süreçlerin pratikte kullanılabilirliği ve ne kadar kullanıldığı farklı platformlarda tartışılmaktadır. Daha detaylı bir karşılaştırma isteyen okuyucular için uygulamacıların deneyimlerinin de yer aldığı bir link vereyim;

http://www.linkedin.com/groups/CRISPDM-Is-it-really-used-35222.S.5806045553489883139

CRISP-DM döngüsü ile bana göre biçimsel bir takip yapılamasa da doğru düzgün bir proje yapmak isteyen her veri madencisinin takip edeceği ve etmesi gereken adımlar özetlenmiş.  Bu yazıda aşağıdaki şekilde görülen CRISP döngüsünün ilk iki adımından bahsedeceğiz, ilerleyen yazılarda ise diğer adımları biraz daha detaylı anlatmaya çalışacağım:

1) İşi anlamak (Business understanding):

Genellikle ihmal edilen bir adım belki birazda maymun iştahlılıkla bir an önce veriyi işleyen canavar makineleri (ör. SPSS modeler, STATISTICA data mining) doyurma aceleciliğinden dolayı dikkatsizce atlanan bu basamağın telafisi yok. Çünkü ileride üzerine birçok kat bina edeceğiniz bir gökdelenin temelini bu adımda inşa ediyorsunuz. Acele ile atılmış iyi düşünülmemiş çürük bir temel çok geçmeden binanızın çökmesine neden olacaktır veya çok savruk (özensiz) bir yapı inşa edeceksiniz demektir.

CRISP-DM Döngüsü

CRISP-DM Döngüsü

2) Veriyi anlamak (Data understanding): Veriyi anlamak deyince sadece veri içindeki outlier veya uç (ekstrem) değerleri veya kayıp veri analizini (missing value analysis) kastetmiyorum. Buraya gelmeden önce iş süreçleri, raporlamalar ve akış düzeni, veriler hangi aralıklarla hangi biçimlerde tutuluyor,… gibi onlarca konuyu irdelemek gerekiyor.

Veriyi anlama süreci işi anlama sürecinin bütünleyici bir parçası olduğu için şekilde çift yönlü oklar ile gösterilmiş. Veriler arasında mantıksal ilişkiyi anlamak projenin en önemli adımı sayılabilir. Sağlam modeller kurmak için Veri tabanından hangi sorgulamalar ile hangi verileri çekmeniz gerektiğine karar vermeniz gerekiyor, bunun sağlıklı yapılabilmesi ise veri tabanında tutulan verileri anlamakla başlıyor. Veriler arasında ilişkilerin varlığı (istatistiksel ilişkiden ziyade mantıksal ilişkinin varlığı) hep bu adımda irdeleniyor.

Çok hızlıca özetlediğim CRISP hayat döngüsünde ki bu iki adım çok kritik ve belli uzmanlık alanlarının beraber çalışmasını gerektirecek bir yapıya sahip. Diğer yazılarda ise diğer adımlardan bahsedeceğim.

The post Veri madenciliği proje döngüsü: CRISP-DM appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/veri-madenciligi-proje-dongusu-crisp-dm/feed/ 0
Data Mining Dünyasında TOP 10 Algoritma http://veribilimlerienstitusu.com/data-mining-dunyasinda-top-10-algoritma/ http://veribilimlerienstitusu.com/data-mining-dunyasinda-top-10-algoritma/#respond Thu, 06 Feb 2014 08:21:57 +0000 http://veribilimlerienstitusu.com/?p=74 Mustafa Akça Data Scientist/Veri Bilimci   “Knowledge and Information Systems” dergisinde yapılan bir değerlendirmede en popüler data mining algoritmaları hangisidir? sorusuna cevap verilmişti. Bu araştırma aslında bir KDD (Knowledge Discovery in Databases) konferasnsında düzenlenen yarışmada kazananlar arasında problemleri çözmede kullanılan algoritmalardan yola çıkılmış olup bu algoritmalar şunlardan oluşmaktadır: Machine Learning Algoritmaları: k-Nearest Neighbors Decision trees ...

The post Data Mining Dünyasında TOP 10 Algoritma appeared first on Veri Bilimleri Enstitüsü.

]]>
Mustafa Akça

Data Scientist/Veri Bilimci

 

“Knowledge and Information Systems” dergisinde yapılan bir değerlendirmede en popüler data mining algoritmaları hangisidir? sorusuna cevap verilmişti. Bu araştırma aslında bir KDD (Knowledge Discovery in Databases) konferasnsında düzenlenen yarışmada kazananlar arasında problemleri çözmede kullanılan algoritmalardan yola çıkılmış olup bu algoritmalar şunlardan oluşmaktadır:

Machine Learning Algoritmaları:

k-Nearest Neighbors

Decision trees

Naïve Bayes algorithm

Support Vector Machines.

AdaBoost

 

Tahminleme Algoritmaları

Shrinkage methods

Linear Regression

Bias-variance

CART Algorithm

 

Öğretmensiz Öğrenme Algoritmaları

k-Means kümeleme algoritması

Apriori Algoritması

FP-Growth

* Logistic Regression bu listede yok fakat çok önemli bir algoritma olduğu için ek olarak belirtilebilir.

 

The post Data Mining Dünyasında TOP 10 Algoritma appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/data-mining-dunyasinda-top-10-algoritma/feed/ 0
RFM Nedir? http://veribilimlerienstitusu.com/rfm-nedir/ http://veribilimlerienstitusu.com/rfm-nedir/#respond Mon, 06 Jan 2014 08:46:46 +0000 http://veribilimlerienstitusu.com/?p=84 RFM Analiz Recency(Güncellik), Frequency(Frekans) ve Moneatry(Tutar) kelimelerinin kısaltması olup etkili pazarlama iletişimi için kullanılan bir yöntemidir

The post RFM Nedir? appeared first on Veri Bilimleri Enstitüsü.

]]>
Mustafa Akça

Data Scientist/Veri Bilimci

 

RFM Analiz Recency(Güncellik), Frequency(Frekans) ve Moneatry(Tutar) kelimelerinin kısaltması olup etkili pazarlama iletişimi için kullanılan bir yöntemidir. Doğrudan pazarlamacılar tarafından bir segmantasyon aracı olarak 40 yıldan fazla süredir kullanılmaya devam etmektedir. RFM’in temel dayanak noktası yakın zamanda alış veriş eden, sık alışveriş eden ve alışverişlerinde iyi para bırakan müşterilerin gelecekteki pazarlama kampanyalarında en umut vaat eden müşteriler olduğu görüşüne dayanmaktadır. Araştırmalarda elde edilen sonuçlar göstermiştir ki; bir müşterinin kampanyalara tepki verme ihtimalini artıran üç ana unsur bulunmakta ve bu unsurlar önem sıralarına göre şöyle sıralanmaktadırlar:

1-      Müşteri yakın zamanda alış veriş ettiyse, yine alışveriş edebilir. Recency(Güncellik)

2-      Müşteri sık alışveriş ediyorsa, yine edebilir. Frequency(Frekans)

3-      Müşterinin toplam bıraktığı parasal değer yüksekse Moneatry(Tutar) yine alışveriş edebilir.

Mevcut müşteriler alışveriş geçmişlerine bakılarak Güncellik, Frekans ve Tutar açısından sektör yapısına ve müşteri veri tabanı tipine bağlı olarak 1-5 arasında değerlerle skorlanır. Böylelikle mevcut müşteriler 1 ile 5 arasında değer alan 3 değişkenli RFM skoruna sahip 125 farklı müşteri tipine ayrılır. Siz de bu müşteri tiplerine göre kampanya yönetebilir, aksiyon alabilirsiniz.

 

The post RFM Nedir? appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/rfm-nedir/feed/ 0
Sigorta Sektöründe Risk Yönetimi Veri Madenciliği Uygulamaları http://veribilimlerienstitusu.com/sigorta-sektorunde-risk-yonetimi-veri-madenciligi-uygulamalari/ http://veribilimlerienstitusu.com/sigorta-sektorunde-risk-yonetimi-veri-madenciligi-uygulamalari/#respond Fri, 06 Dec 2013 07:55:37 +0000 http://veribilimlerienstitusu.com/?p=69 Sigorta sektörü için Risk yönetimi diğer sektörlere nazaran çok daha önemlidir.

The post Sigorta Sektöründe Risk Yönetimi Veri Madenciliği Uygulamaları appeared first on Veri Bilimleri Enstitüsü.

]]>
Yard. Doç. Dr Ali osman Pektaş

aliosmanpektas@gmail.com

 

Sigorta sektörü için Risk yönetimi diğer sektörlere nazaran çok daha önemlidir. Hatta sigortacılık bir yönüyle risk yönetimidir de denilebilir. Yıllardır, sigortacılar yüksek ve düşük risk taşıyan profilleri tanımlayabilmek için ölçülebilir her türlü veriyi kullanmaya çalışırlar. Veri madenciliği yöntemlerinin gelişmesine paralel olarak sigortacılık sektöründe bir kısım analizler gelenekselleşirken her gün yeni yöntemler ve hibrit kullanımlar literatüre eklenmektedir. Yöntemlerin detaylarına girmeden sigortacılık sektöründe risk yönetimi ile ilgili veri madenciliği uygulamalarını iki genel başlık altında özetleyebiliriz.

1) Risk profili belirleme: Sigorta sektöründe yüksek risk taşıyan gruplara genellikle yüksek sigorta hak edişleri çıkarılmaktadır. Sigorta başvuruları esnasında sigortalanacak nesne veya sigorta konusuna paralel olarak yüzlerce farklı bilgi kayıt altına alınmaktadır. Bu veriler kategorik ve numerik ölçekte değişkenlerdir. Bu bilgilerin bir kısmı kullanılamayacak bilgi (noisy information) statüsünde değerlendirilecek olsa bile gene de onlarca farklı veri kullanılarak risk profilleri belirlenebilmektedir.

  • Risk profillerinin belirlenmesinde genellikle karar ağaçları kullanılmaktadır.
  • Fakat bu süreçte asıl önemli olan veri seti içinde modele girdi olarak kullanılabilecek anlamlı değişkenlerin seçilmesi sürecini yönetmektir. Bu süreçte ise en çok faktör analizleri ile boyut indirgenmesi yöntemleri tercih edilmektedir.

Aşağıdaki şekilde bir sigorta firmasının yüksek riskli olarak etiketlediği (tecrübeye dayalı olarak yapılan bir etiketleme) veri seti ile yapılan bir analiz sonucunda risk faktörlerinin ağırlıklarını görmektesiniz. Bu örnekte sağlık poliçesi incelenmiş ve sağlık poliçelerine  şirket tarafından yüksek oranda  ödeme yapılan müşteri verileri kullanılarak yüksek risk profili çıkarılmıştır.

sigorta

2) Sigorta Riski modelleme: Risk faktörlerini belirlemenin ötesinde kurulan dinamik bir model ile müşterinin riskinin belirlenmesidir. Karar ağaçları ve regresyon modelleri genellikle yetersiz sonuçlar vermektedir. Bu durumun başlıca sebebi sigorta sektöründe riskli grubun %10′ luk bir dilime sıkışmış olmasıdır.

Dolayısı ile veriler oldukça çarpık bir dağılıma sahip olacaktır. Karar ağaçları verilerin kısımlandırılmasına dayandığı için birçok durum için (dağılımın çarpıklığı nedeni ile) yanlı sonuçlar üretecektir.

Regresyon modellerinin de çarpık veriler üzerinde etkili sonuçlar vermediği bilinen bir gerçektir. Bu durumda kestirmeden önerilebilecek en iyi çözüm yapay sinir ağı modelleri kullanmaktır. Yapay sinir ağları problemin yapısını öğrenebilme kabiliyetleri ve kullanılan non lineer dönüşümler itibari ile çarpık veri setlerinde daha başarılı sonuçlar verebilmektedir. Fakat yapay sinir ağları kapalı kutu model yapısına sahip oldukları için kullanıcıya iç süreçler hakkında aydınlatıcı bir fikir verememektedirler. Bu yönüyle hem çarpık dağılım probleminin üstesinden gelme hem de iç süreçleri (ör: hangi müşteriye neden yüksek risk atandığı) daha iyi kavrama adına kural tabanlı algoritmalar  tahmin modelleri ile beraber kullanılabilir. Bu hibrit yapılar son yıllarda tüm sektörlerde olduğu gibi risk modellemesinde de yaygın olarak kullanılmaya başlanmıştır.

The post Sigorta Sektöründe Risk Yönetimi Veri Madenciliği Uygulamaları appeared first on Veri Bilimleri Enstitüsü.

]]>
http://veribilimlerienstitusu.com/sigorta-sektorunde-risk-yonetimi-veri-madenciligi-uygulamalari/feed/ 0
Başarıyı Değil, Stratejiyi Analiz Et! http://veribilimlerienstitusu.com/basariyi-degil-stratejiyi-analiz-et/ Sun, 06 Oct 2013 08:59:02 +0000 http://veribilimlerienstitusu.com/?p=91 Mustafa Akça Data Scientist/Veri Bilimci   Herhangi bir stratejiyi deneyen kaç şirket, bu strateji nedeniyle başarılı oldu? Sorusu gerçekten o stratejinin işe yarayıp yaramadığı hakkında bize bir izlenim verebilir. Sorun şu ki, herhangi bir nedenle başarı yakalayamamış bir şirket, ayakta kalamayacağı için gözlem altına alınan inceleme gruplarında yer almaz. Oxford’da Strateji profosoru olan Jerker Denrell ...

The post Başarıyı Değil, Stratejiyi Analiz Et! appeared first on Veri Bilimleri Enstitüsü.

]]>
Mustafa Akça

Data Scientist/Veri Bilimci

 

Herhangi bir stratejiyi deneyen kaç şirket, bu strateji nedeniyle başarılı oldu? Sorusu gerçekten o stratejinin işe yarayıp yaramadığı hakkında bize bir izlenim verebilir.

Sorun şu ki, herhangi bir nedenle başarı yakalayamamış bir şirket, ayakta kalamayacağı için gözlem altına alınan inceleme gruplarında yer almaz. Oxford’da Strateji profosoru olan Jerker Denrell buna başarısızlığın örneklendirilmemesi diyor.*

Örneğimizi strateji ile değil sonuçla incelediğimizden başarılı şirketleri inceliyor, her instagram online search hangi bir ilişki olmadığı halde neden ve sonucu birbirine bağlıyoruz.

Buradan alınacak ders çok açık, özellikle eylemlerin sonuçlerının belirlenmesinde şans faktörü de varsa, iyi bir stratejiyi belirlemek için başarıyı değil strateyi incelememiz gerekir.

* Vicarious Learning, Undersampling of Failure, and the Myths of Management 

The post Başarıyı Değil, Stratejiyi Analiz Et! appeared first on Veri Bilimleri Enstitüsü.

]]>
Veri Bilimleri Derneği’ni Kurduk http://veribilimlerienstitusu.com/veri-bilimleri-dernegini-kurduk/ Sat, 06 Jul 2013 17:49:35 +0000 http://veribilimlerienstitusu.com/?p=106 Mustafa Akça Data Scientist/Veri Bilimci İş dünyası ve akademik dünyanın birbirinden kopuk olduğunu her ortamda dile getiriyoruz. Uzmanı olduğumuz alanda da bu sorunu yaşayanlar olarak  özellikle sivil toplum çalışmalarımızda bu konuyu sık sık ele alıp, farklı zamanlarda sektörün ileri gelenleri ile bu konuda yaptığımız görüşmelerde sivil toplum örgütlerinin bu işe el atması gerektiği sonucuna vardık. Ve ...

The post Veri Bilimleri Derneği’ni Kurduk appeared first on Veri Bilimleri Enstitüsü.

]]>
Mustafa Akça

Data Scientist/Veri Bilimci

İş dünyası ve akademik dünyanın birbirinden kopuk olduğunu her ortamda dile getiriyoruz. Uzmanı olduğumuz alanda da bu sorunu yaşayanlar olarak  özellikle sivil toplum çalışmalarımızda bu konuyu sık sık ele alıp, farklı zamanlarda sektörün ileri gelenleri ile bu konuda yaptığımız görüşmelerde sivil toplum örgütlerinin bu işe el atması gerektiği sonucuna vardık.

Ve böylelikle;  Veri Bilimleri Derneği 15.05.2013 tarihinde, veri bilimciliği faaliyetlerinin etkinleştirilmesi ve geliştirilmesini sağlamak ve bu konuda çalışmalar yapan kişi ve kuruluşlara destek vermek amacı ile fiilen kurulmuş oldu. Dernek, Bu amaca yönelik hizmetlerin etkinleştirilmesi ve geliştirilmesi için kurs, seminer, konferans ve panel gibi eğitim ve musically araştırma çalışmaları düzenlemeyi hedeflemektedir.

25.10.2013 tarihinde resmen kurulan Veri Bilimleri Derneği’nin üyeleri arasında akademik dünyadan ve profosyonel iş dünyasından önemli isimler yer almaktadır.

The post Veri Bilimleri Derneği’ni Kurduk appeared first on Veri Bilimleri Enstitüsü.

]]>