28 Ekim 2015 Çarşamba

VERİ AMBARI NEDIR ? NASIL OLUSTURULUR ?

Arkadaşlar Merhaba ; 

Diğer yazıma ilaveten veri ambarı nedir ? , nasıl oluşturulur ? konusuna göz atalım . 






Öncelikle kısaltmalara bakalım :


























Şimdi ise sırayla :

  1. Veri ambarı nedir ? , ne demektir ?
  2. Dwh ile Dm arasındaki fark nedir ?
  3. Dwh ile OLTP arasındaki fark nedir ?
  4. Dwh bileşenleri nelerdir ?
  5. Etl ne demektir ?
  6. Etl tipleri nelerdir ?
  7. Modelleme nedir ? , Nasıl Yapılmalıdır ?
  8. Veri Kalitesi nedir ? Nasıl sağlanmalıdır ?
  9. Veri Tabanı Fiziksel Yaklaşımları nelerdir ?
konularına kısaca hep birlikte göz atalım .


  1. Datawarehouse Nedir ?
DWH tarihi 

  • EIS(Enterprise Information Systems--Kurumsal Bilgi Sistemleri)
  • DSS(Decision Support Systems--Karar Destek Sistemleri)
  • Data Warehousing and Business Intelligence 
Bir veri ambarı  ; yönetim kararlarını destekleyici ,konu yönelimli ,entegre , uçucu olmayan ,ve zaman değişkenli veri kümesidir .(Bıll Inmon-1990)
İş Zekası , verinin bilgiye dönüşümü işlemidir .(Gartner Group)

Teknik Avantajları :

  • parelel kullanımı
  • veri kümelemesi
  • veri sıkıştırması
Bu konu hakkında daha önceki yazılarımızda açıklama yaptığımızdan dolayı pek fazla durmayacağım .
   
       2. Datamart Nedir ?


Datamartlar ;
  • Konu yönelimli
  • tümleşik
  • genellikle tek kaynak sistemden beslenir .
Bağımlı ve bağımsız olabilirler.
  • Bağımlı DM : DWH ' tan beslenen kolay ETL , kurumsal planın parçası
  • Bağımsız DM : Ayrık , operasyonel maliyeti yüksek ,harici veri kaynaklarında beslenen, analitik ihtiyaçlara göre hazırlanan veriler için kullanılır .
farklara bakacak olursak :












           3. DWH ile OLTP Arasındaki Farklar ?


















        4. DWH Bileşenleri Nelerdir ?


















DWH  Yazılım Yaklaşımları :

  • Bing Bang Yaklaşımı .
  • Artımsal Yaklaşım

  1. Yukarıdan Aşağıya Artımsal (top-down incremental )
  2. Aşağıdan Yukarıya Artımsal (bottom-up incremental )

     5. ETL Ne Demektir ?


E-T-L (Extract -Transform-Load) anlamına gelmektedir . Zaten bu konuya da daha önce değinmiştim . Kısaca hatırlamak mahiyetinde üzerinden geçelim .

Extraction:

  • Farklı kaynak sistemden , veri tabanından farklı formatlarla elde edilir .
  • Kaynak sistemlerin canlı ,arşiv ,dahili ve harici verilerine erişilebilir .
Transform:

  • Veri hataları düzeltilir .
  • Genellikle staging area (remote/on site )(sahneleme alanı) kullanılır .
  • Veri entegrasyonu sağlanır . 
  • İş kuralları verilere uygulanarak veri doğrulaması gerçekleştirilir .
  • Veriler onaylanır .
  • Verilere zaman entegre edilir .
Load :

  • Elde edilen temizlenmiş veri DWH ortamına yazdırılır .
       6. ETL tipleri nelerdir ?

Truncate & Load :

  • Kaynak sistemden elde edilen verilerin tümünün silinerek yeniden yapılandırılması .
Incremental Update :

  • Kaynak sistemden elde edilen birincil anahtarlar (primary key) yardımı ile  - yeni geleni ekle , mevcut olanı güncelle ,silineni işaretle - yaklaşımı
  • Change Data Capture (CDC)

Slowly Changing Dimensions Type 2(SCD)

  • Kaynak sistemden elde edilen veriler tarihsel olarak saklanarak hiçbir veri silinmez.(Tarihsel yaklaşım)
Bunların yanı sıra bazı ETL problemleri ortaya çıkmıştır . Maddeler halinde değinecek olursak ;
  • Kaynak sistemdeki tablonun unusable (kullanılamaz ) olması
  • Kaynak sistemdeki dosyaya erişilememe
  • Yetersiz metadata
  • Zayıf veya yetersiz analiz süreci 
  • Yetersiz yer (storage) planlama
  • Kaynak sistemde yapısal değişiklikler
  • Yetersiz veri validasyonu
  • Hatalı mantıksal/fiziksel model dizaynı
  • Veri tipi uyumsuzlukları
gibi başlıca problemleri sıralayabiliriz .

      7. Modelleme Nedir ? , Nasıl Yapılmalıdır ?

MODELLEME
İş Modelinin Oluşturulması (Business Model)
  • Strateji Analizinin Yapılması
  • İş Birimi Tanımlarının ve Kurallarının Belirlenmesi
  • İş İhtiyaçlarının Belirlenmesi
Mantıksal Modelin Oluşturulması(Logical Model)
  • İlişki ve İlişki Tiplerinin Belirlenmesi
  • Fact ve Dimension 'ların tespit edilmesi
  • Sonuçların mantıksal olarak üretilerek konu alanlarının tespit edilmesi 
  • Nesnelerin isim ve renk standartlarının belirlenmesi 
Fiziksel Modelin Oluşturulması (Physical Model )
  • Donanım İhtiyaçlarının Tespit Edilmesi
  • Tablo ve index için disk kapasite ihtiyacının belirlenmesi 
  • Partition stratejisinin belirlenmesi 
  • Güvenlik stratejisinin belirlenmesi 
Third Normal Form (3NF)




       Star Schema
























customer : müşteri ; product : ürün ; supplier : tedarikçi ;geography : coğrafya ; sales :satış ; dimension table : boyut tablosu . fact table : geçeklik tablosu.

Snowflake Schema 


























 

                 8. Veri Kalitesi Nedir ? , Nasıl Sağlanır ?

Beklenen veri , beklenen  yerde , beklenen şekilde bulunmaz  ise veri kalitesi problemi ortaya çıkar .

  • Farkla anlama gelen data
  • Eksik bilgi  , verinin farklı alanda olması 
  • Veri tipi farklılığı
  • Veri boyutu farklılığı
  • Veri doğrulama kurallarının olmaması 
  • Drill- Down olmaması
  • İlişkisel bütünlüğün olmaması , öksüz kayıtların varlığı
  • Veri duplikasyonu 
               9. Veri Tabanı Fiziksel Yaklaşımları Nelerdir ?

Fact Tablo Karekteristikleri

  • İş birimlerinin kullanılacağı nümerik metrik değerleri içerir.
  • Büyük miktarda veri içerir.
  • Çabuk büyür , çok hızlı genişler.
  • Stabil , türetilmiş yada özetlenmiş veri içerir.
  • Genellikle ekleme yapılır .
  • Genellikle dimension tablolarla foreign key ile ilişkilidir .
Dimension Tablo Karekteristikleri
  • İş birimlerinin görmek istedikleri metin tipteki veriyi içerirler.
  • Genellikle statik veri içerirler.
  • Boyutları küçüktür.
  • Truncate Load mekanizmasına uygundur .
Slowly Changing Dimension Tablo Karekteristikleri
  •  Genellikle link tablolarıdır . (Fact -Dimension  linki )
  • Fact üzerindeki  dimension ' ın tarihçe bilgilerini tutar .




























KAYNAK:
https://www.slideshare.net/GurcanOrhan/what-isdwh
https://gurcanorhan.wordpress.com/2011/03/21/troug-sakarya-universitesi/
https://gurcanorhan.wordpress.com/2011/03/25/troug-sakarya-universitesi-2/

Blogger tarafından desteklenmektedir.