Arkadaşlar Merhaba ;
Diğer yazıma ilaveten veri ambarı nedir ? , nasıl oluşturulur ? konusuna göz atalım .
Öncelikle kısaltmalara bakalım :
Şimdi ise sırayla :
İş Zekası , verinin bilgiye dönüşümü işlemidir .(Gartner Group)
Teknik Avantajları :
2. Datamart Nedir ?
3. DWH ile OLTP Arasındaki Farklar ?
4. DWH Bileşenleri Nelerdir ?
DWH Yazılım Yaklaşımları :
5. ETL Ne Demektir ?
E-T-L (Extract -Transform-Load) anlamına gelmektedir . Zaten bu konuya da daha önce değinmiştim . Kısaca hatırlamak mahiyetinde üzerinden geçelim .
Extraction:
Truncate & Load :
Slowly Changing Dimensions Type 2(SCD)
Star Schema
customer : müşteri ; product : ürün ; supplier : tedarikçi ;geography : coğrafya ; sales :satış ; dimension table : boyut tablosu . fact table : geçeklik tablosu.
Snowflake Schema
8. Veri Kalitesi Nedir ? , Nasıl Sağlanır ?
Beklenen veri , beklenen yerde , beklenen şekilde bulunmaz ise veri kalitesi problemi ortaya çıkar .
Fact Tablo Karekteristikleri
KAYNAK:
https://www.slideshare.net/GurcanOrhan/what-isdwh
https://gurcanorhan.wordpress.com/2011/03/21/troug-sakarya-universitesi/
https://gurcanorhan.wordpress.com/2011/03/25/troug-sakarya-universitesi-2/
Diğer yazıma ilaveten veri ambarı nedir ? , nasıl oluşturulur ? konusuna göz atalım .
Öncelikle kısaltmalara bakalım :
Şimdi ise sırayla :
- Veri ambarı nedir ? , ne demektir ?
- Dwh ile Dm arasındaki fark nedir ?
- Dwh ile OLTP arasındaki fark nedir ?
- Dwh bileşenleri nelerdir ?
- Etl ne demektir ?
- Etl tipleri nelerdir ?
- Modelleme nedir ? , Nasıl Yapılmalıdır ?
- Veri Kalitesi nedir ? Nasıl sağlanmalıdır ?
- Veri Tabanı Fiziksel Yaklaşımları nelerdir ?
- Datawarehouse Nedir ?
- EIS(Enterprise Information Systems--Kurumsal Bilgi Sistemleri)
- DSS(Decision Support Systems--Karar Destek Sistemleri)
- Data Warehousing and Business Intelligence
İş Zekası , verinin bilgiye dönüşümü işlemidir .(Gartner Group)
Teknik Avantajları :
- parelel kullanımı
- veri kümelemesi
- veri sıkıştırması
2. Datamart Nedir ?
Datamartlar ;
- Konu yönelimli
- tümleşik
- genellikle tek kaynak sistemden beslenir .
- Bağımlı DM : DWH ' tan beslenen kolay ETL , kurumsal planın parçası
- Bağımsız DM : Ayrık , operasyonel maliyeti yüksek ,harici veri kaynaklarında beslenen, analitik ihtiyaçlara göre hazırlanan veriler için kullanılır .
3. DWH ile OLTP Arasındaki Farklar ?
4. DWH Bileşenleri Nelerdir ?
DWH Yazılım Yaklaşımları :
- Bing Bang Yaklaşımı .
- Artımsal Yaklaşım
- Yukarıdan Aşağıya Artımsal (top-down incremental )
- Aşağıdan Yukarıya Artımsal (bottom-up incremental )
5. ETL Ne Demektir ?
E-T-L (Extract -Transform-Load) anlamına gelmektedir . Zaten bu konuya da daha önce değinmiştim . Kısaca hatırlamak mahiyetinde üzerinden geçelim .
Extraction:
- Farklı kaynak sistemden , veri tabanından farklı formatlarla elde edilir .
- Kaynak sistemlerin canlı ,arşiv ,dahili ve harici verilerine erişilebilir .
- Veri hataları düzeltilir .
- Genellikle staging area (remote/on site )(sahneleme alanı) kullanılır .
- Veri entegrasyonu sağlanır .
- İş kuralları verilere uygulanarak veri doğrulaması gerçekleştirilir .
- Veriler onaylanır .
- Verilere zaman entegre edilir .
- Elde edilen temizlenmiş veri DWH ortamına yazdırılır .
Truncate & Load :
- Kaynak sistemden elde edilen verilerin tümünün silinerek yeniden yapılandırılması .
- Kaynak sistemden elde edilen birincil anahtarlar (primary key) yardımı ile - yeni geleni ekle , mevcut olanı güncelle ,silineni işaretle - yaklaşımı
- Change Data Capture (CDC)
Slowly Changing Dimensions Type 2(SCD)
- Kaynak sistemden elde edilen veriler tarihsel olarak saklanarak hiçbir veri silinmez.(Tarihsel yaklaşım)
- Kaynak sistemdeki tablonun unusable (kullanılamaz ) olması
- Kaynak sistemdeki dosyaya erişilememe
- Yetersiz metadata
- Zayıf veya yetersiz analiz süreci
- Yetersiz yer (storage) planlama
- Kaynak sistemde yapısal değişiklikler
- Yetersiz veri validasyonu
- Hatalı mantıksal/fiziksel model dizaynı
- Veri tipi uyumsuzlukları
7. Modelleme Nedir ? , Nasıl Yapılmalıdır ?
MODELLEME
İş Modelinin Oluşturulması (Business Model)
- Strateji Analizinin Yapılması
- İş Birimi Tanımlarının ve Kurallarının Belirlenmesi
- İş İhtiyaçlarının Belirlenmesi
- İlişki ve İlişki Tiplerinin Belirlenmesi
- Fact ve Dimension 'ların tespit edilmesi
- Sonuçların mantıksal olarak üretilerek konu alanlarının tespit edilmesi
- Nesnelerin isim ve renk standartlarının belirlenmesi
- Donanım İhtiyaçlarının Tespit Edilmesi
- Tablo ve index için disk kapasite ihtiyacının belirlenmesi
- Partition stratejisinin belirlenmesi
- Güvenlik stratejisinin belirlenmesi
customer : müşteri ; product : ürün ; supplier : tedarikçi ;geography : coğrafya ; sales :satış ; dimension table : boyut tablosu . fact table : geçeklik tablosu.
Snowflake Schema
8. Veri Kalitesi Nedir ? , Nasıl Sağlanır ?
Beklenen veri , beklenen yerde , beklenen şekilde bulunmaz ise veri kalitesi problemi ortaya çıkar .
- Farkla anlama gelen data
- Eksik bilgi , verinin farklı alanda olması
- Veri tipi farklılığı
- Veri boyutu farklılığı
- Veri doğrulama kurallarının olmaması
- Drill- Down olmaması
- İlişkisel bütünlüğün olmaması , öksüz kayıtların varlığı
- Veri duplikasyonu
Fact Tablo Karekteristikleri
- İş birimlerinin kullanılacağı nümerik metrik değerleri içerir.
- Büyük miktarda veri içerir.
- Çabuk büyür , çok hızlı genişler.
- Stabil , türetilmiş yada özetlenmiş veri içerir.
- Genellikle ekleme yapılır .
- Genellikle dimension tablolarla foreign key ile ilişkilidir .
- İş birimlerinin görmek istedikleri metin tipteki veriyi içerirler.
- Genellikle statik veri içerirler.
- Boyutları küçüktür.
- Truncate Load mekanizmasına uygundur .
- Genellikle link tablolarıdır . (Fact -Dimension linki )
- Fact üzerindeki dimension ' ın tarihçe bilgilerini tutar .
KAYNAK:
https://www.slideshare.net/GurcanOrhan/what-isdwh
https://gurcanorhan.wordpress.com/2011/03/21/troug-sakarya-universitesi/
https://gurcanorhan.wordpress.com/2011/03/25/troug-sakarya-universitesi-2/