Arkadaşlar Merhaba ;
ETL nedir ? Kısaca buna değinmek istiyorum .
Kısaltmasından da anlaşılacağı üzere ETL:
Extract , Transform , Load olarak geçen ; veriyi çıkar , değiştir , yükle anlamına gelir.
Entegre sistem kurulumlarında , göç ve veri ambarı projelerinde kullanılan adımların bir kısmının birlikte isimlendirilmesidir. Projelerde veri her zaman istediğimiz biçimde bulunmayabilir. Zaman zaman ihtiyaca göre aynı verinin kullanım amacına bağlı olarak farklı düzenlerde kullanılması gerekir .Etl araçları ile verinin kaynaklarından , ham olarak işlenecek kaynağa çevrilmesi yapılır . Elde edilen veriler incelenir .Çeşitli filtreleme , temizlik , eşleme sıralama , ayrıştırma gibi işlemler uygulanır .Son aşamada istenilen düzene getirilen veri sunumun yapılacağı sisteme uyumlu yollar ile yüklenir .Aşamalar birkaç kez test edilerek doğruluğu onaylanır .
Süreçlerin iyi analiz edilmesi , kullanılan aracın tekrarlamaya ve peryodik çalışmaya uygun olması , bu aşamaların başarı oranını artırır . Şimdi ETL ' li oluşturan tanımlara birazcık daha yakından bakalım:
Extract - (Ayrıştırma) :
Veriyi kaynak sistemden alma anlamına gelir . Bilindiği gibi veri ambarı yapılarında birçok farklı kaynak sistem ve flat files (excell ,txt vb . ) kullanılır. Veriyi birçok sistemden yardımcı araçlar veya kod ile alabiliriz .
Transform - (Dönüştürme) :
Verilerin birçok sistemden geldiğini söyledik. Bu farklı sistemden gelen verilerin bizim yapımıza uygun olması için belli bir dönüşümden geçmesi gerekmektedir .Verinin temizlenmesi , kalitenin arttırılması gerekmektedir .
Veri farklı bir kaynaktan gelmese bile verinin ; her bir veri ambarı yapısında farklı karekteristik özellikte davranması gerekebilir . İşte bu yüzden staging alanındaki bir veri ile veri ambarındaki aynı verinin formatı farklı olabilir .İşte tam bu noktada transform bu işlemlerin genel adını kapsar .
Load - (Yükleme) :
Verilerin kaynak sistemden gelip hedef sisteme yüklenmesi anlamına gelir .
ETL süreci:
çıkart-dönüştür-yükle
Temel olarak kullanılan verinin dış kaynaktan çıkarılması , verinin iş önceliklerine göre temizlenmesi , birleştirilmesi vs ve son hedefe yüklenmesi (veri tabanı veya veri ambarı ) sürecine denir . Yüksek boyuttaki veriler operasyonel sistemlerden alınıp veri ambarına veya data mart'lara yüklenirken ETL sürecine sokulurlar. Amaç iş zakasında kullanılacak verinin en etkin kullanılabilecek hala gelmesidir.
Yukarıda tanımı geçmişken kısaca değineyim peki nedir bu data mart'lar ?
Arkadaşlar DATA MART dediğimiz şey veri ambarların alt kümesidir . Veri ambarları , veriler üzerinde genel bir bakış sağlarken data mart'lar sadece belirli bir kısma bakış sağlar . Data mart'lar belirli birimlerin ihtiyacı duyduğu verilere bağlı olarak analiz yapmaya imkan sağlarlar ve veri ambarındaki tüm karmaşıklık ile uğraşmadan ilgili data martlar sayesinde daha kolay analiz yaparlar . Yani kısaca parçala-fethet yöntemi diyebiliriz .
Diğer önemli konu ise ETL işleminde aşağıdaki testlerin mutlaka yapılması gerektiğidir:
- Datalar tamamen yüklendi mi ?
- Data transformasyon işlemleri hatasız tamamlandı mı ?
- İçeri atılan data nın kalitesi , operasyonel data kalitesi değil , Dwh data kalitesi istenen seviyeyi yakalıyor mu ?
- Data seviyesi artıkça sorgulardaki değişim nedir ? Yani sorgu performansları ne durumda ?
- Yükleme performansı kabul edilir durumda mı ? değilse nasıl bir iyileştirme gerekecek ?
- Depolamada ne durumdayım . Gelecek yüklemelere ne kadar hazır Dwh ?
ETL vendor' ları kimler? Rastgele sırayla:
- IBM
- Oracle
- Ab Initio
- Informatica
- SAP
- Microsoft
- SAS
- Adeptia
- ETI
- iWay
- Jaspersoft – open source


