Szia, üdvözöllek a blogomon!
Reggel 7:30. A pipeline időben lefutott, minden zöld, mégis furcsa számok jelennek meg a riportokban. A napi értékek jóval alacsonyabbak a megszokottnál. Néhány perc után kiderül a probléma: a forrásrendszer késve küldte az adatot. Ez egy klasszikus helyzet az adatplatformok világában.
Fejlesztői szemmel az egyik legfontosabb kérdés az, hogy a pipeline képes-e felismerni a hiányos adatot. Ha a rendszer csak annyit tesz, hogy feldolgozza azt, amit kap, akkor könnyen előfordulhat, hogy egy részleges adatállomány kerül a Silver vagy Gold rétegbe. Ez különösen problémás lehet akkor, ha a hiányzó adat később érkezik meg, mert a rendszernek képesnek kell lennie korrigálni a korábbi feldolgozást.
Üzemeltetői szemmel a monitoring kulcsfontosságú. Jó gyakorlat például a rekordszám-ellenőrzés vagy a várható adatvolumen figyelése. Ha a rendszer látja, hogy a napi adat mennyisége jelentősen eltér a megszokottól, akkor jelezhet a pipeline lefutása előtt vagy után.
BA szemmel a legfontosabb kérdés az üzleti hatás. Ha egy napi riport hiányos adatra épül, az könnyen félrevezető döntésekhez vezethet. Ilyenkor fontos tudni, hogy a riport ideiglenes adatot mutat-e, vagy teljes adatfrissítés történt.
Egy érett adatplatform nem feltételezi, hogy a forrásadat mindig időben érkezik. Ehelyett ellenőrzéseket és validációkat épít be a folyamatba.
A 42. nap tanulsága számomra az, hogy az adatplatform stabilitása nem csak a saját rendszerünkön múlik. Legalább ennyire fontos az is, hogyan kezeljük a forrásrendszerek bizonytalanságát.
Köszönöm, hogy elolvastad! Legyen szép napod!
#MicrosoftFabric #100DaysOfLearning #DataAnalytics #BusinessAnalyst #TanulásNyilvánosan