недеља, 19. јун 2011.

Data Warehouse


1.      Uvod
Danas, više nego ikad, menadžerima su potrebni lako dostupni i konzistentni podaci predstavljeni tako da u isto vreme, precizno i sažeto daju prikaz organizacije u celini i njenog okruženja. Međutim složeni uslovi poslovanja generišu svakim danom sve veći broj poslovnih događaja u okviru preduzeća i izvan njega, a dobijeni podaci najčešće su pohranjeni u operativnim bazama podataka. Zbog veličine takvih baza nije ih moguće pretraživati u realnom vremenu, a kad se i dobije konačni odgovor na upit, obično su to izveštaji u dvodimenzionalnom obliku na velikom broju stranica i predstavljaju selektovano prepisivanje podataka iz baze.

Budući da je pravovremeno dobijanje kvalitetnih informacija bitno za ostvarenje prednosti nad konkurencijom, menadžer ih mora dobiti što pre i u obliku prilagođenom njegovim potrebama. Iz toga proizlazi da se od današnjih informacionih sistema preduzeća očekuje da osiguraju informacije čiji sadržaj, brzina pristupa i način prikaza odgovaraju trenutnim potrebama menadžera u procesu odlučivanja. Dok se za potrebe operativnog vođenja poslovanja koriste klasične baze podataka, zasnovane na relacionom modelu, koje odražavaju ažurno, stvarno stanje poslovnog sistema, a određenim se podacima nakon ažuriranja gubi trag, za donošenje pravilnih poslovnih odluka potrebno je imati uvid i u vremenski tok dešavanja poslovnih događaja, pa takve baze podataka ne predstavljaju zadovoljavajuće rešenje.

Zbog toga se prišlo kreiranju novih oblika organizovanja podataka u računarskim informacionim sistemima. Razvijena je nova generacija računarskih sistema koja se temelji na konceptu skladištenja podataka. Skladište podataka sadrži podatke prikupljene iz različitih izvora, istorijske o poslovanju preduzeća kao i podatke iz spoljnjeg okruženja, a dizajnirano je tako da omogućava pretraživanje podataka, on-line analitičku obradu, izveštavanje i podržavanje procesa donošenja odluka. Skladište podataka je po tehničkim zahtevima i po sadržaju sasvim drugačije od transakcionih sistema[1]. Premda je operativna baza njegova pretpostavka, skladišta podataka se u svom dizajnu oslanjaju na multidimenzionalni koncept.
Nova generacija računarskih sistema sada se sastoji od dva dela, operativnog (transakcionog) i skladišta podataka (analitičkog), čime se postiže izdvajanje procesa za generisanje informacija (ekstrakcije, agregacije, izveštaji, analize) koji se po svojoj prirodi razlikuju od operativnih procesa.

 
2.     Definicija Data Warehous sistema
Sam pojam "skladište podataka" (engl. Data Warehouse) podrazumeva zbirku podataka izolovanih iz operativnih baza i spremljenih u posebne baze odnosno skladišta podataka. Ralph Kimball u svojoj knjizi "The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses" definiše skladište podataka kao kopiju transakcionih podataka specifično strukturiranih za upite i analize.[2]

Data Warehouse (DW) se danas smatra najobuhvatnijom arhitekturom koja objedinjuje sve dosadašnje koncepte i podvrste informacionih sistema. Suštinska filozofija DW je zasnovana na konceptu integracije podataka. Celovitost podataka je vrednija od zbira delova podataka.

Data Warehouse je jedinstveno, integrisano skladiše podataka koje obezbeđuje infrastrukturnu osnovu svim aplikacijama u jednoj organizaciji. Glavna karakteristika koja određuje skladište podataka odnosi se na njegovu svrhu. U skladištu podataka podaci se skupljaju i organizuju na način da budu lako dostupni da bi ih menadžment mogao na brz i jednostavan način iskoristiti za potrebe analize svog poslovanja.

Prema definiciji koju je postavio William H. Inmon[3], skladište podataka predstavlja subjektno usmeren, integrisani, vremenski zavisan i sadržajno nepromenjiv skup podataka, a krajnji cilj mu je pomoć menadžmentu pri donošenju odluka.

Subjektno usmerenje podataka znači da se oni organizuju oko predmeta, na način da daju informacije o tačno određenim predmetima u okviru funkcionalnih područja preduzeća umesto o tekućim operacijama. Suprotnost tome su operativne baze podataka koje su organizovane oko poslovnih aplikacija, tj. usmerene su na tekuće operacije (obrade porudžbina, isporuka i sl.).

Integrisanost - podaci se skupljaju u bazu podataka iz različitih izvora i pohranjuju uvek u istom formatu, te su samim tim konzistentni i prikazuju se na dosledan način.

Vremenska zavisnost - svi podaci u skladištu podataka vezani su i identifikuju se uz određeni vremenski period, što znači da imaju istorijski karakter. Za razliku od njih, u operativnim bazama podataka pohranjeni su samo aktuelni, najsvežiji podaci. Međutim, s gledišta koncepta poslovne inteligencije, sveobuhvatno predviđanje budućih događaja nije moguće provesti bez poznavanja istorije istih ili nekih drugih događaja. Iz toga proizilazi da su podaci u skladištu podataka istorijski, dok je njihovo usmerenje okrenuto ka budućnosti.

Nepromenjivost sadržaja - podaci u skladištu su stabilni i kad se jednom unesu u skladište po pravilu se ne menjaju. Time se omogućava da menadžement ili svako ko koristi skladište podataka može biti siguran da će dobiti istovetan odgovor nezavisno od vremena ili učestalosti postavljanja upita.

Postupak skladištenja podataka predstavlja kontinualan proces planiranja, građenja, i prikupljanja podataka iz različitih izvora te njihovog korišćenja, održavanja, upravljanja i stalnog unapređivanja. Među mnogim koracima u tom kompleksnom kontinuiranom procesu bitno je naglasiti važnost posedovanja vizije o tome što se želi postići kreiranjem skladišta podataka. Jedna od uloga skladišta je, na primer, razvijanje i korišćenje znanja zasnovanog na podacima (engl. data-based knowledge).

Aktivnost skladištenja podataka predstavlja kontinuiran proces, a sama investicija uvođenja DW je skupa i dugotrajna. Prilikom procesa donošenja odluke o kreiranju i implementaciji skladišta podataka potrebno usaglasiti i niz pitanja bitnih za uspostavljanje projekta DW. Na primer, pre implementacije projekta potrebno je identifikovati poslovni interes za izgradnju i korišćenje skladišta podataka za potrebe svog poslovanja, dogovoriti izvore finansiranja, razviti kriterijume za određivanje poslovne upotrebljivosti skladišta podataka, provesti intervju korisnika o traženim informacijama, identifikovati izvore podataka za unos u skladišta podataka, odlučiti se za veličinu skladišta podataka, utvrditi vrstu podataka sa aspekta sadržaja, odrediti fizičku lokaciju, doneti odluku o izgradnji ili kupovini skladišta podataka, napraviti odabir najpovoljnijih alata i sistema za upravljanje bazama, rešiti pitanje stručnog kadra itd. Na kraju implementacije sledi puštanje sistema u rad, obuka korisnika u cilju potpunog iskorišćenja instaliranih alata, upravljanje sistemom skladištenja dodavanjem, modifikovanjem i razvijanjem istog i sl.


3.     Uloga Data Warehouse sistema
Kamen temeljac svakog rešenja poslovne inteligencije predstavlja skladište podataka (data warehouse). Različiti alati za analizu i "rudarenje" podataka (OLAP & data mining), pronalaze informacije u bazama podataka koje mešaju sa informacijama iz ostalih (spoljnih) izvora podataka, nakon čega vrše transformaciju podataka u upotrebljive informacije. Velike organizacije danas sve više traže dodatne podatke iz spoljnih izvora, kao što su npr. podaci o konkurenciji, demografski trendovi, prodajni trendovi i sl.

Da bi Data Warehouse opravdao svrhu svog postojanja, mora da ispuni sledeće preduslove:

*      Mora osigurati pristup svim zaposlenim u preduzeću, ne samo menadžerima, što podrazumeva da će služiti velikom broju ljudi. Taj pristup mora biti pouzdan, brz i jednostavan.

*      Data Warehouse treba da sadrži veliku količinu detaljnih podataka. To znači da sve poslovne transakcije koje su relevantne za donošenje poslovnih odluka, a koje su nastale u procesima preduzeća, moraju biti evidentirane u Data Warehouse-u. Uneseni podaci moraju biti konzistentni (ako nekoliko korisnika Data Warehouse sistema istovremeno postavi potpuno isti upit i rezultat tih upita mora biti isti).

*      Ažuriranje novim podacima treba da bude kontinuiran proces koji se odvija u realnom vremenu (nakon što se neki događaj odigrao ili odmah po završetku nekog procesa).

*      Potrebno je predvideti mogućnost izdvajanja (engl. extract) i međusobnog povezivanja podataka u smislu dobijanja svih pokazatelja poslovanja u poduzeću. Dostupni komercijalni alati najčešće poseduju mogućnosti koje mogu da ubrzaju kretanje podataka.

*      Podaci u Data Warehouse-u koji se skupljaju iz različitih izvora, prečišćavaju se uz kontinuiranu proveru kvaliteta i kao takvi su dostupni korisnicima. Što je kompleksnija transformacija podataka to je veća potreba za nabavkom dodatnih ETL alata. Loši ulazni podaci ne mogu davati dobre izlazne podatke.

*      Potrebno je utvrditi približnu količinu podataka koji će biti čuvani u data warehouse sistemu kada se on razvije. DW mora biti proširiv da bi mogao pratiti strategiju proširenja poslovanja preduzeća.

*      Zahtev za visokim stepenom zaštite osetljivih podataka sprovođenjem rigoroznih mera zaštite podataka i poslovnih tajni.



Osnovne funkcije skladišta podataka

Uspostavljanjem skladišta podataka, operativne baze podataka se rasterećuju složenih upita pa samim tim dolazi do unapređenja njihovih operativnih funkcija. Iz operativnih baza tim postupkom je uklonjena ogromna masa najčešće istorijskih podataka i preseljena je u skladište podataka. Informacioni sistem sada se sastoji iz dva dela, operativnog dela i skladišta podataka. Budući da se tako lakše kontroliše on postaje produktivniji.

Pomoću tehnika otkrivanja znanja, Data Warehouse osigurava stalno pronalaženje novih informacija u zavisnosti od novonastalih uslova i zahteva. Procesi za generisanje informacija (ekstrakcije, prikupljanje, analize, izveštaji i sl.) izdvojeni su iz operativnih procesa, što znači da operativni nivo sistema više nije njima opterećen. Sada skladište podataka postaje mesto skupljanja i skladištenja poslovnih podataka i izvor informacija koje će biti korišćene pri poslovnom odlučivanju.

Strukturu skladišta podataka čine podaci i mehanizmi manipulacije tim podacima. U skladištu se nalaze podaci, a mehanizme manipulacije predstavljaju procesi ekstrakcije, transformacije i punjenja podataka (ETL), sistem upravljanja podacima, postupci analitičke obrade podataka (OLAP) kao i izveštavanje (REPORTING). Na slici 1. je prikazana struktura skladišta podataka.

 Slika 1. Data Warehouse arhitektura

Osnovna funkcija skladišta podataka je skupljanje i organizovanje podataka na način da budu lako dostupni kako bi menadžment mogao na brz i jednostavan način da izvodi analize svog poslovanja. Treba ga oblikovati tako da se može na jednostavan i brz način prilagoditi svim promenama i zahtevima poslovnog okruženja. S obzirom na objektnu orjentisanost podataka, pri modelovanju skladišta primenjuju se tehnike koje podržavaju objektnu orjentisanost pa se time osigurava prilagodljivost da se tokom vremena mogu integrisati i podaci iz mogućnih dodatnih izvora. Skladište podataka treba da bude izvor stabilnih podataka, nezavisnih od eventualnih promena u poslovnim procesima. Iz tog razloga potrebno je koristiti model neosetljiv na uticaje operativnih procesa koji kreiraju većinu podataka. Oslobođeno operativnih obrada, skladište podataka osigurava unapređenje procesa generisanja informacija, a kroz tehnike otkrivanja znanja osigurava stalno pronalaženje novih informacija.
 

4.     ETL procesi
Kao što je već rečeno, podaci ulaze u skladište podataka iz različitih izvora, najčešće iz transakcionih sistema preduzeća. Najopsežniji posao u aktivnostima skladištenja podataka predstavlja proces integrisanja podataka i organizovanje njihovog sadržaja. Skup procesa ima zadatak da izvrši celovito transformisanje i punjenje tj. unošenje podataka iz jednog ili više transakcionih sistema u skladište podataka.[4] Njihov naziv (ETL procesi) je nastao od prvih slova engleskih reči extraction, transformation and loading.

 Slika 2. ELT proces

Pre početka ETL procesa potrebno je izvršiti pripremne aktivnosti vezane za skladištenje i čišćenje podataka. Izvorne podatke unešene iz različitih datoteka ili baza podataka potrebno je standardizovati, odnosno potrebno je prevođenje u standardan format. U tom formatu podaci će se koristiti u svim daljim fazama obrade. Standardizacija podataka se sprovodi da bi se izbegla redundansa podataka. Osim što se u informacionom sistemu isti podaci mogu pojaviti na više mesta, oni mogu biti različiti, odnosno, njihove vrednosti nisu iste na svim mestima na kojima se ti podaci javljaju. Zbog toga je potrebno otkriti ih i izvršiti njihovo uskladjivanje. Čišćenje, kao pripremna aktivnost ETL procesa, ima zadatak da ukloniti sve one podatke koji se pojavljuju kao posledica ranijih grešaka u radu informacionih sistema (greške podrazumevaju podatke koji nisu kompletni, tačni, konzistentni i sl.) ili zbog unošenja netačnih i lažnih podataka u sistem (računarski virusi i sl.).

Uopšteno, karakteristika standardnih ETL alata je da imaju bolje performanse vezane za procese čišćenja podataka, ali su im tada slabiji kapaciteti vezani za procese transformacije ili obrnuto. Pre izbora je potrebno znati karakteristike podataka koji će se unositi u skladište podataka. Što je kompleksnija transformacija podataka to je veća potreba za nabavkom dodatnih ETL alata. Na primer, ako se unapred zna da će biti puno podataka koji zahtevaju postupak transformacije, tada treba odabrati ETL alate koji su "jači" u procesima transformacije, ili obrnuto.

Ekstrakcija podataka

Proces ekstrakcije podataka potrebno je izvesti na način da pri tom redovni operativni poslovi što manje trpe. Programi i alati za ekstrakciju su oblikovani tako da ETL procese mogu obavljati što produktivnije uz nastojanje da potrebne podatke iz operativnih procesa preuzimaju što je moguće brže. Pri tom se kao problem može pojaviti potencijalno visok stepen redundanse podataka u transakcionim sistemima, pa treba odabrati takav pristup ekstrakciji kojim se vrši zahvatanje samo onih podataka koji će se koristiti u aplikacijama poslovne inteligencije.

Proces transformacije podataka

U okviru ETL procesa najviše vremena se troši na postupak transformacije podataka, prema stručnim procenama on traje i do 80% od ukupnog ETL procesa. U postupku transformacije mogu se pojaviti različiti problemi koji usporavaju proces, a kao najčešći javljaju se:[5]

*      Nekonzistentne vrednosti podataka - pojavljuju se prilikom kopiranja podataka, a kopija u datom slučaju nije verna originalu.

*      Nepodudarnost primarnih ključeva korišćenih u izvornim datotekama i bazama podataka s primarnim ključevima koje pretpostavljaju aplikacije poslovne inteligencije.

*      Netačne vrednosti podataka - potrebno je definisati logiku čišćenja za ispravljanje netačnih vrednosti podataka. Čišćenje je potrebno izvoditi stalno, odnosno svakim novim ciklusom punjenja podataka.

*      Različiti formati podataka - format podataka, npr. broj žiro-računa kupca nije evidentiran u operativnoj bazi u istom formatu kako ga očekuje alat poslovne inteligencije pa ga je potrebno prilagoditi.

*      Problem sinonima i homonima - ponekad se isti podaci pojavljuju pod različitim nazivima. Isto tako događa se da različiti podaci nose isti naziv tj. govori se o homonimima. Oba slučaja su nepoželjna i treba ih uklanjati iako predstavljaju velik dodatni posao.

*      "Skrivena" procesna logika - može predstavljati problem koji usporava proces transformacije kad se za zahvatanje podataka koriste zastareli softverski sistemi. U njima se mogu naći podaci koje nije lako protumačiti i često je potrebno izvršiti transformaciju u neki drugi poznati tip odnosa. Takva procesna logika može biti velik problem i veliki izvor grešaka koje je potrebno ispravljati.

*      Iako proces transformacije podataka podrazumeva pažljiv, dugotrajan i savestan posao, potrebno ga je u potpunosti i savesno završiti.


Procesi punjenja skladišta podataka
 Slika 3. Mesto i tok ETL procesa u kreiranju koncepta poslovne inteligencije

Podaci u transakcionim sistemima nalaze se u bazama podataka koje obuhvataju kraći vremenski period pa nisu dovoljni kao podloga za kvalitetne analize i pomoć pri odlučivanju. Pored njih, deo izvornih podataka koji se obrađuju ETL procesima čine i istorijski podaci. Za procese punjenja skladišta podataka koristi se više vrsta ETL programa kao što su programi za inicijalno punjenje, za punjenje istorijskih podataka ili programi za  inkrementalno punjenje. Na slici 3. prikazan je tok važnih ETL procesa u kreiranju skladišta podataka.

Osnovne karakteristike programa za inicijalno punjenje skladišta podataka su rutine za čišćenje i usklađivanje podataka, kako bi se iz podataka uklonile greške. Kod istorijskih podataka ponekad nije moguće primeniti postupke čišćenja koji se primenjuju za "on-line" podatke, jer je od vremena nastanka tih podataka do danas možda došlo do različitih promena u slogovima i formatima podataka. Za tu kategoriju podataka primenjuju se programi za punjenje istorijskih podataka koji čine nastavak inicijalnog punjenja. Za razliku od on-line, istorijski podaci su statičnog karaktera i sada čine samo sadržaj arhivskih datoteka. Treću vrstu predstavljaju programi za inkrementalno punjenje podataka, a aktiviraju se nakon što su prethodna dva programa odradila postupak čišćenja i usklađivanja podataka. Njihova karakteristika je da se pokreću periodično i oni predstavljaju stalno aktivan mehanizam punjenja skladišta podataka odgovarajućim sadržajima.

Osnovni modeli skladišta podataka (Data Mart i Data Warehouse)

Prilikom kreiranja skladišta podataka danas u praksi susrećemo tri osnovna modela ili osnovne arhitekture skladišta podataka: dvoslojna arhitektura s jednim zajedničkim skladištem podataka, dvoslojna arhitektura s više nezavisnih lokalnih skladišta podataka (engl. Data Marts) i troslojna arhitektura sa zajedničkim skladištem podataka i više povezanih lokalnih skladišta podataka. Data Mart pokriva samo jednu oblast poslovanja i može predstavljati pilot projekat za realizaciju mnogo obimnijeg Data Warehouse sistema. Kao na slici 4. projekat može biti realizovan kao nezavisni Data Mart, gde je sistem izolovan od Data Warehouse sistema, i kao zavisan Data Mart, gde je sistem naslonjen na Data Warehouse sistem. Na slici 5. možemo videti osnovne razlike između Data Warehouse sistema i Data Mart-a.

 Slika 4. Troslojna arhitektura sa zajedničkim DW i više povezanih Data Mart-ova

Dvoslojna arhitektura s jednim zajedničkim skladištem podataka

Ovaj model karakteriše jedinstveno, zajedničko centralizovano skladište podataka. Podaci se unose u skladište podataka iz različitih izvora unutar organizacije (npr. podaci iz online sistema za obradu transakcija, podaci iz ranije razvijenih sistema koji održavaju baze podataka i sl.) ili iz spoljnih izvora podataka dostupnih putem interneta ili na neki drugi način. Karakteristika dvoslojne arhitekture skladišta je da ona služi većem broju organizacionih jedinica preduzeća kao i pojedinačnim korisnicima. Takva skladišta su velikog obima i vrlo složena i u njima se po pravilu skladišti ogromna količina podataka. Rutine prema kojima se vrši prikupljanje i skladištenje podataka trebaju da podržavaju širok spektar aplikacijskih zahteva. Vidljivo je da su troškovi održavanja takve arhitekture visoki i uz to zahtevaju znatano veći angažman ljudstva na održavanju skladišta.

Dvoslojna arhitektura s više nezavisnih lokalnih skladišta podataka

Karakteristika ove arhitekture skladišta podataka je postojanje većeg broja nezavisnih lokalnih skladišta podataka namenjenih za rad pojedinačnih aplikacija po organizacionim jedinicama preduzeća. Rezultat takve arhitekture je veliki broj sistema u koji se posebno unose podaci iz različitih transakcionih baza podataka. Prednost navedenog modela skladišta podataka je jednostavnija izgradnja i lakše korišćenje. Međutim takav model ima i nedostatke kao što su:

*      otežana komunikacija među organizacionim jedinicama preduzeća. Ovaj model nije pogodan za preduzeća čije poslovanje zahteva podršku aplikacija i projekata koji podrazumevaju međusobnu komunikaciju i saradnju većeg broja organizacionih jedinica preduzeća,

*      povećanjem broja međusobno nezavisnih skladišta podataka paralelno raste i opterećenost samih transakcionih sistema,

*      data mart-ovi su oblikovani tako da podržavaju samo jednu aplikaciju, pa naknadno dodavanje novih aplikacija za određeno skladište predstavlja problem,

*      ograničena proširivost platforme i

*      otežan je uvid u stvarno stanje informacija na nivou preduzeća.

 Slika 5. Razlike između Data Warehouse-a i Data Mart-a

Troslojna arhitektura skladišta podataka

Ovaj model se sastoji od većeg broja lokalnih skladišta podataka (data mart-ovi) i jednog zajedničkog skladišta podataka (data warehouse) koje je smešteno između skladišta podataka i različitih izvora podataka unutar i izvan preduzeća. Skladišta podataka se oslanjaju na centralno skladište podataka koje im isporučuje podatke u obliku koji daje ujednačen uvid u sve segmente poslovanja preduzeća. U odnosu na prethodna dva modela prednosti troslojne arhitekture su veća tačnost informacija nevezano s kojeg izvora su zahvaćene, olakšana je komunikacija među organizacionim jedinicama, smanjena je opterećenost informatičara, povećana je skalabilnost i proširivost platforme za skladištenje podataka i na kraju, ova arhitektura pruža mogućnost korišćenja spoljnih aplikacija čime se omogućava povezivanje svih subjekata u unutar preduzeća. Na slici 6. je prikazan primer troslojnog modela sistema skladištenja podataka.

 Slika 6. Troslojni model sistema skladištenja podataka

5.     Implementacija Data Warehouse sistema
 
Razvoj i implementacija sistema skladišta podataka zahteva dosta vremena i značajna finansijska sredstva. Međutim, uspešna preduzeća se odlučuju na korišćenje tehnologije skladišta podataka jer su svesna činjenice da posedovanje pravih i pravovremenih informacija predstavlja "stratešku prednost", odnosno, dobija se mogućnost za brze reakcije na stanja nastala na tržištu i time obezbede uspešno poslovanje i dugotrajan opstanak preduzeća na tržištu.

Jedan od praktičnih pristupa je postepena izgradnja sistema uz sukcesivno nadograđivanje. Ukoliko se primeni taj pristup, završni korak predstavlja kreiranje troslojnog modela sistema skladištenja podataka. Sam postupak započinje razvojem nekoliko skladišta podataka koja podržavaju troslojnu arhitekturu. Nakon određenog vremena, kad je već razvijen određeni broj skladišta podataka, započinje se sa izgradnjom centralnog skladišta uz odvajanje pojedinih skladišta podataka.

Postupak izgradnje sistema skladištenja podataka sastoji se iz nekoliko faza koje se nadovezuju:[6]

*                  Utvrđivanje zajedničkih elemenata svih predmetnih područja koje ima smisla ugraditi u svako lokalno skladište podataka, s ciljem osiguranja integracije svih elemenata u jedinstveni model.

*                  Razvoj prve pilot-aplikacije kojoj se pridružuje prvo skladište podataka. Skladište podataka podeljeno je na dve komponente: na mini skladište i na skladište podataka. Mini skladište se fizički predstavlja kao nezavisna relaciona baza podataka. Komponenta skladišta podataka zahvata podatke iz mini skladišta i nakon obrade izvršava punjenje relacione tabele rezervisane za zbirne podatke.

*                  U trećoj fazi sledi postepeno aktiviranje novih skladišta podataka i razvijanje novih aplikacija potrebnih za zahvatanje potrebnih informacija iz "mini skladišta" razvijenog s prvim skladištem.

*                  U četvrtoj fazi dolazi do odvajanja skladišta podataka. Postepenim prethodnim dodavanjem novih aplikacija, mini skladište se razvija u sveobuhvatno centralno skladište podataka koje u potpunosti zadovoljava potrebe svih skladišta podataka za ekstrakcijom informacija. Budući da sva skladišta podataka preuzimaju informacije iz centralno kontrolisanog skladišta podataka, dobijeni podaci su normalizovani i konzistentni. Samo centralno skladište sada je moguće premestiti na poseban server čime se završava proces kreiranja troslojnog modela sistema skladištenja podataka.

Postepena izgradnja i implementacija sistema skladišta podataka predstavlja prihvatljivo rešenje za većinu preduzeća jer je moguće ostvariti razgraničenje troškova. Uvođenjem i "puštanjem u rad" ovog sistema u preduzeću je završen veliki posao, ali to nije kraj. Implementacijom skladišta podataka i praktičnim korišćenjem njegovih "usluga", pojaviće se novi zahtevi, pitanja i zadaci koje će biti potreno rešiti. Na primer, u postupku skladištenja podataka i korišćenja dobijenih informacija, pojaviće se potreba za podacima koje nije moguće zahvatiti iz postojećih transakcionih sistema. Tada nastaje potreba za nadgradnjom ili modifikacijom sistema za transakcionu obradu podataka ili razvojem sistema namenjenog za zahvatanje podataka koji nedostaju. Tradicionalni projekti započinju sa zahtevima a završavaju s podacima, dok projekti skladištenja podataka započinju s podacima, a završavaju se sa zahtevima. Konkretno, jednom kad korisnici skladišta podataka uoče sve mogućnosti koje im pruža tehnologija novog doba, oni će tražiti i više, što samo po sebi i nije loše. Prilikom projektovanja skladišta podataka, korisnicima skladišta podataka ne treba postavljati samo pitanja koje informacije trebaju i žele sada, već i koje informacije će trebati nakon implementacije novog Data Warehouse sistema.

S druge, strane mnogi krajnji korisnici skladišta podataka, koji su prošli trening i koji su obučeni za njegovo korišćenje, nikad u potpunosti ne koriste sve mogućnosti koje im skladište pruža. Prema nekim istraživanjima, samo četvrtina osposobljenih u potpunosti koristi usluge skladišta podataka.

6.     MULTIdimenzionalni prikaz podataka (OLAP)
Skladište podataka, kao što je ranije rečeno, puni se iz izvora podataka unutar organizacije (transakcione baze) ili iz spoljnih izvora podataka. Postupcima ekstrakcije, transformacije i punjenja kojima se podaci unose iz unutrašnjih i spoljnih izvora, dobijaju se osnovni podaci skladišta. Primenom sistema za upravljanje podacima dobijaju se agregirani[7], multidimenzionalni podaci koji različitim analitičkim metodama obrade omogućavaju dobijanje različitih oblika informacija potrebnih menadžerima u procesu donošenja odluka. Najveća prednost dimenzione strukture je mogućnost vizuelne prezentacije informacija. OLAP sistemi podržavaju kompleksne analize koje sprovode analitičari i omogućavaju analizu podataka iz različitih perspektiva (poslovnih dimenzija). Povezivanje skladišta podataka s korisničkim interfejsom, uz određivanje načina postavljanja upita i prikaza rezultata upita, omogućilo je menadžerima jednostavno i brzo postavljanje upita kao i odgovarajući prikaz rezultata upita i to prema potrebi (tekst, slika, grafički prikazi i sl.).

U skladištu podataka najčešće se koristi dimenziona struktura podataka koja se temelji na elementima relacione baze podataka odnosno na relacionim tabelama. OLAP sistemi kao skladišta podataka koriste multidimenzionalnost i denormalizaciju. Vezni element koji objedinjuje sve elemente predstavlja centralna relaciona tabela. Ona pohranjuje elemente primarnih šifri svake od relacionih tabela koje učestvuju u strukturi, te numeričke varijable koje želimo analizirati.

Interfejs OLAP sistema treba da omogući korisniku komforan rad, samostalno izvođenje analitičkih operacija i dobijanje pregleda i poslovne grafike, bez znanja programiranja i strukture baze podataka. Za vizuelni prikaz dimenzionalnog modela podataka koristi se star šema, jer dijagram ima oblik zvezde, koja predstavlja, kao što je prethodno navedeno, jednu centralnu veliku relacionu tabelu, koja se naziva i tabelom činjenica (engl. fact table), i skup manjih tabela. Tabela činjenica je najveća tabela u skladištu podataka, a njena veličina zavisi od nivoa poslovnog procesa koji se prati. Ona je jedina tabela koja je povezana s ostalim dimenzijskim tabelama u modelu podataka. Dimenzione tabele poseduju određene atribute, odnosno pozicije dimenzija i predstavljaju mogućnosti koje prikazuju neku pojavu, npr. prodaju određenog proizvoda. Na slici 7. dat je prikaz dimenzionalnog modela podataka šeme zvezda.

Zahtevi koje OLAP mora da ispuni su:

*      mogućnost rada sa velikim skupom podataka i velikim brojem korisnika,

*      kratko vreme odziva na upit,

*      mogućnost rada sa podacima sa različitim nivoima detalja,

*      sposobnost proračuna složenih matematičkih funkcija,

*      podrška za šta-ako analizu, modelovanje i planiranje,

*      jednostavnost uvođenja i održavanja sistema,

*      zaštita podataka,

*      mogućnost rada sa velikim brojem alata pomoću kojih će se pristupati podacima, vršiti analiza i prikazivati podaci.
 
 Slika 7. Star šema dimenzioni model

Tabela činjenica kao centralni deo šeme, predstavlja srednji deo koordinacije, koji uz osnovne podatke o šiframa relacionih tabela koje su objedinjene u strukturu, može sadržati i ostale segmente informacija.

Postoje sledeće arhitekture OLAP sistema:

*      multidimenzioni OLAP (MOLAP),

*      relacioni OLAP (ROLAP),

*      hibridni OLAP (HOLAP).

*      Elasticni OLAP (EOLAP)

Prednost MOLAP sistema je što obezbeđuju odlične performanse sistema kada se radi sa već sračunatim podacima (agregacijama) i detaljizacija ili rudarenje (drill up, drill down, drill through), unakrsno tabeliranje (cross tabulation), selekcija, isecanje, izdvajanje i kombinovanje svih dimenzija (slice and dice requirement), rotacija odnosno isticanje jedne dimenzije dok su druge u pozadini (pivoting), prognoza, modelovanje, grafičko prikazivanje (charting), statistike analize (trend, klaster) i sl. Nedostatak je teškoća dodavanja novih dimenzija kao i da bi se vršila bilo kakva analiza, potrebno je prvo učitati podatke u višedimenzione strukture. Pri tome se vrše razni proračuni da bi se kreirale agregacije i popunili podaci, što vremenski može trajati relativno dugo. Po završenom procesu, korisnik može započeti analizu.

MOLAP i ROLAP se razlikuju po načinu fizičkog čuvanja podataka. Kod MOLAP sistema podaci se čuvaju u višedimenzionoj strukturi, a u slučaju ROLAP sistema podaci se čuvaju u relacionim bazama podataka.

 Slika 8. Arhitektura MOLAP sistema

Podaci iz različitih transakcionih sistema učitavaju u višedimenzionu bazu podataka pomoću batch rutina. Kada se završi sa učitavanjem podataka atomskog nivoa, prelazi se na kreiranje agregacija, nakon čega je baza podataka spremna za rad. Korisnici zadaju svoje zahteve za OLAP izveštajima putem interfejsa kao na slici 8.

 Slika 9. Arhitektura ROLAP sistema

ROLAP sistemi pristupaju podacima direktno iz skladišta podataka i rade sa relacionim bazama podataka, kao na slici 9. ROLAP sistemi mogu da rade sa velikim skupovima podataka. Čim se odredi izvor podataka, korisnik može započeti analizu. S obzirom da se radi direktno nad bazom podataka, korisniku su uvek na raspolaganju tekući podaci. Kod ROLAP sistema ne postoje ograničenja po pitanju broja dimenzija koja postoje u slučaju MOLAP sistema.

HOLAP alati mogu pristupati i relacionim i multidimenzionim bazama podataka. Cilj korišćenja HOLAP alata jeste da se iskoriste prednosti MOLAP alata (kratko vreme odziva sistema i analitičke mogućnosti) i ROLAP alata (dinamički pristup podacima).
Pri tome se ne može reći da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je zapravo ROLAP koji ima mogućnost izvršavanja vrlo složenih SQL naredbi. Cilj je bio da se zadrže sve prednosti ROLAP-a, ali da se pri tome dodaju i neke nove mogućnosti za rad sa multidimenzionim bazama podataka.

Potrebe korisnika kod EOLAP-a su:

*      višedimenzioni pogled na podatke – ovu mogućnost poseduju i MOLAP i ROLAP alati,

*      odlične performanse sistema – ovu mogućnost poseduju MOLAP alati,

*      analitička fleksibilnost (za potrebe simulacija) – ovu mogućnost poseduju MOLAP alati,

*      pristup podacima u realnom vremenu – ovu mogućnost poseduju ROLAP alati,

*      veliki kapacitet podataka – ovu mogućnost poseduju ROLAP alati.

 
7.     Zaključak
Skladištenje podataka - Data Warehouse je posebno projektovano tehnološko okruženje koje omogućava objedinjavanje srodnih podataka u oblik pogodan za analizu čime se olakšava proces donošenja odluka i daje nov pristup sistemima za podršku odlučivanju. Ovaj koncept obezbeđuje standardizovan, fleksibilan i efikasan način raspolaganja podacima u formatu pogodnom za korišćenje u savremenim poslovnim sistemima i aplikacijama. Postojanje skladišta podataka, kao integrisanog okruženja bogatog informacijama, orijentisano je ka potrebama krajnjih korisnika koji uz pomoć alata za poslovno odlučivanje mogu donositi pravovremene i kvalitetne poslovne odluke.

Data Warehouse omogućava stalno pronalaženje novih informacija namenjenih menadžerima, a služe im prvenstveno za strateško, taktičko i operativno donošenje odluka. Uvođenjem koncepta skladištenja podataka, operativne baze podataka postaju manje opterećene složenim upitima, pa celokupni informacioni system koji se sastoji iz operativnog dela i skladišta podataka postaje produktivniji i lakše se kontroliše i restrukturira.

Metode skladištenja podataka sve više postaju integrisane u softverske pakete celokupnog informacionog sistema preduzeća, novije verzije relacionih baza podataka (kao npr. Oracle i MS SQL server) imaju dodatke za Data Warehousing koji je integrisan u ovim paketima kao OLAP. Menažerima nije potreban angažman analitičara za obradu ključnih pokazatelja o stanju preduzeća, već obrađene podatke klikom miša mogu dobiti iz baze podataka, koje će koristiti kao pomoć u donošenju poslovnih odluka.

Načela upravljanja prema ciljevima (Management by Objectives) će biti podržana mogućnostima online pristupa bazama i skladištima podataka, kroz alate poslovne inteligencije. Koncept skladišta podataka kroz usklađivanje podataka omogućava jedinstvenu informaciju o preduzeću, što povećava kredibilitet informacionog  sistema.

2 коментара:

  1. Harrah's Las Vegas Casino & Hotel - MapYRO
    Find your 부산광역 출장마사지 way around the casino, 파주 출장샵 find where everything 안성 출장안마 is located with 충주 출장샵 these helpful guides. Find your way around the casino, find where everything is located with 청주 출장샵

    ОдговориИзбриши