Real project

From Management Information Systems

Jump to: navigation, search

lgo_project_real.gif

Contents

Inleiding

Ons afstudeerproject gaat rond het Project Real van Microsoft gaan. Dit is een datawarehouse voorzien van gegevens van de grote boekenketen Barnes & Noble. Wij zullen op voorhand enkele doelstellingen vastleggen en proberen deze binnen de opgelegde tijd te verwezenlijken.

Groepsleden

Doelstellingen

Cubes Checked.gif

Een cube oftewel een gegevenskubus is een datastructuur voor de opslag van data. Een dergelijke structuur laat zich vergelijken met een spreadsheet met niet alleen een x en y-as, maar met 3, 4, 5 of zelfs meer assen. Het roteren van een cube, in combinatie met selecties op waarden van de assen, slice-and-dice, voorziet op een eenvoudige wijze in de benodigde informatie. Het belangrijkste kenmerk van OLAP producten is dat gegevens in een multidimensionale structuur worden opgeslagen en/of gepresenteerd.

Dit vergemakkelijkt het zoeken.


Datamart Checked.gif

Een datamart is een verzameling van gegevens, vergelijkbaar met een datawarehouse, maar meestal met een kleinere hoeveelheid aan gegevens en vaak ingericht voor een specifiek doel.

Net als een datawarehouse wordt een datamart periodiek gevuld met gegevens uit operationele systemen en bevatten dus een snapshot van deze gegevens. Datamarts kunnen ook onderdeel uitmaken van een datawarehouse.


Reporting Checked.gif

Reporting is het periodiek weergeven van rapporten over de bedrijfsresultaten. Volgende rapporten zullen aangemaakt worden:

  • rapport per tijdsperiode (maand/kwartaal/semester)
  • rapport per store
  • rapport per verkocht product per maand (verkoopcijfers)

Een leuk rapport:

dwh_art01.JPG


Beschrijving ETL & SSIS & Dimensie tabellen Checked.gif

ETL is de afkorting voor Extraction, Transformation and Load. De term ETL staat voor een groep technologie├źn die veelal gebruikt worden bij de koppeling tussen systemen, waarbij er gestreefd wordt naar een minimale technische en semantische koppeling tussen de systemen. Het is een batchproces dat regelmatig gebruikt wordt. Mede met de opkomst van XML is deze manier van het integreren van systemen steeds belangrijker geworden.

  • Extract = leest data ven een bron en pakt het gewenste pakket uit
  • Transform = Zet opgenomen data om, gebruik makende van regels, opzoektabellen of maakt combinaties van data van verschillende bronnen
  • Load = schrijft de data naar een gewenst doel

SSIS is de afkorting voor SQL Server Integration Services

Een dimensie tabel wordt gebruikt om de gegevens in het data warehouse op te splitsen in gestructureerde informatie die makkelijk te interpreteerbaar is. Bv: Customer, Date en Product zijn dimensies die ervoor zorgen dat Sales makkelijk ingevuld kan worden.


Datamining Checked.gif

Data mining is het hergebruiken van beschikbare data. Getracht wordt om op een geautomatiseerde manier patronen en relaties te ontdekken in grote hoeveelheden gegevens.

Wat wij gaan doen:

  • zoeken welke boeken aan mekaar gelinkt zijn op basis van verkopen(Als iemand een boek heeft gekocht, welk boek hem ook eventueel kan interesseren)
  • voorspelling hoeveel boeken er volgende week verkocht zullen worden op basis van de voorgaande weken.

Planning en tijdsbesteding

# Dagen Voltooid
Cubes 2 Checked.gif
Datamart 2 Checked.gif
Reporting 2 Checked.gif
Datamining 3 Checked.gif
ETL & integration & dimensie 4 Checked.gif

Vooruitgang

Voorbereiding afstudeerproject

Week 1 Vooruitgang Extra commentaar
Dag 1 verkenning werkomgeving Tot de constatatie komen dat we op BEESTIGE BAKKE mogen werken
Dag 2 doelstellingen opstellen Rekening houdende met alle mogelijke problemen die zich kunnen voordoen
Dag 3cubes & opzoeken EID problemen bij cubes en deze oplossen
Dag 4probleemoplossing cubes & begin datamart opstelling welke datamarts en rapporten we zullen maken
Dag 5aanmaken datamarts Deze hebben we vandaag afgewerkt
Week 2 Vooruitgang Extra commentaar
Dag 1 aanmaken cubes Deze hebben we vandaag afgewerkt & begin rapportering
Dag 2 rapportering op datamarts
Dag 3 vervolg rapportering op datawarehouse
Dag 4 start datamining GRIMA draait op volle toeren door les
Dag 5 voorbereiding datamining, start verslag
Week 3 Vooruitgang Extra commentaar
Dag 1 vervolg verslag
Dag 2 vervolg verslag en uitpluizen xlminer
Dag 3 xlminer afwerken
Dag 4 afwerking verslag + presentatie
Dag 5 presentatie afstudeerproject

Problemen

  1. Na de views, zijn er geen relaties gelegd tussen de tables, hierdoor kunnen we geen cubes aanmaken.
  2. => Dit probleem hebben we opgelost door een feitentabel en de dimensietabellen te gebruiken en zelf (manueel) deze relaties dus leggen.

  3. Deploy werkt niet, de error geeft aant dat de server (GRIMA) niet running is. Bij properties staat het in plaats van localhost op GRIMA
  4. => Het probleem ligt aan de server, opgelost door afstudeerprojectbegeleider ism systeembeheer

  5. Bij deploy van Cubes over sales, wordt er een fout gegeven bij de verwijzing naar de store employee met id 0
  6. => Bij deze records, de waarde in plaats van 0 op NULL gezet.

Nuttige links

Project Real

Project real overview

Datawarehousing

SQL Syntax

Personal tools