Начинът, по който се управлява информацията с DW и DM решения
Още с представянето на първия компютър през миналия век, всяка една оперативна дейност в бизнеса започва да се компютъризира. В днешно време тези автоматизирани системи движат почти всяка организация, бълвайки огромно количество данни по пътя си. Именно това промени начина на правене на бизнес и начина ни на живот. Банкоматите, „точно на време“ инвентарен контрол, онлайн пазаруване, кредитни карти, Google и много други са примери за това как информационните технологии отвориха нови пазари и направиха революция на съществуващите такива.
В една типична организация такива системи създават огромно количество от данни – от разнородните системи за счетоводство до билинг системите, от складовите приложения до ERP решенията. Данните относно специфична част от бизнеса са там някъде, в някаква форма. Те са налице, но не и информацията. Или поне не правилната информация на правилното място.
Именно тук е ролята на Съхранението на данни (Data warehousing-a), чиято цел е да направи точната информация достъпна в точната време. To представлява процес на събиране на данни от разнородни източници в организацията с цел последващото им извличане за подпомагане на процеса на взимане на решение.
Такива системи не само намаляват нуждата да се обясняват разнообразни по призход и смисъл резултати, но също така предоствят съдържателен изглед за бизнеса, по бизнес единици и време. Именно решения базирани на обективна информация водят до по-добри резултати напред във времето и помагат на ръководството да бъде на по-добро ниво.
Складовете от данни (Data warehouses)
всъщност не правят нищо повече от това да съхраняват и обработват информацията от разнородни източници ефективно, но за да реализираме стойност от данните ние се нуждаем от системи способни да генерират отчети.
Всъщност бизнесът не от вчера извлича автоматизирани отчети с цел да посрещне своите нужди. Най-старият метод е традиционното принтиране на не много сложни справки на хартиен носител. По-средата са специфичните предефинирани „queries“ решения. Те генерират заявки в SQL и могат да комуникират локално или отдалечено с източниците на данни, използвайки стандартен протокол. Такива отчетни са вградени в електронни таблици, достъпни през WEB или през друг “рапортуващ” интерфейс.
От гледна точка на времето за обработка на заявката, тези решения са значително по-бързи, но за съжаление все още неефективни от гледна точка на използване на данните. Целта в крайна сметка е да бъде възможно да се задават въпроси към масива от информация, а когато отговорът е налице да си спомняме все още въпроса.
OLAP (Online Analytical Processing)
e значително подобрение спрямо ad-hoc системите, тъй като рисуват структурата от данни вземайки предвид и крайния потребител. Това мощно и ефективно представяне се нарича съшо така куб, което е и иделаното средство за разбиване на информацията на малки парчета видими под различен ъгъл с цел разбирането й (познато като „slice and dice“).
Настройването на кубовете изисква анализиране на данните и нуждите на крайния потребител. Добре замислена OLAP система има набор от подходящи дименсии – например демографски фактор, продукт, време. Идеята е да са разбираеми за бизнес потребителя и да съответстват на бизнеса, но не на последно място да позволяват на потребителите да разбиват данните придвижвайки се от обобщената информация до детайлната разбивка на ниво запис.
В по-общ смисъл от гледна точка на експлоатирането на данните, OLАP чисто и просто играе важна роля като средство за даване на достъп на аудиторията до информацията от бизнес системите. .
Първоначалните предимства при използване на Data warehouse идват от автоматизирането на съществуващи процеси – онлайн отчети и доставяне на чисти данни. Най–голямото предимство е подобрения достъп до данни, които са импулс за иновация и креативност. Последното е свързано с новия начин за търсене и анализиране на информацията. Тук е ролята на Data mining технологиите – да доставят средствата за подобряване и вдъхновяване на креативността базирана на наблюдения в данните. Data mining търси добавената стойност в информацията и при това осигурява чисти и последователни данни.
Обикновенно Data warehouse съхранява данните
по време, но е много трудно да се направят манипулцаии спрямо периода – например определяне на събитие, което се е случило точно преди друго такова, обект на нашите интереси. Data mining стига дори по-далеч вземайки предвид представата за „преди” и „после”. Иначе казано тези системи се обучават от натрупаните исторически данни с цел прилагането на научено в бъдеще.
Data mining търси скрити тенденции в данните дори за значими аномалии. Често се опитва да отговори на различни въпроси, различаващи се от средностатистичексите, като например “кой ще е следващият продукт, който клиента ще закупи?”.
Ключов момент за успеха е обединяване на Data mining с бизнес процесите и насърчаване комуникацията между техническите потребители на Data mining и бизнес потребителите, които консумират крайния резултат.
Непорочният кръг започва с идентифициране на правилните бизнес възможности. За съжаление, има достатъчно добри статистици и анализатори, чиято работа отива просто на вятъра, защото решават проблеми, които не помагат особено на бизнеса.
Ето защо Data mining трябва да се разглежда като затворен цикъл и процеса състоящ се от четери стъпки:
- Дефиниране на (бизнес) проблема
- “Ровене” из натрупаните до момента данни и трансформирането им в полезна информация
- Предприемане на действия на база информацията
- Измерване на резултата от предприетите действия.
Споменахме, че Data mining e начин да се учим oт миналото,
така че да правим по-добри решения за в бъдеще. В процеса на учене трябва да избегнем обаче усвояването на грешна или безполезна информация.
Резултатите от създадените отчети често изглеждат благонадеждни, тъй като са базирани на реални данни, представени с научен подход. За съжаление тази благонадеждност може да бъде заблуждаваща, просто защото самите данни, използвани за анализа може да са погрешни или неуместни спрямо въпроса, на който се търси отговор. Иначе казано, откритите зависимости може да отразяват минали бизнес решения или нищо като цяло.
Често казваме, че фигурите (графиките) не лъжат, но да не забравяме, че лъжците са добри в представянето на фигури за даден бизнес процес. По правило е много лесно да се констатират грешни зависимости или зависимости по „нюх”, които иначе лесно могат да бъдат опровергани на база случайна извадка или наблюдения. Това е така, защото като цяло човек е свикнал от дете с търсенето на различни зависимости и е способен да вижда и такива, които не са истински. Широкото разпространените на фантастични конспиративни теории например е доказателство, че хората имат нужда да търсят зависимости.
Индивидът обаче продължава да търси логиката, защото често явленията притежават такава. Да кажем фазата на луната или смяната на сезоните, на деня с нощ, дори редовното излъчване на любими предавания по телевизията са стабилни и при това предвидими. Именно за това ние може да използваме тези зависимости за да решим различни задачи – от преценката на правилния период да се сеят картофи до това за кога да програмираме домашната DVD система да запише любимо предаване.
Предзизвикателството пред Data mining техниките
е да открием зависимости, които са истинкси и такива които не са. Така например, най-простият пример за невярно съдържание е на база грешното ниво на детайлизиране на данните. В търговска фирма оперираща на борсата, продажбите за октомври изглежда са по-ниски спрямо август и септември. Въпросът е наистина ли те са паднали? Оказва се, че за раглеждания период борсовите работните дни са много по-малко отколкото тези през август и септември.
Да научим верни неща, които не са ни от полза не представлява чай толкова опасно, но значително по-често срещано явление. Например, много от ясно изразените зависимости в данните представят неща, които вече знаем – хора, които живеят на територия без GSM покритие, нормално не използват мобилни телефони. Ето защо Data mining техниките се фокусират към новото и полезното, чрез създаване на модел базиран на данни.
Модел е обяснение или описание на нещо, което работи и отразява достатъчно добре реалността, така че може да се направи връзка с реалния свят.
Без да осъзнаваме, ние използва постоянно различни модели. Например, когато видим ресторант, в който масите са покрити с красиви покривки и естествени цветя решаваме, че е значително по-скъп от такъв, които е с пластмасови масички без покривки и изкуствени цветя на тях. Това е така, защото правим връзка базираща се на модел изграден в нашето съзнание. Всеки модел има набор от входни променливи и една изходна променлива и когато се приложи върху нов набор от информация пролучаваме оценка. Всеки Data mining модел има три компонента: обучение (използвано за изграждане на модели), валидиране (за избиране на най-добрия от тях) и тестване (за измерване на точността на модела).
Data mining техниките се използват за създаване на три вида модели
за три вида задачи : създаване на описателен профил, директен профил и прогнозиране.
Описателния модел показва какво се съдржа в данните. Изходът в случая е една или няколко графики, които обясняват какво се случва. Директния профил служи за създаване на модел при който изходът е в един и същи времеви период с входа. При прогнозирането целта е да се открият зависимости в данните за даден минал период, които са пригодни да обяснят какво ще се случи в бъдеще.
Като заключение може да кажем че методологията при Data mining e съвкупност от 11 стъпки, които трябва да се следват.
Трансформиране на бизнес проблема в Data mining проблем;
Избор на подходящите данни;
Опознаване на данните;
Създаванe на набор от модели;
Отстраняване на проблеми с данните;
Трансформиране на данните;
Изграждане на модел;
Оценка на модел;
Разгръщане на модел;
Оценка на резултатите;
Започване от начало.





