
„Работа с данните“ е много широко понятие. Може да се отнася, както до първично събиране на сурови факти; до тяхната тяхната обработка и/или графична визуализация.
Сурови данни се наричани още сурови факти или първични данни. Това са данни, които са събрани например чрез:
- проведени анкети (хората да оценят колко харесват или не харесват продукт/услуга или опит по скала от 1 до 10) или
- са натрупани автоматично и съхранени на сървър. „Бисквитките“ са често срещан пример за това. Те предоставят на фирмите подробна информация за активността на потребителя в даден уебсайт или онлайн магазин.
ПЪРВИ ЕТАП :
Събирането на сурови данни е първата стъпка в процеса на анализ на данни се нарича – събиране на данни.
ВТОРИ ЕТАП :
След като съберете достатъчно първични данни се преминава на следващият етап : предварителна обработка на данни. Това е група от операции, които основно ще конвертират сурови данни във формат, който е по-разбираем и следователно полезен за по-нататъшна обработка. В този етап се опитва да реши проблемите, които неизбежно могат да възникнат при събиране на данни.
Например, в рамките на някои данни за клиентите, които са събрани може да имате лице, регистрирано като 932-годишна възраст или да видите , че име на град или държава е маркирано като име на човек. Очевидно е, че тези данни са неправилни.
Преди да се пристъпи към какъвто и да е вид анализ, тези данни трябва да бъдат маркирани, като невалидни или да бъдат коригирани.
Ако, съхранявате броя на стоките продавани ежедневно и искате да проследите числовите стойности и да анализирате средния брой продадени стоки на ден или месец. Тези стойности са числа, които могат да бъдат манипулирани. Тези данни обаче трябва преминали през предварителна етикетирането на класове и видове стоки .
Друга специфика е когато има липсващи данните от проведена анкетата вклюква само информация ( професията или мястото на раждане на дадено лице). Не всички клиенти ще ви дадат данните, които искате. Това, което често се случва, е, че клиентът ще ви даде името и професията си, но не и възрастта му, например.
ТРЕТИ ЕТАП : Почистване на данни или пречистване на данни.
Изчистването на данните и справянето с липсващите стойности са проблеми, които трябва да бъде решени, преди да можете да се обработват данните по-нататък.
Целта на изчистването на данните е да се справят с непоследователни данни или липсващите стойности използвайки различни техники :
- техники за балансиране- Представете си, че сте съставили анкета за събиране на данни за навиците за пазаруване на мъжете и жените.Искате да установите кой харчи повече пари, през уикенда? например.
Когато анализирате събраните данни, забелязвате, че 80% от анкетираните са жени и само 20% мъже. Тенденциите, които може да забележите, няма да бъдат към мъжете ,толкова, колкото и за жените. За да се противодейства на този проблем, се прилагането на техники за балансиране би било най-доброто нещо, което може да се направи, като например вземане на равен брой респонденти от всяка група, така че съотношението е 50/50.
- Друг често срещан подход е разбъркването на данни. Разбъркването на данни е техника, което
- подобрява прогнозната производителност и
- помага да се избегнат подвеждащи резултати.
Например искаме да вземем изватка за 100 наблюдения от голям набора от данни.
За да сме сигурни извадката на случаен принцип и по-вероятно представителни, преди взема 100 последователни записа първо данните се разбъркват .
ЧЕТВЪРТИ последният ЕТАП при работа с данни е Визуализация, чрез системи за управление на релационни бази данни.
Две често свързани визуализации с бази данни, съдържащи традиционни данни са:
- Първи модел е диаграма на релация между обекти (ER диаграма). Това е сложен теоретичен начин за илюстриране архитектура на база данни. Специалистите го обичат по-лесният начин, като определя начина по който са свързани таблиците в база данни.
- Вторият модел е релационна схема. Тук всеки правоъгълник представлява отделна таблица с данни в редовете и показват кои таблици са свързани и които не са.
При интерес за изпълнение на такъв проект, пишете ни на електронната поща office@stoic11.com за първоначална безплатна консултация.