Подходи и специфични техники за работа с традиционни данни

“Работа с данните” е  много широко понятие.  То може да се  отнася както до първично събиране на  сурови факти, тяхната обработка  или  графична визуализация.

Сурови данни се  наричани още сурови факти или първични данни.   Това са  данни, които са събрани например чрез::

  • проведени анкети (хората да оценят колко харесват или не харесват продукт/услуга или опит по скала от 1 до 10) или
  • са натрупани автоматично и съхранени на сървър. “Бисквитките” са често срещан пример за това. Те предоставят на фирмите подробна информация за активността на потребителя в даден уебсайт или онлайн магазин.

Събирането на сурови данни е първата стъпка в процеса  на анализ на данни се нарича  – събиране на данни.

 

След като съберете достатъчно първични данни се преминава на  следващият етап : предварителна обработка на данни. Това е група от операции, които основно ще конвертират сурови данни във формат, който е по-разбираем и следователно полезен за по-нататъшна обработка.

 В този етап се опитва да реши проблемите, които неизбежно могат да възникнат при събиране на данни. Например, в рамките на някои данни за клиентите, които са събрани може да имате лице, регистрирано като 932-годишна възраст или да видите , че име на град или държава  е маркирано като име на човек. Очевидно е, че тези данни са неправилни. Преди да се пристъпи към какъвто и да е вид анализ, тези данни трябва да бъдат маркирани като невалидни или да бъдат коригирани.

Ако  съхранявате броя на стоките продавани ежедневно и искате да проследите числовите стойности и да анализирате средния брой продадени стоки на ден или месец. Тези стойности  са числа, които могат да бъдат манипулирани. Тези данни обаче трябва  преминали  през предварителна етикетирането на класове и видове стоки .

Друга специфика е когато има липсващи данните от проведена анкетата вклюква само информация ( професията или мястото на раждане на дадено лице).  Не всички клиенти ще ви дадат данните, които искате. Това, което често се случва, е, че клиентът ще ви даде името и професията си, но не и възрастта му, например.

 

ТРЕТИ ЕТАП  :  Почистване на данни или пречистване на данни.

Изчистването на данните и справянето с липсващите стойности са проблеми, които трябва да бъде решени, преди да можете да се обработват данните по-нататък.

Целта на изчистването на данните е да се справят с непоследователни данни или липсващите стойности използвайки различни техники :

  • техники за балансиране- Представете си, че сте съставили анкета за събиране на данни за навиците за пазаруване на мъжете и жените.Искате да установите кой харчи повече пари, през уикенда? например.

Когато анализирате  събраните данни, забелязвате, че 80% от анкетираните са жени и само 20% мъже. Тенденциите, които може да забележите, няма да бъдат към мъжете ,толкова, колкото и за жените. За да се противодейства на този проблем,  се прилагането на техники за балансиране би било най-доброто нещо, което може да се направи, като например вземане на равен брой респонденти от всяка група, така че съотношението е 50/50. 

  • Друг често срещан подход е разбъркването на данни. Разбъркването на данни е техника, което
  1. подобрява прогнозната производителност и
  2. помага да се избегнат подвеждащи резултати.

Например искаме да вземем изватка за 100 наблюдения от голям набора от данни.

За да сме сигурни извадката  на случаен принцип и по-вероятно  представителни, преди взема 100 последователни записа първо данните се разбъркват . 

Последният етап  при работа с данни е: Визуализация чрез системи за управление на релационни бази данни.

Две често свързани визуализации с бази данни, съдържащи традиционни данни са: 

  • Първи модел е диаграма на релация между обекти (ER диаграма). Това е сложен теоретичен начин  за илюстриране  архитектура на база данни. Специалистите го обичат по-лесният начин, като определя начина по който са свързани таблиците в база данни.

  • Вторият модел  е релационна схема. Тук всеки правоъгълник представлява отделна таблица с данни в редовете и показват кои таблици са свързани и които не са.