Pro lidi, k hádce je účastnit se dlouhé, intenzivní hádky, zejména kvůli problémům se spoustou podrobností. Ale ve světě zvířat hádka zahrnuje zaokrouhlování nebo pasení skotu, koní nebo jiných hospodářských zvířat. Hádka je obtížný úkol i pro klidná zvířata, jako jsou ovce, krávy atd. ale hádání psů, není to snadné!. Musíte být opravdu agresivní.
Nyní, když máme kontext pro definování hádek, můžeme definovat hádky s daty jako dlouhý proces intenzivního boje s daty, zejména s velkým souborem dat, abychom připravili data pro krásnou analýzu.
Ano! Přesně tak, jak tito psi vypadají dobře na tomto obrázku. Ale musíte sledovat úsilí, které je vedlo k hádkám.
Jakkoliv, tento článek není ve skutečnosti o tom, jak se hádat se psy, pokud se to chcete dozvědět, můžete kontaktovat pes wrangler pro výcvik na psí hádky. Tento článek vás však provede tím, jak byla data psů hádána ze 3 různých zdrojů a ve 3 různých formátech.
Proces hádání dat je obvykle dlouhý a někdy těžkopádný proces. Obecně se dělí na 4 hlavní úkoly:
- Sběr dat
- Posoudit data
- Čistá data
- Ukládání dat
Shromažďujte údaje o psech
Údaje 1 — První údaje o psech jsou data archivu Twitteru @WeRateDogs (uživatel Twitteru, který hodnotí psy), poskytovaný ve spolupráci s Udacity, výhradně pro účely Nano-degree projektu na analýzu dat s Pythonem. Tyto údaje byly poskytnuty v CSV formát a byl shromážděn jednoduše kliknutím na toto odkaz.
Údaje 2 — Možná, že datové hádky mohou být v některých případech snadné, ale ne vždy. Data druhého psa byla umístěna v cloudové databázi a byla programově stažena pomocí knihovny Pythonu s názvem Požadavek Tato data byla vygenerována z prvních dat spuštěním všech obrázků psů prostřednictvím a neuronová síť který může klasifikovat plemena psů a výsledný soubor je v TSV formát.
url = 'https://d17h27t6h515a5.cloudfront.net/topher/2017/August/599fd2ad_image-predictions/image-predictions.tsv'
response = requests.get(url)
I když můžete namítnout, že jsme mohli tuto adresu URL jednoduše vložit do webového prohlížeče a stáhnout soubor, ale co kdybychom měli ke stažení asi sto souborů? Je to jen škálovatelné dělat to programově.
Údaje 3 — Poslední údaje o psech byly shromážděny z API (říkal jsem ti, že to není tak snadné, jak si možná myslíš). Toto API je zejména twitter API to nám dává volný přístup k tweetům uživatele, včetně času a místa tweetu atd. Výsledný soubor byl v JSON formát, ale byl uložen v .Rozšíření TXT soubor. Můžete zobrazit všechny kódy my GitHub.
Poté, co byly tyto údaje shromážděny, každý z nich byl přečten do 3 různých datových rámců pand v rámci přípravy na hodnocení.
Posoudit údaje o psech
Nyní, když víme, jaké údaje naši psi, dalším tahanicím krokem je posouzení. To se provádí za účelem identifikace anomálií / problémů v datech, které by mohly ztěžovat analýzu nebo ovlivnit naše výsledky. Tyto problémy jsou obvykle rozděleny do dvou:
Protože tento krok může trvat většinu času, pouze osm (8) problémy s kvalitou a dva (2) problémy s čistotou byly v těchto datech posuzovány pomocí vizuálních i programových metod hodnocení údajů.
Vizuální hodnocení bylo použito především pro počáteční hodnocení pomocí Tabulek google, i když můžete využít jakýkoli základní textový editor nebo tabulkovou aplikaci, jako jsou závorky, excel atd. Poté byla provedena další kontrola pomocí programového hodnocení. Níže jsou uvedeny některé z Panda metody a funkce používané pro programové hodnocení.
pd.info()
pd.value_counts()
pd.describe()
pd.sample()
pd.isnull()
pd.duplicated()
Po důkladném posouzení byly níže uvedené problémy zdokumentovány v rámci přípravy na čištění.
Problémy s úklidem
image_prediction tabulka
- Záhlaví sloupců [p1, p1_conf, p1_dog, p2, p2_conf, p2_dog, p3, p3_conf, p3_dog] měly by být hodnoty pouze 4 sloupce.
twitter_archiv tabulka
- sloupce’ doggo’,’ floofer’,’ pupper’,’ puppo ‘ by měly být proměnnými jednoho sloupce.
twitterAPI_extract tabulka
- tato tabulka by měla být součástí Tabulky Archiv twitter
Kvalita
twitter_archiv tabulka
Úplnost
- Některé tweety nemají “rozšířené adresy URL”, které obsahují obrázek psa
- chybějící data (retweet_count, favorite_count)
Platnost
- retweety nejsou potřebné pro analýzu
- chybné hodnocení-řádek 516 hodnocení sam 24/7 je neplatné, (tato hodnocení mají téměř vždy jmenovatele 10.)
- chybné datové typy pro (tweet_id, timestamp, retweet_count, favorite_count)
image_prediction tabulka
Platnost:
- chybný datový typ pro (tweet_id)
- vyžaduje se pouze nejspolehlivější předpověď
- falešná plemena psů nejsou potřeba
Poznámka: některé problémy s kvalitou, které jsou zde zdokumentovány, byly zjištěny poté, co byly opraveny problémy s čistotou.
Čistá data psů
Poté, co byly problémy identifikovány, bylo zahájeno skutečné čištění, ale předtím je třeba nejprve vytvořit kopii původních dat. Tímto způsobem se můžeme vždy vrátit zpět, když nedostáváme požadované z vyčištěných dat.
# Make copies of original pieces of data
twitter_archive_df_clean = twitter_archive_df.copy()
image_prediction_df_clean = image_prediction_df.copy()
twitterAPI_extract_df_clean = twitterAPI_extract_df.copy()
Problémy s daty jsou uvedeny společně s jejich strategiemi čištění v níže uvedených tabulkách.
Po implementaci výše uvedených strategií čištění byly 3 tabulky sloučeny do jednoho kmenového data.
# merge data 1 & 3
twitter_archive_df_clean = pd.merge(twitter_archive_df_clean, twitterAPI_extract_df_clean, on='tweet_id', how = 'outer')# merger the result of the above merger to data 2
master_twitter_df = twitter_archive_df_clean.merge(image_prediction_df_clean[['tweet_id', 'jpg_url', 'prediction']], how = 'outer', on = 'tweet_id')
Ale naše hádka ještě není dokončena.
Uchovávejte data psů
Můžete si to představit jako chlapa s kamerou. Po tom všem úsilí, co kdyby tato fotografie nebyla nikdy pořízena? byla by to ztráta času a energie. Ve stejném duchu je bezpečné ukládat data v požadovaném formátu (CSV, SQL databáze atd.) před provedením jakékoli analýzy.
Zkontrolovat nízko pro krásnou analýzu provedenou s těmito daty.
master_twitter_df.to_csv('twitter_master.csv', index = False)
Opravdu, hádání psů není snadné ani hádání psích dat, ale se správnými nástroji a postupy budete hrdí na své výsledky.