Machine Learning 101: Supervised, Unsupervised, Reinforcement, and Beyond

Strojové učení je nezbytnou součástí bytí a Data Scientist . Zjednodušeně řečeno, strojové učení využíváalgoritmy pro objevování vzorců a vytváření předpovědí.Je to jedna z populárnějších metod používaných ke zpracování velkého množství nezpracovaných dat a její popularita poroste pouze s tím, jak se bude více společností snažit rozhodovat na základě dat.

Strojové učení zahrnuje širokou škálu nápadů, nástrojů a technik, které datoví vědci a další odborníci používají. Vysvětlili jsme tyto pojmy šířeji , ale tentokrát se podívámeu některých konkrétních součástí ajak je lze využít k řešení problémů.



Strojové učení pod dohledem

Nejjednodušší úkoly spadají pod deštník učení pod dohledem .



V řízeném učení máme přístup k příkladům správných vstupně-výstupních párů, které můžeme ukázat stroji během tréninkové fáze. K běžnému příkladu rozpoznávání rukopisu se obvykle přistupuje jako k učebnímu úkolu pod dohledem. Ukážeme počítači řadu obrázků ručně psaných číslic spolu se správnými štítky pro tyto číslice a počítač se naučí vzory, které spojují obrázky s jejich štítky.

Naučit se, jak provádět úkoly tímto způsobem na explicitním příkladu, je relativně snadné pochopit a přímo implementovat, ale je zde zásadní úkol: Můžeme to udělat pouze tehdy, máme-li přístup k datové sadě správných vstupně-výstupních párů. V příkladu rukopisu to znamená, že v určitém okamžiku musíme poslat člověka, aby klasifikoval obrázky v trénovací sadě. Je to pracná a často neproveditelná práce, ale tam, kde data existují, mohou být algoritmy učení pod dohledem extrémně účinné v široké škále úkolů.



Regrese a klasifikace

Úlohy strojového učení pod dohledem lze obecně rozdělit do dvou podskupin: regrese a klasifikace . Regrese je problém odhadu nebo předpovědi spojité veličiny. Jaká bude hodnota S&P 500 za měsíc ode dneška? Jak vysoké bude dítě v dospělosti? Kolik našich zákazníků letos odejde ke konkurenci? Toto jsou příklady otázek, které by spadaly pod záštitu regrese. Abychom tyto problémy vyřešili v rámci kontrolovaného strojového učení, shromáždili bychom minulé příklady vstupních/výstupních dvojic správných odpovědí, které se zabývají stejným problémem. U vstupů bychom identifikovali funkce o kterých věříme, že by předpovídaly výsledky, které chceme předpovídat.

U prvního problému bychom se mohli pokusit shromáždit jako rysy historické ceny akcií pod indexem S&P 500 k daným datům spolu s hodnotou indexu S&P 500 o měsíc později. To by tvořilo naši tréninkovou sadu, ze které by se stroj pokusil určit nějaký funkční vztah mezi vlastnostmi a případnými hodnotami S&P 500.

Klasifikace se zabývá přiřazováním pozorování do diskrétních kategorií, spíše než odhadováním spojitých veličin. V nejjednodušším případě existují dvě možné kategorie; tento případ je znám jako binární klasifikace . Z hlediska binární klasifikace lze zarámovat mnoho důležitých otázek. Odejde od nás daný zákazník ke konkurenci? Má daný pacient rakovinu? Obsahuje daný obrázek párek v rohlíku? Algoritmy pro provádění binární klasifikace jsou zvláště důležité, protože mnoho z algoritmů pro provádění obecnějšího druhu klasifikace, kde existují libovolné štítky, je jednoduše skupina binárních klasifikátorů, které spolupracují. Například jednoduchým řešením problému rozpoznávání rukopisu je jednoduše trénovat spoustu binárních klasifikátorů: 0-detektor, 1-detektor, 2-detektor atd., které poskytují jistotu, že obrázek je jejich příslušnou číslici. Klasifikátor pouze vypíše číslici, jejíž klasifikátor má nejvyšší jistotu.



Na druhé straně existuje úplně jiná třída úkolů, které se označují jako učení bez dozoru . Řízené učební úlohy nalézají vzorce, kde máme datovou sadu správných odpovědí, ze kterých se můžeme učit. Výukové úkoly bez dozoru nacházejí vzorce tam, kde my ne. Může to být proto, že správné odpovědi jsou nepozorovatelné, nebo je nelze získat, nebo možná pro daný problém neexistuje správná odpověď sama o sobě.

Shlukování a generativní modelování

Problémem je velká podtřída úloh bez dozoru shlukování . Shlukování se týká seskupování pozorování dohromady takovým způsobem, že členové společné skupiny jsou si navzájem podobní a liší se od členů jiných skupin. Běžnou aplikací je zde marketing, kde chceme identifikovat segmenty zákazníků nebo potenciálních zákazníků s podobnými preferencemi nebo nákupními zvyklostmi. Hlavním problémem při shlukování je to, že je často obtížné nebo nemožné zjistit, kolik shluků by mělo existovat nebo jak by měly shluky vypadat.

strojové učení

Velmi zajímavá třída úkolů bez dozoru je generativní modelování . Generativní modely jsou modely, které napodobují proces, který generuje trénovací data. Dobrý generativní model by byl schopen generovat nová data, která se v určitém smyslu podobají tréninkovým datům. Tento typ učení je bez dozoru, protože proces který generuje data, není přímo pozorovatelný – pozorovatelná jsou pouze data samotná.



Nedávný vývoj v této oblasti vedl k překvapivým a občas děsivým pokrokům ve vytváření obrazu. Obrázek je zde vytvořen trénováním jakéhosi modelu učení bez dozoru zvaného Deep Convolutional Generalized Adversarial Network model pro generování obrázků tváří a žádostí o obrázky usmívajícího se muže.

Posílení učení, hybridy a další

Novější typ učebního problému, který v poslední době získal velkou pozornost, se nazývá posilovací učení . Při výuce výztuže neposkytujeme stroji příklady správných vstupně-výstupních párů, ale poskytujeme metodu, jak stroj kvantifikovat jeho výkon ve formě signál odměny . Metody zesíleného učení se podobají tomu, jak se učí lidé a zvířata: stroj zkouší spoustu různých věcí a je odměněn, když něco udělá dobře.

Posílení učení je užitečné v případech, kdy je prostor řešení obrovský nebo nekonečný, a obvykle se používá v případech, kdy lze stroj považovat za agenta interagujícího se svým prostředím. Jedním z prvních velkých úspěchů tohoto typu modelu byl malý tým, kterýtrénoval výukový model posilování pro hraní videoher Atari s použitím pouze pixelového výstupu ze hry jako vstupu. Model byl nakonec schopen překonat lidské hráče ve třech hrách a společnost, která model vytvořilabyla získána společností Google za více než 500 milionů dolarůkrátce poté.

K implementaci kontrolovaného učení do problému hraní videoher Atari bychom potřebovali datovou sadu obsahující miliony nebo miliardy příkladů her, které hrají skuteční lidé, aby se z nich stroj mohl učit. Naproti tomu posilovací učení funguje tak, že dává stroji odměnu podle toho, jak dobře si plní svůj úkol. Jednoduché videohry se pro tento typ úkolů dobře hodí, protože skóre funguje dobře jako odměna. Stroj se pomocí simulace učí, které vzorce maximalizují jeho odměnu.

Hybridní přístupy často vedou k dobrým výsledkům. Například důležitým úkolem v některých oblastech je úkol detekce anomálií . Algoritmus detekce anomálií monitoruje nějaký signál a indikuje, když něco podivný se děje. Dobrým příkladem je odhalování podvodů. Chceme algoritmus, který monitoruje proud transakcí kreditními kartami a označí ty podivné. Ale co znamená divný? Tento problém je vhodný pro jakýsi hybridní přístup pod dohledem/bez dohledu. Určitě existují některé známé vzorce, které bychom chtěli, aby byl algoritmus schopen detekovat, a můžeme trénovat model učení pod dohledem tím, že mu ukážeme příklady známých vzorů podvodů. Ale také chceme být schopni odhalit dříve neznámé příklady potenciálních podvodů nebo jinak abnormálních aktivit, kterých lze dosáhnout metodami učení bez dozoru.

Základy strojového učení mohou mít velký dopad

Mnoho z nejpokročilejších nástrojů vyžaduje velké množství sofistikovaných znalostí v pokročilé matematice, statistice a softwarovém inženýrství. Pro začátečníka, který chce začít, se to může zdát ohromující, zvláště pokud chcete pracovat s některými ze vzrušujících nových modelů.

Dobrou zprávou je, že toho můžete udělat hodně se základy, které jsou široce dostupné. V R a Pythonu jsou implementovány různé modely učení pod dohledem a bez dozoru, které jsou volně dostupné a lze je snadno nastavit na vašem vlastním počítači, a dokonce i jednoduché modely, jako je lineární nebo logistická regrese, lze použít k provádění zajímavých a důležitých úloh strojového učení.

Podívejte se na naše Kurz Machine Learning Certificate naučit se základy a začít. Pokud chceš víc, přihlásit se nyní na BrainStation Diplomový program Data Science.


Kategori: Data Science