Naloge
Naloži podatke o državah (hdi.tab) in jih združi (Merge Data) s podatki o kontinentih (continents.xlsx). S Select Columns določi kontinent kot ciljno spremenljivko.
Sestavi klasifikacijsko drevo. Oglej si, kako "razmišlja" - ni treba iti do zadnjih detajlov, le tako, na počez.
Poveži drevo s tabelo ali kar zemljevidom (ali obojim). Klikaj po vozliščih drevesa in opazuj, katere države so se znašle kje. Zanimivo je, recimo, pogledati, kako se evropske države znajdejo v različnih delih drevesa. To pomeni, da razred ni homogen in ni enotnega pravila za identificiranje evropske države.
Sestavi Naivni Bayesov klasifikator iz istih podatkov. Poveži ga z nomogramom in si poglej, kaj je tipično za afriške in kaj za evropske države. (Nastavi Display features na All, da boš videl vse spremenljivke.)
Poskusimo še z gručenjem.
- Vzemi podatke brez kontinentov.
- Izračunaj razdalje (evklidska razdalja, normirana)
- Sestavi gručenje (Ward linkage)
- Razdeli države v neko smiselno število gruč (3 ali 4, najbrž)
- Poveži s Select Columns, povleci "Cluster" v "Target".
- Ponovi vajo gornjo vajo: z drevesom in bayesovim klasifikatorjevem ugotovi tipične lastnosti posameznih gruč.
V kakšnem smislu nam nomogram pove več od drevesa? (Namig: pove nam več stvari?)
Poglejmo še, v čem se posamična gruča razlikuje od vseh ostalih.
- Z dvoklikom na povezavo ppremeni povezavo med Hierarchical Clustering in Select Columns tako, da bo prvi poslal drugemu vse podatke, ne le izbranih.
- S klikom znotraj gruče (torej znotraj "drevesa", ne nad njim) izberi določeno gručo, na primer tisto, ki pretežno vsebuje evropske države (ali afriške ali arabske ...).
- V nomogramu ali drevesu opazuj lastnosti te skupine.
To lahko ponavljaš za različne izbore skupin.