Comments
Description
Transcript
White box e black box
PORTAFOGLIO White box e black box Tecnologie e meccanismi di data mining applicate all'asset allocation È diffusa e difficile da estirpare la convinzione che le decisioni prese direttamente dall’uomo abbiano la capacità di proteggere da certe tipologie di errori più dei meccanismi automatizzati. In qualche modo le scelte umane sono collegate a prese di posizione più sagge e sicure. In altre parole, si ritiene (forse) inconsciamente che la discrezionalità dell’uomo protegga dalla temuta e temibile scatola nera associata di diritto alla macchina e ai suoi derivati. Condivisa pare essere l’idea che l’uomo, dal canto suo, sia certamente più trasparente nelle scelte che compie. Si fa molta meno fatica a fidarsi delle sue valutazioni e a considerarle accettabili, a prescindere dalla logica assente, omessa o esplicita sottostante a esse. Forse perché scatta un immediato e rassicurante senso di affinità fra uomo e uomo, un feeling che invece con la Luglio - Settembre 2014 macchina si trasforma in un distacco automatico perché quest’ultima è identificata come un’entità complicata, diversa per definizione e quindi ostile e incomprensibile? Ma non è proprio l’uomo a determinare e a strutturare ciò che la macchina meramente esegue? Forse conviene fare un po’ di chiarezza sul significato che in questo contesto deve essere attribuito al concetto di black box. Per black box si intende un software su cui eseguire test del quale non si conosce l’implementazione ma che mostra soltanto input e output. È ritenuta di conseguenza una “scatola nera” di cui non si conosce il contenuto e su cui non è possibile intervenire in alcun modo. Al contrario, la white box (anche conosciuta come transparent box testing e structural testing) è un metodo che testa le strutture interne di lavoro di un’applicazione, fino al livello di codice Eugenio De Vito Laureato in Economia e Commercio a Torino, ha maturato una lunga esperienza nel gruppo Deutsche Bank, come financial advisor e, successivamente, formatore professionale nell’ambito dell’asset allocation. È partner di 4Timing Financial Advisory in cui ricopre la carica di Head of Marketing, Business Development e Financial Advisory. Docente Efpa. DIFFICOLTÀ TEMPO SPECIALISTICO 20 MINUTI Sara Giugiario Laureata in Economia Aziendale e Finanza Aziendale e Mercati Finanziari all’Università di Torino. Attraverso la tesi Specialistica sui Sistemi di Trading Quantitativi, ha approfondito tematiche sulla Finanza Comportamentale e costruzione di sistemi d’investimento. È Financial Quantitative Analyst presso 4Timing. 27 My RIVISTA DI FORMAZIONE FINANZIARIA Tutte le analisi che vengono effettuate con i programmi di data mining sono frutto degli input che i ricercatori decidono di inserire e del mondo in cui sono stati impostati dall’uomo sorgente. Implica una conoscenza approfondita del codice che si sta testando e la capacità di metterlo alla prova. La sua essenza è l’accurata analisi del processo al fine di prevenire ogni tipo di errore nascosto. Serve dunque per creare un ambiente privo di errori esaminando ogni aspetto debole del codice. Ci chiediamo a questo punto perché dovrebbe essere più razionale fidarsi della mente pura di un gestore, seppur senza alcuna garanzia sulle sue azioni se Molti settori si affidano al data mining per affinare le loro ricerche e migliorare i loro business. Anche colossi del web come Google, Facebook e Amazon li usano 28 non i suoi risultati passati, risultati che in fin dei conti si possono considerare come dei semplici output, e non di come lo stesso ipotetico gestore si occupi di strutturare e testare un programma che, una volta superate tutte le prove del caso, resta uguale a sé stesso con un metodo, per giunta, ripetibile. Da questo ragionamento a noi pare evidente che la convinzione culturale ormai radicata secondo cui i meccanismi automatizzati siano tutti immediatamente associabili a delle black box sia totalmente da rivedere. La vera black box è la discrezionalità della mente umana del gestore in cui non ci si può addentrare e da cui derivano decisioni non sottoponibili a falsificazione. I meccanismi di data mining, invece, possono essere considerate delle white box a tutti gli effetti: non in tutti i casi, ma laddove l’uomo resta centrale. Il punto è fidarsi della capacità umana di gestire, dirigere e controllare criticamente le operazioni computerizzate. È indispensabile l’esperienza, l’intraprendenza e l’ingegno propri dell’uomo. Sosteniamo dunque con convinzione il beneficio che può derivare dal connubio fra la mente umana e i mezzi computerizzati di data mining. tità di dati attraverso meccanismi computazionali, al fine di estrarne informazioni significative sotto forma di regole e configurazioni (pattern). In altri termini, si tratta di un processo complesso di identificazione di tendenze nei dati, con lo scopo di cercare modelli o trend potenzialmente utili e comprensibili e tali da consentire all’utente di prendere decisioni cruciali in modo ragionevole. Dunque, tutte le analisi che vengono effettuate con questi programmi sono innanzitutto frutto degli input che i ricercatori decidono di inserire e di non inserire, di impostare in un certo modo piuttosto che in un altro. Molti settori si affidano a questo strumento per affinare le loro ricerche e migliorare i loro business. Il settore sanitario, per esempio, lo impiega diffu- DATA MINING È l'insieme di tecniche e metodologie che hanno per oggetto l'estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o semi-automatici) e l'utilizzo scientifico, industriale o operativo di questo sapere. Cosa si intende per data mining? Si tratta dell’elaborazione di ingenti quanLuglio - Settembre 2014 PORTAFOGLIO WHITE BOX Anche conosciuta come transparent box testing e structural testing, è un metodo che testa le strutture interne di lavoro di un’applicazione, fino al livello di codice sorgente. Implica una conoscenza approfondita del codice che si sta testando e la capacità di metterlo alla prova. samente sia per la valutazione dell’efficacia di nuovi trattamenti terapeutici, sia a livello assicurativo per prevenire frodi e abusi. Infatti, il campo medico oggi genera un enorme ammontare di dati complessi relativi a pazienti, alle risorse ospedaliere, alla diagnosi di malattie, alle cartelle cliniche, ai dispositivi medici, ecc. Tutti questi dati, una volta processati e analizzati, costituiscono una risorsa chiave per l’estrapolazione di conoscenza, essenziale per potenziare l’efficienza a livello di costi (in tal modo i pazienti possono ricevere cure migliori ad un prezzo inferiore) e per indirizzare le decisioni dei medici. Le tecniche di data mining vengono diffusamente applicate ai dati presenti sul web, da colossi come Google, Facebook, Amazon, eccetera. Google si affida al data mining sia per le ricerche sia per la pubblicità. Infatti, l’uso di algoritmi di apprendimento più semplici e standard è diventato non più sufficiente a far fronte ai continui cambiamenti che interessano i dati e al loro crescente e inesauribile volume. Ogni singola azione eseguita sul web e in particolare sui social network viene memorizzata all’interno di un’immensa base di dati e lì viene incrociata con altre informazioni contenute su altre basi di dati, attraverso raffinati algoritmi di tipo matematico statistico. Facebook calcola quali post visualizza un utente, quanto è vicino questo utente al creatore del post, quanto è importante il contenuto (soprattutto attraverso le foto considerate più significative e attraverso il testo) e per quanto tempo è stato utilizzato quel post. Pesando questi vari fattori, l’algoritmo decide cosa mostrare, aggiornandosi e migliorandosi periodicamente. Amazon, invece, suggerisce quali libri potrebbero piacere agli utenti, sulla base degli acquisti effettuati da utenti considerati con caratteristiche affini. BLACK BOX Si intende un software su cui eseguire test del quale non si conosce l’implementazione ma che mostra soltanto input e output. È ritenuta di conseguenza una “scatola nera” di cui non si conosce il contenuto e su cui non è possibile intervenire in alcun modo. Non c’è dubbio che il futuro del web appartenga a chi dispone delle più sofisticate tecniche di estrazione dei dati. Addirittura, i due campi appena citati si sono incrociati grazie al Data Mining in un episodio singolare che riportiamo. Cinque anni fa, Google è stato capace di tracciare la diffusione dell’influenza negli Stati Uniti senza bisogno di un solo check up medico. Non solo, ha analizzato l’epidemia in modo più rapido ed economico rispetto al Centro di Controllo e Prevenzione delle Malattie (CDC), attraverso un algoritmo in grado di individuare la correlazione tra ciò che la gente cercava online e i sintomi dell’influenza. Questa vicenda è utile per spiegare quanto l’uso incontrollato dei big data senza una mente possa portare a ottenere degli esiti imprevedibili. Infatti, dopo aver fornito accura- Le tecniche di data mining applicate ai dati presenti sul web Luglio - Settembre 2014 29 My RIVISTA DI FORMAZIONE FINANZIARIA Grafico 1. Modello in grado di simulare l'indice S&P 500 tamente per anni i dati sullo sviluppo dell’influenza, il quarto anno la previsione algoritmica di Google si è rivelata sbagliata. Il problema è concentrato sul fatto che Google non conosceva la relazione tra i termini di ricerca utilizzati e lo sviluppo della malattia, in altri termini non era interessato a comprendere “cosa era la causa di cosa”. Si focalizzava più sulle correlazioni in sé che sulle cause. Questa è la prova di quanto sostenuto sopra: la totale assenza della componente umana nel dirigere attivamente e tessere le fila fra l’ammontare grezzo di dati rende l’algoritmo inevitabilmente fragile. Passiamo ora, invece, all’industria immobiliare. I sistemi di analisi di Big Data consentono di effettuare previsioni di risultati e comportamenti fondamentali per determinare il successo, ad esempio, di piani di valorizzazione e riposizionamento di immobili. L’utilizzo su larga scala di basi informative geore- 30 ferenziate offre inoltre un prezioso supporto alla valutazione della capacità di attrazione del territorio e alla definizione del pricing delle case. Supponiamo di conoscere le caratteristiche e i prezzi di un campione di case. Tramite la costruzione di un modello computazionale è possibile calcolare rapidamente il prezzo a cui è congruo vendere un’abitazione. Con la stessa logica, abbiamo sviluppato un esempio collegando l’andamento dello S&P 500 con i dati sul tasso di disoccupazione americana, sull’acquisto di nuove abitazioni, sui redditi e sui tassi della Fed. Grazie ai meccanismi di elaborazione di Big Data, è stato creato un modello in grado di simulare l’indice S&P 500 sfruttando i dati macro sopra citati in modo del tutto sistematico. In maniera altrettanto speculare si potrebbe costruire un sistema da utilizzare per la scelta dei titoli societari da tenere in portafoglio basandosi sul price earning e su altri dati fondamentali societari oppure su valori legati all’analisi macro-fondamentale. Diversi soggetti oggi applicano scienza e tecnologia al mondo della gestione degil investimenti, come per esempio Winton Capital, che ha una lunga tradizione nell’approccio al mondo finanziario attraverso la lente della scienza. Per realizzare ciò, il processo è disciplinato, le decisioni sono sistematizzate seguendo una serie di regole codificate dal computer. Appurato che è l’uomo a influenzare e determinare le scelte in base alle proprie conoscenze e alle sue idee, la macchina non solo è un valido supporto per la loro implementazione, ma è fondamentale per incrementarne il grado di solidità. In altri termini, la convinzione che i mezzi computerizzati siano meno affidabili delle decisioni umane, per noi è totalmente ribaltata. La vera black box Luglio - Settembre 2014 PORTAFOGLIO Grafico 2. Risultati della strategia Winton Capital Management Diversified dal 1997 ad oggi Account & Fees Type Managed Account Minimum Investment $ 50,000k Trading Level Incremental Increase $ 0k CTA Max Funding Factor Management Fee 1.00% Performance Fee 20.00% Average Commission $0 Available to US Investors Yes è l’approccio discrezionale. L’effettiva trasparenza la può trasmettere solo un approccio strutturato attraverso un rigoroso Metodo Scientifico. Sinteticamente: 1) i dati storici sono elaborati attraverso strumenti matematico-statistico; 2) le previsioni devono essere falsificabili e verificabili; 3) i risultati devono essere ripetibili. Infatti, solo attraverso un atteggiamento critico sostenuto da un’opportuna stru- Luglio - Settembre 2014 Subscriptions High Water Mark Yes Subscription Frequency 1-7 Days Redemption Frequency 1-7 Days Investor Requirements Qualified Eligible Persons (QEP) Lock-up Period 0 mentazione possiamo renderci conto di quanto un sistema che all’apparenza sembra portare a dei risultati ineccepibili, si possa facilmente e rapidamente rompere. La macchina, quindi, rende tangibilmente consapevoli della fragilità di certe convinzioni. Una volta definite le regole che la strategia deve rispettare in modo chiaro e sequenziale e implementato l’algoritmo, un sistema viene sottoposto alle migliaia di prove differenti che i programmi in questione consentono di eseguire. Paradossalmente, a catalizzare tempo e risorse, non è tanto la mera ricerca di strategie, quanto la fase di stress test, proprio per la consapevolezza dei limiti e dei pericoli in cui si può incorrere: è quella la chiave di robustezza del procedimento. 31