Tuesday, 31 October 2017

Costruire Automatizzato Trading Sistemi Java


W e l c o m e Benvenuti nella casa del Sistema di The Open sistema open Java Trading Java Trading (OJTS) è destinata ad essere una infrastruttura comune per sviluppare sistemi di commercio. Si compone di quattro parti: la raccolta dei dati grezzi su internet il riconoscimento delle contrattazioni segna un modulo di visualizzazione e moduli per il collegamento alle interfacce programmatiche di piattaforme di trading come le banche. I progetti mirano è quello di fornire un autonomo puro Java (indipendente dalla piattaforma) infrastruttura comune per gli sviluppatori di sistemi di trading. Alcuni degli aspetti che devono essere affrontati sono quelli di fornire uno schema di database compatibile comune SQL92 per la memorizzazione di dati finanziari, interfacce Java comuni per il modo di scambio di dati tra diversi moduli, visualizzazione dei dati finanziari grezzi e segnali di trading e molti altri aspetti comuni necessari per creare un system. Because commerciale finale del mio lavoro e famiglia non trovo il tempo per migliorare OJTS più. Sto continuando ad aggiornare la sezione link qui sotto, che vi guiderà a progetti open source Java più attivi in ​​quella zona, però. Infatti come conseguenza del mio interesse per le dinamiche dei mercati azionari ho iniziato un viaggio nelle più profonde particolari dell'economia nazionale al fine di comprendere i tassi di cambio. In questo argomento alla fine mi ha portato a uno studio più approfondito di denaro in se stesso come l'unità metrica che usiamo in economia per misurare il valore, il successo o l'utilità. In questo argomento si è rivelata estremamente interessante, ma allo stesso tempo è stato molto difficile trovare tutte le informazioni su come funziona il nostro sistema monetario. Andare in giro e chiedere alla gente dove il denaro proviene, che crea e ciò che determina il suo valore. Si noterà che anche le persone che hanno una laurea o dottorato di ricerca. in economia non conoscere questi dettagli. Oh, sì, essi rispondono in alcuni termini tecnici criptici, ma non saranno in grado di disegnare un semplice schema che illustra il processo. H. G. Wells è segnalato per aver detto: Per scrivere della valuta è generalmente riconosciuta come un discutibile, anzi quasi indecente, pratica. Editors saranno implorare lo scrittore quasi in lacrime di non scrivere per i soldi, non perché si tratta di un soggetto poco interessante, ma perché è sempre stato uno profondamente inquietante. Suggerisco a qualsiasi persona che vive in una società democratica, per leggere su questo argomento. Essa colpisce la nostra vita ogni giorno in una misura che non può essere esagerato a mio parere ogni cittadino di un paese democratico in quel mondo deve sapere dove il nostro denaro proviene. Molto probabilmente si è venuto a questo sito web, al fine di cercare gli strumenti che ti aiutano ad aumentare la vostra ricchezza monetaria. Per capire il denaro unità metriche (non importa se dollaro o euro) sarà un ingrediente importante nel vostro toolkit per fare soldi. Se avete poco tempo e solo può permettersi di leggere un unico libro su questo argomento, allora vi consiglio di leggere ricchezza, ricchezza virtuale e del debito da Frederick Soddy. Sono stato in grado di comprare una copia usata con Amazon per 23,48, ma esiste anche una versione online. Sarà necessario il plugin DjVu di leggerlo. Questo libro è stato pubblicato in origine nel 1929, ma descrive ancora i fatti reali molto bene. Anche se io non sono d'accordo con tutte le conclusioni di Federico Soddy il suo lavoro è piacevolmente stimolante e vi porterà a fare le domande giuste. Uscite N e w s, Bugfix e documentazione aggiornata ha annunciato la sospensione di sviluppo attivo e aggiunti riferimenti a informazioni sui nostri sistemi monetari (DollarEuro). Aggiunta una sezione link ad altri progetti interessanti Java System commerciali. Sto indagando su come rendere più compatibili OJTS ad altri sforzi di sistema Java di trading. Investimenti e Documentation Project Trading System si trovano a ITSdoc. org. C'è un nuovo wiki disponibile presso ITSdoc. org concentrandosi sulla distribuzione delle conoscenze nel settore dei sistemi di investimento e commerciali. L'idea alla base ITSdoc. org è quella di avere una piattaforma di collaborazione simile a wikipedia aiutare la comunità a condividere la conoscenza. OpenJavaTradingSystem v0.13 rilasciato. Ieri ho rilasciato la versione 0.13 della libreria OpenJavaTradingSystem. Tra le nuove caratteristiche sono: il recupero dei dati per azioni, fondi e valute da OnVista. Attuazione della movimentazione di valuta e conversioni. I portafogli sono implementate e si può lavorare con portafogli allo stesso modo con gli elementi singoli di carta di sicurezza. Aggiunto un quadro generale per l'applicazione di algoritmi di serie temporali del mercato azionario. Switched dalla shell interattiva SISCScheme a ABCLCommonLisp più il suo editor chiamato J. Aggiunto un meccanismo di caching dei dati generale per memorizzare nella cache i dati che è stata già recuperata attraverso il web nel file system. Inoltre molti miglioramenti più piccoli Se siete interessati a questa nuova versione si dovrebbe iniziare nella sezione quickstartscreenshot. Il manuale non è ancora aggiornato, ma può dare comunque alcune informazioni preziose, se si desidera utilizzare la libreria nel progetto. La documentazione deve essere aggiornata soon. Currently non c'è molto sviluppo fatto, perché sto aggiornando la mia conoscenza di reti bayesiane. Si veda ad esempio l'elenco dei libri sul mio sito web. Due progetti molto interessanti a questo proposito sono WEKA e BNJ. Presto continuare lo sviluppo e inizierò ad integrare la prima intelligenza nel sistema. Oggi ho messo la prima versione nella sezione File del area download sourceforge. Oltre a questo ho aggiornato il manuale per documentare l'uso interattivo del progetto attraverso lo strato SISC Scheme. Per gli impazienti qui è una sezione quickstartscreenshot per farti andare. D o c u m e n t a z i o n documenti che descrivono l'interno del progetto. Java Data Objects e interfaccia documentazione gtgtHTML documentazione gtgtPDF Uso gtgtHTML gtgtPDF Investimenti e Trading System Documentation Project gtgtITSdoc. org T ecnologia di terzi Building Blocks utilizzato in questo progetto HSQL Database Engine (licenza: hsqldblic. txt) La HSQLDB è il motore di database fornito con il progetto in modo che si può iniziare subito con i OJTS senza installare un terzo database di terze parti. Ma se si prevede di utilizzare un altro database compatibile con SQL92 allora questa è una opzione di configurazione. Castor (licenza: Il ExoLab licenza) di ricino è un dato di Open Source quadro vincolante per JavaTM. Suo il percorso più breve tra oggetti Java, documenti XML e le tabelle relazionali. Castor fornisce Java-to-XML vincolante, Java-to-SQL persistenza, e altro ancora. Castor Doclet (licenza: GNU LGPL v2.1) Java Doclet per generare sia i file DDL mappatura e per Castor JDO e Castor XML. TestMaker (licenza: TestMaker Open-Source License) Dal progetto TestMaker solo l'attuazione dei protocolli come HTTP o HTTPS vengono utilizzati per la raccolta dei dati dal web. jCookie (licenza: GNU LGPL v2.1) La biblioteca jCookie è necessario per le librerie TestMaker al lavoro. HTMLParser (licenza: GNU LGPL v2.1) La biblioteca HTMLParser viene utilizzato per estrarre i dati da risorse web. ABCLCommonLisp (licenza: GNU GPL v2) ABCL (Armed Orso Common Lisp) viene utilizzato per implementare il cuore algoritmica del progetto nel linguaggio di programmazione ANSI Common Lisp. JFreeChart (licenza: GNU LGPL v2.1) JFreeChart viene utilizzato per la visualizzazione dei dati finanziari come grafici. JSCI (licenza: GNU LGPL v2.1) JSCI - Una API scienza per Java. Joda Time (licenza: Home Grown OpenSource License) Joda Tempo sostituisce la data e ora JDK classi originali. L i n k s Collegamenti con altri progetti Il JavaTraders gruppo Google può essere la voce migliore per voi di trovare informazioni sugli altri sistemi di trading basati su Java e strumenti. L icense Condizioni di utilizzo Il codice del progetto è concesso in licenza sotto i termini della licenza LGPL e tutta la documentazione che trovate in questo progetto sono concessi in licenza in base ai termini della revisione FDL. This è più di un puntatore ai concetti di valore, più un collegamento a un white paper molto interessante tutto trova sul sito web Tridium Inc.. il movimento Bajas ha il potenziale per definire l'ambiente applicativo di building automation con le specifiche che descrivono un insieme di API Java e schemi XML per le applicazioni di sistema di controllo interoperabili. Baja JAVA Architettura standard Baja (Building Automation Java Architecture) è uno sforzo standard con la missione di creare una piattaforma aperta Java per il mercato dell'automazione dell'edificio. Baja è una suite di applicazioni software componente progettato dal primo giorno per sfruttare la potenza di Internet, il supporto vero plug-and-play e consentire la completa interoperabilità multi-vendor. Utilizzando le API Java e schemi XML, Baja consente agli sviluppatori di convergere protocolli dei dispositivi multi-vendor e standard di comunicazione con le tecnologie di Internet in un unico standard universale e ad adattarsi in un ambiente aperto, interoperabile. Il risultato è una soluzione che libera il potenziale di dispositivi intelligenti e di Internet in modi inimmaginabili, fornendo al contempo significativamente più bassi costi di automazione e di infrastruttura informativa. Il gruppo di esperti pascere Baja attraverso il processo standard è composto da molti dei principali operatori del settore dell'automazione. Essi includono: Tridium, Inc. Johnson Controls Sun Microsystems Yamatake Invensys Echelon Honeywell CPC (Emerson Electric) Siemens Building Technologies Il movimento Trane Bajas ha il potenziale per definire l'ambiente applicativo di building automation con le specifiche che descrivono un insieme di API Java e schemi XML per le applicazioni di sistema di controllo interoperabili. Esso definisce una architettura standard Java per controllori programmabili, un'architettura componente comune che consente l'interoperabilità tra software multi-vendor e dispositivi eterogenei, un modello che è facilmente utilizzato da non programmatori di costruire applicazioni di controllo, e la possibilità di programmare mentre l'applicazione è in esecuzione. Per il 99 per cento degli edifici esistenti nel mercato statunitense che attualmente non può permettersi di sostituire i loro dispositivi legacy per soddisfare gli standard di sistema aperti, Baja significa libertà da hardware lock-in e software lock-in. Darà le aziende il potere di sviluppare facilmente le proprie applicazioni e driver di periferica in un ambiente aperto user-friendly. Baja consentirà la comunicazione e l'integrazione delle informazioni chiave da tutti i sistemi e le applicazioni software in edifici. Il risultato netto: un quadro che permetterà alle aziende di meglio soddisfare le loro esigenze dei clienti con la migliore delle soluzioni di razza e la compatibilità di Internet completa. La Baja standard sarà controllata congiuntamente da Tridium Inc. e Sun MicroSystems. Cyan Primavera ATS Ciano primavera ATS è una piattaforma di trading algoritmico open source. Esso mira a fornire soluzioni di trading automatizzate per le banche d'investimento, gestori di fondi e singoli operatori. Ciano primavera ATS combina il trading algoritmico e gestione degli ordini in un unico sistema integrato che permette lo sviluppo rapido di strategia e delpoyment. Mile Pietre versione 1.32 rilasciato con IB connessioni versione 1.36 rilasciato con segno di spunta persistenza e framework di test di nuovo la versione 1.53 rilasciato con distribuzione strategia runtime versione 1.65 rilasciata con la strategia di un solo strumento versione 2.31 rilasciato con aggiornamento a Java 7 Informazioni software compatibile Per saperne di più circa l'applicazione Ciano primavera Algorithmic Trading Software consente un facile sviluppo di strategie semplici e sofisticate Un quadro solida strategia sostiene rapido sviluppo di strategie single-Order. Singolo-Instrument Strategie e Multi-Instrument Strategie Ciano Primavera Trader Workstation (CSTW) fornisce un'interfaccia grafica utente (GUI) per i commercianti di monitorare e controllare l'esecuzione delle strategie di Ciano primavera ATS supporta il protocollo FIX e connessioni Interactive Broker Scopri l'architettura del sistema su Ciano primavera ATS scelta è vostra: un sistema di scambio di impresa con la configurazione del server-cluster distribuito o un peso leggero algo robot con semplice client e configurazione del server. soluzione Java con l'architettura applicazioni multi-tier event-driven basata su Java Message System (JMS) server mutliple possono lavorare insieme come un gruppo per condividere il carico di lavoro Ciano Primavera Trader Workstation (CSTW) può connettersi a più server nello stesso cluster Domande frequenti Sentire liberi di inviare al nostro forum per qualsiasi domanda tu possa avere Information Service ti piace il nostro software Ciano primavera ATS Group è un appuntamento di sviluppatori che si stanno specializzando nella costruzione di sistemi algotrading. Se ti piace il nostro software, si può prendere in considerazione i seguenti servizi che forniamo la consultazione e lo sviluppo di personalizzazione sui servizi Ciano primavera ATS Consulenza in materia di sviluppo del sistema commerciale generale e la distribuzione I nostri sviluppatori e collaboratori possono essere aperti per la possibilità di fare parte della vostra azienda come imprenditore o personale permanente fatta salva la loro disponibilità scriveteci all'indirizzo infocyanspring per qualsiasi richiesta Ciano primavera ATS - Open Source Software Trading algoritmico Copyright 2011-2012 Ciano Spring Limited. Tutti i diritti reservedBest linguaggio di programmazione per Algorithmic Trading Systems Una delle domande più frequenti che ricevo nel raccoglitore QS è Qual è il miglior linguaggio di programmazione per il trading algoritmico. La risposta breve è che non esiste un linguaggio migliore. parametri di strategia, le prestazioni, la modularità, lo sviluppo, la resilienza e il costo devono tutti essere presi in considerazione. Questo articolo illustrerà i componenti necessari di un'architettura di sistema trading algoritmico e come le decisioni relative all'attuazione influenzare la scelta della lingua. In primo luogo, saranno prese in considerazione le principali componenti di un sistema di trading algoritmico, come ad esempio gli strumenti di ricerca, portafoglio ottimizzatore, risk manager e motore di esecuzione. Successivamente, diverse strategie di trading saranno esaminate e come influenzano la progettazione del sistema. In particolare, saranno entrambi discussa la frequenza degli scambi e il volume degli scambi probabile. Una volta selezionata la strategia di negoziazione, è necessario architetto dell'intero sistema. Ciò include la scelta di hardware, il sistema operativo (s) e la resilienza sistema contro eventi rari e potenzialmente catastrofici. Mentre l'architettura viene presa in considerazione, tenendo conto deve essere pagato per le prestazioni - sia per gli strumenti di ricerca, nonché l'ambiente di esecuzione dal vivo. Qual è il sistema commerciale cercando di fare prima di decidere il miglior linguaggio con cui scrivere un sistema di trading automatico è necessario definire i requisiti. Il sistema sta per essere puramente esecuzione basato Sarà il sistema richiede un modulo di costruzione di gestione del rischio o portafoglio il sistema richiederà un backtester ad alte prestazioni per la maggior parte delle strategie del sistema di scambio può essere partizionato in due categorie: la ricerca e la generazione del segnale. La ricerca si occupa di valutazione di un rendimento della strategia sui dati storici. Il processo di valutazione di una strategia di trading sui dati di mercato prima è conosciuta come backtesting. La dimensione dei dati e la complessità algoritmica avranno un grande impatto sulla intensità computazionale del backtester. velocità della CPU e la concorrenza sono spesso i fattori limitanti di ottimizzare la velocità di esecuzione della ricerca. La generazione di segnali si occupa di generare una serie di segnali di trading da un algoritmo e l'invio di tali ordini al mercato, di solito tramite una società di intermediazione. Per certe strategie è richiesto un elevato livello di prestazioni. questioni IO come la larghezza di banda e la latenza sono spesso il fattore limitante per ottimizzare i sistemi di esecuzione. Così la scelta delle lingue per ogni componente del vostro intero sistema può essere molto diversa. Tipo, frequenza e volume della strategia Il tipo di strategia algoritmica impiegato avrà un impatto significativo sulla progettazione del sistema. Sarà necessario prendere in considerazione i mercati oggetto di scambio, la connettività a fornitori di dati esterni, la frequenza ed il volume della strategia, il trade-off tra la facilità di sviluppo e di ottimizzazione delle prestazioni, così come qualsiasi hardware personalizzato, compreso il co-locati personalizzato server, GPU o FPGA che potrebbero essere necessari. Le scelte tecnologiche per un a bassa frequenza US strategia di azioni saranno molto diverse da quelle di una strategia di trading arbitraggio statistico ad alta frequenza sul mercato dei futures. Prima della scelta della lingua molti fornitori di dati devono essere valutati che riguardano una strategia a portata di mano. Sarà necessario prendere in considerazione la connettività al venditore, la struttura di qualsiasi API, tempestività dei dati, requisiti di archiviazione e la resilienza di fronte ad un venditore di andare offline. E 'anche saggio di possedere un rapido accesso a più fornitori Vari strumenti tutti hanno le proprie peculiarità di storage, i cui esempi sono molteplici simboli ticker per le azioni e le date di scadenza dei futures (per non parlare di tutti i dati specifici OTC). Questo deve essere presi in considerazione per la progettazione della piattaforma. Frequenza di strategia è probabile che sia uno dei principali motori di come verrà definita la tecnologia stack. Le strategie che impiegano i dati più frequentemente di quanto minuziosamente o in secondo luogo barre richiedono una notevole considerazione per quanto riguarda le prestazioni. Una strategia superiore in secondo bar (cioè spuntare dati) porta ad un design prestazioni guidato come l'esigenza primaria. Per le strategie ad alta frequenza dovrà essere conservato e valutati una notevole quantità di dati di mercato. Software come HDF5 o KDB sono comunemente usati per questi ruoli. Per elaborare gli ampi volumi di dati necessari per applicazioni HFT, un sistema backtester ed esecuzione ampiamente ottimizzato deve essere utilizzato. CC (possibilmente con qualche assembler) è probabile che il più forte candidato lingua. strategie ultra-alta frequenza sarà quasi certamente richiedono hardware personalizzato come FPGA, lo scambio di co-locazione e messa a punto un'interfaccia kernalnetwork. Sistemi di sistemi di ricerca di ricerca di solito comporta una miscela di sviluppo interattivo e script automatizzati. Il primo avviene spesso all'interno di un IDE come Visual Studio, Matlab o R Studio. Quest'ultimo coinvolge ampi calcoli numerici più numerosi parametri e punti di dati. Questo porta ad una scelta della lingua fornire un ambiente semplice da codice di prova, ma fornisce anche prestazioni sufficienti per valutare strategie oltre dimensioni multiple parametri. IDE tipiche in questo spazio includono Microsoft Visual CC, che contiene le utility vasta debug, funzionalità di completamento del codice (tramite Intellisense) e panoramiche semplici dell'intero stack di progetto (tramite l'ORM banca dati, LINQ) MatLab. che è progettato per un'ampia algebra lineare numerica e le operazioni Vectorised, ma in un interattivo R Studio console modo. che avvolge la console linguaggio statistico R in una vera e propria IDE Eclipse IDE per Linux Java e C e IDE semi-proprietarie come Enthought Baldacchino per Python, che includono i dati librerie di analisi quali NumPy. SciPy. scikit-learn e panda in un unico ambiente interattivo (console). Per backtesting numerica, tutte le lingue sopra sono adatti, anche se non è necessario utilizzare un GUIIDE come codice verrà eseguito in background. La prima considerazione in questa fase è quella della velocità di esecuzione. Un linguaggio compilato (come C) è spesso utile se le dimensioni dei parametri backtesting sono grandi. Ricordate che è necessario diffidare di tali sistemi, se questo è il caso interpretato linguaggi come Python spesso fanno uso di librerie ad alte prestazioni, come NumPypandas per la fase test a ritroso, al fine di mantenere un ragionevole grado di competitività con equivalenti compilati. In definitiva la lingua scelta per il backtesting sarà determinata da esigenze algoritmiche nonché la gamma di librerie disponibili nella lingua (più avanti). Tuttavia, la lingua utilizzata per gli ambienti backtester e di ricerca può essere completamente indipendenti da quelli utilizzati nei componenti di costruzione del portafoglio, gestione del rischio e di esecuzione, come si vedrà. Portafoglio e gestione dei rischi Gli elementi costruttivi del portafoglio e gestione del rischio sono spesso trascurati dai commercianti algoritmico di vendita al dettaglio. Questo è quasi sempre un errore. Questi strumenti forniscono il meccanismo con cui la conservazione del capitale. Essi non solo tentativo di alleviare il numero di scommesse rischiose, ma anche ridurre al minimo il tasso di abbandono dei mestieri stessi, riducendo i costi di transazione. versioni sofisticate di questi componenti possono avere un effetto significativo sulla qualità e consistentcy della redditività. E 'semplice per creare una scuderia di strategie come il meccanismo di costruzione del portafoglio e risk manager può essere facilmente modificato per gestire più sistemi. Così essi dovrebbero essere considerati componenti essenziali fin dall'inizio della progettazione di un sistema di trading algoritmico. Il lavoro del sistema di costruzione del portafoglio è quello di prendere una serie di mestieri desiderati e produrre la serie di mestieri attuali che riducono al minimo il tasso di abbandono, mantenere l'esposizione a vari fattori (quali settori, classi di attivi, la volatilità, ecc) e ottimizzare l'allocazione del capitale alle varie strategie in un portafoglio. La costruzione del portafoglio spesso riduce ad un problema di algebra lineare (ad esempio una fattorizzazione matrice) e quindi le prestazioni dipende fortemente l'efficacia dell'applicazione algebra lineare numerica disponibili. librerie comuni includono uBLAS. LAPACK e NAG per C. MatLab possiede anche operazioni di matrice ampiamente ottimizzati. Python utilizza NumPySciPy per tali calcoli. Un portafoglio di frequente riequilibrato richiederà una libreria di matrice compilato (e ben ottimizzato) per effettuare questo passaggio fuori, in modo da non collo di bottiglia del sistema commerciale. La gestione del rischio è un altro elemento molto importante di un sistema di trading algoritmico. Il rischio può venire in molte forme: aumento della volatilità (anche se questo può essere visto come auspicabile per determinate strategie), aumento della correlazione tra le classi di attività, di default controparte, interruzioni del server, eventi cigno nero e bug rilevati nel codice di negoziazione, solo per citarne pochi. componenti di gestione del rischio cercare di anticipare gli effetti di un eccesso di volatilità e correlazione tra le classi di attività e la loro successiva effetto (s) sul capitale di trading. Spesso questo riduce ad una serie di calcoli statistici come test di stress Monte Carlo. Questo è molto simile alle esigenze di calcolo di un motore derivati ​​pricing e come tale sarà CPU-bound. Queste simulazioni sono altamente parallelizzabili (vedi sotto) e, in una certa misura, è possibile lanciare hardware al problema. Execution Systems Il lavoro del sistema di esecuzione è di ricevere segnali di trading filtrati dai componenti di costruzione del portafoglio e gestione del rischio e inviarli a una società di intermediazione o altri mezzi di accesso al mercato. Per la maggior parte delle strategie di trading algoritmico di vendita al dettaglio si tratta di una connessione API o FIX per una società di intermediazione, come Interactive Brokers. Le considerazioni principali momento di decidere su una lingua comprendono la qualità delle API, disponibilità lingua-wrapper per una API, frequenza di esecuzione e lo slittamento previsto. La qualità delle API si riferisce a come ben documentato che è, che tipo di prestazioni che fornisce, se è necessario un software standalone per accedere o se un gateway può essere stabilita in modo senza testa (cioè senza GUI). Nel caso di Interactive Brokers, lo strumento Trader stazioni di lavoro deve essere in esecuzione in un ambiente GUI per accedere loro API. Una volta ho dovuto installare una versione desktop di Ubuntu su un server cloud di Amazon per accedere Interactive Brokers da remoto, semplicemente per questo motivo la maggior parte delle API fornirà una interfaccia C Andor Java. E 'di solito fino alla comunità di sviluppare involucri specifiche della lingua per C, Python, R, Excel e MATLAB. Si noti che con tutti i plugin aggiuntivo utilizzato (soprattutto involucri API) vi è spazio per gli insetti a insinuarsi nel sistema. Verificare sempre i plugin di questo tipo e garantire sono attivamente mantenuti. Un indicatore utile è quello di vedere come molti nuovi aggiornamenti di una base di codice sono stati fatti negli ultimi mesi. frequenza di esecuzione è della massima importanza per l'algoritmo di esecuzione. Si noti che centinaia di ordini possono essere inviati ogni minuto e come tali prestazioni sono critiche. Lo slittamento sarà sostenuta attraverso un sistema di esecuzione male in sofferenza e questo avrà un impatto drammatico sulla redditività. linguaggi staticamente tipizzati (vedi sotto), come CJava sono normalmente poco idonei per l'esecuzione, ma c'è un trade-off in tempi di sviluppo, collaudo e facilità di manutenzione. linguaggi dinamicamente tipizzati, come Python e Perl sono ora generalmente abbastanza veloce. Assicurarsi sempre i componenti sono progettati in maniera modulare (vedi sotto) in modo che possano essere archiviati come le scaglie di sistema. Pianificazione e sviluppo architettonico Processo I componenti di un sistema di scambio, le sue esigenze frequenza e il volume sono state discusse in precedenza, ma le infrastrutture del sistema deve ancora essere coperto. Coloro che agiscono come un commerciante al dettaglio o lavorare in un piccolo fondo sarà probabilmente indossare molti cappelli. Sarà necessario copra i parametri del modello alpha, gestione e di esecuzione, e anche la realizzazione finale del sistema. Prima di approfondire linguaggi specifici sarà discussa la progettazione di un'architettura ottimale del sistema. Separazione degli interessi Una delle decisioni più importanti che devono essere fatte in via preliminare è come separare le preoccupazioni di un sistema commerciale. Nello sviluppo di software, questo significa essenzialmente come rompere i diversi aspetti del sistema commerciale in componenti modulari separati. Esponendo interfacce a ciascuno dei componenti è facile scambiare parti del sistema per altre versioni che aiuti prestazioni, affidabilità o di manutenzione, senza modificare alcun codice dipendenza esterna. Questa è la pratica ottimale per tali sistemi. Per le strategie a frequenze più basse si consiglia tali pratiche. Per ultra high frequency trading libro delle regole potrebbe avere per essere ignorati a scapito di tweaking del sistema di prestazioni ancora più elevate. Un sistema accoppiato più stretto può essere desiderabile. Creazione di una mappa componente di un sistema di trading algoritmico vale la pena di un articolo in sé. Tuttavia, un approccio ottimale è quello di assicurarsi che non vi sono componenti separati per gli ingressi dati di mercato storici e in tempo reale, archiviazione dati, l'accesso ai dati API, backtester, parametri di strategia, di costruzione del portafoglio, gestione del rischio e sistemi di esecuzione automatica. Per esempio, se l'archivio dati utilizzati attualmente poco efficiente, anche a livelli significativi di ottimizzazione, può essere sostituita da altre riscritture minime all'ingestione di dati o di accesso ai dati API. Per quanto riguarda il come backtester e componenti successivi sono interessati, non vi è alcuna differenza. Un altro vantaggio di componenti separati è che consente una varietà di linguaggi di programmazione da utilizzare nel sistema complessivo. Non c'è bisogno di essere limitata ad una sola lingua se il metodo di comunicazione dei componenti è indipendente dalla lingua. Questo sarà il caso se comunicano via TCPIP, ZeroMQ o qualche altro protocollo indipendente dalla lingua. Come esempio concreto, si consideri il caso di un sistema di backtesting stato scritto in C per macinare il numero delle prestazioni, mentre i sistemi di portafoglio gestore ed esecuzione sono scritti in Python usando SciPy e IBPy. Considerazioni sulle prestazioni Le prestazioni sono un fattore importante per la maggior parte delle strategie di trading. Per le strategie di frequenza più alta è il fattore più importante. Prestazioni copre una vasta gamma di questioni, come la velocità di esecuzione algoritmica, la latenza di rete, la larghezza di banda, dati IO, concurrencyparallelism e il ridimensionamento. Ognuna di queste aree sono singolarmente coperti da grandi libri di testo, quindi questo articolo sarà solo graffiare la superficie di ogni argomento. Architettura e scelta della lingua saranno ora discusse in termini di effetti sulle prestazioni. La saggezza prevalente come dichiarato da Donald Knuth. uno dei padri della Computer Science, è che l'ottimizzazione prematura è la radice di tutti i mali. Questo è quasi sempre il caso - ad eccezione di quando la costruzione di un algoritmo di negoziazione ad alta frequenza Per coloro che sono interessati a strategie di frequenza più bassa, un approccio comune è quello di costruire un sistema in modo più semplice possibile e ottimizzare solo come colli di bottiglia cominciano ad apparire. Strumenti da profilatura vengono utilizzati per determinare dove sorgono i colli di bottiglia. I profili possono essere fatte per tutti i fattori sopra elencati, sia in ambiente MS Windows o Linux. Ci sono molti strumenti del sistema operativo e delle lingue disponibili a farlo, così come applicazioni di terze parti. scelta della lingua sarà ora discusso nel contesto della performance. C, Java, Python, R e MATLAB tutti contengono le librerie ad alte prestazioni (sia come parte del loro tenore o esternamente) per la struttura dati di base e il lavoro algoritmico. navi C con la Standard Template Library, mentre Python contiene NumPySciPy. operazioni matematiche comuni si trovano in queste librerie ed è raramente utile per scrivere una nuova implementazione. L'unica eccezione è se è necessario architettura hardware altamente personalizzati e un algoritmo sta facendo ampio uso di estensioni proprietarie (come cache personalizzati). Tuttavia, spesso reinvenzione del tempo rifiuti ruota che potrebbe essere speso meglio sviluppare e ottimizzare le altre parti dell'infrastruttura di trading. Il tempo di sviluppo è estremamente preziosa specialmente nel contesto di sviluppatori suola. La latenza è spesso un problema del sistema di esecuzione, come gli strumenti di ricerca di solito sono situati sulla stessa macchina. Per i primi, la latenza può verificarsi in più punti lungo il percorso di esecuzione. I database devono essere consultati (latenza disknetwork), segnali devono essere generati (syste di funzionamento, la latenza messaggistica kernal), segnali di commercio inviati (latenza NIC) e ordini processati (sistemi di scambio di latenza interna). Per le operazioni di frequenze superiori è necessario diventare intimamente familiare con ottimizzazione kernal nonché ottimizzazione della trasmissione della rete. Questa è una zona profonda ed è significativamente oltre la portata di questo articolo, ma se un algoritmo UHFT si desidera quindi essere consapevoli della profondità di conoscenza richiesto Caching è molto utile nel toolkit di uno sviluppatore di trading quantitativo. Cache si riferisce al concetto di memorizzare dati accede di frequente in modo che permette l'accesso a prestazioni superiori, a scapito del potenziale staleness dei dati. Un caso d'uso comune si verifica nello sviluppo web quando prende i dati da un database relazionale disco-backed e la messa in memoria. Eventuali successive richieste per i dati non devono colpire il database e quindi guadagni di prestazioni può essere significativo. Per le situazioni di negoziazione di cache può essere estremamente vantaggioso. Per esempio, lo stato corrente di un portafoglio strategia può essere memorizzato in una cache finché non viene riequilibrato, tale che la lista non ha bisogno di essere rigenerato ad ogni ciclo dell'algoritmo negoziazione. Tale rigenerazione è probabile che sia un elevato CPU o il funzionamento IO disco. Tuttavia, la cache non è senza i suoi problemi. Rigenerazione dei dati della cache tutti in una volta, a causa della natura volatilie di memoria cache, può mettere domanda significativa sulle infrastrutture. Un altro problema è il cane-accumulando. in cui più generazioni di una nuova copia cache vengono effettuate sotto carico particolarmente elevato, il che porta a cascata fallimento. Allocazione dinamica della memoria è un'operazione costosa in esecuzione software. Thus it is imperative for higher performance trading applications to be well-aware how memory is being allocated and deallocated during program flow. Newer language standards such as Java, C and Python all perform automatic garbage collection . which refers to deallocation of dynamically allocated memory when objects go out of scope . Garbage collection is extremely useful during development as it reduces errors and aids readability. However, it is often sub-optimal for certain high frequency trading strategies. Custom garbage collection is often desired for these cases. In Java, for instance, by tuning the garbage collector and heap configuration, it is possible to obtain high performance for HFT strategies. C doesnt provide a native garbage collector and so it is necessary to handle all memory allocationdeallocation as part of an objects implementation. While potentially error prone (potentially leading to dangling pointers) it is extremely useful to have fine-grained control of how objects appear on the heap for certain applications. When choosing a language make sure to study how the garbage collector works and whether it can be modified to optimise for a particular use case. Many operations in algorithmic trading systems are amenable to parallelisation . This refers to the concept of carrying out multiple programmatic operations at the same time, i. e in parallel. So-called embarassingly parallel algorithms include steps that can be computed fully independently of other steps. Certain statistical operations, such as Monte Carlo simulations, are a good example of embarassingly parallel algorithms as each random draw and subsequent path operation can be computed without knowledge of other paths. Other algorithms are only partially parallelisable. Fluid dynamics simulations are such an example, where the domain of computation can be subdivided, but ultimately these domains must communicate with each other and thus the operations are partially sequential. Parallelisable algorithms are subject to Amdahls Law. which provides a theoretical upper limit to the performance increase of a parallelised algorithm when subject to N separate processes (e. g. on a CPU core or thread ). Parallelisation has become increasingly important as a means of optimisation since processor clock-speeds have stagnated, as newer processors contain many cores with which to perform parallel calculations. The rise of consumer graphics hardware (predominently for video games) has lead to the development of Graphical Processing Units (GPUs), which contain hundreds of cores for highly concurrent operations. Such GPUs are now very affordable. High-level frameworks, such as Nvidias CUDA have lead to widespread adoption in academia and finance. Such GPU hardware is generally only suitable for the research aspect of quantitative finance, whereas other more specialised hardware (including Field-Programmable Gate Arrays - FPGAs) are used for (U)HFT. Nowadays, most modern langauges support a degree of concurrencymultithreading. Thus it is straightforward to optimise a backtester, since all calculations are generally independent of the others. Scaling in software engineering and operations refers to the ability of the system to handle consistently increasing loads in the form of greater requests, higher processor usage and more memory allocation. In algorithmic trading a strategy is able to scale if it can accept larger quantities of capital and still produce consistent returns. The trading technology stack scales if it can endure larger trade volumes and increased latency, without bottlenecking . While systems must be designed to scale, it is often hard to predict beforehand where a bottleneck will occur. Rigourous logging, testing, profiling and monitoring will aid greatly in allowing a system to scale. Languages themselves are often described as unscalable. This is usually the result of misinformation, rather than hard fact. It is the total technology stack that should be ascertained for scalability, not the language. Clearly certain languages have greater performance than others in particular use cases, but one language is never better than another in every sense. One means of managing scale is to separate concerns, as stated above. In order to further introduce the ability to handle spikes in the system (i. e. sudden volatility which triggers a raft of trades), it is useful to create a message queuing architecture. This simply means placing a message queue system between components so that orders are stacked up if a certain component is unable to process many requests. Rather than requests being lost they are simply kept in a stack until the message is handled. This is particularly useful for sending trades to an execution engine. If the engine is suffering under heavy latency then it will back up trades. A queue between the trade signal generator and the execution API will alleviate this issue at the expense of potential trade slippage. A well-respected open source message queue broker is RabbitMQ . Hardware and Operating Systems The hardware running your strategy can have a significant impact on the profitability of your algorithm. This is not an issue restricted to high frequency traders either. A poor choice in hardware and operating system can lead to a machine crash or reboot at the most inopportune moment. Thus it is necessary to consider where your application will reside. The choice is generally between a personal desktop machine, a remote server, a cloud provider or an exchange co-located server. Desktop machines are simple to install and administer, especially with newer user friendly operating systems such as Windows 78, Mac OSX and Ubuntu. Desktop systems do possess some significant drawbacks, however. The foremost is that the versions of operating systems designed for desktop machines are likely to require rebootspatching (and often at the worst of times). They also use up more computational resources by the virtue of requiring a graphical user interface (GUI). Utilising hardware in a home (or local office) environment can lead to internet connectivity and power uptime problems. The main benefit of a desktop system is that significant computational horsepower can be purchased for the fraction of the cost of a remote dedicated server (or cloud based system) of comparable speed. A dedicated server or cloud-based machine, while often more expensive than a desktop option, allows for more significant redundancy infrastructure, such as automated data backups, the ability to more straightforwardly ensure uptime and remote monitoring. They are harder to administer since they require the ability to use remote login capabilities of the operating system. In Windows this is generally via the GUI Remote Desktop Protocol (RDP). In Unix-based systems the command-line Secure SHell (SSH) is used. Unix-based server infrastructure is almost always command-line based which immediately renders GUI-based programming tools (such as MatLab or Excel) to be unusable. A co-located server, as the phrase is used in the capital markets, is simply a dedicated server that resides within an exchange in order to reduce latency of the trading algorithm. This is absolutely necessary for certain high frequency trading strategies, which rely on low latency in order to generate alpha. The final aspect to hardware choice and the choice of programming language is platform-independence. Is there a need for the code to run across multiple different operating systems Is the code designed to be run on a particular type of processor architecture, such as the Intel x86x64 or will it be possible to execute on RISC processors such as those manufactured by ARM These issues will be highly dependent upon the frequency and type of strategy being implemented. Resilience and Testing One of the best ways to lose a lot of money on algorithmic trading is to create a system with no resiliency . This refers to the durability of the sytem when subject to rare events, such as brokerage bankruptcies, sudden excess volatility, region-wide downtime for a cloud server provider or the accidental deletion of an entire trading database. Years of profits can be eliminated within seconds with a poorly-designed architecture. It is absolutely essential to consider issues such as debuggng, testing, logging, backups, high-availability and monitoring as core components of your system. It is likely that in any reasonably complicated custom quantitative trading application at least 50 of development time will be spent on debugging, testing and maintenance. Nearly all programming languages either ship with an associated debugger or possess well-respected third-party alternatives. In essence, a debugger allows execution of a program with insertion of arbitrary break points in the code path, which temporarily halt execution in order to investigate the state of the system. The main benefit of debugging is that it is possible to investigate the behaviour of code prior to a known crash point . Debugging is an essential component in the toolbox for analysing programming errors. However, they are more widely used in compiled languages such as C or Java, as interpreted languages such as Python are often easier to debug due to fewer LOC and less verbose statements. Despite this tendency Python does ship with the pdb. which is a sophisticated debugging tool. The Microsoft Visual C IDE possesses extensive GUI debugging utilities, while for the command line Linux C programmer, the gdb debugger exists. Testing in software development refers to the process of applying known parameters and results to specific functions, methods and objects within a codebase, in order to simulate behaviour and evaluate multiple code-paths, helping to ensure that a system behaves as it should. A more recent paradigm is known as Test Driven Development (TDD), where test code is developed against a specified interface with no implementation. Prior to the completion of the actual codebase all tests will fail. As code is written to fill in the blanks, the tests will eventually all pass, at which point development should cease. TDD requires extensive upfront specification design as well as a healthy degree of discipline in order to carry out successfully. In C, Boost provides a unit testing framework. In Java, the JUnit library exists to fulfill the same purpose. Python also has the unittest module as part of the standard library. Many other languages possess unit testing frameworks and often there are multiple options. In a production environment, sophisticated logging is absolutely essential. Logging refers to the process of outputting messages, with various degrees of severity, regarding execution behaviour of a system to a flat file or database. Logs are a first line of attack when hunting for unexpected program runtime behaviour. Unfortunately the shortcomings of a logging system tend only to be discovered after the fact As with backups discussed below, a logging system should be given due consideration BEFORE a system is designed. Both Microsoft Windows and Linux come with extensive system logging capability and programming languages tend to ship with standard logging libraries that cover most use cases. It is often wise to centralise logging information in order to analyse it at a later date, since it can often lead to ideas about improving performance or error reduction, which will almost certainly have a positive impact on your trading returns. While logging of a system will provide information about what has transpired in the past, monitoring of an application will provide insight into what is happening right now . All aspects of the system should be considered for monitoring. System level metrics such as disk usage, available memory, network bandwidth and CPU usage provide basic load information. Trading metrics such as abnormal pricesvolume, sudden rapid drawdowns and account exposure for different sectorsmarkets should also be continuously monitored. Further, a threshold system should be instigated that provides notification when certain metrics are breached, elevating the notification method (email, SMS, automated phone call) depending upon the severity of the metric. System monitoring is often the domain of the system administrator or operations manager. However, as a sole trading developer, these metrics must be established as part of the larger design. Many solutions for monitoring exist: proprietary, hosted and open source, which allow extensive customisation of metrics for a particular use case. Backups and high availability should be prime concerns of a trading system. Consider the following two questions: 1) If an entire production database of market data and trading history was deleted (without backups) how would the research and execution algorithm be affected 2) If the trading system suffers an outage for an extended period (with open positions) how would account equity and ongoing profitability be affected The answers to both of these questions are often sobering It is imperative to put in place a system for backing up data and also for testing the restoration of such data. Many individuals do not test a restore strategy. If recovery from a crash has not been tested in a safe environment, what guarantees exist that restoration will be available at the worst possible moment Similarly, high availability needs to be baked in from the start. Redundant infrastructure (even at additional expense) must always be considered, as the cost of downtime is likely to far outweigh the ongoing maintenance cost of such systems. I wont delve too deeply into this topic as it is a large area, but make sure it is one of the first considerations given to your trading system. Choosing a Language Considerable detail has now been provided on the various factors that arise when developing a custom high-performance algorithmic trading system. The next stage is to discuss how programming languages are generally categorised. Type Systems When choosing a language for a trading stack it is necessary to consider the type system . The languages which are of interest for algorithmic trading are either statically - or dynamically-typed . A statically-typed language performs checks of the types (e. g. integers, floats, custom classes etc) during the compilation process. Such languages include C and Java. A dynamically-typed language performs the majority of its type-checking at runtime. Such languages include Python, Perl and JavaScript. For a highly numerical system such as an algorithmic trading engine, type-checking at compile time can be extremely beneficial, as it can eliminate many bugs that would otherwise lead to numerical errors. However, type-checking doesnt catch everything, and this is where exception handling comes in due to the necessity of having to handle unexpected operations. Dynamic languages (i. e. those that are dynamically-typed) can often lead to run-time errors that would otherwise be caught with a compilation-time type-check. For this reason, the concept of TDD (see above) and unit testing arose which, when carried out correctly, often provides more safety than compile-time checking alone. Another benefit of statically-typed languages is that the compiler is able to make many optimisations that are otherwise unavailable to the dynamically - typed language, simply because the type (and thus memory requirements) are known at compile-time. In fact, part of the inefficiency of many dynamically-typed languages stems from the fact that certain objects must be type-inspected at run-time and this carries a performance hit. Libraries for dynamic languages, such as NumPySciPy alleviate this issue due to enforcing a type within arrays. Open Source or Proprietary One of the biggest choices available to an algorithmic trading developer is whether to use proprietary (commercial) or open source technologies. There are advantages and disadvantages to both approaches. It is necessary to consider how well a language is supported, the activity of the community surrounding a language, ease of installation and maintenance, quality of the documentation and any licensingmaintenance costs. The Microsoft stack (including Visual C, Visual C) and MathWorks MatLab are two of the larger proprietary choices for developing custom algorithmic trading software. Both tools have had significant battle testing in the financial space, with the former making up the predominant software stack for investment banking trading infrastructure and the latter being heavily used for quantitative trading research within investment funds. Microsoft and MathWorks both provide extensive high quality documentation for their products. Further, the communities surrounding each tool are very large with active web forums for both. The software allows cohesive integration with multiple languages such as C, C and VB, as well as easy linkage to other Microsoft products such as the SQL Server database via LINQ. MatLab also has many pluginslibraries (some free, some commercial) for nearly any quantitative research domain. There are also drawbacks. With either piece of software the costs are not insignificant for a lone trader (although Microsoft does provide entry-level version of Visual Studio for free). Microsoft tools play well with each other, but integrate less well with external code. Visual Studio must also be executed on Microsoft Windows, which is arguably far less performant than an equivalent Linux server which is optimally tuned. MatLab also lacks a few key plugins such as a good wrapper around the Interactive Brokers API, one of the few brokers amenable to high-performance algorithmic trading. The main issue with proprietary products is the lack of availability of the source code. This means that if ultra performance is truly required, both of these tools will be far less attractive. Open source tools have been industry grade for sometime. Much of the alternative asset space makes extensive use of open-source Linux, MySQLPostgreSQL, Python, R, C and Java in high-performance production roles. However, they are far from restricted to this domain. Python and R, in particular, contain a wealth of extensive numerical libraries for performing nearly any type of data analysis imaginable, often at execution speeds comparable to compiled languages, with certain caveats. The main benefit of using interpreted languages is the speed of development time. Python and R require far fewer lines of code (LOC) to achieve similar functionality, principally due to the extensive libraries. Further, they often allow interactive console based development, rapidly reducing the iterative development process. Given that time as a developer is extremely valuable, and execution speed often less so (unless in the HFT space), it is worth giving extensive consideration to an open source technology stack. Python and R possess significant development communities and are extremely well supported, due to their popularity. Documentation is excellent and bugs (at least for core libraries) remain scarce. Open source tools often suffer from a lack of a dedicated commercial support contract and run optimally on systems with less-forgiving user interfaces. A typical Linux server (such as Ubuntu) will often be fully command-line oriented. In addition, Python and R can be slow for certain execution tasks. There are mechanisms for integrating with C in order to improve execution speeds, but it requires some experience in multi-language programming. While proprietary software is not immune from dependencyversioning issues it is far less common to have to deal with incorrect library versions in such environments. Open source operating systems such as Linux can be trickier to administer. I will venture my personal opinion here and state that I build all of my trading tools with open source technologies. In particular I use: Ubuntu, MySQL, Python, C and R. The maturity, community size, ability to dig deep if problems occur and lower total cost ownership (TCO) far outweigh the simplicity of proprietary GUIs and easier installations. Having said that, Microsoft Visual Studio (especially for C) is a fantastic Integrated Development Environment (IDE) which I would also highly recommend. Batteries Included The header of this section refers to the out of the box capabilities of the language - what libraries does it contain and how good are they This is where mature languages have an advantage over newer variants. C, Java and Python all now possess extensive libraries for network programming, HTTP, operating system interaction, GUIs, regular expressions (regex), iteration and basic algorithms. C is famed for its Standard Template Library (STL) which contains a wealth of high performance data structures and algorithms for free. Python is known for being able to communicate with nearly any other type of systemprotocol (especially the web), mostly through its own standard library. R has a wealth of statistical and econometric tools built in, while MatLab is extremely optimised for any numerical linear algebra code (which can be found in portfolio optimisation and derivatives pricing, for instance). Outside of the standard libraries, C makes use of the Boost library, which fills in the missing parts of the standard library. In fact, many parts of Boost made it into the TR1 standard and subsequently are available in the C11 spec, including native support for lambda expressions and concurrency. Python has the high performance NumPySciPyPandas data analysis library combination, which has gained widespread acceptance for algorithmic trading research. Further, high-performance plugins exist for access to the main relational databases, such as MySQL (MySQLC), JDBC (JavaMatLab), MySQLdb (MySQLPython) and psychopg2 (PostgreSQLPython). Python can even communicate with R via the RPy plugin An often overlooked aspect of a trading system while in the initial research and design stage is the connectivity to a broker API. Most APIs natively support C and Java, but some also support C and Python, either directly or with community-provided wrapper code to the C APIs. In particular, Interactive Brokers can be connected to via the IBPy plugin. If high-performance is required, brokerages will support the FIX protocol . Conclusion As is now evident, the choice of programming language(s) for an algorithmic trading system is not straightforward and requires deep thought. The main considerations are performance, ease of development, resiliency and testing, separation of concerns, familiarity, maintenance, source code availability, licensing costs and maturity of libraries. The benefit of a separated architecture is that it allows languages to be plugged in for different aspects of a trading stack, as and when requirements change. A trading system is an evolving tool and it is likely that any language choices will evolve along with it. Just Getting Started with Quantitative Trading

No comments:

Post a Comment