Friday, 6 October 2017

Valori Moving Media Missing


Un metodo semplice e generale per la compilazione dei dati mancanti, se si dispone di piste di dati completi, è quello di utilizzare la regressione lineare. Diciamo che avete 1000 corse su 5 di fila con nessuno mancante. Impostare il 1000 x 1 vettore y e 1000 x 4 matrice X: Regressione vi darà 4 numeri a b c d che danno una migliore corrispondenza per le 1000 righe di dati mdash dati diversi, diversa a b c d. Poi si utilizza questi a b c d stimare (prevedere, interpolare) wt0 ​​mancante. (Per pesi umani, Id si aspettano abcd per essere in tutto 14.) Stata (Ci sono un'infinità di libri e documenti sulla regressione, a tutti i livelli per la connessione con interpolazione, però, non so di una buona introduzione chiunque.): Dati software di analisi e statistica Nicholas J. Cox, Durham University, UK Christopher Baum, Boston college Egen, ma () e le sue limitazioni di comando più ovvio Statarsquos per calcolare medie mobili è la funzione ma () di Egen. Data un'espressione, crea una media - periodo movimento di tale espressione. Per impostazione predefinita, viene preso come 3. deve essere dispari. Tuttavia, come l'inserimento manuale indica, Egen, ma () non può essere combinata con by-variabili:. e, per questo motivo, non è applicabile ai dati panel. In ogni caso, si erge al di fuori del set di comandi appositamente scritte per le serie temporali vedi serie storiche per i dettagli. approcci alternativi per calcolare le medie per i dati panel in movimento, ci sono almeno due scelte. Entrambi dipendono l'insieme di dati essendo stato tsset in anticipo. Questo è molto vale la pena di fare: non solo è possibile risparmiare più volte specificando variabile variabile e l'ora del pannello, ma si comporta in modo Stata elegantemente dato eventuali lacune nei dati. 1. Scrivi la tua definizione utilizzando generare Uso degli operatori di serie temporali, come L. e F.. dare la definizione della media mobile come argomento di una dichiarazione di generare. Se si esegue questa operazione, si sta, naturalmente, non limitato alla altrettanto ponderate (non ponderata) centrato medie calcolate da Egen in movimento, ma (). Ad esempio, ugualmente ponderato tre periodo medie mobili sarebbe dato da alcuni pesi e possono essere facilmente specificati: È possibile, ovviamente, specificare un'espressione come log (myvar) al posto di un nome di variabile, come myvar. Un grande vantaggio di questo approccio è che Stata fa automaticamente la cosa giusta per i dati panel: ingresso e uscita valori vengono elaborati all'interno di pannelli, così come la logica impone che dovrebbero essere. Lo svantaggio più evidente è che la linea di comando può ottenere piuttosto lungo se la media mobile coinvolge diversi termini. Un altro esempio è una media mobile unilaterale basata solo su valori precedenti. Questo potrebbe essere utile per generare un'aspettativa di adattamento di quello che una variabile sarà basato esclusivamente su informazioni aggiornate: ciò che qualcuno potrebbe prevedere per l'esercizio in corso sulla base degli ultimi quattro valori, utilizzando uno schema fisso di ponderazione (un ritardo di 4 periodo potrebbe essere soprattutto comunemente usato con timeseries trimestrali.) 2. Usare Egen, filtro () da SSC utilizzare il filtro funzione di egen scritto dall'utente () dal pacchetto egenmore su SSC. In Stata 7 (aggiornato dopo il 14 novembre 2001), è possibile installare questo pacchetto dopo che aiutano punti egenmore ai dettagli del filtro (). I due esempi sopra sarebbe resa (In questo confronto la generano approccio è forse più trasparente, ma vedremo un esempio del contrario in un attimo.) I ritardi sono un numlist. conduce essendo GAL negativi: in questo caso -11 espande a -1 0 1 o portare 1, lag 0, in ritardo 1. I ficients COEF, un'altra numlist, moltiplicare i corrispondenti elementi in ritardo di sviluppo o di leader: in questo caso, tali elementi sono F1.myvar . MyVar e L1.myvar. L'effetto dell'opzione normalizzare è in scala ogni coefficiente per la somma dei coefficienti in modo che coef (1 1 1) normalizzare equivale a coefficienti di 13 13 13 e coef (1 2 1) normalizzare equivale a coefficienti di 14 12 14 . È necessario specificare non solo i ritardi, ma anche i coefficienti. Perché Egen, ma () prevede il caso altrettanto ponderata, la motivazione principale per Egen, filtro () è quello di sostenere il caso ineguale ponderata, per i quali è necessario specificare coefficienti. Si potrebbe anche dire che obbliga gli utenti di specificare coefficienti è un po 'di pressione in più su di loro per pensare a quello coefficienti che vogliono. La giustificazione principale per pesi uguali è, immaginiamo, la semplicità, ma pesi uguali avere pessime proprietà del dominio della frequenza, per citare solo una considerazione. Il terzo esempio di cui sopra potrebbe essere uno dei quali è quasi complicato come l'approccio di generare. Ci sono casi in cui Egen, filtro () fornisce una formulazione più semplice di generare. Se si desidera un filtro binomiale di nove termine, che i climatologi trovano utile, poi guarda forse meno orribile di, e più facile da ottenere rispetto, proprio come con il generare approccio, Egen, filtro () funziona correttamente con dati panel. Infatti, come già detto, esso dipende il set di dati essendo stato tsset anticipo. Un consiglio grafica Dopo aver calcolato i tuoi medie mobili, probabilmente voler guardare un grafico. Il comando tsgraph scritto dall'utente è intelligente su set di dati tsset. Installarlo in un up-to-date Stata 7 da SSC tsgraph Inst. Che dire sottoinsiemi con se nessuno dei precedenti esempi fanno uso di se restrizioni. Infatti Egen, ma () non permetterà, se da specificare. Di tanto in tanto la gente vuole usare se il calcolo medie mobili, ma il suo uso è un po 'più complicato di quanto non sia di solito. Che cosa ci si può aspettare da una media mobile calcolata con se. Cerchiamo di identificare due possibilità: l'interpretazione debole: non voglio vedere nessun risultato per le osservazioni esclusi. Forte interpretazione: io non neanche voglia di utilizzare i valori per le osservazioni esclusi. Ecco un esempio concreto. Supponiamo come conseguenza di una condizione if, osservazioni 1-42 sono inclusi ma non osservazioni 43 su. Ma la media mobile per 42 dipenderà, tra l'altro, sul valore per l'osservazione 43 se la media estende avanti e indietro ed è di lunghezza almeno 3, e sarà simile dipenderà alcune osservazioni 44 in poi in alcune circostanze. La nostra ipotesi è che la maggior parte delle persone sarebbe andare per l'interpretazione deboli, ma se questo è corretto, Egen, filtro () non supporta se uno dei due. È sempre possibile ignorare ciò che si vuole donrsquot o anche impostare valori indesiderati a mancare in seguito utilizzando sostituire. Una nota sui risultati alle estremità della serie mancante Perché medie mobili sono funzioni di ritardi e conduce, egen, MA () produce mancante in cui non esistono i ritardi e conduce, all'inizio e alla fine della serie. Un'opzione nomiss costringe il calcolo delle più brevi, medie mobili non centrati per le code. Al contrario, né generare nè Egen, filtro () lo fa, o consente, nulla di speciale per evitare risultati mancanti. Se uno dei valori necessari per il calcolo è mancante, quindi questo risultato è mancante. Spetta agli utenti di decidere se e quanto la chirurgia correttiva è richiesto per queste osservazioni, presumibilmente dopo aver guardato il set di dati e considerando ogni scienza sottostante che può essere portato a bear. Calculating medie mobili con valori mancanti definiti OB 10 OB era 0, ora 10 tsset variabile t tempo: t, da 1 a 10 Delta: 1 unità tssmooth ma Y3 y, w (1 1 1) Il più liscia applicato era (13) x (t-1) 1x (t) x (T1) x (t ) y tssmooth ma Y5 y, w (2 1 2) Il più liscia applicata era (15) x (t-2) x (t-1) 1x (t) x (T1) x (T2) x (t) y - tssmooth ma - riempie come meglio può alle estremità della serie (che non è la stessa di trattare missings come sequenza di 0, altrimenti i risultati di cui sopra, non si otterrebbero). Jeff può ignorare i risultati di - tssmooth - se non ha nessuna intenzione che. sostituire Y3. se mancante (L1.y, F1.y) sostituire Y5. se mancante (L1.y, L2.y, F1.y, F2.Y) Ad esempio, L1.y manca all'inizio di una serie y e F1.y alla fine. Questo funziona con dati panel troppo. Un'alternativa scritta dall'utente - tssmooth - è la funzione - filter - egen - () - da - egenmore-. In alternativa, si prega di precisare qualunque modo di trattare con le estremità che si preferisce. Quando uso la funzione tssmooth per creare 2 o 5 medie l'anno in movimento, Stata calcola questi medie mobili, fino alla fine della serie temporale piuttosto che fermarsi 1 anno (nel caso della media mobile due anni) o 4 anni (nel caso della media mobile 5 anni) prima della fine del tempo di serie conta quindi i valori in avanti mancanti come zero. Volete sapere una possibile strategia per risolvere questo Problemi Sto cercando di creare medie mobili, cercando in ritardo - in ritardo 1 e lag2 valori di ricompense redenzione. Ecco l'attuale formula (lag - lag2) (lag2 - lag3). Tuttavia, il valore corrente non viene memorizzato sequencially nelle righe di aggiornamento. Significato, quando trovo valore corrente row4 manca, sto usando questa formula a venire con ricompense row4. Ora, row4 - gt corrente 100 Quando si sposta per row5 - nuovi premi calcolati in isnt row4 disponibili. lag1 - gt row4gt corrente 0 (immagino valori del ritardo non sono dinamici) DATI vtest SET V10 da id gruppo vid lagred1 lag (newredemption1) lag2red1 lag2 (newredemption) lag3red1 lag3 (newredemption) expectedincreasepts (lagred1 (lagred1 lag2red1)) - lag2red1 previosredeemgrowth ( lagred1 - lag2red1) (lag2red1 - lag3red1) corrente previosredeemgrowth correnti (expectedincreasepts) sarebbe davvero aiutare a capire che cosa si sta tentando, se si forniscono alcuni dati sotto forma di un datastep per l'ingresso e quello che ci si aspetta per l'output per che i dati di esempio. Mi chiedo, dal momento che dici corrente viene a volte manca che si desidera somma attuale una cosa da considerare (corrente (expectedincreasepts previosredeemgrowth).): È necessario affrontare tutti i possibili valori mancanti prima di fare la divisione con i valori ritardati. Lag3 non esisterà fino ad arrivare al 4 ° osservazione. Così si sta per avere la divisione per mancante che si può prendere in considerazione. E se la variabile newredemption è evermissing youre intenzione di ottenere intermittente altri calcoli con valori mancanti. I valori di ritardo sono solo per le variabili lette attraverso un insieme o unire dichiarazione. Se si desidera mantenere una variabile calcolata quindi si utilizza conservare. Quando per ripristinare i valori iniziali o mancanti per le variabili non distribuiti a volte è interessante. Si potrebbe desiderare qualcosa di simile: Conservare TempCurrent 0 questo impostare un valore di intial di 0 se mancante (corrente) allora currentsum (TempCurrent, (expectedincreasepts previosredeemgrowth)) somma corrente altro e poi reimpostare il valore mantenuto (corrente (expectedincreasepts previosredeemgrowth).)

No comments:

Post a Comment