Sunday 24 December 2017

Or statement in stata forex


Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Class Notes Contando de n para N Introdução Stata tem duas variáveis ​​internas chamadas n e N. N é a notação Stata para o número de observação atual. N é 1 na primeira observação, 2 na segunda, 3 na terceira, e assim por diante. N é a notação Stata para o número total de observações. Vejamos como n e N funcionam. Como você pode ver, o ID da variável contém o número de observação executado de 1 a 7 e nt é o número total de observações, que é 7. Contando com usando n e N em conjunto com o comando by podem produzir alguns resultados muito úteis. Naturalmente, para usar o comando by, primeiro devemos classificar nossos dados na variável por. Agora n1 é o número de observação dentro de cada grupo e n2 é o número total de observações para cada grupo. Para listar a pontuação mais baixa para cada grupo use o seguinte: Para listar a pontuação mais alta para cada grupo use o seguinte: Outra utilização de n Permite usar n para descobrir se há números de identificação duplicados nos seguintes dados: Como se verifica, As observações 6 e 7 têm os mesmos números de identificação e valores de pontuação diferentes. Encontrando Duplicatas Agora vamos usar N para encontrar observações duplicadas. Neste exemplo, classificamos as observações por todas as variáveis. Em seguida, usamos todas as variáveis ​​na instrução by e definimos set n igual ao número total de observações que são idênticas. Finalmente, listamos as observações para as quais N é maior que 1, identificando assim as observações duplicadas. Se você tem um monte de variáveis ​​no conjunto de dados, pode demorar muito tempo para digitá-los todos fora duas vezes. Podemos fazer uso do caractere curinga para indicar que desejamos usar todas as variáveis. Além disso, nas versões mais recentes do Stata, podemos combinar sort e by em uma única declaração. Abaixo está uma versão simplificada do código que irá produzir os mesmos resultados exatos como acima. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela University of California. Análise de Recidência 13 Para encontrar o erro padrão da estimativa, consideramos a soma de todos os resíduos quadrados Termos e divida por (n - 2), e então pegue a raiz quadrada do resultado. Neste caso, a soma dos resíduos quadrados é 0.090.160.642.250.04 3.18. Com cinco observações, n - 2 3, e SEE (3.18 / 3) 1/2 1.03. O cálculo do erro padrão é relativamente semelhante ao do desvio padrão para uma amostra (n - 2 é usado em vez de n - 1). Ele dá alguma indicação da qualidade preditiva de um modelo de regressão, com números de SEE mais baixos indicando que previsões mais precisas são possíveis. No entanto, a medida de erro padrão não indica até que ponto a variável independente explica as variações no modelo dependente. Coeficiente de Determinação Tal como o erro padrão, esta estatística dá uma indicação de quão bem um modelo de regressão linear serve como um estimador de valores para a variável dependente. Trabalha medindo a fração da variação total na variável dependente que pode ser explicada pela variação na variável independente. Neste contexto, a variação total é composta por duas frações: Variação total explicada variação inexplicável variação total variação total O coeficiente de determinação. Ou a variação explicada como uma porcentagem da variação total, é o primeiro destes dois termos. Às vezes é expressa como 1 - (variação inexplicável / variação total). Para uma regressão linear simples com uma variável independente, o método simples para calcular o coeficiente de determinação é o quadrado do coeficiente de correlação entre as variáveis ​​dependente e independente. Uma vez que o coeficiente de correlação é dado por r, o coeficiente de determinação é popularmente conhecido como R 2. ou R-quadrado. Por exemplo, se o coeficiente de correlação for 0,76, o R-quadrado é (0,76) 2 0,578. Os termos R-quadrados são usualmente expressos como percentagens, assim 0,578 seria 57,8. Um segundo método de cálculo deste número seria encontrar a variação total na variável dependente Y como a soma dos desvios quadrados da média da amostra. Em seguida, calcule o erro padrão da estimativa seguindo o processo descrito na seção anterior. O coeficiente de determinação é então calculado por (variação total em Y - variação inexplicada em Y) / variação total em Y. Este segundo método é necessário para regressões múltiplas, onde há mais de uma variável independente, mas para o nosso contexto seremos Desde que o r (coeficiente de correlação) para calcular um R-quadrado. O que R 2 nos diz são as mudanças na variável dependente Y que são explicadas pelas mudanças na variável independente X. R 2 de 57.8 nos diz que 57.8 das mudanças em Y resultam de X também significa que 1 - 57.8 ou 42.2 de As mudanças em Y são inexplicadas por X e são o resultado de outros fatores. Assim, quanto maior o R-quadrado, melhor será a natureza preditiva do modelo de regressão linear. Coeficientes de regressão Para um dos coeficientes de regressão (intercepto a ou declive b), pode ser determinado um intervalo de confiança com as seguintes informações: 13 Um valor de parâmetro estimado de uma amostra 13 Erro padrão da estimativa (SEE) 13 Nível de significância para o t - 13 Para um coeficiente de declive, a fórmula para o intervalo de confiança é dada por btc SEE, onde tc é o valor crítico de t no nosso nível significativo escolhido. Para ilustrar, faça uma regressão linear com um retorno de fundos mútuos como variável dependente eo índice SampP 500 como variável independente. Para cinco anos de retornos trimestrais, o coeficiente de declive b é encontrado em 1,18, com um erro padrão da estimativa de 0,147. Alunos t-distribuição de 18 graus de liberdade (20 quartos - 2) em um nível de significância de 0,05 é 2.101. Estes dados nos dão um intervalo de confiança de 1,18 (0,147) (2,101), ou um intervalo de 0,87 a 1,49. Nossa interpretação é que há apenas 5 chances de que a inclinação da população seja inferior a 0,87 ou maior que 1,49 - estamos confiantes de que este fundo é pelo menos 87 tão volátil quanto o SampP 500, mas não mais de 149 como Volátil, com base em nossa amostra de cinco anos. Testes de hipóteses e Coeficientes de Regressão Os coeficientes de regressão são frequentemente testados utilizando o procedimento de teste de hipóteses. Dependendo do que o analista pretende provar, podemos testar um coeficiente de inclinação para determinar se ele explica as chances na variável dependente e até que ponto explica as mudanças. Betas (coeficientes de declive) podem ser determinados como sendo acima ou abaixo de 1 (mais voláteis ou menos voláteis que o mercado). Alphas (o coeficiente de interceptação) pode ser testado em uma regressão entre um fundo mútuo eo índice de mercado relevante para determinar se há evidência de um alfa suficientemente positivo (sugerindo valor acrescentado pelo gestor do fundo). A mecânica do teste de hipóteses é semelhante aos exemplos que usamos anteriormente. Uma hipótese nula é escolhida com base em um não-igual a, maior ou menor do que o caso, com a alternativa satisfazendo todos os valores não abrangidos no caso nulo. Suponha que em nosso exemplo anterior, quando regredimos os retornos de fundos mútuos no SampP 500 por 20 trimestres, nossa hipótese é que esse fundo mútuo é mais volátil do que o mercado. Um fundo igual à volatilidade para o mercado terá uma inclinação b de 1,0, portanto, para este teste de hipótese, apresentamos a hipótese nula (H 0) como o caso em que a inclinação é menor ou maior que 1,0 (isto é H 0: b lt 1,0 ). A hipótese alternativa H a tem b gt 1,0. Sabemos que este é um caso maior do que o caso (se for assumido um nível de significância de 0.05, t é igual a 1.734 em graus de liberdade n - 2 18. Exemplo: Interpretando um Teste de Hipótese De nossa amostra, nós Tinha estimado b de 1,18 e erro padrão de 0,147. Nossa estatística de teste é calculada com esta fórmula: t coeficiente estimado - coeficiente de hipótese. / Erro padrão (1,18 - 1,0) / 0,147 0,18 / 0,147, ou t 1,224. Para este exemplo, nossa estatística de teste calculada está abaixo do nível de rejeição de 1,734, portanto não somos capazes de rejeitar a hipótese nula de que o fundo é mais volátil do que o mercado. Interpretação: a hipótese de que b gt 1 para este fundo necessita provavelmente de mais observações (graus de liberdade) para ser provado com significância estatística. Além disso, com 1,18 apenas ligeiramente acima de 1,0, é muito possível que este fundo não seja realmente tão volátil quanto o mercado, e estávamos corretos para não rejeitar a hipótese nula. Exemplo: Interpretação de um coeficiente de regressão O exame CFA é provável que forneça as estatísticas de resumo de uma regressão linear e peça interpretação. Para ilustrar, considere as seguintes estatísticas para uma regressão entre um fundo de pequena capitalização e o índice Russell 2000: 13 Coeficiente de correlação 13 As duas abreviaturas a serem compreendidas são RSS e SSE: 13 RSS. Ou a soma de regressão de quadrados, é a quantidade de variação total na variável dependente Y que é explicada na equação de regressão. O RSS é calculado computando cada desvio entre um valor de Y previsto eo valor de Y médio, quadrado o desvio e somando todos os termos. Se uma variável independente não explica nenhuma das variações de uma variável dependente, então os valores previstos de Y são iguais ao valor médio, e RSS 0. 13 SSE. Ou a soma do erro quadrado dos resíduos, é calculada encontrando o desvio entre um Y predito e um Y real, quadrando o resultado e somando todos os termos. 13 TSS, ou variação total, é a soma de RSS e SSE. Em outras palavras, este processo ANOVA divide a variância em duas partes: uma que é explicada pelo modelo e outra que não é. Essencialmente, para que uma equação de regressão tenha alta qualidade preditiva, precisamos ver um RSS alto e um SSE baixo, o que fará com que a relação (RSS / 1) / SSE / (n - 2) Um valor F crítico) estatisticamente significativo. O valor crítico é retirado da distribuição F e é baseado em graus de liberdade. Por exemplo, com 20 observações, os graus de liberdade seriam n - 2, ou 18, resultando em um valor crítico (da tabela) de 2.19. Se RSS fosse 2,5 e SSE fossem 1,8, então a estatística de teste calculada seria F (2,5 / (1,8 / 18) 25, que está acima do valor crítico, o que indica que a equação de regressão tem qualidade preditiva (b é diferente de 0) Estimativa de Estatísticas Econômicas com Modelos de Regressão Os modelos de regressão são freqüentemente usados ​​para estimar estatísticas econômicas, tais como inflação e crescimento do PIB, assumindo a seguinte regressão entre a inflação anual estimada (X, ou variável independente) eo número real (Y ou variável dependente) : Utilizando este modelo, o número de inflação previsto seria calculado com base no modelo para os seguintes cenários de inflação: 13 Estimativa de inflação 13 Inflação baseada no modelo 13 As previsões baseadas neste modelo parecem funcionar melhor para estimativas de inflação típicas e sugerem que As estimativas tendem a exagerar a inflação - por exemplo, uma inflação real de apenas 4,46 quando a estimativa foi de 4,7 O modelo parece sugerir que as estimativas são altamente preditivas. Embora para avaliar melhor este modelo, precisamos ver o erro padrão eo número de observações em que se baseia. Se conhecemos o valor real dos parâmetros de regressão (inclinação e interceptação), a variância de qualquer valor Y previsto seria igual ao quadrado do erro padrão. Na prática, devemos estimar os parâmetros de regressão, portanto nosso valor previsto para Y é uma estimativa baseada em um modelo estimado. Para determinar um intervalo de predição, use as seguintes etapas: 1. Preveja o valor da variável dependente Y com base na observação independente X. 2. Calcule a variância do erro de previsão, A seguinte equação: 13 Onde: s 2 é o erro padrão quadrado da estimativa, n é o número de observações, X é o valor da variável independente usada para fazer a previsão, X é o valor médio estimado da variável independente e sx 2 é a variância de X. 3. Escolha um nível de significância para o intervalo de confiança. 4. Construa um intervalo em (1 -) por cento de confiança, usando a estrutura Y t c s f. Aqui está outro caso em que o material se torna muito mais técnico do que o necessário e pode ficar atolado na preparação, quando na realidade a fórmula para a variação de um erro de previsão não é provável que seja coberto. Priorizar - não desperdiçar preciosas horas de estudo memorizá-lo. Se o conceito for testado, você provavelmente receberá a resposta para a Parte 2. Basta saber como usar a estrutura na Parte 4 para responder a uma pergunta. Por exemplo, se a observação X prevista for 2 para a regressão Y 1,5 2,5X, teríamos uma Y prevista de 1,5 2,5 (2), ou 6,5. Nosso intervalo de confiança é de 6,5 t c s f. O t-stat é baseado em um intervalo de confiança escolhido e graus de liberdade, enquanto sf é a raiz quadrada da equação acima (para a variância do erro de previsão. Se esses números são tc 2.10 para 95 confiança e sf 0.443, o intervalo É de 6,5 (2,1) (0,443), ou 5,57 a 7,43 Limitações da Análise de Regressão Foco em três limitações principais: 1. Parâmetro Instabilidade - Esta é a tendência para as relações entre as variáveis ​​de mudar ao longo do tempo devido a mudanças na economia ou os mercados , Entre outras incertezas. Se um fundo mútuo produziu um histórico de retorno em um mercado onde a tecnologia era um setor de liderança, o modelo pode não funcionar quando os mercados estrangeiros e de pequena capitalização são líderes 2. Disseminação Pública da Relação - Em um mercado eficiente , Isso pode limitar a eficácia dessa relação em períodos futuros. Por exemplo, a descoberta de que os estoques de preço baixo a valor contábil superam o alto valor de preço para livro significa que essas ações podem ser oferecidas mais altas e as abordagens de investimento com base no valor Não manterá a mesma relação como no passado. 3. Violação de relações de regressão - Anteriormente, resumimos os seis pressupostos clássicos de uma regressão linear. No mundo real, estas suposições são muitas vezes irrealistas - e. Assumindo que a variável independente X não é aleatória. Exemplo de regressão, parte 1: análise descritiva Qualquer análise de regressão (ou qualquer tipo de análise estatística, para esse assunto) deve começar com um olhar cuidadoso para a matéria-prima: os dados. De onde ele veio, como foi medido, está limpo ou sujo, quantas observações estão disponíveis, quais são as unidades, quais são as magnitudes e os intervalos típicos dos valores e, muito importante, como as variáveis ​​se parecem. Grande parte do seu cérebro é dedicada ao processamento de informações visuais, e a incapacidade de envolver essa parte de seu cérebro é como disparar no escuro. A análise visual ajuda a identificar padrões sistemáticos, bem como eventos e erros de dados incomuns. O objetivo desta análise será explicar e prever como a quantidade de vendas semanais de uma marca de cerveja popular depende de seu preço em uma pequena cadeia de supermercados. O arquivo de dados contém 52 semanas de registros de preços médios e de vendas totais para três tamanhos diferentes de cartões: 12-packs, 18-packs e 30-packs. Uma das primeiras coisas a considerar na montagem de um conjunto de dados para análise de regressão é a escolha de unidades (ou seja, dimensionamento) para as variáveis. No final do dia você estará olhando para medidas de erro que são expressas nas unidades da variável dependente, e os coeficientes do modelo serão medidos em unidades de mudança prevista na variável dependente por unidade de mudança na variável independente. Idealmente, estes números devem ser dimensionados de uma forma que os torna fáceis de ler e fáceis de interpretar e comparar. Nesta análise, as variáveis ​​preço e vendas já foram convertidas para uma base por caso (isto é, por 24 unidades). De modo a que os volumes de vendas relativos para diferentes tamanhos de cartão sejam directamente comparáveis ​​e que os coeficientes de regressão sejam directamente comparáveis ​​para modelos adaptados a dados para diferentes tamanhos de cartões. As primeiras linhas do conjunto de dados (em um arquivo do Excel) se parecem com isto: Os cabeçalhos das colunas foram escolhidos para serem adequados como nomes de variáveis ​​descritivas para a análise. O valor de 19,98 para PRICE12PK na semana 1 significa que 24 latas de cerveja custam 19,98 quando compradas em 12 embalagens naquela semana (ou seja, o preço de um único pacote de 12 era de 9,99) eo valor de 223,5 para CASES12PK significa que 447 12- Pacotes foram vendidos (porque um caso é de dois 12-packs). A partir daí, observa-se a estatística descritiva, que mostra as magnitudes típicas e os intervalos das variáveis: Aqui se observa que o volume de vendas (medido em unidades comparáveis ​​de casos) foi maior para os tamanhos de cartões menores (399 casos8217 no valor de 12- Em comparação com 165 para 30 embalagens, com 18 pacotes no meio), enquanto o preço médio por caixa foi significativamente menor para os tamanhos de cartões maiores (14,38 por caixa em média para 30 embalagens, contra 19,09 por caixa Para 12-packs, com 18-packs novamente no meio). No entanto, verificou-se uma variação considerável nos preços de cada tamanho de cartão, tal como demonstrado pelos valores mínimo e máximo. Como essas são variáveis ​​de séries temporais, é de vital importância examinar os gráficos de séries temporais. como mostrado abaixo. (Na verdade, você deve olhar para as parcelas de suas variáveis ​​versus número de linha, mesmo se eles não são séries de tempo Você nunca sabe o que você pode ver. Para não-série de dados em série, você não iria querer desenhar linhas de conexão entre os pontos, no entanto. ) O que se destaca claramente nestas parcelas é que (como os compradores de cerveja confirmarão) os preços de diferentes tamanhos de cartões são sistematicamente manipulados de semana para semana em uma ampla gama, e há picos de vendas em semanas onde há cortes de preços. Por exemplo, houve um corte profundo no preço de 18 pacotes nas semanas 13 e 14, e um grande aumento correspondente nas vendas nessas duas semanas. Na verdade, se você olhar para todos os casos-vendidos parcelas, você pode ver que o volume de vendas para cada tamanho de cartão é bastante baixo, a menos que seu preço é cortado em uma determinada semana. Outra coisa que se destaca é o padrão de manipulação de preços não era o mesmo para todos os tamanhos de cartão. Os preços dos pacotes de 12 não foram manipulados muito frequentemente, enquanto os preços dos pacotes de 30 foram manipulados quase semana após semana no primeiro semestre do ano e os preços dos pacotes de 18 foram mais manipulados no segundo semestre Do ano. Então, neste ponto, temos uma boa idéia do que os padrões qualitativos estão em preços e vendas semanais. Se nosso objetivo é medir as relações preço-demanda ajustando modelos de regressão, também estamos muito interessados ​​nas correlações entre as variáveis ​​e na aparência de seus diagramas de dispersão. Aqui está a matriz de correlação, isto é, a tabela de todas as correlações pairwise entre as variáveis. (Lembre-se que a correlação entre duas variáveis ​​é uma estatística que mede a força relativa da relação linear entre elas em uma escala de -1 a 1.) O que se destaca claramente aqui é que (como já sabíamos ao olhar para o tempo Séries), existem correlações negativas muito fortes entre o preço e as vendas para os três tamanhos de cartão (maior que 0,8 na magnitude, como se verifica), que são medidas da elasticidade-preço da demanda.8221 Há também algumas correlações positivas mais fracas Entre o preço de um cartão e as vendas de outro - por exemplo, uma correlação de 0,521 entre o preço de 18 embalagens e as vendas de 30 embalagens. Estas são medidas de elasticidades de preço cruzado8221, ou seja, efeitos de substituição. Os consumidores tendem a comprar menos embalagens de 30 quando o preço de 18 embalagens é reduzido, presumivelmente porque eles compram 18 embalagens em vez disso. Por último, mas não menos importante, devemos olhar para a matriz de dispersão de dispersão das variáveis, isto é, a matriz de todos os diagramas de dispersão de 2 vias. A matriz do diagrama de dispersão é a contrapartida visual da matriz de correlação e deve ser sempre estudada como um prelúdio à análise de regressão se houver muitas variáveis. (Praticamente todos os softwares de regressão comercial oferecem esse recurso, embora os resultados variem muito em termos de qualidade gráfica Os produzidos por RegressIt, que são mostrados aqui, incluem opcionalmente a linha de regressão, ponto de centro de massa, correlação e quadrado A matriz de dispersão completa para estas variáveis ​​é uma matriz 6x6, mas estamos especialmente interessados ​​na submatrix 3x3 de scatterplots em que o volume de vendas é plotado vs preço para diferentes combinações de tamanhos de cartão: Cada uma dessas parcelas mostra não apenas a relação preço-demanda para as vendas de um tamanho de cartão versus o preço de outro, mas também dá uma prévia dos resultados que serão obtidos se um modelo de regressão simples for ajustado. Nas páginas que se seguem, modelos de regressão serão ajustados aos dados de vendas de 18 pacotes. A partir do diagrama de dispersão no centro da matriz, já sabemos muito sobre os resultados que obteremos se regressarmos as vendas de 18 pacotes no preço de 18 pacotes. No entanto, algumas bandeiras 8222 já estão acenando neste ponto. Os relacionamentos preço-demanda são bastante fortes, mas a variação das vendas não é consistente em toda a gama de preços em nenhuma dessas parcelas. A propósito, toda a saída mostrada acima foi gerada ao mesmo tempo em uma única planilha do Excel com algumas teclas digitadas usando o procedimento de Análise de Dados em RegressIt, como mostrado abaixo. Esperançosamente seu software fará este relativamente fácil demasiado.

No comments:

Post a Comment