Cloudera Gleitender Durchschnitt

Ich stolperte über diesen Artikel, der erwähnt, wie man den gleitenden Durchschnitt mit Hadoop berechnet. Bitte beachten Sie, dass alle Datensätze für eine KEY sortiert und dann reduziert werden sollen. Nehmen wir nun an, dass die Aufzeichnungen für einen bestimmten KEY über alle Scherben des Mongo-Clusters verteilt sind. In einem solchen Fall wäre es möglich, den gleitenden Durchschnitt zu berechnen, den ich verstehe, dass der Mongo die Karte an jedem Knoten reduziert. Die Voraussetzung für die Lösung dieses Problems besteht darin, sicherzustellen, dass alle Emittenten für eine Karte in einer einzigen reduzierten Phase reduziert werden. Wenn das der Fall ist, dann wird Mongo Map Reduce niemals in der Lage sein, solche Probleme zu lösen. Gibt es einige grundlegende Missverständnisse Auch mit Milliarden von Zeilen und Petabyte von Daten, warum ist es, dass Hadoop Reduce Phase nicht stürzen aus Speicher, da es sich um mindestens mehrere TBs von abgebildeten Daten zu behandeln. Gefragt am 16. Mai 13 um 7:31 Kannst du erklären, warum Hadoop nicht aus dem Gedächtnis für eine solche Berechnung stürzt Aus meinem Verständnis wird alles reduzieren auf einem Knoten, wo alle Datensätze für eine KEY reduziert werden. Dies sollte zu einem großen Speicher-Overhead auf diesem Knoten führen, da TBs von Daten dort vorhanden sein müssen. Wie funktioniert Hadoop so viel Menge an Daten ndash P. Prasad 16. Mai 13 um 8:29 Ich glaube, dass, im Gegensatz zu MongoDB, hadoop, genau wie SQL bei der Verarbeitung eines großen Join, wird die Dinge auf Festplatte und lesen nur, wenn nötig mit Das Betriebssystem mit Swap als temporäre Speicherhalter für bestimmte Dinge wahrscheinlich. MongoDB tut mehr im RAM, bevor er auf die Festplatte schreibt, als solches wird es leicht ausnutzen ndash Sammaye Mai 16 13 bei 8: 37Moving Averages - Einfache und exponentielle Moving Averages - Einfache und exponentielle Einleitung Durchgehende Mittelwerte glatt die Preisdaten zu einem Trend folgen Indikator. Sie prognostizieren nicht die Preisrichtung, sondern definieren die aktuelle Richtung mit einer Verzögerung. Umzugsdurchschnitte verzögern, weil sie auf vergangenen Preisen basieren. Trotz dieser Verzögerung, gleitende Durchschnitte helfen glatte Preis-Aktion und filtern die Lärm. Sie bilden auch die Bausteine für viele andere technische Indikatoren und Overlays wie Bollinger Bands. MACD und der McClellan Oszillator. Die beiden beliebtesten Arten von gleitenden Durchschnitten sind der Simple Moving Average (SMA) und der Exponential Moving Average (EMA). Diese gleitenden Durchschnitte können genutzt werden, um die Richtung des Trends zu identifizieren oder mögliche Unterstützungs - und Widerstandsniveaus zu definieren. Hier ist ein Diagramm mit einem SMA und einem EMA darauf: Einfache bewegliche Durchschnittsberechnung Ein einfacher gleitender Durchschnitt wird durch die Berechnung des Durchschnittspreises einer Sicherheit über eine bestimmte Anzahl von Perioden gebildet. Die meisten gleitenden Durchschnitte basieren auf Schlusskursen. Ein 5-tägiger einfacher gleitender Durchschnitt ist die Fünf-Tage-Summe der Schlusskurse geteilt durch fünf. Wie der Name schon sagt, ist ein gleitender Durchschnitt ein Durchschnitt, der sich bewegt. Alte Daten werden gelöscht, da neue Daten verfügbar sind. Dies bewirkt, dass sich der Durchschnitt entlang der Zeitskala bewegt. Unten ist ein Beispiel für einen 5-tägigen gleitenden Durchschnitt, der sich über drei Tage entwickelt. Der erste Tag des gleitenden Durchschnitts deckt einfach die letzten fünf Tage ab. Der zweite Tag des gleitenden Durchschnitts sinkt den ersten Datenpunkt (11) und fügt den neuen Datenpunkt (16) hinzu. Der dritte Tag des gleitenden Mittels setzt sich fort, indem er den ersten Datenpunkt (12) fällt und den neuen Datenpunkt (17) addiert. Im obigen Beispiel steigen die Preise allmählich von 11 auf 17 über insgesamt sieben Tage. Beachten Sie, dass der gleitende Durchschnitt auch von 13 auf 15 über einen Zeitraum von drei Tagen steigt. Beachten Sie auch, dass jeder gleitende Mittelwert knapp unter dem letzten Preis liegt. Zum Beispiel ist der gleitende Durchschnitt für Tag eins gleich 13 und der letzte Preis ist 15. Preise der vorherigen vier Tage waren niedriger und dies bewirkt, dass der gleitende Durchschnitt zu verzögern. Exponentielle Verschiebung Durchschnittliche Berechnung Exponentielle gleitende Durchschnitte reduzieren die Verzögerung, indem sie mehr Gewicht auf die jüngsten Preise anwenden. Die Gewichtung, die auf den jüngsten Preis angewendet wird, hängt von der Anzahl der Perioden im gleitenden Durchschnitt ab. Es gibt drei Schritte zur Berechnung eines exponentiellen gleitenden Durchschnitts. Zuerst berechnen Sie den einfachen gleitenden Durchschnitt. Ein exponentieller gleitender Durchschnitt (EMA) muss irgendwann anfangen, so dass ein einfacher gleitender Durchschnitt als vorhergehende Periode verwendet wird039s EMA in der ersten Berechnung. Zweitens berechnen Sie den Gewichtungsmultiplikator. Drittens berechnen Sie den exponentiellen gleitenden Durchschnitt. Die folgende Formel gilt für eine 10-tägige EMA. Ein 10-stelliger exponentieller gleitender Durchschnitt gilt eine 18,18 Gewichtung auf den letzten Preis. Eine 10-Perioden-EMA kann auch als 18.18 EMA bezeichnet werden. Eine 20-Punkte-EMA wendet ein 9,52-Gewicht auf den letzten Preis an (2 (201) .0952). Beachten Sie, dass die Gewichtung für den kürzeren Zeitraum mehr als die Gewichtung für den längeren Zeitraum ist. In der Tat, die Gewichtung sinkt um die Hälfte jedes Mal, wenn die gleitende durchschnittliche Periode verdoppelt. Wenn Sie uns einen bestimmten Prozentsatz für eine EMA wünschen, können Sie diese Formel verwenden, um sie in Zeiträume umzuwandeln und diesen Wert als den EMA039s-Parameter einzugeben: Unten ist ein Tabellenkalkulationsbeispiel für einen 10-tägigen, einfachen gleitenden Durchschnitt und einen 10- Tag exponentieller gleitender Durchschnitt für Intel. Einfache gleitende Durchschnitte sind einfach und erfordern wenig Erklärung. Der 10-Tage-Durchschnitt bewegt sich einfach, wenn neue Preise verfügbar sind und die alten Preise fallen. Der exponentielle gleitende Durchschnitt beginnt mit dem einfachen gleitenden Mittelwert (22.22) in der ersten Berechnung. Nach der ersten Berechnung übernimmt die normale Formel. Weil eine EMA mit einem einfachen gleitenden Durchschnitt beginnt, wird ihr wahrer Wert erst 20 Jahre später realisiert. Mit anderen Worten, der Wert auf der Excel-Tabelle kann sich aufgrund der kurzen Rückblickzeit von dem Diagrammwert unterscheiden. Diese Kalkulationstabelle geht nur zurück 30 Perioden, was bedeutet, dass der Einfluss des einfachen gleitenden Durchschnittes 20 Perioden hat, um zu zerstreuen. StockCharts geht zurück mindestens 250-Perioden (typischerweise viel weiter) für seine Berechnungen, so dass die Effekte des einfachen gleitenden Durchschnitts in der ersten Berechnung vollständig zerstreut sind. Der Lag-Faktor Je länger der gleitende Durchschnitt, desto mehr die Lag. Ein 10-tägiger, exponentieller gleitender Durchschnitt wird die Preise ganz genau verkleinern und kurz nach dem Preis drehen. Kurze bewegte Durchschnitte sind wie Schnellboote - flink und schnell zu ändern. Im Gegensatz dazu enthält ein 100-Tage-Gleitender Durchschnitt viele vergangene Daten, die ihn verlangsamen. Längere gleitende Durchschnitte sind wie Ozean-Tanker - lethargisch und langsam zu ändern. Es dauert eine größere und längere Preisbewegung für einen 100-tägigen gleitenden Durchschnitt, um den Kurs zu wechseln. Die obige Grafik zeigt die SampP 500 ETF mit einer 10-tägigen EMA genau nach den Preisen und einem 100-Tage-SMA-Schleifen höher. Sogar mit dem Januar-Februar-Rückgang hielt die 100-Tage-SMA den Kurs und ging nicht ab. Die 50-Tage-SMA passt irgendwo zwischen den 10 und 100 Tage gleitenden Durchschnitten, wenn es um den Lagfaktor geht. Einfache vs exponentielle Verschiebungsdurchschnitte Auch wenn es deutliche Unterschiede zwischen einfachen gleitenden Durchschnitten und exponentiellen gleitenden Durchschnitten gibt, ist man nicht unbedingt besser als die andere. Exponentielle gleitende Durchschnitte haben weniger Verzögerung und sind daher empfindlicher gegenüber den jüngsten Preisen - und die jüngsten Preisänderungen. Exponentielle gleitende Durchschnitte werden sich vor einfachen gleitenden Durchschnitten drehen. Einfache gleitende Durchschnitte stellen dagegen einen wahren Durchschnittspreis für den gesamten Zeitraum dar. Als solche können einfache gleitende Durchschnitte besser geeignet sein, um Unterstützung oder Widerstand Ebenen zu identifizieren. Die Verschiebung der durchschnittlichen Präferenz hängt von den Zielen, dem analytischen Stil und dem Zeithorizont ab. Chartisten sollten mit beiden Arten von gleitenden Durchschnitten sowie verschiedene Zeitrahmen experimentieren, um die beste Passform zu finden. Die folgende Grafik zeigt IBM mit dem 50-Tage-SMA in Rot und der 50-Tage-EMA in grün. Beide erreichten Ende Januar, aber der Rückgang der EMA war schärfer als der Rückgang der SMA. Die EMA tauchte Mitte Februar auf, aber die SMA setzte sich bis Ende März fort. Beachten Sie, dass die SMA über einen Monat nach der EMA auftauchte. Längen und Zeitrahmen Die Länge des gleitenden Durchschnitts hängt von den analytischen Zielen ab. Kurze bewegte Durchschnitte (5-20 Perioden) eignen sich am besten für kurzfristige Trends und Handel. Chartisten, die sich für mittelfristige Trends interessieren, würden sich für längere gleitende Durchschnitte entscheiden, die sich über 20-60 Perioden erstrecken könnten. Langfristige Investoren bevorzugen gleitende Durchschnitte mit 100 oder mehr Perioden. Einige gleitende durchschnittliche Längen sind beliebter als andere. Der 200-Tage-Gleitender Durchschnitt ist vielleicht der beliebteste. Wegen seiner Länge ist dies eindeutig ein langfristiger gleitender Durchschnitt. Als nächstes ist der 50-Tage-Gleitender Durchschnitt für den mittelfristigen Trend sehr beliebt. Viele Chartisten verwenden die 50-Tage - und 200-Tage-Gruppendurchschnitte zusammen. Kurzfristig war ein 10-tägiger gleitender Durchschnitt in der Vergangenheit sehr beliebt, weil es leicht zu berechnen war. Man hat einfach die Zahlen hinzugefügt und den Dezimalpunkt verschoben. Trend Identifikation Die gleichen Signale können mit einfachen oder exponentiellen gleitenden Durchschnitten erzeugt werden. Wie oben erwähnt, hängt die Präferenz von jedem einzelnen ab. In diesen Beispielen werden sowohl einfache als auch exponentielle gleitende Durchschnitte verwendet. Der Begriff Gleitender Durchschnitt gilt für einfache und exponentielle gleitende Mittelwerte. Die Richtung des gleitenden Durchschnitts vermittelt wichtige Informationen über die Preise. Ein steigender gleitender Durchschnitt zeigt, dass die Preise im Allgemeinen zunehmen. Ein fallender gleitender Durchschnitt zeigt an, dass die Preise im Durchschnitt fallen. Ein steigender langfristiger gleitender Durchschnitt spiegelt einen langfristigen Aufwärtstrend wider. Ein fallender langfristiger gleitender Durchschnitt spiegelt einen langfristigen Abwärtstrend wider. Die obige Grafik zeigt 3M (MMM) mit einem 150-Tage-exponentiellen gleitenden Durchschnitt. Dieses Beispiel zeigt, wie gut bewegte Mittelwerte arbeiten, wenn der Trend stark ist. Die 150-tägige EMA hat sich im November 2007 und wieder im Januar 2008 abgelehnt. Beachten Sie, dass es einen Rückgang der Rückkehr in die Richtung dieses gleitenden Durchschnittes gab. Diese nacheilenden Indikatoren identifizieren Trendumkehrungen, wie sie auftreten (am besten) oder nachdem sie auftreten (im schlimmsten Fall). MMM setzte sich im März 2009 fort und stieg dann 40-50 an. Beachten Sie, dass die 150-Tage-EMA erst nach diesem Anstieg auftauchte. Sobald es so war, fuhr MMM in den nächsten zwölf Monaten weiter an. Durchgehende Durchschnitte arbeiten brillant in starken Trends. Double Crossovers Zwei gleitende Mittelwerte können zusammen verwendet werden, um Crossover-Signale zu erzeugen. In der technischen Analyse der Finanzmärkte. John Murphy nennt dies die doppelte Crossover-Methode. Doppelte Übergänge beinhalten einen relativ kurzen gleitenden Durchschnitt und einen relativ langen gleitenden Durchschnitt. Wie bei allen gleitenden Durchschnitten definiert die allgemeine Länge des gleitenden Durchschnitts den Zeitrahmen für das System. Ein System mit einer 5-tägigen EMA und 35-Tage-EMA wäre kurzfristig. Ein System, das eine 50-Tage-SMA - und 200-Tage-SMA verwendet, wäre mittelfristig, vielleicht sogar langfristig. Ein bullish crossover tritt auf, wenn der kürzere gleitende Durchschnitt über dem längeren gleitenden Durchschnitt kreuzt. Dies ist auch als goldenes Kreuz bekannt. Eine bärige Überkreuzung tritt auf, wenn der kürzere gleitende Durchschnitt unter dem längeren gleitenden Durchschnitt liegt. Dies ist bekannt als ein totes Kreuz. Bewegliche durchschnittliche Crossover produzieren relativ späte Signale. Schließlich verwendet das System zwei nacheilende Indikatoren. Je länger die gleitenden Mittelperioden sind, desto größer ist die Verzögerung der Signale. Diese Signale funktionieren gut, wenn ein guter Trend greift. Allerdings wird ein gleitendes durchschnittliches Crossover-System in der Abwesenheit eines starken Trends viele Whipsaws produzieren. Es gibt auch eine Triple-Crossover-Methode, die drei gleitende Durchschnitte umfasst. Wieder wird ein Signal erzeugt, wenn der kürzeste gleitende Durchschnitt die beiden längeren Durchschnitte überschreitet. Ein einfaches Triple-Crossover-System könnte 5-tägige, 10-tägige und 20-tägige gleitende Durchschnitte beinhalten. Die Grafik oben zeigt Home Depot (HD) mit einer 10-Tage EMA (grüne gepunktete Linie) und 50-Tage EMA (rote Linie). Die schwarze Linie ist die tägliche Schließung. Mit einem gleitenden durchschnittlichen Crossover hätte drei Whipsaws zu einem guten Handel geführt. Die 10-tägige EMA brach unterhalb der 50-Tage-EMA Ende Oktober (1), aber das dauerte nicht lange, als die 10-Tage nach oben Mitte (2) zurückblieben. Dieses Kreuz dauerte länger, aber die nächste Baisse Crossover im Januar (3) trat in der Nähe Ende November Preisniveau, was zu einer anderen Whipsaw. Dieses bärische Kreuz dauerte nicht lange, als die 10-tägige EMA über die 50-Tage ein paar Tage später (4) zurückging. Nach drei schlechten Signalen zeigte das vierte Signal einen starken Zug, als die Aktie über 20 vorrückte. Es gibt zwei Takeaways hier. Zuerst sind Crossover anfällig für peitschen. Ein Preis - oder Zeitfilter kann angewendet werden, um Whipsaw zu verhindern. Trader könnten verlangen, dass die Crossover bis 3 Tage vor dem Handeln oder verlangen die 10-Tage-EMA, um über die 50-Tage-EMA um einen bestimmten Betrag vor dem Handeln zu bewegen. Zweitens kann MACD verwendet werden, um diese Crossover zu identifizieren und zu quantifizieren. MACD (10,50,1) zeigt eine Linie, die die Differenz zwischen den beiden exponentiellen gleitenden Mittelwerten darstellt. MACD dreht sich positiv während eines goldenen Kreuzes und negativ während eines toten Kreuzes. Der Prozentsatz-Preis-Oszillator (PPO) kann auf die gleiche Weise verwendet werden, um prozentuale Unterschiede zu zeigen. Beachten Sie, dass MACD und das PPO auf exponentiellen gleitenden Durchschnitten basieren und nicht mit einfachen gleitenden Durchschnitten übereinstimmen. Diese Grafik zeigt Oracle (ORCL) mit der 50-Tage-EMA, 200-Tage EMA und MACD (50.2001). Es gab vier gleitende durchschnittliche Übergänge über einen Zeitraum von 2 12 Jahren. Die ersten drei führten zu Whipsaws oder schlechten Trades. Eine anhaltende Tendenz begann mit dem vierten Crossover als ORCL bis Mitte der 20er Jahre. Noch einmal, gleitende durchschnittliche Übergänge funktionieren gut, wenn der Trend stark ist, aber produzieren Verluste in der Abwesenheit eines Trends. Preis-Crossovers Moving-Mittelwerte können auch verwendet werden, um Signale mit einfachen Preis-Crossover zu generieren. Ein bullisches Signal wird erzeugt, wenn sich die Preise über dem gleitenden Durchschnitt bewegen. Ein bärisches Signal wird erzeugt, wenn die Preise unter dem gleitenden Durchschnitt liegen. Preisübergänge können kombiniert werden, um im größeren Trend zu handeln. Der längere gleitende Durchschnitt setzt den Ton für den größeren Trend und der kürzere gleitende Durchschnitt wird verwendet, um die Signale zu erzeugen. Man würde bullish Preiskreuze nur dann suchen, wenn die Preise bereits über dem längeren gleitenden Durchschnitt liegen. Dies würde im Einklang mit dem größeren Trend handeln. Zum Beispiel, wenn der Preis über dem 200-Tage-Gleitender Durchschnitt liegt, würden sich die Chartisten nur auf Signale konzentrieren, wenn der Preis über den 50-Tage-Gleitender Durchschnitt geht. Offensichtlich würde ein Umzug unter dem 50-Tage-Gleitender Durchschnitt einem solchen Signal vorausgehen, aber solche bärigen Kreuze würden ignoriert werden, weil der größere Trend auf ist. Ein bärisches Kreuz würde einfach einen Pullback in einem größeren Aufwärtstrend vorschlagen. Eine Kreuzung über dem 50-Tage-Gleitender Durchschnitt würde einen Aufschwung der Preise und die Fortsetzung des größeren Aufwärtstrends signalisieren. Die nächste Grafik zeigt Emerson Electric (EMR) mit der 50-Tage-EMA und 200-Tage-EMA. Die Aktie bewegte sich oben und hielt über dem 200-Tage gleitenden Durchschnitt im August. Es gab Dips unter der 50-Tage-EMA Anfang November und wieder Anfang Februar. Die Preise sind schnell über die 50-Tage-EMA zurückgekehrt, um bullische Signale (grüne Pfeile) im Einklang mit dem größeren Aufwärtstrend zu liefern. MACD (1,50,1) wird im Indikatorfenster angezeigt, um Preiskreuze über oder unter der 50-Tage-EMA zu bestätigen. Die 1-tägige EMA entspricht dem Schlusskurs. MACD (1,50,1) ist positiv, wenn das Schließen über dem 50-Tage-EMA liegt und negativ ist, wenn das Schließen unterhalb der 50-Tage-EMA liegt. Unterstützung und Widerstand Bewegliche Mittelwerte können auch als Unterstützung in einem Aufwärtstrend und Widerstand in einem Abwärtstrend dienen. Ein kurzfristiger Aufwärtstrend könnte Unterstützung in der Nähe des 20-tägigen einfachen gleitenden Durchschnitts finden, der auch in Bollinger Bands verwendet wird. Ein langfristiger Aufwärtstrend könnte Unterstützung in der Nähe der 200-Tage einfachen gleitenden Durchschnitt, die die beliebtesten langfristigen gleitenden Durchschnitt ist. Wenn die Tatsache, die 200-Tage gleitenden Durchschnitt kann Unterstützung oder Widerstand bieten, nur weil es so weit verbreitet ist. Es ist fast wie eine sich selbst erfüllende Prophezeiung. Die Grafik oben zeigt die NY Composite mit dem 200-Tage einfachen gleitenden Durchschnitt von Mitte 2004 bis Ende 2008. Die 200-Tage-Unterstützung unterstützt mehrmals während des Vormarsches. Sobald der Trend mit einer doppelten Top-Support-Pause umgekehrt, fuhr der 200-Tage-Gleitender Durchschnitt als Widerstand um 9500. Erwarten Sie nicht genaue Unterstützung und Widerstand Ebenen von bewegten Durchschnitten, vor allem längere gleitende Durchschnitte. Die Märkte werden von Emotionen angetrieben, was sie zu Überschwemmungen macht. Anstelle von exakten Ebenen können gleitende Mittelwerte verwendet werden, um Stütz - oder Widerstandszonen zu identifizieren. Schlussfolgerungen Die Vorteile der Verwendung von gleitenden Durchschnitten müssen gegen die Nachteile gewogen werden. Durchgehende Durchschnitte sind Trendfolgen oder Nachlauf, Indikatoren, die immer ein Schritt dahinter sein werden. Das ist aber nicht unbedingt eine schlechte Sache. Immerhin ist der Trend dein Freund und es ist am besten, in Richtung des Trends zu handeln. Durchgehende Durchschnitte versichern, dass ein Händler mit dem aktuellen Trend übereinstimmt. Auch wenn der Trend Ihr Freund ist, verbringen die Wertpapiere viel Zeit in Handelsbereichen, die gleitende Durchschnitte ineffektiv machen. Einmal in einem Trend, bewegte Durchschnitte halten Sie in, aber auch späte Signale. Don039t erwarten, an der Spitze zu verkaufen und an der Unterseite zu kaufen, indem bewegte Durchschnitte. Wie bei den meisten technischen Analysewerkzeugen sollten gleitende Durchschnitte nicht allein verwendet werden, sondern in Verbindung mit anderen komplementären Werkzeugen. Chartisten können gleitende Durchschnitte verwenden, um den Gesamttrend zu definieren und dann RSI zu verwenden, um überkaufte oder überverkaufte Ebenen zu definieren. Hinzufügen von Moving Averages zu StockCharts Charts Verschieben von Durchschnittswerten sind als Preisüberlagerungsfunktion auf der SharpCharts Workbench verfügbar. Mit dem Dropdown-Menü Overlays können Benutzer entweder einen einfachen gleitenden Durchschnitt oder einen exponentiellen gleitenden Durchschnitt wählen. Mit dem ersten Parameter wird die Anzahl der Zeiträume eingestellt. Ein optionaler Parameter kann hinzugefügt werden, um festzulegen, welches Preisfeld in den Berechnungen verwendet werden soll - O für das Open, H für das Hoch, L für das Niedrige und C für das Schließen. Ein Komma wird verwendet, um Parameter zu trennen. Ein weiterer optionaler Parameter kann hinzugefügt werden, um die gleitenden Mittelwerte nach links (vergangene) oder rechts (Zukunft) zu verschieben. Eine negative Zahl (-10) würde den gleitenden Durchschnitt nach links verschieben 10 Perioden. Eine positive Zahl (10) würde den gleitenden Durchschnitt auf die richtigen 10 Perioden verschieben. Mehrere gleitende Durchschnitte können das Preisplot überlagert werden, indem man einfach eine weitere Overlay-Linie zur Workbench hinzufügt. StockCharts-Mitglieder können die Farben und den Stil ändern, um zwischen mehreren gleitenden Durchschnitten zu unterscheiden. Nach Auswahl eines Indikators öffnen Sie die erweiterten Optionen, indem Sie auf das kleine grüne Dreieck klicken. Erweiterte Optionen können auch verwendet werden, um eine gleitende durchschnittliche Überlagerung zu anderen technischen Indikatoren wie RSI, CCI und Volume hinzuzufügen. Klicken Sie hier für eine Live-Chart mit mehreren verschiedenen gleitenden Durchschnitten. Mit Moving Averages mit StockCharts Scans Hier sind einige Beispiel-Scans, die StockCharts-Mitglieder verwenden können, um für verschiedene gleitende durchschnittliche Situationen zu scannen: Bullish Moving Average Cross: Diese Scans sucht nach Aktien mit einem steigenden 150-Tage-einfachen gleitenden Durchschnitt und einem bullish Kreuz der 5 - Tag EMA und 35-Tage-EMA. Der 150-Tage-Gleitender Durchschnitt steigt, solange er über seinem Niveau vor fünf Tagen gehandelt wird. Ein bullisches Kreuz tritt auf, wenn die 5-Tage-EMA über die 35-Tage-EMA auf überdurchschnittliche Lautstärke bewegt. Bearish Moving Average Cross: Diese Scans suchen nach Aktien mit einem fallenden 150-Tage-einfachen gleitenden Durchschnitt und einem bärischen Kreuz der 5-tägigen EMA und 35-Tage-EMA. Der 150-Tage-Gleitender Durchschnitt fällt, solange er unter seinem Niveau vor fünf Tagen gehandelt wird. Ein bärisches Kreuz tritt auf, wenn die 5-tägige EMA unterhalb der 35-Tage-EMA auf überdurchschnittlichem Volumen bewegt. Weitere Studie John Murphy039s Buch hat ein Kapitel gewidmet, um die Durchschnitte und ihre verschiedenen Verwendungen gewidmet. Murphy deckt die Vor-und Nachteile der gleitenden Durchschnitte. Darüber hinaus zeigt Murphy, wie bewegte Mittelwerte mit Bollinger Bands und kanalbasierten Handelssystemen arbeiten. Technische Analyse der Finanzmärkte John MurphyCloudera Engineering Blog Einfache Verschiebung Durchschnitt, Sekundäre Sortierung und MapReduce (Teil 2), wo Spaltenbereich alle Spalten von diesem Datum bis 29 Tage vorher ist. Kopiere nun diese Formel für die nächsten zwei Zeilen, Datum 147342008148 und 147332008148. Sie sollten die Werte 14735.396148, 14734.5293148 und 14733.5293148 haben, die die 30 Tage gleitenden Durchschnitte für diese synthetischen yahoo-Bestandsdaten darstellen. Nun, da haben wir ein grundlegendes Beispiel in Excel let8217s einen Blick auf, wie wir machen Simple Moving Average in R. Ein kurzer Primer auf einfaches Moving Average in R Ein weiteres gemeinsames Werkzeug in der Zeitreihe Domain, vor allem der Finanzsektor, ist die R-Programmierung Sprache. R ist: Programmiersprache und Softwareumgebung für statistisches Rechnen und Grafiken. Ein De-facto-Standard unter den Statistiker für die statistische Softwareentwicklung und Datenanalyse. Eine Implementierung der S-Programmiersprache kombiniert mit der von Scheme inspirierten lexikalischen Scoping-Semantik. Derzeit entwickelt von der R Development Core Team, wurde aber ursprünglich von Ross Ihaka und Robert Gentleman an der University of Auckland, Neuseeland entwickelt. Laden Sie die R Binär von hier herunter und installieren Sie sie lokal (sie unterstützen sowohl Linux als auch Win32). Sobald Sie installiert sind, starten Sie die R-Konsole und legen Sie das Menü herunter, wo wir das TTR-Paket installieren müssen. Wählen Sie einen Spiegel aus und laden Sie dieses Paket herunter. Laden Sie nun dieses Paket, indem Sie auf das 147Packages148 Dropdown klicken und 147Load Package148 auswählen. Finden Sie das TTR-Paket, das gerade installiert wurde, und wählen Sie es aus. Als nächstes laden Sie die synthetischen Bestandsdaten aus meinem Projekt auf github, die 33 Zeilen von synthetischen Bestandsdaten zu verarbeiten enthält. Um diese CSV-Daten in R zu laden, müssen wir unser Arbeitsverzeichnis setzen, indem wir auf den Menüpunkt 147File148 klicken und dann 147Changeverzeichnis148 klicken. Quick-Tipp: Der Benutzer kann jederzeit den Namen der Variablen eingeben und Enter drücken, um den Inhalt der Variablen anzuzeigen. Nun, da wir alle die Vorbereitung aus dem Weg haben, let146s den einfachen gleitenden Durchschnitt in R schreiben: Austausch Stocksymbol 160160160160160160date160 open160 high160160 niedrigen close160160 Volumen adj. close 32160160160160 NYSE160160160160160160160160160160 AA 2008-02-03 38,85 39,28 38,26 38,37 11279900160160160160160 8,37 31160160160160 NYSE160160160160160160160160160160 AA 2008 -02-04 37,01 37,90 36,13 36,60 17752400160160160160 10,60 30160160160160 NYSE160160160160160160160160160160 AA 2008-02-05 31,16 31,89 30,55 30,69 17567800160160160160 30,53 29160160160160 NYSE160160160160160160160160160160 AA 2008-02-06 30,27 31,52 30,06 31,47160 8445100160160160160 31,31 28160160160160 NYSE160160160160160160160160160160 AA 2008-02-07 31,73 33,13 31,57 32,66 14338500160160160160 32.49 27160160160160 NYSE160160160160160160160160160160 AA 2008-02-08 32,58 33,42 32,11 32,70 10241400160160160160 32,53 26160160160160 NYSE160160160160160160160160160160 AA 2008-02-09 32,13 33,34 31,95 33,09160 9200400160160160160 32,92 25160160160160 NYSE160160160160160160160160160160 AA 2008-02-10 33,67 34,45 33,07 34,28 15186100160160160160 34,10 24160160160160 NYSE160160160160160160160160160160 AA 2008-02 -11 34,57 34,85 33,98 34,08160 9528000160160160160 33,90 23160160160160 NYSE160160160160160160160160160160 AA 2008-02-12 33,30 33,64 32,52 32,67 11338000160160160160 32,50 22160160160160 NYSE160160160160160160160160160160 AA 2008-02-13 32,95 33,37 32,26 32,41160 7230300160160160160 32,41 21160160160160 NYSE160160160160160160160160160160 AA 2008-02-14 32,24 33,25 31,90 32,78160 9058900160160160160 32,78 20160160160160 NYSE160160160160160160160160 160160AA 2008-02-15 32,67 33,81 32,37 33,76 10731400160160160160 33,76 19160160160160 NYSE160160160160160160160160160160 AA 2008-02-16 33,82 34,25 33,29 34,06 11249800160160160160 34,06 18160160160160 NYSE160160160160160160160160160160 AA 2008-02-17 34,33 34,64 33,26 33,49 12418900160160160160 33,49 17160160160160 NYSE160160160160160160160160160160 AA 2008-02-18 33,75 35,52 33,63 35,51 21082100160160160160 35,51 16160160160160 NYSE160160160160160160160160160160 AA 2008-02-19 36,01 36,43 35,05 35,36 18238800160160160160 35,36 15160160160160 NYSE160160160160160160160160160160 AA 2008-02-20 35,16 35,94 35,12 35,72 14082200160160160160 35,72 14160160160160 NYSE160160160160160160160160160160 AA 2008-02-21 36,19 36,73 35,84 36,20 12825300160160160160 36,20 13160160160160 NYSE160160160160160160160160160160 AA 2008-02-22 35,96 36,85 35,51 36,83 10906600160160160160 36,83 12160160160160 NYSE160160160160160160160160160160 AA 2008-02-23 36,88 37,41 36,25 36,30 13078200160160160160 36,30 11160160160160 NYSE160160160160160160160160160160 AA 2008-02-24 36,38 36,64 35,58 36,55 12834300160160160160 36,55 10160160160160 NYSE160160160160160160160160160160 AA 2008-02-25 36.64 38.95 36,48 38,85 22500100160160160160 38,85 9160160160160160 NYSE160160160160160160160160160160 AA 2008-02-26 38,59 39,25 38,08 38,50 14417700160160160160 38,50 8160160160160160 NYSE160160160160160160160160160160 AA 2008-02-27 38,19 39,62 37,75 39,02 14296300160160160160 39,02 7160160160160160 NYSE160160160160160 160160160160160AA 2008-02-28 38,61 39,29 38,19 39,12 11421700160160160160 39,12 6160160160160160 NYSE160160160160160160160160160160 AA 2008 -02-29 38,77 38,82 36,94 37,14 22611400160160160160 37,14 5160160160160160 NYSE160160160160160160160160160160 AA 2008-03-01 37,17 38,46 37,13 38,32 13964700160160160160 38,32 4160160160160160 NYSE160160160160160160160160160160 AA 2008-03-02 37,90 38,94 37,10 38,00 15715600160160160160 38,00 3160160160160160 NYSE160160160160160160160160160160 AA 2008-03-03 38,25 39,15 38,10 38,71 11754600160160160160 38.71 2160160160160160 NYSE160160160160160160160160160160 AA 2008-03-04 38,85 39,28 38,26 38,37 11279900160160160160 38,37 1160160160160160 NYSE160160160160160160160160160160 AA 2008-03-05 37,01 37,90 36,13 36,60 17752400160160160160 36,60 der obige Code unserer einfachen gleitenden Durchschnitt produzieren sollte, die wir durch die Eingabe des Namen der Ansicht können 1160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA 21160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA160160160160160160 NA 33,52933 34,52933 35,39600 da vor dem 30. Tag gibt es: variable 147sma148 das folgende Ergebnis zu produzieren Nicht genügend Daten, um einen einfachen gleitenden Durchschnitt basierend auf unserem Set-Parameter zu erzeugen, werden die 147NA148 Einträge erzeugt. Diese Werte entsprechen auch den Werten in unserer Excel-Tabelle. R hat auch ein interessantes Projekt namens RHIPE, das R-Code auf Hadoop-Clustern läuft. Um einen Blick auf RHIPE zu werfen, besuchen Sie bitte ihre Website. So haben wir uns einen Blick genommen, was ein einfacher gleitender Durchschnitt ist und wie wir ihn in Excel und R produzieren. Beide Beispiele beinhalten eine Token-Menge an Daten, die interessant, aber nicht furchtbar nützlich in heute146s High-Density-Zeitreihen-Problemdomänen sind. Als Ihr Datensatz beginnt zu skalieren über eine einzige Scheibe Platz des Raumes, wird Hadoop praktischer. Der letzte Teil dieser dreiteiligen Blog-Serie wird erklären, wie man Hadoop146s MapReduce verwendet, um einen einfachen Moving Average zu berechnen. Dann, sobald Sie den Beispielcode angewendet haben, um einen Simple Moving Average des kleinen Beispieldatensatzes zu finden, werden wir weitergehen, um diesen gleichen Code zu verwenden, um über dreißig Jahre im Wert aller täglichen Börsenkurse zu analysieren. 2 Antworten auf ldquo Simple Moving Average, Secondary Sort und MapReduce (Teil 2) rdquo Großes Tutorial, wann werden Sie veröffentlichen Teil dreiCloudera Engineering Blog Simple Moving Average, Secondary Sort und MapReduce (Teil 3) Dies ist das letzte Stück zu Eine dreiteilige Blog-Serie. Wenn du die vorherigen Teile dieser Serie ansehen möchtest, benutze bitte den folgenden Link: Bisher habe ich erklärt, wie man Excel und R als Analysewerkzeuge einsetzt, um den Simple Moving Average eines kleinen Satzes von Börsenkursen zu berechnen. In diesem letzten Stück auf die drei Teil-Blog-Serie, werde ich in die Verwendung von MapReduce, um die Simple Moving Average unserer kleinen Beispiel-Datensatz zu finden. Dann werde ich Ihnen zeigen, wie mit dem gleichen Code, werden Sie in der Lage, die Simple Moving Average von jedem Schlussbestand Preis seit 1980 zu berechnen. Down the Rabbit Hole Mit Hadoop In den oben genannten Beispielen haben wir einen Blick auf die Berechnung der einfachen gleitenden Durchschnitt Von einer relativ kleinen Datenmenge. Für viele Analysen sind Excel und R sehr effektive Werkzeuge, aber da wir in Richtung Gigabyte-, Terabyte - und Petabyte-Datenspeicher skalieren, laufen wir in einige Probleme mit Datenträgern, Festplattengeschwindigkeiten und Verarbeitungsgeschwindigkeiten. Um diese Faktoren zu veranschaulichen, nehmen wir eine mythische Maschine, die eine einzelne 1-Petabyte-Festplatte hatte, die ähnlich wie die Festplattengeschwindigkeit heute betrieben wurde. Für die Zwecke dieses Beispiels verwenden Sie bitte eine Lesegeschwindigkeit von 40 MBs. Lets sagen, dass es unsere Aufgabe ist, durch diese Daten zu scannen und einen einfachen gleitenden Durchschnitt zu erzeugen, der Prozessor beeinträchtigt die Berechnung nicht, und wir können eine bewegte Fensterberechnung durch die Daten bei den vollen 40 MBs aufrechterhalten. Lets auch davon ausgehen, dass die Daten zuvor sortiert wurden und dass wir nur einen sequentiellen Scan durchführen mussten, der die Datendurchsatzrate von der Festplatte maximiert und es konnte konsequent 40MBs an die Verarbeitungspipeline liefern. Basierend auf Jeff Deans 12 Numbers Jeder Ingenieur Sollte Slide Dies ist ein plausibles Setup. Bei diesem Durchsatz würde unsere einfache gleitende Durchschnittsberechnung von 1 Petabyte Daten etwa 310 Tage dauern. Für die meisten Situationen macht diese Betriebskosten zeitlich unzumutbar. Glücklicherweise beeinträchtigen die Mechanismen von HDFS und MapReduce diese Faktoren, so dass wir dieses Problem zu einer linearen Zeit - und Kapitalfunktion machen können, um uns zu helfen, die Anzahl der Maschinen zu bestimmen, die wir implementieren möchten, um diesen einfachen gleitenden durchschnittlichen Scan effizient durchzuführen. In dem obigen einfachen gleitenden durchschnittlichen Beispiel vernachlässigten wir die Einschränkungen von: Speichern der Petabyte von Daten auf nicht-mythische Hardware. Sortierung der Petabyte von Daten. In Anbetracht der Hardware-Ausfall während der 310 Tage der Bearbeitungszeit. Typischerweise müssen Zeitreihenanwendungen die Daten irgendwann scannen, was große Berge zum Aufstieg schafft, wenn wir in den heutigen Systemen große Zeitreihen von Zeitreihen ansprechen wollen. Wurden täglich mehrere Terabyte - und Multi-Petabyte-Datenquellen in der Zeitreihen-Domain gesehen, einschließlich und in jedem dieser Domains ist das oben genannte Szenario eine sehr echte Herausforderung. HDFS löst die oben genannten Speicher - und Ausfallprobleme, aber was ist mit den Sortier - und Verarbeitungsproblemen Die Sortierung großer Datenmengen selbst ist ein nicht-triviales Problem, doch ist es mit einigen Tricks in MapReduce zugänglich. Lass uns einen Blick auf echte MapReduce-Code, den wir herunterladen können, um zu kompilieren und produzieren unsere eigenen skalierbaren einfachen gleitenden Durchschnitt, um einige dieser Schmerzen Punkte zu lösen. Einfache Verschiebung Durchschnitt in MapReduce Typischerweise besteht eine MapReduce-Anwendung aus zwei Funktionen: (Sie ahnen es) eine Kartenfunktion und eine reduzierte Funktion. In der Welt der Java-Programmierung erstellen wir eine Kartenklasse und eine reduzierte Klasse, jede mit ererbten Methoden, die für ihre respektvollen Zwecke nützlich sind. Wir verwenden das MapReduce-Programmiermodell, weil es gebaut wird, um Gleichzeitigkeitsprobleme in unseren Algorithmen zu mildern und wir erhalten unsere skalierbare Parallelität relativ schmerzlos. Die Kartenfunktion kann Code beinhalten, der eine Per-Key-Wert-Paar-Operation ausführt, aber seine Haupt-logische Operation ist, um Daten durch Schlüssel zu gruppieren. Eine sehr einfache Möglichkeit, über eine Kartenfunktion nachzudenken, ist, als eine logische Projektion der Daten oder einer Gruppe durch Klausel zu denken. Die reduzierte Funktion wird verwendet, um diese Gruppen einzeln zu nehmen und einen Prozess über die Werte zu führen, die zusammen gruppiert wurden. Gemeinsame Operationen in reduzierenden Funktionen sind: In unserem einfachen gleitenden durchschnittlichen Beispiel, aber wir nicht auf einer pro Wert Basis spezifisch betreiben, noch produzieren wir ein Aggregat über alle Werte. Unser Betrieb im gesunden Sinne beinhaltet ein Schiebefenster, das seine Operationen auf einer Teilmenge der Daten bei jedem Schritt ausführt. Wir müssen auch bedenken, dass die Punkte in unseren Zeitreihen-Daten nicht garantiert werden, um in der reduzierten Reihenfolge zu kommen und müssen in früheren Abschnitten sortiert werden. Dies liegt daran, dass bei mehreren Kartenfunktionen mehrere Abschnitte der Quelldaten gelesen werden. MapReduce erzwingt keine Auftragsbestätigung für die Schlüsselwertpaare, die in den Standardpartitions - und Sortierungsschemata gruppiert sind. Es gibt das Szenario, in dem wir partitionierte Daten sortiert haben, aber um dieses Beispiel willen würden wir uns mit den mehr gartenvielfaltigen unsortierten Zeitreihendaten beschäftigen. Lets nehmen einen ersten Pass auf, wie wir diese MapReduce einfach gleitenden durchschnittlichen Job entwerfen könnte. Wir wollen alle zusammengefassten Bestände zusammenstellen, so dass wir die einfache gleitende durchschnittliche Operation über die sortierten Zeitreihendaten anwenden können. Wir wollen jedes Mal, wenn die Serienschlüsselwertpaar auf einem Aktiensymbol eingegeben werden, um diese Werte zusammen gruppieren zu lassen. In der reduzierten Phase können wir eine Operation, hier den einfachen gleitenden Durchschnitt, über die Daten ausführen. Da die Daten mehr als wahrscheinlich nicht an den Reduzierer in sortierter Reihenfolge ankommen, müssen wir die Daten noch sortieren, bevor wir den einfachen gleitenden Durchschnitt berechnen können. Eine gängige Art, Daten zu sortieren, besteht darin, die Daten in eine Datenstruktur wie einen Haufen zu laden, ähnlich wie dies in einem normalen Java-Programm geschieht. In diesem Fall verwenden Sie die Javas-Prioritäts-Warteschlangenklasse, um unsere Daten zu sortieren. Wir müssen auch die Menge an Speicher berücksichtigen, die von den eingehenden Zeitreihendaten während der Sortierung verwendet wird, da dies ein limitierender Faktor ist, wieviel Daten wir sortieren können. In diesem Entwurf müssen wir alle Zeitreihendaten laden, bevor wir die Verarbeitung starten können und wenn die Menge der zu sortierenden Daten die verfügbare Heapgröße übersteigt, haben wir ein Problem. Ein Beispiel für diese Implementierung wird bei github gehostet: Um diesen Code auf Ihrem eigenen Hadoop-Cluster auszuführen, laden Sie CDH aus Cloudera herunter und richten Sie einen pseudo-verteilten Cluster ein, der ein einziger Knoten von Hadoop ist. Pseudo-verteilter Modus ist eine großartige Möglichkeit, Code mit Hadoop auszuprobieren. Als nächstes laden Sie den gleitenden Durchschnittscode in ein Glas ein. Um den Code direkt von github herunterzuladen (in der Shell in MacOSX, ssh Terminal Fenster in Linux oder MINGW32 für Win32) verwenden wir den Befehl: Unser erster Pass ist eine anständige Lösung, wurde aber durch unser Java Virtual Machine (JVM) Kind begrenzt Haufen Größe und wir nehmen Zeit, um manuell sortieren die Daten selbst. Mit einigen Design-Änderungen können wir beide dieser Probleme lösen, die einige inhärente Eigenschaften von MapReduce nutzen. Zuerst wollen wir den Fall der Sortierung der Daten im Speicher auf jedem Reduzierer anschauen. Derzeit müssen wir sicherstellen, dass wir niemals mehr Daten an einen einzelnen Reduzierer senden, als in den Speicher passen. Die Art und Weise, wie wir dies derzeit kontrollieren können, ist, jedem Reduzierstück JVM mehr Haufen und zu geben, um unsere Zeitreihendaten in der Kartenphase weiter zu partitionieren. In diesem Fall wed Partition weiter nach Zeit, brechen unsere Daten in kleinere Fenster der Zeit. Im Gegensatz zu einer weiteren Partitionierung der Daten ist ein weiterer Ansatz für dieses Problem, dass Hadoop die Daten für uns in der sogenannten Shuffle-Phase von MapReduce sortieren kann. Wenn die Daten bei einem Reduzierer bereits in sortierter Reihenfolge ankommen, können wir unseren Speicherbedarf senken und die Anzahl der Schleifen durch die Daten reduzieren, indem wir nur die nächsten N Samples für jede einfache gleitende Durchschnittsberechnung betrachten. Das bringt uns zu dem entscheidenden Aspekt dieses Artikels, der sogenannte Shuffles Sekundärsortiermechaniker. Sortierung ist etwas, das wir Hadoop für uns tun können und Hadoop hat sich als sehr gut bei der Sortierung großer Mengen an Daten, gewinnen die Grau-Sort-Wettbewerb im Jahr 2008. Bei der Verwendung der sekundären Art Mechaniker können wir sowohl unsere Haufen und sortieren Probleme ziemlich einfach Und effizient. Um sekundäre Sortierung in unserem Code zu verwenden, müssen wir den Schlüssel zu einem Komposit aus dem natürlichen Schlüssel und dem natürlichen Wert machen. Unten in Abbildung 1 sehen wir ein Diagramm, wie das visuell aussehen würde. Abbildung 1: Composite Key Diagram Der Composite Key gibt Hadoop die benötigten Informationen während des Shuffles, um eine Sortierung nicht nur auf dem 8220stock Symbol8221 durchzuführen, sondern auch auf den Zeitstempel. Die Klasse, die diese Composite Keys sortiert, heißt der Schlüsselkomparator oder hier 8220CompositeKeyComparator8221. Der Schlüsselkomparator sollte durch den zusammengesetzten Schlüssel bestellen, der die Kombination aus dem natürlichen Schlüssel und dem natürlichen Wert ist. Wir können unten in Abbildung 2 sehen, wo eine abstrakte Version der sekundären Sortierung auf einem zusammengesetzten Schlüssel von 2 Integern durchgeführt wird. Abbildung 2: CompositeKeyComparator Sortierung Composite Keys (Schlüssel sind ganze Zahlen). In Abbildung 3 unten sehen wir ein realistischeres Beispiel, bei dem wir den Composite Key geändert haben, um einen Stock Symbol String (K1) und einen Zeitstempel (K2, angezeigt als Datum, aber im Code ist eine lange in ms) zu haben. Das Diagramm hat die KV-Paare von beiden 8220K1 sortiert: stock symbol8221 (natürlicher Schlüssel) und 8220K2: Zeitstempel8221 (Sekundärschlüssel). Abbildung 3: CompositeKeyComparator bei der Arbeit an unseren Composite-Tasten. Composite Key ist nun mit einem String Stock Symbol (K1) und einem Datum (K2) dargestellt. Sobald wir unsere Daten auf dem zusammengesetzten Schlüssel sortiert haben, müssen wir nun die Daten für die reduzierende Phase partitionieren. In Abbildung 4 unten sehen wir, wie die Daten aus Abbildung 3 oben mit dem NaturalKeyPartitioner partitioniert wurden. Abbildung 4: Partitionierung durch den natürlichen Schlüssel mit dem NaturalKeyPartitioner. Sobald wir unsere Daten partitioniert haben, können die Reduzierstücke jetzt mit dem Herunterladen der Partitionsdateien beginnen und ihre Zusammenführungsphase beginnen. Inf Abbildung 5 unten sehen wir, wie der Gruppierungskomparator oder NaturalKeyGroupingComparator verwendet wird, um sicherzustellen, dass ein reduzierter () Aufruf nur die logisch gruppierten Daten für diesen zusammengesetzten Schlüssel sieht. Abbildung 5: Gruppieren von Komparator, der Partitionsdateien zusammenführt. Der Partitionierer und Gruppierungskomparator für den zusammengesetzten Schlüssel sollten nur den natürlichen Schlüssel für die Partitionierung und Gruppierung berücksichtigen. Unten ist eine kurze Beschreibung des Simple Moving Average Code, der geändert wird, um die sekundäre Sortierung zu verwenden und wird auf github gehostet. Wenn Sie sich bemerken, passen die Namen der Klassen eng an die in den obigen Diagrammen verwendete Terminologie und in Tom Whites Hadoop: The Definitive Guide (Kapitel 8 MapReduce Features), um den Code leichter zu verstehen. NaturalKey 8211 was würdest du normalerweise als Schlüssel oder Gruppe nach Operator verwenden. In diesem Fall ist der Natural Key die Gruppe oder das Aktiensymbol, da wir ggf. potenziell unsortierte Bestandsdaten gruppieren müssen, bevor wir sie sortieren und den einfachen gleitenden Durchschnitt berechnen können. Composite Key 8211 Ein Schlüssel, der eine Kombination aus dem natürlichen Schlüssel und dem natürlichen Wert ist, den wir sortieren möchten. 5 Antworten auf ldquo Simple Moving Average, Secondary Sort und MapReduce (Teil 3) rdquo Cool Trick mit dem Split Sorterpartitioner. Soweit ich kann sagen, das funktioniert groß, bis die Serie extrem lang werden (denken 30 Jahre der Zecken-Level-Daten) 8211 scheint wie Partitionierung durch die Zeit könnte sehr schwierig sein. Kennen Sie alles, was in hadoop wie ein 8220 überlappender partitioner8221 gebaut wurde, der die gleichen Daten zu mehreren Partitionen spucken kann, die ich mit Mappern experimentiert habe, die Werte über mehrere Schlüssel duplizieren, aber ich frage mich, ob es eine herkömmlichere Art, dies zu tun. Evan, Du bist tot mit der Größe der Daten in einem einzigen Keyspace. Ich habe bei der Arbeit an dem openPDC-Projekt für den NERC das gleiche Problem getroffen: Ein Sensor könnte buchstäblich Milliarden von Punkten in sehr kurzer Zeit haben, also für Prototypenaufgaben haben wir die Dinge an einen Tag gelegt (3.600.000ms): In einer mehr Komplexe Version hätte ich überlappende Zeitschlitze verwendet, so dass der Mapper genügend Daten aus benachbarten Keyspaces erhalten würde, um eine einzelne Fensterlänge zu decken. Für jetzt I8217d sagen, Sie sind auf dem richtigen Weg mit den doppelten Werten. Ich weiß, das ist nicht im Zusammenhang mit bewegten Durchschnitten, aber wie genau war die SAX-Zeitreihen-Matching, die in PDC verwendet wurde, habe ich so etwas implementiert (mit Ausnahme der MapReduce API 2) und in der Schleife der reduzierten () - Funktion, wann immer die. Next () - Methode wird auf dem Iterator aufgerufen, wir bekommen einen neuen Wert, aber der Schlüssel verändert sich auch wunderbar. Vielmehr ändert sich der Teil des zusammengesetzten Schlüssels, der nicht als natürlicher Schlüssel verwendet wurde (der Zeitstempel in diesem Beispiel). Das war ganz überraschend Wie geschieht dies Post Navigation Adopting Apache Hadoop in der Bundesregierung

Kauf Niedenstein (Hesse)

Search This Blog

Cloudera Gleitender Durchschnitt

Comments

Post a Comment

Popular posts from this blog

All Optionen Strategien

Day Trade Optionen Cash Konto