Frage:
Ist es eine gute Idee, Datenpunkte auf einem Plot zu verbinden, um die Lesbarkeit in Folien zu verbessern?
Lyndon White
2014-09-22 13:38:44 UTC
view on stackexchange narkive permalink

Ich habe eine grafische Darstellung von Punkten aus einer Reihe von Experimenten, die ich auf einer Folie präsentieren möchte.

Die wichtige Information in der grafischen Darstellung sind sowohl die Werte der Punkte als auch, was noch wichtiger ist Die grünen Punkte befinden sich über den blauen Punkten.

scatter

Es ist schnell und einfach, mein Plot-Framework (matplotlib) dazu zu bringen, jeden Punkt mit dem nächsten zu verbinden:

connected scatter

Es sollte jedem klar sein, dass die Beziehung zwischen Punkten nicht linear sein soll.

Ich dachte, ich könnte die Linie einfügen wollen um deutlich zu machen, dass einer unter dem anderen ist. Es kann schwierig sein, die Punktmarkierungen auf dem Projektorbildschirm zu erkennen.

Ist dies eine gute Idee? Verbessert das Anzeigen von Plots auf diese Weise die Sichtbarkeit der Plots für die Präsentation oder die Tatsache, dass dies der Fall ist? Linien selbst sind ziemlich bedeutungslos und lenken zu sehr ab?

Bedenken des Publikums:

Die gesamte Präsentation richtet sich an Ingenieurstudenten und muss einfach sein. Während sie normalerweise in der Lage sind, mit komplizierten Handlungen umzugehen, ist der Inhalt der Präsentation so kompliziert, dass ich sie nicht mit etwas ablenken möchte, das Gedankenzeit verschwenden könnte. Ich habe die Box-and-Whiskers-Handlung bereits als zu kompliziert abgelehnt. Dies ist eine grafische Darstellung der Mittelwerte dieser Daten.

Wenn man es jetzt betrachtet, verbessern vielleicht die Linien selbst die Darstellung und machen den Farbverlauf klarer.
Diese Frage scheint nicht zum Thema zu gehören, da es sich um Datenvisualisierung und nicht um Wissenschaft handelt. Dies könnte nach [stats.se] migriert werden.
Es geht darum, Folien einem Publikum am besten zu präsentieren. Ich glaube, es ist für beide ein Thema. (Obwohl es mir gut geht, wenn es migriert wird). Ich schlage vor, dass möglicherweise zusätzliche Bedenken in Bezug auf Accadmia angesprochen werden, die nicht im Mittelpunkt des Lebenslaufs stehen. Wie alte dunkle Projektoren, Farbenblindheit des Publikums usw. Während diese im Lebenslauf berücksichtigt werden könnten, stehen sie hier im akademischen Bereich an vorderster Front
Die "Datenvisualisierung im akademischen Kontext ist zum Thema?" Diskussion bereits über [diese Frage] (http://academia.stackexchange.com/questions/20322/surface-plots-vs-colour-maps) (was noch weniger spezifisch für die Wissenschaft ist und wo die "Leave Open" -Stimmen waren eine definitive Mehrheit), es scheint, dass dies perfekt zum Thema ist.
Wenn überhaupt, würde die Frage gut zu [Grafikdesign.SE] passen.
Zu Ihrer Information: Auf den ersten Blick habe ich den Farbunterschied überhaupt nicht bemerkt und dachte, ich würde einen Datensatz betrachten.
Könnten Sie die X-Achse normalisieren (so dass der horizontale Abstand äquidistant ist) und vertikale Linien an jedem der x-Werte zeichnen, die einen Punkt haben, der sowohl das Grün als auch das Blau kreuzt?
Eigentlich nicht so sehr Grafikdesign als [User Experience] (http://ux.stackexchange.com).
Wie wäre es, den Unterschied zu zeigen? Das heißt, Plot diff = grün - blau.
Wenn Sie Zeilen hinzufügen, spalten Sie diese bitte NICHT. Ich habe einige schrecklich angepasste Kurven erzeugt gesehen, die die zugrunde liegenden Daten falsch darstellen.
Bedenken des Anzeigenpublikums: Beachten Sie, dass Sie im Gespräch mit Studenten immer ein Beispiel geben. Achten Sie darauf, nicht die Nachricht zu senden, "diese vereinfachte nicht-wissenschaftliche Handlung ist das eigentliche Geschäft".
Acht antworten:
Peter Jansson
2014-09-22 13:47:34 UTC
view on stackexchange narkive permalink

Das Zeichnen der Linien impliziert eine kontinuierliche Beziehung zwischen den Parametern. Wenn Sie also Kontinuität erwarten können, ist das Verbinden der Punkte in Ordnung. Ein zweiter Punkt ist, Farben zu vermeiden, die dem von Ihnen gewählten Grün und Blau so ähnlich sind. Ein Grund, warum der Unterschied im ersten Streudiagramm schwer zu erkennen ist, liegt in der Farbe. Versuchen Sie, mit Farben zu experimentieren, die einen besseren Kontrast aufweisen, und Ihr Problem kann möglicherweise gelöst werden, indem Sie nur die Farben für einen oder beide Datensätze ändern.

Neben Farben können Sie auch verschiedene Markierungen auswählen (z. B. Dreiecke und Kreise). Unter der Annahme, dass die Figur irgendwann in Schwarzweiß veröffentlicht wird, liefern die verschiedenen Markierungen die Unterscheidungsinformationen.
@jayann Das OP stellt klar, dass es sich um Präsentationsfolien handelt, die in Farbe angezeigt werden. Solange Sie Farben wählen, die die meisten Menschen unterscheiden können (denken Sie an farbenblinde Menschen!), Würde ich eine einzige Form wählen. Grundstücke mit vielen Formen sehen oft unordentlich aus.
Vielleicht ist es besser, verschiedene Linienstile (durchgehend / gestrichelt) zu verwenden.
Und testen Sie die Farben auf einem Projektor, bevor Sie die Präsentation halten! Das Blau und Grün, das Sie hier verwendet haben, ist wahrscheinlich nicht nur schwer zu unterscheiden, sondern auch schwer zu erkennen.
Ich erwarte Kontinuität und Monotonie (tatsächlich garantiere ich Monotonie), ich erwarte * nicht *, dass die lineare Interpolation sehr genau ist, außer gegen das rechte Ende. Sie sagen also, dass es in diesem Fall in Ordnung ist. Sagen Sie, dass es in diesem Fall gut oder einfach "nicht schlecht" ist? Neue Farben sind Blau und Rot (und eine dritte Zeile in Orange)
Wrzlprmft
2014-09-22 16:18:40 UTC
view on stackexchange narkive permalink

Zur allgemeinen Frage

Ja, es ist akzeptabel, Punkte zu verbinden, auch wenn theoretisch nur diskrete Datenpunkte existieren und es kein Kontinuum gibt. Wenn Grund zu der Annahme besteht, dass jemand Ihre Visualisierung aus diesem Grund falsch interpretiert, oder wenn Sie erwarten können, dass das Publikum diesbezüglich wählerisch ist, fügen Sie den Satz (auf der Folie oder gesprochen) hinzu:

Zeilen sind Nur zur Augenführung.

In Bezug auf Ihr spezielles Diagramm

  • Wie bereits erwähnt, sind die Farben nicht gut ausgewählt (und werden bei der Projektion wahrscheinlich noch schlechter aussehen). . Ich empfehle Farben mit starkem Kontrast zu verwenden, zum Beispiel einen weißen oder fast weißen Hintergrund und für die Daten 1) schwarz oder fast schwarz, 2) reines Rot. (Seien Sie jedoch vorsichtig mit reinem Grün, da die meisten Projektoren es vermasseln - Dunkelgrün ist besser.)
  • Abhängig davon, wie wichtig Sie bestimmte Dinge berücksichtigen:
    • Verwenden Sie eine logarithmische Skala (oder ähnlich) für die Abszisse ( x -Achse). Auf diese Weise gruppieren sich Punkte für kleine x nicht so stark und sind leichter zu lesen.
    • Verwenden Sie eine logarithmische Skala für die Ordinate ( y -Achse) ). Auf diese Weise wird die von Ihnen erwähnte exponentielle Beziehung sofort deutlich. Die Punkte für kleines x rücken jedoch noch näher zusammen.
Wenn nur diskrete Punkte _can_ existieren können, ist eine Linie eine schlechte Idee, da dies impliziert, dass Zwischenwerte gültig wären. Wenn nur diskrete Punkte gemessen wurden, ist dies eine gute Idee. Aus Ihrer ersten Zeile kann ich nicht genau sagen, was Sie gemeint haben, aber ich vermute, dass Sie und ich nicht einverstanden sind ...
@Floris: Ja, darüber sind wir uns nicht einig. Ich bestreite jedoch nicht das Risiko, jemanden irrezuführen, und empfehle, Gegenmaßnahmen zu ergreifen, wenn dies wahrscheinlich ist.
@Floris Ich bin anderer Meinung. In einigen Kontexten kann es gültig sein (eine Linie repräsentiert nicht immer _extrapolation_ - manchmal kann sie _connection_ darstellen). Siehe zum Beispiel Parallele Koordinaten http://syntagmatic.github.io/parallel-coordinates/.
@PiotrMigdal - interessantes Werkzeug. Beachten Sie, dass es in diesem Fall eine klar gekennzeichnete kategoriale Achse gibt und die Linien explizit verknüpft werden sollen, da die Kategorien unabhängige Y-Achsen (Anzahl der Zylinder, Verschiebung usw.) haben, wodurch jede Möglichkeit der Interpretation der Linie als "ausgeschlossen wird. Zwischenpunkte können existieren und hätten diesen wahrscheinlichsten Wert ".
Raphael
2014-09-22 15:53:16 UTC
view on stackexchange narkive permalink

Sie sagen, Sie möchten Ihre Datensätze qualitativ vergleichen, dh klarstellen, was "besser" ist. Da sie ähnlichen Funktionen zu folgen scheinen und nahe beieinander liegen, kann Normalisierung ein gutes Werkzeug sein.

Betrachten Sie beispielsweise dieses Diagramm:

enter image description here
Beachten Sie, dass die Standardeinstellungen von Mathematica 10 zu einer weitaus klareren Darstellung führen. sup>

Wenn Sie wissen, dass beide Funktionen im Grunde 1 / √n sind, können Sie den Wert beispielsweise mit multiplizieren , n:

enter image description here

Jetzt ist der "Gewinner" klarer.

Ähnliche Effekte können durch (andere) Achsentransformationen, Cut-Offs, Zooms usw. erzielt werden. Sie müssen jedoch transparent sein, welche Transformationen Sie anwenden, da Sie leicht ein Diagramm erhalten können, das sagt "A ist dreimal so gut wie B!" obwohl der wirkliche Unterschied winzig war.

Ich zitiere die Frage (fett von mir): "Die wichtige Information in der Grafik sind sowohl ** die Werte der Punkte ** als auch, dass die grünen Punkte unter den blauen Punkten liegen."
@Wrzlprmft Ich habe "deutlicher" gelesen. Da von einer Handlung nicht erwartet werden kann, dass sie mehr als eine Geschichte gleichzeitig unterstützt, habe ich mich entschlossen, mich auf den (anscheinend) wichtigeren Punkt zu konzentrieren, den das OP anstrebt. (Außerdem neigen die Menschen dazu, die Bedeutung der Werte, die sie erhalten, zu überschätzen. )
Punkt genommen, obwohl zu viele Diagramme verwendet werden (und daher Diagramme zu oft gewechselt werden), ist ebenfalls negativ.
@Wrzlprmft Auf jeden Fall! Mein Rat wäre: "Mach die Zahlen fertig, niemand kümmert sich darum!" in den meisten Fällen. (Wenn es in Ihrer Präsentation um die Energie des Higgs-Bosons geht, kümmert es alle.) Alles hängt von der Geschichte ab, die Sie erzählen möchten. Ich finde die meisten Geschichten, die sich darauf konzentrieren, Listen mit (angeblich) beeindruckenden Zahlen oder Formeln zu zeigen, ziemlich langweilig. Aber ymmv natürlich.
Hervorragender Punkt "Lassen Sie ein Bild einen Punkt machen". Ich sehe das häufig verletzt.
dmckee --- ex-moderator kitten
2014-09-23 05:12:09 UTC
view on stackexchange narkive permalink

Ich werde die Teilchenphysik-Praxis auf den Tisch bringen und sagen, nie die Punkte verbinden. Sie sollten auch keine Splines durch Daten ausführen. Führen Sie aussagekräftige Anpassungen durch die Daten oder nichts aus.

Diese Regeln spiegeln das Verständnis in dieser Disziplin wider, dass einzelne Punkte mit erheblichen Fehlern oder Unsicherheiten verbunden sein können und der Leser sehen muss die Daten insgesamt , ohne sich auf einzelne Anomalien zu konzentrieren. Wenn Sie wissen, dass die Daten diese Probleme nicht haben können, verursacht die Lockerung dieser Regeln wahrscheinlich keinen großen Schaden.

Was können Sie also tun?

    Verwenden Sie visuell besser unterscheidbare Markierungen. Eine Kombination aus Form, Füllung und Farbe (mit einer Palette, die so farbenblind wie möglich ist) bietet dem Leser verschiedene Möglichkeiten, sich auf den Unterschied einzulassen.

  1. Verwenden Sie a unterschiedliche Darstellung (normalisiert, Anomalie aus der Theorie, Linearisierung von Potenzgesetzen usw.). Dies ist, was Raphael vorgeschlagen hat. Diese zu finden kann eine Kunst sein.

  2. Wenn Sie eine gut begründete Theorie haben (oder sogar einen guten Sitz des Hosenmodells), zeichnen Sie Passungslinien: Diese werden automatisch reflektiert der gesamte Datensatz (gut!).

  3. ol>

    Einige Punkte in der Grundzeichnung Ihrer Figur.

    1. Lassen Sie den grauen Hintergrund hinter sich. Es macht das Lesen der Daten nur schwieriger und bringt Tufte zum Weinen.

    2. Die Verwendung ausgefüllter Kreise für beide Serien ist eine Möglichkeit, maximale visuelle Verwirrung zu verursachen.

    3. ol>
Floris
2014-09-23 04:03:50 UTC
view on stackexchange narkive permalink

Für Anzeigezwecke ist eine glatte Kurve am logischsten. Es gibt einige nette Spline-Anpassungsroutinen, mit denen Sie eine Anpassung erstellen können, die zur Minimierung der Krümmung eingeschränkt werden kann (dabei fehlen Punkte, die nicht ganz auf der glatten Kurve liegen), oder Sie können einfach die Daten betrachten und erstellen Eine angemessene Anpassung (für die Anzeige - nicht für die Analyse).

Ich habe nur ein paar Minuten damit verbracht, aber Folgendes gefunden:

enter image description here

Dies ist im Grunde eine Überlagerung eines von mir erstellten Excel-Diagramms (wodurch die Achsen unsichtbar werden) - unter Verwendung eines einfachen 4-Parameter-Modells:

enter image description here

Für das Blau und grüne Kurven, ich fand Parameter

  blau grünA 0,8 0,8B 1,0 1,0 C 1,0 0,5D 0,05,03  

Offensichtlich, da Sie die Rohdaten und haben matplotlib, Sie müssen wissen, wie man eine bessere Anpassung macht, aber das funktioniert gut.

Im Allgemeinen möchte ich nur so viele Informationen anzeigen, wie auf einem Plot benötigt werden. Wenn der Punkt "Dies ist eine schnell abfallende Kurve und Grün ist über Blau" ist, dann würde ich definitiv das Gitter und vielleicht sogar die meisten Zahlen weglassen (die X-Achse mit nur zwei Beschriftungen von 0 bis 100 laufen lassen und und die Y-Achse von 0 bis 1).

Ich denke, dass Ihre Daten wahrscheinlich nicht negativ werden - daher würde ich diese X-Achse definitiv reparieren wollen.

Wenn Sie möchten Machen Sie weiter den Punkt "Wir haben diese Daten gemessen", und lassen Sie dann die Punkte in der Grafik sowie die glatte Anpassung in Ordnung. Ich würde in Betracht ziehen, Fehlerbalken hinzuzufügen, um zu zeigen, dass die Anpassung gut ist - und dass die Punkte schlecht sind.

Auch hier möchten Sie es so gestalten, dass die Informationen "nur das sind, was Sie brauchen". Meine persönliche Präferenz wäre wie folgt:

enter image description here

Also weniger Ticks auf den Achsen, aber füge eine Legende hinzu (ich nenne sie "blau" und "grün", aber Sie sollten einen aussagekräftigeren Namen verwenden und die Achsen beschriften - Zahlen allein reichen nicht aus.

Wenn ich keine Punkte auf der Handlung habe, wird die experimentelle Natur beeinträchtigt und es sieht so aus, als wären die Ergebnisse weitaus stärker als sie sind.
@Oxinabox - für mich deutet ein "Doodle" mit sehr wenigen Häkchen in der Grafik (mein unteres Diagramm) auf das Gegenteil hin - nämlich, dass die Ergebnisse _schwächer_ sind. Aber deshalb sagte ich: "Es hängt von der Botschaft ab, die Sie vermitteln möchten." Fügen Sie experimentelle Punkte (und Fehlerbalken) hinzu, wenn sie zur Storyline hinzugefügt werden - schließen Sie sie nicht ein, wenn sie dies nicht tun.
hmm ja, vielleicht ... http://tex.stackexchange.com/questions/74878/create-xkcd-style-diagram-in-tex
@Oxinabox - ja: xkcd ist eine großartige Quelle für "ungefähre" Diagramme, und die Dichte der Etiketten erzählt eine Geschichte. Mein Lieblingsbeispiel: [Ballmer Peak] (http://xkcd.com/323/). Hohe Dichte von Beschriftungen auf X ("sehr schmaler Peak"), überhaupt keine Beschriftungen auf Y ("Wie messen Sie die Programmierkenntnisse")
MathJax wird in Academia.SE nicht unterstützt. Sie können eine Gleichung im Klartext schreiben oder einen Webdienst [wie diesen] (http://www.codecogs.com/latex/eqneditor.php) verwenden, um ein Bild Ihrer Gleichung zu erstellen (wie ich es hier getan habe).
Davidmh
2014-09-23 00:47:02 UTC
view on stackexchange narkive permalink

Gitter sind ein veraltetes Fossil, das nicht mehr verwendet werden sollte. Früher halfen sie bei der Erstellung der Diagramme und erleichterten das manuelle Abrufen der Daten aus dem Diagramm. Heutzutage ist dies nicht mehr erforderlich, da Tabellen mit den Daten an anderer Stelle verfügbar sind.

Und wenn und wann sie erforderlich sind, sollten sie so wenig aufdringlich wie möglich sein. Ihr grau-blauer Hintergrund ist einfach zu schwer.

enter image description here enter image description here

Sobald dies nicht mehr möglich ist, können Sie eine Protokollskala für die x-Achse als ausprobieren Viele Punkte werden in der Nähe von 0 gesammelt:

enter image description here

Ich denke, hier ist ziemlich klar, dass Blau immer größer als Grün ist. Ob das Hinzufügen einer Zeile gut ist oder nicht, ist Geschmackssache:

enter image description here

Meiner Meinung nach und in der Regel würde ich sagen, dass die Zeilen akzeptabel sind solange das "Wackeln" auf die tatsächliche Form der Funktion zurückzuführen ist und nicht auf Rauschen. Das heißt, wenn Sie mehr Punkte hinzufügen (mehr Messungen durchführen), ändert sich die Form der Kurve nicht wesentlich (oder wir erwarten dies nicht).

"Tabellen mit den Daten sind an anderer Stelle verfügbar." Wenn das nur wahr wäre ... Ich arbeite viel mit Gittern (ich erstelle sogar Referenzdiagramme auf feinen Gittern wie ein mm-Blatt). IMHO ist das Problem mit Gittern nicht das Gitter selbst, sondern dass viele Gitter vom Diagramm ablenken, anstatt beim Lesen zu helfen. Z.B. In Ihrem Beispiel sind die gepunkteten Gitterlinien gleichzeitig viel zu dunkel und aufdringlich und aufgrund der Punktierung nicht dazu geeignet, Schnittpunkte zu finden. Betrachten Sie stattdessen sehr helle Linien, die den Eindruck des Diagramms nicht ablenken. Wenn Sie sich jedoch auf sie konzentrieren, helfen Sie beim Messen.
@cbeleites Wenn Sie genaue Werte benötigen, sollten Sie ** nicht ** manuell aus Plots lesen, sondern digitalisierte Tabellen verwenden, da die Wahrscheinlichkeit von Fehlern zu groß ist. Ein Diagramm sollte helfen, die Größenordnung, den allgemeinen Trend und die Geräuschpegel anzuzeigen.
Ich denke nicht, dass Gitterlinien veraltet sind, da sie ohne sie sogar eine ungefähre visuelle Schätzung darstellen. Wenn man diesen Weg geht, kann man bald sagen, dass Zahlen auf der Achse redundant sind.
fixer1234
2014-09-23 05:17:56 UTC
view on stackexchange narkive permalink

Ein alternativer Ansatz zum Verbinden der Punkte: Fügen Sie eine Linie zwischen die Datensätze ein, um zu veranschaulichen, dass sich ein Punktsatz über der Linie und der andere unter der Linie befindet. Wenn dies für die Daten nicht unangemessen ist, verwenden Sie eine Protokollskala für X, um zwischen den gepackten Punkten links etwas Platz zu gewinnen und die Sichtbarkeit zu verbessern. Die Verwendung von Farben mit höherem Kontrast und Markerformen wurde bereits vorgeschlagen.

h22
2014-09-25 13:08:34 UTC
view on stackexchange narkive permalink

Normalerweise ist es besser, eine Art Kurvenanpassung (Splines usw.) zu verwenden, da wir nicht davon ausgehen, dass die Messungen absolut genau sind und die Verbindungslinien von Punkt zu Punkt verlaufen sollten.

Messpunkte müssen jedoch auch vorhanden und sehr gut sichtbar sein, da sie unsere Ergebnisse sind und die Linie unsere Hypothese und Interpretation ist. Im Idealfall ist es eine gute Idee, Fehlerbalken (Konfidenzintervalle) anzuzeigen.

Ich lehnte es ab, Fehlerbalken als zu wahrscheinlich anzusehen, um das Publikum zu verwirren. Auch die Verbindung zwischen den Zeilen ist wirklich nicht meine Hypothese. Es ist eine Hypothese, aber es hat fast nichts mit der Geschichte zu tun, die ich erzähle. In meiner Geschichte geht es um Punkte, die unter anderen Werten liegen
Welche Art von Publikum soll durch Fehlerbalken verwirrt werden? Wenn sie Wissenschaftler sind, haben sie solche Balken schon oft gesehen.
Wie es in der Frage steht, sind sie ** Ingenieure ** (also Ingenieurstudenten im letzten Jahr). Grundsätzlich hat keiner von ihnen seit der Highschool Fehlerbalken gesehen.
Seltsamerweise wird Biologen Statistik beigebracht und Ingenieuren nicht. Na dann könnte für mich ein ungewöhnliches Publikum sein.
Warum sollte Ihr durchschnittlicher Ingenieur experimentelle Statistiken benötigen? Im Vergleich zu Biologen forschen nur sehr wenige Ingenieure


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...