Wie können Redakteure und Prüfer Datenmanipulationen erkennen?

padawan

2014-12-04 06:19:04 UTC

view on stackexchange narkive permalink

Ich bereite eine Arbeit auf dem Gebiet der Informatik vor.

Um Testergebnisse zu melden, führen wir normalerweise eine Reihe von Tests durch und geben den Durchschnitt dieser Tests an.

Für jeden Test generieren wir zufällige Daten.

Aufgrund der Zufälligkeit werden die Ergebnisse an einigen Stellen möglicherweise nicht wie erwartet ausgegeben.

Beispielsweise kann ein Diagramm wie folgt aussehen : enter image description here

Normalerweise sollte man erklären, warum in den Punkten 8, 11 und 12 die Handlung abnimmt. Wahrscheinlich liegt dies an dieser Zufälligkeit.

Nicht von Hand -Das gesamte Diagramm zu erstellen, aber nur ein paar Punkte zu bearbeiten, macht das Diagramm akzeptabel: enter image description here

Seit ungefähr drei Wochen arbeite ich mir den Arsch ab und versuche herauszufinden, warum mein resultierendes Diagramm so aussieht wie das Erster. Manchmal möchte ich der Versuchung nachgeben und nur die Rohdaten ändern, bevor ich verrückt werde.

Ich glaube, an diesem Punkt wurde der Titel irreführend, also lassen Sie mich klarstellen:

Ich suche keinen Rat zur Datenmanipulation. Ich werde meine Daten nicht manipulieren. Ich frage mich jedoch: "Wie zum Teufel kann das erkannt werden?"

Und jetzt frage ich nicht nur mich selbst, sondern die ganze Gemeinschaft. Wie wird das erkannt? Haben Sie für Redakteure, Schiedsrichter, jemals so etwas entdeckt?

Viele der Beiträge im [RetractionWatch-Bildmanipulations-Tag] (http://retractionwatch.com/category/image-manipulation/) beschreiben, wie die Manipulation abgefangen wurde. Es gibt dort jedoch nicht viel CS-Repräsentation.

Verwandte (mögliche Duplikate?): [Was sollte rote Fahnen auslösen, um fabrizierte Daten zu erkennen] (http://academia.stackexchange.com/questions/7602/what-should-raise-red-flags-to-detect-fabricated-data )

Wenn die Verwendung zufälliger Daten zu erheblichen Bewegungen in Ihren Datenpunkten führen kann, seien Sie einfach ehrlich und fügen Sie Fehlerbalken hinzu. Ja, das bedeutet, dass Sie extra arbeiten müssen, um herauszufinden, wie groß diese Fehlerbalken sein sollten und was sie genau bedeuten, aber genau diese Arbeit ermöglicht es Ihnen, den Prüfern mitzuteilen, dass die nach unten gerichteten Einbrüche aufgrund Ihrer Statistiken Artefakte sind .

Übrigens würde ich Ihnen raten, die Idee loszulassen, dass eine Handlung inakzeptabel oder in irgendeiner Weise unerwünscht ist, einfach weil sie nicht "glatt genug" ist. Wissenschaftler wissen, dass die Ergebnisse eines zufälligen Verfahrens zufällig verteilt werden. Sie werden diese Verteilung nicht gegen Sie zählen.

Eine Möglichkeit, explizit zu verdeutlichen, dass Sie die Glättung verwendet haben, besteht darin, sowohl die Datenpunkte als auch die Glättungskurve (nicht unbedingt mit demselben Gewicht) zu zeichnen.

Da Sie zufällige Daten generieren, sollten Sie die Tests einige Male wiederholen und für jeden Datenpunkt, dh Ihre 1 bis 14, ein [95% -Konfidenzintervall] angeben (http://en.wikipedia.org/wiki/). Confidence_interval). Auf diese Weise wird den Lesern klar, dass der tatsächliche Wert wahrscheinlich in jedem gemeldeten Bereich liegt, und der Leser wird verstehen, dass die erhaltenen Punkte nicht auf einer perfekten Linie liegen können.

@Ritz Genau oder zumindest einige Standardabweichungsfehlerbalken. Einfacher zu implementieren, ohne auf die zugrunde liegende Distribution hinzuweisen.