Gruppenmitglieder:

  • Anna Schwanengel
  • Sabine Strubel
  • Robert Meyer

Datensichtung:

Nachdem wir uns mit dem Datensatz vertraut gemacht haben, identifizierten wir die Variablen:
  • nominale: Genre, Actor (required), Director (required), Cinematographer, Title (required), Oscar, Oscartype, Sex
  • ordinale: Jahr (required), Releasedate, Ratings, Netflixratings, Netflixstddeviation
  • quantitative: Numratings, Boxoffice, Netflixnumratings

Hypothesen:

1a) Die Anzahl der produzierten Filme steigt über die Jahre.
1b) Der Anteil der Actionfilme steigt seit dem Jahr 2001.

Modifizierung nach der ersten Zwischenbesprechung:
1b) Der Anteil der guten Filme sinkt über die Jahre.

2) Wenn ein Schauspieler in einem guten Film mitgespielt hat, dann sind auch die anderen Filme, in denen er mitgewirkt hat tendenziell erfolgreich.
  • Guter Film: Rating zwischen 7 und 10 oder Boxoffice > 20.000.000
  • Mittlerer Film: Rating zwischen 4 und 6,9 oder Boxoffice zwischen 3.000.000 und 19.999.999
  • Schlechter Film: Rating zwischen 0 und 3,9 oder Boxoffice < 2.999.999

(Rating überwiegt. Beispiel: Rating = 4,2 und Boxoffice = 21.000.000 entspricht mittlerem Film)

Hypothesenüberprüfung

1a) Jahrescluster werden belegen in der Visualisierung immer mehr Fläche => Anzahl der produzierten Filme steigt also über die Jahre.
Somit scheint die Hypothese bestätigt zu werden

1b) Die grüne Untercluster werden in Realtion zu den großen Jahresclustern nicht kleiner, sondern vergrößern im Gegenteil tendenziell eher ihre Fläche => Anteil der guten Filme sinkt also augenscheinlich nicht
Dies bedeutet, dass die Hypothese nicht bestätigt werden konnte

2) Es wurden 112 Schauspieler aus zufällig ausgewählten "guten" Filmen im Treemap-Diagramm selektiert und anschließend im Nodelink-Diagramm deren Mitwirkung in anderen Filmen überprüft. Dabei waren bei 60 Schauspielern auch die anderen Filme tendenziell erfolgreich, bei 52 Schauspielern war dies nicht der Fall. Andere Filme waren tendenziell erfolgreich, wenn die Anzahl der guten Filme mit ihrer Beteiligung mindestens so groß war wie die Anzahl der schlechten und mittleren Filme. Es wurden nur Schauspieler berücksichtigt, die in der Zeitspannes des Datensatzes mindestens in 3 anderen Filmen mitgespielt haben. Nicht bewertete Filme wurden in keiner der Überprüfungen gewertet

Somit scheint die Stichprobe die Hypothese zu bestätigen, wenn auch nur relativ knapp.

Layoutstrategie:

1a+b) Treemap:
  • Cluster: gegliedert nach Jahr
  • Untercluster: untergliedert nach Genre Actionfilm
  • Farbe für Untercluster: rot = Actionfilm, grau = restliche Genre
  • Je größer das Cluster, desto mehr Filme wurden produziert und je größer der Anteil der Untercluster, desto größer der Anteil der Actionfilme.
  • Filtern nach Genre möglich
  • Zusatzinformationen zum Film über Tooltip
Andere Möglichkeit wäre Scatterplot, aber in Treemap Variablenzusammenhang besser sichtbar.

Modifizierung nach den Zwischenbesprechungen:
  • Untercluster: untergliedert nach Filmerfolg
  • Farbe für Untercluster: grün = guter Film, gelb = mittlerer, rot = schlechter, weiß = keine Bewertung
  • Je größer die Jahrescluster, desto mehr Filme wurden produziert und je größer der Anteil der gelben, roten und weißen Untercluster, desto kleiner der Anteil der guten Filme.
  • statt Filtern, Suchen nach Title möglich -> Ergebnis wird farbig unterlegt.

2) Nodelink:
  • Knoten: Filme und Schauspieler
  • Kanten: entsprechen "spielt mit"
  • Knotenfarbe für Filme: Filmerfolg (grün = guter Film, gelb = mittlerer, rot = schlechter, weiß = keine Bewertung)
  • Knotenfarbe für Schauspieler: Geschlecht (w = rosa, m = hellblau)
  • Zoom und Pan möglich und Filtern nach Schauspieler möglich
  • Zusatzinformationen zum Film über Tooltip
Andere Möglichkeit wäre Radialtreelayout, aber zu unübersichtlich.

Modifizierung nach den Zwischenbesprechungen:
  • Gesamtdatensatz wird nicht im Nodelink angezeigt, sondern nur in der Treemap.
  • In der Treemap kann ein Film angeklickt werden. Dies generiert eine Liste der mitwirkenden Schauspieler.
  • Beim Anklicken eines Schauspielers in der Liste, wird eine Nodelink-View erzeugt aus der hervorgeht, in welchen Filmen dieser noch mitgespielt hat.
  • Deshalb Filtern nach Schauspieler nicht mehr nötig.
  • Zusatzinformationen über Film durch Tooltip nicht relevant für die Hypothese; Sie können über die Treemap erhalten werden, deshalb wird die redundante Funktionalität nicht implementiert.
  • Knotenfarbe für Schauspieler nicht relevant für unsere Hypothesen, sie verwirrt nur, deshalb werden männliche und weibliche Schauspieler nicht farblich getrennt dargestellt.

Zeitplan / Meilensteine:

12.02. Hypothesen aufstellen, geeignete Visualisierung finden -> erledigt

13.02. Wikierstellung -> erledigt

14.02. Reader implementieren -> erledigt

15.02. Reader und Visualisierung implementieren -> erledigt

18.02. Verbesserungsvorschläge einbauen ->erledigt

19.02. Feinschliff -> erledigt

20.02. Abschlusspräsentation

Probleme:

Ursprünglich befürchtet:
Großer Datensatz führt zu:
  • langen Ladezeiten
  • schlechter Performance
  • beschränkten Visualisierungsmöglichkeiten

Globaler Überblick mit möglichem Zugriff auf Detailinformationen

Durch Benutzen eines Parsers auf Basis von SAX stellen überraschenderweise weder Ladezeiten noch die Performance ein größeres Problem dar.
Auf einem Apple MacBook (Core2Duo 2GHz; 1,5GB RAM) dauert das Parsen der Datenfile in tausende Movie- und Actorobjekte, das Ausführen von diversen Operationen auf den Daten und das abschließende Erstellen der XML-Datei für die Treemap nur wenige Sekunden.

Für die Erstellung eines Parsers kann die Website http://totheriver.com/learn/xml/xmltutorial.html empfohlen werden, da diese kurz und mit Beispielen unterlegt die Grundzüge des Parsens mit Xerxes und SAX erklärt

Problematisch waren höchstens die knapp 1000 Zeilen an Programmcode, welche in Zusammenhang mit dem XML-Parsen und -Erstellen stehen. Die Komplexität des Codes konnte allerdings durch eine strukturelle Vorgehensweise und ausführliche Dokumentation weitgehend auf einem übersichtlichen Niveau gehalten werden

Ein "Globaler Überblick mit möglichem Zugriff auf Detailinformationen" konnte durch die Kombination von TreeMap (Alle Datensätze mit allen Daten) und Nodelinkdiagramm (Detailinformationen für Hypothese 2) erreicht werden

Finale ausführbare jar-Datei:

http://www.cip.ifi.lmu.de/~meyerr/Gruppe2.jar

Da für die Ausführung der Datei der Standard-Speicher der Java-VM erhöht werden muss, empfiehlt sich der Start über die Konsole mit folgenden Aufrufparametern:
  • java -Xms512M -Xmx1024M -jar Gruppe2.jar

Screenshots

* Treemap: FinalTreeMap.png

  • Nodelink:
FinalNodeLink.png

Mock-ups:

  • Treemap:
Treemap.PNG
  • Nodelink:
Nodelink.PNG

Modifizierte View:
  • Treemap:
treem.PNG
  • Nodelink:
Nodelink.PNG
Topic attachments
I Attachment Action Size Date Who Comment
Gruppe2.jarjar Gruppe2.jar manage 1395.7 K 20 Feb 2008 - 09:14 AnnaSchwanengel Altes JarFile
Gruppe2_a.jarjar Gruppe2_a.jar manage 1395.7 K 20 Feb 2008 - 13:19 AnnaSchwanengel Über Konsole starten
Topic revision: r11 - 20 Feb 2008, AnnaSchwanengel
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Medieninformatik-Wiki? Send feedback