Bewertungsplugin Datenleichen

Neue Plugins usw. Also alles was kein Problem/Verbesserungsvorschlag ist ;).
Antworten
Benutzeravatar
TLupus
Platin Member
Beiträge: 1439
Registriert: 05 Dez 2003, 09:46
Wohnort: Berlin

Bewertungsplugin Datenleichen

Beitrag von TLupus »

Hallo bodo

Ist dir bewußt, das wir langsam ein Datenleichenproblem bekommen?

Bruce Lee - Die Pranke des Leoparden (Fortsetzung)
Domian (VPS-Zeit: 01:00)
Ein Doc für alle Felle (2)
PSI-Factor ñ Es geschieht jeden Tag
UNTERHALTUNG: Tapetenwechsel

Domian ist z.B. jetzt schon zweimal da. Ich habe aus diesem Grund schon manche Sendung nicht bewertet. Denn z.B.: "200 Jahre John Wayne: Das Gesetz bin ich" :) wird so schnell wohl nicht wiederkommen. Und wenn, dann wahrscheinlich unter: "Das Gesetz bin ich".
Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Ich weiß.. wollte mich am we dransetzen und die dateileichen rausnehmen. Ich hab da ein kleines Admin-Tool für. Das kann man leider nicht automatisieren :(.

Wenn du bei Quarks&Co schaust, wirst du 2 Titel finden, aber die gleiche Anzahl an Bewertungen. So werd ich das mit den anderen auch machen. Mehrere Titel für einen Film ist für mich ok :)

Bodo
Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Nochwas: bewerte ruhig weiter, auch bei komisch klingenden Titeln...

Ich werde demnächst mal ein kleines GUI tool auf die Webseite packen, mit dessen hilfe kann dann jeder doppelte einträge melden.

Ich hab mal versucht, die Titel anhand ihrer ähnlichkeit zu finden, aber die Idee mußte ich leider verwerfen :(. Wenn jemand ne gute Idee hat, nur her damit :).

Bodo
Benutzeravatar
Til
Site Admin
Beiträge: 1498
Registriert: 04 Dez 2003, 11:21
Wohnort: Karlsruhe
Kontaktdaten:

Beitrag von Til »

Schau dir doch mal soundex an: http://de.php.net/manual/de/function.soundex.php

Damit kannst du die Ähnlichkeit von Strings berechnen
Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Ich weiß..hab ich schon probiert, aber da fallen zuviele rein, die nicht passen...oder halt zuwenig.
hab da schon öfter sachen probiert. einfache sachen findet man so, ich lass die mir auch anzeigen in einer kleinen admin-gui, aber ohne händischen eingriff geht's echt nicht...und das mit dem melden ist nur eine sicherheits-funktion, falls ich etwas nicht sehe.

Beispiel:
Bruce Lee - Die Pranke des Leoparden (Fortsetzung)
und Bruce Lee - Die Pranke des Leoparden ist relativ ähnlich, aber würde es ein Bruce Lee - Die Pranke des Leoparden 2 geben, würde das bei einer automatischen erkennung auch dazu passen. das darf nicht geschehen.
Benutzeravatar
Til
Site Admin
Beiträge: 1498
Registriert: 04 Dez 2003, 11:21
Wohnort: Karlsruhe
Kontaktdaten:

Beitrag von Til »

Klar, ganz automatisch ist zu gefährlich. Aber eine gute Vorfilterung ist schonmal viel wert.
Benutzeravatar
TLupus
Platin Member
Beiträge: 1439
Registriert: 05 Dez 2003, 09:46
Wohnort: Berlin

Beitrag von TLupus »

bodo hat geschrieben:Ich weiß..hab ich schon probiert, aber da fallen zuviele rein, die nicht passen...oder halt zuwenig.
Vor so einem Problem habe ich früher mal, mit meinem Sprüche / Zitate Prgramm ( In VB :) ) auch gestanden. Ich wollte eine automatische Mergefunktion für die Datendatei einbauen. Da bestand dann das Problem, das ein ganzes Zitat in unterschiedlicher Formulierung erkannt werden sollte... Ich habs gelassen.
Gast

Beitrag von Gast »

Da müsste man Regeln erstellen was für Titel auf eine Fortsetzung schließen könnten.
Beispiel alle Sendungen die am Ende eine Zahl haben (auch I, II, ...), sowie Doppelpunkt oder Gedankenstrich.

Alle Sendungen die dann nicht in dieses Raster fallen könnte man dann eigentlich relativ gut automatisch angleichen.
Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Das mit den Regeln hab ich auch verworfen.
Zum beispiel ist der Unterstrich teilweise auch ein Untertitel eines Filmes...

Aber wenn jemand was probieren will, ich schick euch gerne einen anonymisierten Dump der Datenbank. Natürlich ohne bewertungen, sondern nur die Filme. Wenn jemand Statistik-Zeug proggen will, damit die Seite mehr Infos enthält, kann ich auch den Aufbau der Datenbank verschicken...

Bodo
Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

So, hab mal wieder "aufgeräumt". Die Daten sind immernoch drin (PSI-Factor ñ Es geschieht jeden Tag), aber nur das gewährleistet, das die auch immer gefunden werden. Eine Sendung kann mehrere Titel haben.
Hör mal wer da Hämmert hat momentan z.B. 3 Titel ;)...

Bodo
Gast

Beitrag von Gast »

bodo hat geschrieben:Aber wenn jemand was probieren will, ich schick euch gerne einen anonymisierten Dump der Datenbank. Natürlich ohne bewertungen, sondern nur die Filme. Wenn jemand Statistik-Zeug proggen will, damit die Seite mehr Infos enthält, kann ich auch den Aufbau der Datenbank verschicken...
Bodo
Nach meinen Klausuren kann ich da gern mithelfen. :)
Benutzeravatar
bodo
Site Admin
Beiträge: 19635
Registriert: 03 Dez 2003, 19:37
Wohnort: Köln
Kontaktdaten:

Beitrag von bodo »

Ich freu mich auf jeden weitern Programmierer!
Antworten