An Abhängigkeiten sehe ich nur die JAR-Datei von Lucene. Die hat im Moment ~800KB - vielleicht könnte man sie noch ein wenig reduzieren um einige nicht benötigte Klassen.
Mein aktueller Index hat ~1,5 MB für die 11 deutsche Hauptsender für die nächste Woche. Indiziert wurden alle Text und Integer-Felder derer ich über den FieldIterator habhaft werden konnte, sowie noch einige Felder, die man direkt über Getter-Methoden von Program auslesen kann.
Über die Indizierungsgeschwindigkeit kann ich aktuell nicht viel sagen - aber meiner Erfahrung sind die TV-daten so wenig, dass es sich wahrscheinlich noch nicht einmal lohnt die Indizierung über mehrere Threads zu parallelisieren. Wenn man die Indizierung am Ende des Online-datenupdates durchführt dürfte das kaum ein Benutzer geschindigkeitsmäßig merken.
BTW: Noch eine Verständlisfrage die mir schon lange stelle aber nie gefragt habe: Ließen sich beim online update auch schon bestehende Daten aktualisieren? Wenn ja wird das eingesetzt? In einem solchen Fall müsste man nämlich vorher wieder Elemente aus dem Index löschen, so dass die Aktualisierung etwas mehr Arbeit wäre.
Stichwortkatalog vs DB:
Ich dachte mir schon, dass dies ein heikler Punkt ist. Lucene ist prinzipiell in der Lage die Daten sowohl zu indizieren, als auch komplett zu speichern.
Dies lässt sich beim Indizieren für jedes Suchfeld angeben.
Im Moment habe ich so gearbeitet, dass nur der Titel, die uniqueID, das Datum und die Startzeit gespeichert werden. Dadurch wäre es vielleicht möglich die Ergebnisliste schon mit den Basisdaten zu füllen bevor der komplette Program-Datensatz geladen wurde (noch nicht implementiert).
Generell lässt sich aber die Anzahl der komplett gespeicherten (und damit auslesbaren Daten) bis auf die uniqueID reduzieren. Insofern sehe ich keine Probleme mit den Nutzungsbedinungen der Daten.
Ich werde mal einen Patch zusammenstellen und an Ticket
http://tvbrowser.org:8080/jira/browse/TVB-243 hängen, so dass sich alle ein Bild machen können. Zur Integration wird es wohl noch ein wenig zu früh sein aber interessierte können sich schon einmal einen Überblick verschaffen.
Gruß Jan
An Abhängigkeiten sehe ich nur die JAR-Datei von Lucene. Die hat im Moment ~800KB - vielleicht könnte man sie noch ein wenig reduzieren um einige nicht benötigte Klassen.
Mein aktueller Index hat ~1,5 MB für die 11 deutsche Hauptsender für die nächste Woche. Indiziert wurden alle Text und Integer-Felder derer ich über den FieldIterator habhaft werden konnte, sowie noch einige Felder, die man direkt über Getter-Methoden von Program auslesen kann.
Über die Indizierungsgeschwindigkeit kann ich aktuell nicht viel sagen - aber meiner Erfahrung sind die TV-daten so wenig, dass es sich wahrscheinlich noch nicht einmal lohnt die Indizierung über mehrere Threads zu parallelisieren. Wenn man die Indizierung am Ende des Online-datenupdates durchführt dürfte das kaum ein Benutzer geschindigkeitsmäßig merken.
BTW: Noch eine Verständlisfrage die mir schon lange stelle aber nie gefragt habe: Ließen sich beim online update auch schon bestehende Daten aktualisieren? Wenn ja wird das eingesetzt? In einem solchen Fall müsste man nämlich vorher wieder Elemente aus dem Index löschen, so dass die Aktualisierung etwas mehr Arbeit wäre.
Stichwortkatalog vs DB:
Ich dachte mir schon, dass dies ein heikler Punkt ist. Lucene ist prinzipiell in der Lage die Daten sowohl zu indizieren, als auch komplett zu speichern.
Dies lässt sich beim Indizieren für jedes Suchfeld angeben.
Im Moment habe ich so gearbeitet, dass nur der Titel, die uniqueID, das Datum und die Startzeit gespeichert werden. Dadurch wäre es vielleicht möglich die Ergebnisliste schon mit den Basisdaten zu füllen bevor der komplette Program-Datensatz geladen wurde (noch nicht implementiert).
Generell lässt sich aber die Anzahl der komplett gespeicherten (und damit auslesbaren Daten) bis auf die uniqueID reduzieren. Insofern sehe ich keine Probleme mit den Nutzungsbedinungen der Daten.
Ich werde mal einen Patch zusammenstellen und an Ticket http://tvbrowser.org:8080/jira/browse/TVB-243 hängen, so dass sich alle ein Bild machen können. Zur Integration wird es wohl noch ein wenig zu früh sein aber interessierte können sich schon einmal einen Überblick verschaffen.
Gruß Jan