User Tools

Site Tools


stimp_dubletten

Dublettenerkennung für stimp

Live ab 01.01.2014

Randbedingungen

  • Anzahl Bilder in der Datenbank ca. 20M
  • Max Abfragen pro Stunde (6M pro Monat → >8300req/h) (Wunsch Sebastian: 300k pro Tag bei 20% Auslastung des Servers)
  • Max Falschpositiv Skalierung und Rotation → 1,5%, bei Croping bis 20% → 2,5% (berechnet auf 10k beigestellter garantiert unbekannter Testdaten)
  • Max Falschnegativ nicht definiert
  • Max Delay bei Abfrage nicht definiert
  • Bild vor Analyse auf ausreichende Größe prüfen, nur berechnen wenn ausreichend (wir legen fest was ausreichend ist)

Systemdesign

(?? Blockdiagramm ??)

Api / Ui

Abfrage Bild

Per Api wird userkey, bild-id, url und memorize-flag übergeben.

  • memorize-flag = 1 → wenn zu Bild keine Dublette gefunde wir es mit in die db aufgenammen
  • memorize-flag = 0 → wenn zu Bild keine Dublette gefunde wir es verworfen

Antwort:

  • unknown → wenn unbekannt
  • <bild-id> → wenn Dublette gefunden
  • toSmall → wenn min Größe nicht erreicht

Neue Bilder im Bündel einfügen

(?? wir bekommen csv-Datei und indexieren die, wie Abfrage mit memorize-flag = true ??)

Quality-Check

Anzeige von 100 random Antworten der letzten 24h (Möglichkeit FP zu markieren)

FP-Check

Anzeige von 100 random aus bekannten FB-Bildern um zu sehen ob sie besser geworden sind.

FN-Check

Anzeige von 10 random aus als “unknown” beantworteten Bildern und Darstellung der ähnlichen Bilder. Möglichkeit Fehler zu markieren.

Algorithmus

42

stimp_dubletten.txt · Last modified: 2024/04/11 14:23 by 127.0.0.1