====== Dublettenerkennung für stimp ====== Live ab 01.01.2014 ===== Randbedingungen ===== * Anzahl Bilder in der Datenbank ca. 20M * Max Abfragen pro Stunde (6M pro Monat → >8300req/h) (Wunsch Sebastian: 300k pro Tag bei 20% Auslastung des Servers) * Max Falschpositiv Skalierung und Rotation → 1,5%, bei Croping bis 20% → 2,5% (berechnet auf 10k beigestellter garantiert unbekannter Testdaten) * Max Falschnegativ nicht definiert * Max Delay bei Abfrage nicht definiert * Bild vor Analyse auf ausreichende Größe prüfen, nur berechnen wenn ausreichend (wir legen fest was ausreichend ist) ===== Systemdesign ===== (?? Blockdiagramm ??) ==== Api / Ui ==== === Abfrage Bild === Per Api wird userkey, bild-id, url und memorize-flag übergeben. * memorize-flag = 1 → wenn zu Bild keine Dublette gefunde wir es mit in die db aufgenammen * memorize-flag = 0 → wenn zu Bild keine Dublette gefunde wir es verworfen //Antwort:// * unknown → wenn unbekannt * → wenn Dublette gefunden * toSmall → wenn min Größe nicht erreicht === Neue Bilder im Bündel einfügen === (?? wir bekommen csv-Datei und indexieren die, wie Abfrage mit memorize-flag = true ??) === Quality-Check === Anzeige von 100 random Antworten der letzten 24h (Möglichkeit FP zu markieren) === FP-Check === Anzeige von 100 random aus bekannten FB-Bildern um zu sehen ob sie besser geworden sind. === FN-Check === Anzeige von 10 random aus als “unknown” beantworteten Bildern und Darstellung der //ähnlichen// Bilder. Möglichkeit Fehler zu markieren. ==== Algorithmus ==== 42