Dublettenerkennung für stimp
Randbedingungen
Anzahl Bilder in der Datenbank ca. 20M
Max Abfragen pro Stunde (6M pro Monat → >8300req/h) (Wunsch Sebastian: 300k pro Tag bei 20% Auslastung des Servers)
Max Falschpositiv Skalierung und Rotation → 1,5%, bei Croping bis 20% → 2,5% (berechnet auf 10k beigestellter garantiert unbekannter Testdaten)
Max Falschnegativ nicht definiert
Max Delay bei Abfrage nicht definiert
Bild vor Analyse auf ausreichende Größe prüfen, nur berechnen wenn ausreichend (wir legen fest was ausreichend ist)
Systemdesign
Api / Ui
Abfrage Bild
Per Api wird userkey, bild-id, url und memorize-flag übergeben.
Antwort:
Neue Bilder im Bündel einfügen
(?? wir bekommen csv-Datei und indexieren die, wie Abfrage mit memorize-flag = true ??)
Quality-Check
Anzeige von 100 random Antworten der letzten 24h (Möglichkeit FP zu markieren)
FP-Check
Anzeige von 100 random aus bekannten FB-Bildern um zu sehen ob sie besser geworden sind.
FN-Check
Anzeige von 10 random aus als “unknown” beantworteten Bildern und Darstellung der ähnlichen Bilder. Möglichkeit Fehler zu markieren.
Algorithmus