stimp_dubletten
Table of Contents
Dublettenerkennung für stimp
Live ab 01.01.2014
Randbedingungen
- Anzahl Bilder in der Datenbank ca. 20M
- Max Abfragen pro Stunde (6M pro Monat → >8300req/h) (Wunsch Sebastian: 300k pro Tag bei 20% Auslastung des Servers)
- Max Falschpositiv Skalierung und Rotation → 1,5%, bei Croping bis 20% → 2,5% (berechnet auf 10k beigestellter garantiert unbekannter Testdaten)
- Max Falschnegativ nicht definiert
- Max Delay bei Abfrage nicht definiert
- Bild vor Analyse auf ausreichende Größe prüfen, nur berechnen wenn ausreichend (wir legen fest was ausreichend ist)
Systemdesign
(?? Blockdiagramm ??)
Api / Ui
Abfrage Bild
Per Api wird userkey, bild-id, url und memorize-flag übergeben.
- memorize-flag = 1 → wenn zu Bild keine Dublette gefunde wir es mit in die db aufgenammen
- memorize-flag = 0 → wenn zu Bild keine Dublette gefunde wir es verworfen
Antwort:
- unknown → wenn unbekannt
- <bild-id> → wenn Dublette gefunden
- toSmall → wenn min Größe nicht erreicht
Neue Bilder im Bündel einfügen
(?? wir bekommen csv-Datei und indexieren die, wie Abfrage mit memorize-flag = true ??)
Quality-Check
Anzeige von 100 random Antworten der letzten 24h (Möglichkeit FP zu markieren)
FP-Check
Anzeige von 100 random aus bekannten FB-Bildern um zu sehen ob sie besser geworden sind.
FN-Check
Anzeige von 10 random aus als “unknown” beantworteten Bildern und Darstellung der ähnlichen Bilder. Möglichkeit Fehler zu markieren.
Algorithmus
42
stimp_dubletten.txt · Last modified: 2024/04/11 14:23 by 127.0.0.1