v4_deep_data_lake
Das Daten-Grab für alles
das ist noch ein Schmierzettel für Gedanken
Alles was da rein/raus kommt darf nicht Zeitkritisch sein. Wichtiger ist das die Daten redundant und bequem zugreifbar sind.
Idee:
- Datenproduzenten schreiben asyncron da rein, z.B. über einen Dateipuffer
- Nachts laufen Analysejobs und erzeugen Reports
- Bei bedarf wandern diese Reports in einen MemCache um im Betrieb schnell abrufbar zu sein.
- Zeiten immer UTC
Notizzettel für DBs:
- MongoDB
- Bekannt und erprobt
- RethinkDB
- Interessant da einfaches sharding
- Cassandra
- Replication und Konzept lohnen einen Blick
- Redis
Was soll rein:
- billing, clicks, conversion
- session Verläufe (langzeit Archiv)
v4_deep_data_lake.txt · Last modified: 2024/04/11 14:23 by 127.0.0.1