- Python 96.1%
- JavaScript 3.9%
| data | ||
| fotod-ml | ||
| fotod-puhastus | ||
| lib | ||
| app.py | ||
| CITATION.cff | ||
| clip_yhe_pildi_selgitus.png | ||
| era_clip_KOIK_pildid_sigmoid.xlsx | ||
| ERA_fotod_250426.xlsx | ||
| ERA_märksõnad_ML.xlsx | ||
| kih1922_region.json | ||
| README.md | ||
| requirements.txt | ||
ERA fotokogu ruumilised ja ajalised mustrid
Kata Maria Metsar, Daria Andriyanovich, Gabriel Ankov
Kultuuriandmete projekt, Tartu Ülikool / Eesti Kirjandusmuuseum, 2026
Projekti lühikokkuvõte
Projekti eesmärk oli uurida, milliseid ruumilisi, ajalisi ja temaatilisi mustreid võimaldab esile tuua Eesti Rahvaluule Arhiivi (ERA) fotokogu metaandmete analüüs. Töö käigus puhastati ja struktureeriti ligikaudu 10 000 foto metaandmed, töödeldi asukohaandmeid ning arendati interaktiivne Streamliti rakendus andmete uurimiseks ja visualiseerimiseks.
Projekt keskendub ERA fotokogu metaandmetele, mitte fotodele endile. Analüüs võimaldab uurida fotode jaotust ajas ja ruumis, märksõnade kasutust, fotograafide tegevust, fotodel kujutatud isikuid ning masinnägemise (CLIP) abil genereeritud märksõnu.
Rakendus sisaldab:
- ajalist analüüsi,
- interaktiivset kaarti,
- märksõnade analüüsi,
- isikute ja fotograafide võrgustikuanalüüsi,
- masinõppepõhist märksõnade analüüsi,
- filtreeritavat andmestikku.
Streamliti rakendus on kättesaadav veebiaadressil: https://era-dashboard.streamlit.app
Andmed
Andmestiku nimi
ERA fotokogu metaandmete andmestik
Andmete päritolu
Eesti Rahvaluule Arhiiv (ERA), Eesti Kirjandusmuuseum.
Andmete looja või haldaja
Eesti Kirjandusmuuseum.
Kas andmed on selles repos kaasas?
Osaliselt.
Repos on kaasas:
- puhastatud metaandmete tabel,
- masinõppe tulemused,
- visualiseerimiseks vajalikud geograafilised andmed,
- rakenduse ja analüüsi kood.
Repos ei ole kaasas:
- fotofailid,
- CLIP-mudeli jaoks kasutatud pildikogu,
- andmete puhastamise vaheetappide toorandmed.
Kasutatud failid
Põhiandmestik
ERA_fotod_250426.xlsx
Sisaldab andmeid mitmel vahelehel:fotod_koordinaatidegafotod_mastermärksõnad_pikkisikud_fotol_pikk
Masinõppe tulemused
ERA_märksõnad_ML.xlsx
Sisaldab CLIP-mudeli abil genereeritud märksõnu ja kategooriaid.
Geograafilised andmed
kih1922_region.json
Ajalooliste kihelkondade piirid kaardivisualisatsioonide jaoks.
Andmete kasutustingimused
Metaandmed põhinevad Eesti Kirjandusmuuseumi avalikel andmetel ja on kasutatavad õppe- ning teadustöö eesmärkidel.
Oluline:
- selles repos jagatakse ainult metaandmeid ja analüüsi tulemusi;
- fotofaile endid ei avaldata;
- CLIP-mudeli treenimiseks ja testimiseks kasutatud pilte ei ole vabakasutuses;
- osa andmete puhastamise vaheetappe ei ole repos kaasas.
Piiratud õigustega või ebakindla autoriõigusliku staatusega materjale ei ole avalikult üles laaditud.
Repo struktuur
Peamised failid
app.py– Streamliti rakenduse põhikoodERA_fotod_250426.xlsx– puhastatud metaandmete andmestikERA_märksõnad_ML.xlsx– masinõppe abil genereeritud märksõnadkih1922_region.json– ajalooliste kihelkondade GeoJSONrequirements.txt– rakenduse paketidREADME.md– projekti dokumentatsioon
Kaustad
fotod_puhastus/
Sisaldab andmete puhastamise ja ühendamise skripte:
ERA_fotod_esmapuhastus.py- eraldi
requirements.txt
NB! Kaustas olevate skriptide käivitamiseks on vaja toorandmeid, mida selles repos ei jagata.
fotod_ml/
Sisaldab CLIP-mudeli abil märksõnade genereerimise koodi:
era_clip.py- eraldi
requirements.txt
NB! Kaustas oleva koodi kasutamiseks on vaja fotofaile, mida selles repos ei jagata.
lib/
Sisaldab võrgustikuanalüüsi ja visualiseerimise lisateeke ning JavaScript/CSS faile.
Vajalik tarkvara
Projekt on loodud Pythonis.
Peamised tehnoloogiad
- Python
- Streamlit
- Pandas
- Plotly
- GeoPandas
- NetworkX
- PyVis
Rakenduse käivitamine
pip install -r requirements.txt
streamlit run app.py
Litsents
Selle repo kood on avaldatud MIT-litsentsiga. Dokumentatsioon on avaldatud CC BY 4.0 litsentsiga. Metaandmed pärinevad Eesti Kirjandusmuuseumist ning nende kasutamine toimub õppe- ja teadustöö eesmärgil. Fotofaile selles repos ei jagata. Andmete kasutamiseks tuleb pöörduda algse andmepakkuja poole.
Kuidas projekti viidata?
Vaadake faili CITATION.cff.
Kontakt
Küsimuste korral pöörduda projektirühma liikmete poole.