No description
  • Python 96.1%
  • JavaScript 3.9%
Find a file
2026-05-17 22:18:00 +03:00
data Initial commit 2026-04-27 23:53:40 +03:00
fotod-ml Upload files to "/" 2026-05-15 23:41:18 +03:00
fotod-puhastus Upload files to "/" 2026-05-15 23:37:03 +03:00
lib Upload files to "/" 2026-05-15 23:37:16 +03:00
app.py Update app.py 2026-05-17 22:18:00 +03:00
CITATION.cff Initial commit 2026-04-27 23:53:40 +03:00
clip_yhe_pildi_selgitus.png Upload files to "/" 2026-05-15 23:38:16 +03:00
era_clip_KOIK_pildid_sigmoid.xlsx Upload files to "/" 2026-05-15 23:38:16 +03:00
ERA_fotod_250426.xlsx Upload files to "/" 2026-05-17 12:38:19 +03:00
ERA_märksõnad_ML.xlsx Upload files to "/" 2026-05-15 23:38:16 +03:00
kih1922_region.json Upload files to "/" 2026-05-15 23:38:16 +03:00
README.md Update README.md 2026-05-17 12:39:19 +03:00
requirements.txt Update requirements.txt 2026-05-15 23:39:11 +03:00

ERA fotokogu ruumilised ja ajalised mustrid

Kata Maria Metsar, Daria Andriyanovich, Gabriel Ankov
Kultuuriandmete projekt, Tartu Ülikool / Eesti Kirjandusmuuseum, 2026


Projekti lühikokkuvõte

Projekti eesmärk oli uurida, milliseid ruumilisi, ajalisi ja temaatilisi mustreid võimaldab esile tuua Eesti Rahvaluule Arhiivi (ERA) fotokogu metaandmete analüüs. Töö käigus puhastati ja struktureeriti ligikaudu 10 000 foto metaandmed, töödeldi asukohaandmeid ning arendati interaktiivne Streamliti rakendus andmete uurimiseks ja visualiseerimiseks.

Projekt keskendub ERA fotokogu metaandmetele, mitte fotodele endile. Analüüs võimaldab uurida fotode jaotust ajas ja ruumis, märksõnade kasutust, fotograafide tegevust, fotodel kujutatud isikuid ning masinnägemise (CLIP) abil genereeritud märksõnu.

Rakendus sisaldab:

  • ajalist analüüsi,
  • interaktiivset kaarti,
  • märksõnade analüüsi,
  • isikute ja fotograafide võrgustikuanalüüsi,
  • masinõppepõhist märksõnade analüüsi,
  • filtreeritavat andmestikku.

Streamliti rakendus on kättesaadav veebiaadressil: https://era-dashboard.streamlit.app


Andmed

Andmestiku nimi

ERA fotokogu metaandmete andmestik

Andmete päritolu

Eesti Rahvaluule Arhiiv (ERA), Eesti Kirjandusmuuseum.

Andmete looja või haldaja

Eesti Kirjandusmuuseum.

Kas andmed on selles repos kaasas?

Osaliselt.

Repos on kaasas:

  • puhastatud metaandmete tabel,
  • masinõppe tulemused,
  • visualiseerimiseks vajalikud geograafilised andmed,
  • rakenduse ja analüüsi kood.

Repos ei ole kaasas:

  • fotofailid,
  • CLIP-mudeli jaoks kasutatud pildikogu,
  • andmete puhastamise vaheetappide toorandmed.

Kasutatud failid

Põhiandmestik

  • ERA_fotod_250426.xlsx
    Sisaldab andmeid mitmel vahelehel:
    • fotod_koordinaatidega
    • fotod_master
    • märksõnad_pikk
    • isikud_fotol_pikk

Masinõppe tulemused

  • ERA_märksõnad_ML.xlsx
    Sisaldab CLIP-mudeli abil genereeritud märksõnu ja kategooriaid.

Geograafilised andmed

  • kih1922_region.json
    Ajalooliste kihelkondade piirid kaardivisualisatsioonide jaoks.

Andmete kasutustingimused

Metaandmed põhinevad Eesti Kirjandusmuuseumi avalikel andmetel ja on kasutatavad õppe- ning teadustöö eesmärkidel.

Oluline:

  • selles repos jagatakse ainult metaandmeid ja analüüsi tulemusi;
  • fotofaile endid ei avaldata;
  • CLIP-mudeli treenimiseks ja testimiseks kasutatud pilte ei ole vabakasutuses;
  • osa andmete puhastamise vaheetappe ei ole repos kaasas.

Piiratud õigustega või ebakindla autoriõigusliku staatusega materjale ei ole avalikult üles laaditud.


Repo struktuur

Peamised failid

  • app.py Streamliti rakenduse põhikood
  • ERA_fotod_250426.xlsx puhastatud metaandmete andmestik
  • ERA_märksõnad_ML.xlsx masinõppe abil genereeritud märksõnad
  • kih1922_region.json ajalooliste kihelkondade GeoJSON
  • requirements.txt rakenduse paketid
  • README.md projekti dokumentatsioon

Kaustad

fotod_puhastus/

Sisaldab andmete puhastamise ja ühendamise skripte:

  • ERA_fotod_esmapuhastus.py
  • eraldi requirements.txt

NB! Kaustas olevate skriptide käivitamiseks on vaja toorandmeid, mida selles repos ei jagata.

fotod_ml/

Sisaldab CLIP-mudeli abil märksõnade genereerimise koodi:

  • era_clip.py
  • eraldi requirements.txt

NB! Kaustas oleva koodi kasutamiseks on vaja fotofaile, mida selles repos ei jagata.

lib/

Sisaldab võrgustikuanalüüsi ja visualiseerimise lisateeke ning JavaScript/CSS faile.


Vajalik tarkvara

Projekt on loodud Pythonis.

Peamised tehnoloogiad

  • Python
  • Streamlit
  • Pandas
  • Plotly
  • GeoPandas
  • NetworkX
  • PyVis

Rakenduse käivitamine

pip install -r requirements.txt
streamlit run app.py

Litsents

Selle repo kood on avaldatud MIT-litsentsiga. Dokumentatsioon on avaldatud CC BY 4.0 litsentsiga. Metaandmed pärinevad Eesti Kirjandusmuuseumist ning nende kasutamine toimub õppe- ja teadustöö eesmärgil. Fotofaile selles repos ei jagata. Andmete kasutamiseks tuleb pöörduda algse andmepakkuja poole.

Kuidas projekti viidata?

Vaadake faili CITATION.cff.

Kontakt

Küsimuste korral pöörduda projektirühma liikmete poole.