Metodologia
redtapeai jest projektem badawczym — nie autorytetem prawnym. Ta strona wyjaśnia, jak powstają rekordy widoczne w bazie, jaki jest scope projektu i gdzie są jego ograniczenia.
Czym jest obciążenie administracyjne (a czym nie)
W naszym znaczeniu obciążenie administracyjne (administrative burden, red tape) to sytuacja stanowiąca ograniczenie wolności gospodarczej — w rozumieniu art. 20-22 Konstytucji RP. To są powinności biurokratyczne nakładane na podmioty regulowane (przedsiębiorców, obywateli, pracodawców, podatników) i tworzące koszty compliance.
NIE są obciążeniem administracyjnym w sensie tego projektu:
- Procedury wewnątrz administracji — obowiązki ministerstw, organów kontroli, sądów, wójtów wobec siebie nawzajem. To są procesy państwowe, nie burden na biznes. Klasyfikujemy je jako
subject_category=publici ukrywamy w domyślnym widoku. - Daniny publiczne (art. 217 Konstytucji RP) — podatki, opłaty publiczne, składki ZUS/NFZ, cła, akcyzy oraz określanie podmiotów/przedmiotów opodatkowania, stawek, ulg i zwolnień. To są obowiązki konstytucyjne (art. 84), nie compliance bureaucracy. Klasyfikujemy je jako
is_danina_publiczna=true.
Ważny niuans: compliance wokół danin (deklaracje VAT, JPK, ewidencja podatkowa, rejestracja jako podatnik VAT, wnioski o interpretacje indywidualne) JEST obciążeniem administracyjnym, bo to są koszty biurokratyczne ograniczające wolność gospodarczą, nie sama danina.
Pipeline ekstrakcji
- Ingestion — pobranie aktu z ELI API (api.sejm.gov.pl/eli).
- Parsing — strukturyzacja HTML do hierarchii art./ust./pkt/lit.
- Pattern scanner — deterministyczne wykrywanie kandydatów na obowiązek (markery typu „obowiązany", „w terminie", „pod rygorem").
- LLM extraction — kandydaci analizowani przez model (claude-opus-4-7), który zwraca obowiązki z dosłownym cytatem i klasyfikacją subject_category + is_danina_publiczna.
- Walidator cytatu — twardy gate: cytat MUSI dosłownie występować w źródle, inaczej rekord jest odrzucany.
- Klasyfikator regułowy — cross-check stem-prefix matchingu polskiej morfologii, jako fallback i retrofit.
- Confidence scoring — wielosygnałowy wynik (siła wzorca, kompletność, specyficzność cytatu i podmiotu).
Co domyślnie widzisz na dashboardzie
Domyślny widok („obciążenia regulacyjne") pokazuje obowiązki spełniające:
subject_category∈ {private, mixed}is_danina_publiczna= false
Przełącznik „wszystkie obowiązki" odsłania procedury wewnątrz administracji + daniny publiczne — dla pełnej transparency datasetu, ale to nie jest core scope projektu.
Ograniczenia metody
- System wykrywa explicit obowiązki — domyślne / pośrednio wynikające z interpretacji nie są w bazie.
- MVP obejmuje jeden akt; uniwersalność metody zostanie zweryfikowana dopiero na 5-10 aktach.
- Confidence to wskaźnik jakości ekstrakcji, nie wagi prawnej obowiązku.
- Każdy rekord należy traktować jako kandydata do eksperckiej weryfikacji, nie jako interpretację prawną.
- Klasyfikacja subject_category opiera się o stem-prefix matching polskiej morfologii + LLM — błędy klasyfikacji są możliwe (np. „organ lub jednostka organizacyjna" jest niejednoznaczne kontekstowo).
Wersjonowanie
Dataset jest powiązany z wersją tekstu jednolitego pobraną z ELI w danym momencie. Plik extraction_run.json zawiera metadane runa (model, prompt_version, timestamps, błędy). Plikclassify_log.json dokumentuje rule-based klasyfikacje subject_category dla każdego obowiązku.
Repozytorium i dane
- Kod: github.com/arvindjuneja/redtapeai
- Dataset JSON: /data/obligations.json
- Źródło: eli.gov.pl