Till senaste kommentaren
Detta inlägg är gammalt och kan innehålla inaktuell information.

Problem med tidtabeller i historiska dataextrakt

Hej!
Jag använder historiska dataextrakt (GTFS Sverige) för att beräkna antal avgångar per hållplats år för år. Jag väljer samma vecka (ex v42) och samma veckodag som referenstidpunkt och laddar ner data som innehåller min referenstid. Med hjälp av en kombo av Calendar och Calendar_dates bygger jag ett filter som kollar exakt vilka turer som går den aktuella dagen. Filtret tar hänsyn till positiv och negativ markering i båda tabellerna.

Jag får för vissa delar av landet (framförallt i Norrbotten) konstiga/orimliga variationer när det gäller antal avgångar per hållplats. Om jag helt ofiltrerat (utan avseende på om turen går just den aktuella dagen eller ej) summerar antal avgångar direkt från stop_times till stops kan jag i vissa fall få flera hundra avgångar på en hållplats men 0 avgångar när jag lägger på mitt filter. Har även undersökt dag för dag den aktuella veckan och det kan fortfarande vara 0 alla dagar. Har ni några idéer om vad detta kan bero på? Finns det några kända problem? Eller har jag ett feltänkt någonstans? Det konstiga är att det verkar vara osystematiskt.
Med vänlig hälsning Jerker

Kommentarer

  • Hej Jerker
    För att vi lättare ska förstå har jag några frågor till dig
    Vad är det för tidsperiod du använder? Har du något/några konkreta exempel?

    Mvh Pia
    Team Trafiklab
  • Hej igen!

    Ok, jag ska försöka förklara mer i detalj. Ni får ha överseende med att det blir lite långt.

    Jag har valt att studera onsdagen i vecka 42 varje år vilket för år 2014 motsvarar 2014-10-15.

    Jag gör ett uttag med GTFS Sverige historiska dataextrakt som omfattar den dag som jag vill undersöka. I detta fall har jag valt ett dataextrakt som har start_date 2014-08-18 och end_date 2014-12-13 (enligt calendar).

    (https://data.samtrafiken.se/trafiklab/gtfs-sverige-2/2014/09/trafiklab-20140901.zip)

    Vi kan ta hållplatsen Malmudden (stop_id = 7437135) i Luleå som exempel.

    Teoretiskt sett kan hållplatsen ha 539 avgångar per dag (enligt de avgångstider som anges i stop_times). Jag kollar upp vilka service_id som är kopplade till trips som i sin tur är kopplade till hållplatsen för att se vilka avgångar som finns den specifika dagen. I calendar kan jag se att inga planerade turer finns (de aktuella service_id:na finns inte med alls i tabellen). Alltså går jag vidare till calendar_dates. Där hittar jag de aktuella service_id:na. Där kan jag se att turerna indikeras som dagliga med positiv flaggning (exception_typ = 1). Dock sträcker sig flaggningen bara fram till 2014-10-12. Därefter finns inga fler markeringar trots att dataextraktet ska omfatta tiden fram till 2014-12-13. Detta gör att antalet turer för den dag jag studerar blir 0 vilket verkar orimligt. Borde man inte kunna förutsätta att flaggningen i calendar_date ska gälla hela den period som dataextraktet omfattar? Kan det finnas någon annan förklaring till att flaggningen av turer i caledar_dates plötsligt upphör? Jag har noterat detta problem framförallt i Norrbottens län och delvis i Västerbotten.

    Mvh

    Jerker


  • Hej Jerker
    Vi tittade på ditt exempel (stop_id=7437135) och vi hittar även 539 trips i stop_times.
    Om man även tittar i trips hittar man en service_id som man kan använda i calendar_dates för att få fram total antal avgångar
    Så här gick vi tillväga:

    Från stop_times följer vi trip_Id 66847174
    trip_id,arrival_time,departure_time,stop_id,stop_sequence,stop_headsign,pickup_type,drop_off_type,shape_dist_traveled
    66847174,07:12:00,07:12:00,7437135,23,,,,

    Från trips följer vi service_id 1062 i calendar_dates
    route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id 

    602_1_BLT,1062,66847174,Kråkörvägen,,,,

    I calendar _dates hittar vi 40 olika dagar för den enskilda trippen
    service_id,date,exception_type
    1062,20140818,1
    1062,20140819,1
    1062,20140820,1
    1062,20140821,1
    1062,20140822,1
    1062,20140825,1
    1062,20140826,1
    1062,20140827,1
    1062,20140828,1
    1062,20140829,1
    1062,20140901,1
    1062,20140902,1
    1062,20140903,1
    1062,20140904,1
    1062,20140905,1
    1062,20140908,1
    1062,20140909,1
    1062,20140910,1
    1062,20140911,1
    1062,20140912,1
    1062,20140915,1
    1062,20140916,1
    1062,20140917,1
    1062,20140918,1
    1062,20140919,1
    1062,20140922,1
    1062,20140923,1
    1062,20140924,1
    1062,20140925,1
    1062,20140926,1
    1062,20140929,1
    1062,20140930,1
    1062,20141001,1
    1062,20141002,1
    1062,20141003,1
    1062,20141006,1
    1062,20141007,1
    1062,20141008,1
    1062,20141009,1
    1062,20141010,1

    Du behöver kolla i både calendar och calendar_dates för att få fram all data.
    bifogar länk med lite mer information
    https://developers.google.com/transit/gtfs/reference/ 

    Mvh Pia
    Team Trafiklab
  • Tack Pia för snabbt svar!
    Jodå så långt är jag med. Men som du ser i de datum som du får fram när du kollar på service_id = 1062 i calendar_dates så sträcker de sig bara fram till 2014-10-10.

    Jag har undersökt samtliga service_id som berör trips där den aktuella hållplatsen ingår (service_id: 1061, 1062, 1063, 1317, 1319, 1320) och inget av dem sträcker sig längre än till 2014-10-12.

    Dataextraktets end_date är 2014-12-13. Det är alltså en hel månad som helt saknas för denna hållplats.

    Hade service_id:na istället markerats i calender vore det ju en sak men de finns inte med där heller.
    Det känns som något är fel här.
    Mvh
    Jerker


  • Filen trafiklab-20140901.zip innehåller all trafik som fanns i samtrafikens databas 2014-09-01. Vid den tidpunkten hade uppenbarligen bussföretaget i fråga inte skickat in tidtabeller för senare datum än 2014-10-10. För att få med sent inkommna ändringar är det bäst att använda en fil som är publicerad efter det datum du är intresserad av. I det här fallet kan du använda filen trafiklab-20141016.zip. Där finns det tider för stopid 7437135 som gäller för 2014-10-15.
  • Tack Markus för info!
    Då vet jag hur jag ska köra. Skönt att veta var problemet ligger.
    Mvh
    Jerker

Kommentera eller skriv ett nytt inlägg

Ditt namn och inlägg kan ses av alla. Din e-post visas aldrig publikt.