Problem med tidtabeller i historiska dataextrakt
Hej!
Jag använder historiska dataextrakt (GTFS Sverige) för att beräkna antal avgångar per hållplats år för år. Jag väljer samma vecka (ex v42) och samma veckodag som referenstidpunkt och laddar ner data som innehåller min referenstid. Med hjälp av en kombo av Calendar och Calendar_dates bygger jag ett filter som kollar exakt vilka turer som går den aktuella dagen. Filtret tar hänsyn till positiv och negativ markering i båda tabellerna.
Jag får för vissa delar av landet (framförallt i Norrbotten) konstiga/orimliga variationer när det gäller antal avgångar per hållplats. Om jag helt ofiltrerat (utan avseende på om turen går just den aktuella dagen eller ej) summerar antal avgångar direkt från stop_times till stops kan jag i vissa fall få flera hundra avgångar på en hållplats men 0 avgångar när jag lägger på mitt filter. Har även undersökt dag för dag den aktuella veckan och det kan fortfarande vara 0 alla dagar. Har ni några idéer om vad detta kan bero på? Finns det några kända problem? Eller har jag ett feltänkt någonstans? Det konstiga är att det verkar vara osystematiskt.
Med vänlig hälsning Jerker
Jag använder historiska dataextrakt (GTFS Sverige) för att beräkna antal avgångar per hållplats år för år. Jag väljer samma vecka (ex v42) och samma veckodag som referenstidpunkt och laddar ner data som innehåller min referenstid. Med hjälp av en kombo av Calendar och Calendar_dates bygger jag ett filter som kollar exakt vilka turer som går den aktuella dagen. Filtret tar hänsyn till positiv och negativ markering i båda tabellerna.
Jag får för vissa delar av landet (framförallt i Norrbotten) konstiga/orimliga variationer när det gäller antal avgångar per hållplats. Om jag helt ofiltrerat (utan avseende på om turen går just den aktuella dagen eller ej) summerar antal avgångar direkt från stop_times till stops kan jag i vissa fall få flera hundra avgångar på en hållplats men 0 avgångar när jag lägger på mitt filter. Har även undersökt dag för dag den aktuella veckan och det kan fortfarande vara 0 alla dagar. Har ni några idéer om vad detta kan bero på? Finns det några kända problem? Eller har jag ett feltänkt någonstans? Det konstiga är att det verkar vara osystematiskt.
Med vänlig hälsning Jerker
Följ inlägget
0
följare
För att vi lättare ska förstå har jag några frågor till dig
Vad är det för tidsperiod du använder? Har du något/några konkreta exempel?
Mvh Pia
Ok, jag ska försöka förklara mer i detalj. Ni får ha överseende med att det blir lite långt.
Jag har valt att studera onsdagen i vecka 42 varje år vilket för år 2014 motsvarar 2014-10-15.
Jag gör ett uttag med GTFS Sverige historiska dataextrakt som omfattar den dag som jag vill undersöka. I detta fall har jag valt ett dataextrakt som har start_date 2014-08-18 och end_date 2014-12-13 (enligt calendar).
(https://data.samtrafiken.se/trafiklab/gtfs-sverige-2/2014/09/trafiklab-20140901.zip)
Vi kan ta hållplatsen Malmudden (stop_id = 7437135) i Luleå som exempel.
Teoretiskt sett kan hållplatsen ha 539 avgångar per dag (enligt de avgångstider som anges i stop_times). Jag kollar upp vilka service_id som är kopplade till trips som i sin tur är kopplade till hållplatsen för att se vilka avgångar som finns den specifika dagen. I calendar kan jag se att inga planerade turer finns (de aktuella service_id:na finns inte med alls i tabellen). Alltså går jag vidare till calendar_dates. Där hittar jag de aktuella service_id:na. Där kan jag se att turerna indikeras som dagliga med positiv flaggning (exception_typ = 1). Dock sträcker sig flaggningen bara fram till 2014-10-12. Därefter finns inga fler markeringar trots att dataextraktet ska omfatta tiden fram till 2014-12-13. Detta gör att antalet turer för den dag jag studerar blir 0 vilket verkar orimligt. Borde man inte kunna förutsätta att flaggningen i calendar_date ska gälla hela den period som dataextraktet omfattar? Kan det finnas någon annan förklaring till att flaggningen av turer i caledar_dates plötsligt upphör? Jag har noterat detta problem framförallt i Norrbottens län och delvis i Västerbotten.
Mvh
Jerker
Vi tittade på ditt exempel (stop_id=7437135) och vi hittar även 539 trips i stop_times.
Om man även tittar i trips hittar man en service_id som man kan använda i calendar_dates för att få fram total antal avgångar
Så här gick vi tillväga:
Från stop_times följer vi trip_Id 66847174
trip_id,arrival_time,departure_time,stop_id,stop_sequence,stop_headsign,pickup_type,drop_off_type,shape_dist_traveled
66847174,07:12:00,07:12:00,7437135,23,,,,
Från trips följer vi service_id 1062 i calendar_dates
route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id
602_1_BLT,1062,66847174,Kråkörvägen,,,,
I calendar _dates hittar vi 40 olika dagar för den enskilda trippen
service_id,date,exception_type
1062,20140818,1
1062,20140819,1
1062,20140820,1
1062,20140821,1
1062,20140822,1
1062,20140825,1
1062,20140826,1
1062,20140827,1
1062,20140828,1
1062,20140829,1
1062,20140901,1
1062,20140902,1
1062,20140903,1
1062,20140904,1
1062,20140905,1
1062,20140908,1
1062,20140909,1
1062,20140910,1
1062,20140911,1
1062,20140912,1
1062,20140915,1
1062,20140916,1
1062,20140917,1
1062,20140918,1
1062,20140919,1
1062,20140922,1
1062,20140923,1
1062,20140924,1
1062,20140925,1
1062,20140926,1
1062,20140929,1
1062,20140930,1
1062,20141001,1
1062,20141002,1
1062,20141003,1
1062,20141006,1
1062,20141007,1
1062,20141008,1
1062,20141009,1
1062,20141010,1
Du behöver kolla i både calendar och calendar_dates för att få fram all data.
bifogar länk med lite mer information
https://developers.google.com/transit/gtfs/reference/
Mvh Pia
Jodå så långt är jag med. Men som du ser i de datum som du får fram när du kollar på service_id = 1062 i calendar_dates så sträcker de sig bara fram till 2014-10-10.
Jag har undersökt samtliga service_id som berör trips där den aktuella hållplatsen ingår (service_id: 1061, 1062, 1063, 1317, 1319, 1320) och inget av dem sträcker sig längre än till 2014-10-12.
Dataextraktets end_date är 2014-12-13. Det är alltså en hel månad som helt saknas för denna hållplats.
Hade service_id:na istället markerats i calender vore det ju en sak men de finns inte med där heller.
Det känns som något är fel här.
Mvh
Jerker
Då vet jag hur jag ska köra. Skönt att veta var problemet ligger.
Mvh
Jerker