lunes, 9 de mayo de 2016

Infracciones de tránsito de la Provincia de Buenos Aires


Queria averiguar si el auto de un amigo tenia infracciones y como está radicado en la provincia de Buenos Aires me fijé en la web de INFRACCIONESBA. Encontré un sistema para evitar pedidos masivos que implementa una especie de captcha muy particular...




Un captcha es básicamente un mecanismo que permite diferenciar entre una computadora y un ser humano, haciéndolo resolver una tarea trivial para este último pero compleja para una maquina. Sin embargo, en este caso, el mecanismo implementado por la web INFRACCIONESBA era todo excepto complejo.


Mirando un poco más, me di cuenta (viendo lo que hace cuando lo lleno y pongo una patente) que la web nunca chequea que esté resolviendo el captcha que me había pasado, por lo que pasando siempre el mismo captcha (y su solución) se pueden hacer tantos accesos como uno quiera. Habiéndome topado con esta situación, no pude contenerme e hice algunos pedidos con otros DNIs aparte del de mi amigo...


Le pregunté a INFRACCIONESBA si ciertos DNIs poseían multas (2 millones de pedidos, uniformemente distribuidos en el rango 10 y 33 millones). Obtuve 21.133 multas,  de 18931 patentes, correspondientes a 18675 personas distintas (1.13 multas por persona)


A continuación una descripción de lo que encontré…

Genero


La distribución en cuanto al género corresponde parcialmente con la estimación de la Dir. de Licencias del Gob. de la Ciudad de Bs. As sobre el resto del país, que reporta 25% de mujeres al volante. Si la estimación es buena significa que las mujeres tienen una mayor tasa de infracciones de tránsito que los hombres (suponiendo que el titular del auto es quien maneja, hipótesis que supongo a lo largo del post que podría no ser cierta).  Sin embargo, si miramos el promedio del importe de las multas, las mujeres tienen en promedio multas de menor importe que los hombres (pval < 10^-6), el importe en teoría correlaciona con la severidad de la infracción por lo que las mujeres cometerían más multas pero de menor severidad.



Edad

Como el DNI  correlaciona (negativamente) con la edad, es decir DNI numéricamente más chicos corresponden a personas con más años, podríamos usar este dato como proxy para estudiar las infracciones por edad, sin embargo se presenta un problema:

Si miramos la tasa de DNIs con multas respecto a los consultados, se ve la siguiente distribución

Los datos que se obtienen fitean muy bien con un comportamiento cuadrático, pero dada la falta de conocimiento del dominio podría estar pasando alguna de estas tres cosas (al menos):

  • Las multas se distribuyen uniformemente en la edad de la gente con licencia. De este modo, como los DNIs consultados fueron pedidos uniformemente, la figura solo muestra la distribución población de la edad con gente con licencia.
  • La gente que empieza con DNIs 20 millones, comete más infracciones y a medida que se aleja de este centro van bajando
  • Una mezcla de ambas

El observatorio de seguridad vial nacional no parece reportar estadísticas de la población con habilitación para manejar, ni así tampoco la provincia. Otros municipios del mundo, reportan estadísticas sobre la distribución de edad de los conductores y  se parecen bastante al comportamiento de los datos fiteados por la cuadrática, sin embargo también otros trabajos muestran que la distribución de infracciones tiene un pico en conductores más jóvenes y va bajando a medida que pasan los años.  Por lo que, los datos que tenemos no alcanzan para explicar la prominencia en las infracciones por algún grupo etario en particular :(

Antigüedad del auto

Con la patente del auto se puede estimar bien de que año es el auto (para autos posteriores a 1994 link). Para los autos más viejos no se puede saber el año exacto a partir de la patente. Teniendo en cuenta los que si sabemos, la distribución de años de los autos multados correlaciona (rho 0.94, tabla data patentados ) con la cantidad de autos patentados por año, por lo que el año del auto no influiría en la tasa/cantidad de multas registrada, pues probablemente solo estemos capturando la distribución subyacente.

Tabla patentes por año de infracciones bajadas


Teniendo en cuenta lo anterior, podemos usar el dataset como muestra bastante uniforme de la población que maneja, en términos de año de patentamiento.


Relación antiguedad del auto - edad dueño

En la distribución conjunta entre el año de patentamiento y el DNI (como proxy de la edad) se ve algo interesante.


Hay una correlación negativa (pval < 10^-4) entre la edad y el año del patentamiento. Es decir que gente más vieja tiene autos mas nuevos. Este mismo análisis se puede hacer separando por género. Es interesante porque el efecto se incrementa tomando solo la población masculina pero desaparece con la femenina.


A su vez, en total analizando por género, las mujeres tienen autos más nuevos que los hombres (pval<10^-14), el promedio (y ste) es de 2006.2  +-0.058 para hombres y 2007.68+-0.07 para mujeres.

Distribución de las multas según locación

La distribución por locación en la provincia es rara… pero cuando se miran los motivos de las multas tienen un poco mas de sentido.  El top 3 de multas (y 94% de las multas) son:

  • 89% Por no respetar los límites reglamentarios de velocidad previstos. 
  • 3% Por no detenerse antes de la línea marcada o senda peatonal
  • 2% No observar las reglas previstas para el uso de las luces

Es decir, la mayoría de las multas corresponden a fotomultas automáticas.





Resumen


Accidentalmente me topé con unos datos que eran fácilmente scrapeables y bastante estructurados. Se me ocurrieron algunas preguntas y las intenté contestar...  Me quedé con ganas de cruzar los DNIs de los sujetos con algún padrón para tener domicilio y armar algún índice de poder adquisitivo por la zona. ¿Acaso hay alguna relación entre el precio del auto y el tipo de infracción? También en armar un buen modelo para predecir dado año del auto, del dueño, etc, el tipo de multa (probando algo rápido parecería andar...)

Dato de color: Hay una sola multa (con varios motivos) por 107.4 K pesos en Chivilcoy en Marzo del 2016 de un auto  menor a 1995, obviamente no paga :p