BIG DATA : en matière de contrôle fiscal, la France va devoir mettre les bouchées doubles
Les initiatives entourant l'usage du Big Data (données massifiées) en matière fiscale se sont multipliées chez nos voisins européens avec un fort degré de transparence sur les nouveaux outils (data mining) mis en service depuis quelques années. Les premiers résultats sont probants : en Belgique, un outil spécifique de lutte contre les fraudes et incohérences déclaratives en matière de TVA fait des merveilles notamment s'agissant de la fraude carrousel avec une baisse de la fraude entre 80 et 90% d'efficacité pour des sommes restituées de l'ordre du milliard d'euros par an entre 2001 et 2010 ; le Royaume-Uni de son côté, à développé le système d'analyse « Connect » permettant de vérifier la fiabilité des déclarations fiscales et des demandes de crédits d'impôts s'agissant des taxes directes et indirectes pour un gain en 2012 de 2 milliards de livres. En Italie, le législateur a introduit à partir de 2013 un nouvel outil de calcul, « Redditometro » afin de calculer sommairement par réconciliation des revenus déclarés et de l'estimation des dépenses, les écarts de train de vie permettant d'orienter les contrôles. A la clé, des ressources fiscales additionnelles qui pourraient atteindre en vitesse de croisière plusieurs milliards d'euros [1].
Face à l'ensemble de ce mouvement de fond conjuguant Big Data, Data Warehouse (entrepôts de données) et analyse de données, la France jusqu'à récemment apparaissait inexplicablement passive. La Cour des comptes s'en était d'ailleurs émue, dans un récent référé, le 10 octobre 2013 [2] : « l'administration ne peut pas toujours avoir de vision d'ensemble sur les dossiers de fraudes les plus complexes. Les principes qui régissent le paiement des impôts et le secret fiscal imposent à l'administration fiscale de contrôler contribuable par contribuable et non fraude par fraude. Or, dans des cas de délinquance financière complexe, un même délit peut avoir des conséquences fiscales sur un ensemble de personnes ou de sociétés. » D'où la nécessité de parvenir à traiter des masses de données non seulement en temps réel mais avec une vision rétrospective afin de relever les incohérences, et d'en tirer la constitution d'arborescences afin d'obtenir une vision en réseau (synchronique) et dans la durée (diachronique). Une vision qu'il s'agira ensuite de fiabiliser en éliminant les faux positifs (aberrations ne débouchant pas sur des fraudes) et en imposant des filtres pour les sommes les plus faibles (cut off).
L'exemple Belge développé par la firme SAS en matière de carrousel à TVA :
Utilisant des logiciels tels que SPSS/SAS miner, ou I2, la « social Network analysis » permet de matérialiser les connexions entre les différents intervenants de la fraude sous forme de graphes. (…) aujourd'hui nous pouvons détecter des liens et activités suspectes comme jamais auparavant. Etablir que telle transaction a eu lieu au même moment que tel changement d'adresse, qu'un même protagoniste est présent dans deux pays à la fois et réitère des schémas de fraude éprouvés (…) définir la taille d'un réseau et en identifier le leader [3] » Explique Cécile de Barsy consultante de Business & Décision pour le SPF finances (le service public fédéral finances) belge. Résultat (voir document joint du SPF finances), les pertes pour le Trésor belge en matière de fraude carrousel ont chuté de 1,1 milliard d'euros en 2001 à 26,04 millions d'euros en 2006 et 93,6 millions d'euros en 2009, soit une baisse de 85% en 8 ans, et même de 95% en 2011 avec 18 millions d'euros de TVA fraudés. Par ailleurs, les délais de traitement des opérations de détection ont été terriblement raccourcis, passant de 3 semaines environ à 5 minutes [4], 99,9% du processus de détection se déclenchant dès la première fausse déclaration. Une extrapolation pour la France réalisée récemment [5] où les incohérences déclaratives coûteraient 32 milliards d'euros chaque année aux caisses publiques en matière de TVA dont 13 milliards liés à la fraude carrousel permettrait de récupérer près de 9,8 milliards d'euros via un contrôle ciblé dans les 15 jours, tandis que les contrôles aléatoires actuellement pratiqués de 12 à 15 mois après encaissement de la TVA ne permettent de contrôler que 48.000 entreprises/an pour des sommes récupérées de 1,1 milliard d'euros.
L'exemple italien du redditometro, un recoupement important pour estimer le train de vie :
Le 4 janvier 2013, le fisc italien s'est doté d'un robot informatique, le Redditometro, utilisant une centaine d'indicateurs permettant de reconstituer virtuellement les sommes dépensées que le traitement rapproche des sommes déclarées en ligne (la déclaration d'impôt dématérialisée est aujourd'hui obligatoire en Italie). En cas d'écart de plus de 20% entre les sommes déclarées et les sommes dépensées, un contrôle fiscal est immédiatement diligenté. En utilisant les données bancaires et financières des individus ainsi que les données remontant des commerçants, les services fiscaux peuvent ainsi recouper le coût de l'achat d'un véhicule, de petites dépenses d'habillement, des investissements financiers ou immobiliers, etc.
Sa première utilisation a débuté en mars s'agissant des revenus déclarés depuis 2009. Les vérifications sont largement améliorées par le fait qu'en Italie la plupart des opérations nécessitent le recours à un numéro fiscal unique possédé par chaque contribuable (en matière contractuelle, d'hypothèques, de produits d'assurance, etc.). Pour l'ensemble des autres transactions, le ministère des Finances (Agenzia delle Entrate) retraite les données statistiques nationales, sur une base géographique : l'Italie est ainsi divisée en cinq zones géographiques, les dépenses rapportées à 11 types familiaux différents, allant des célibataires de moins de 35 ans jusqu'aux couples de plus de 65 ans [6]. Le logiciel ensuite en 2013 l'a appliqué à 35.000 foyers italiens durant les quatre dernières années [7]. Les assujettis bénéficiant toutefois de la faculté d'opposer aux demandes d'éclaircissement envoyés par l'administration les éléments de preuves (documents etc…) permettant de se disculper. Par ailleurs, des éléments indirects comme le revenu total de chaque famille est d'ores-et-déjà pris en compte afin de lisser les éventuellement aberrations. En cas d'incapacité à prouver spontanément sa bonne foi un examen approfondi de leur situation personnel peut être alors enclenché.
On comprend assez aisément que ce dernier instrument introduit un certain aléa moral dans la prise en compte du risque fiscal. Il s'agit de l'outil le plus automatique existant en matière de ciblage de sous-déclaration et de fraude fiscale (avec la perspective de développer un vrai pré-contrôle de masse [8]). Il repose en grande partie sur l'usage de données financières et pourrait induire en retour un usage accru d'argent liquide par le fraudeur en dehors d'un réseau bancaire dont les données sont très fortement sollicitées par les autorités fiscales [9]. Tellement sollicitées qu'un tribunal de Naples a déclaré le 24 décembre 2013 le système Redditometro contraire au respect de la vie privée (et des données personnelles). Sans pour autant parvenir à faire interdire le dispositif, qui avait été autorisé par le médiateur de la vie privée le 21 novembre 2013.
Une approche balbutiante en France, moins transparente et beaucoup plus limitée :
Ce n'est que le 6 mars 2014 [10] que la DGFiP par l'intermédiaire d'une unité rattachée à la DNEF (direction nationale des enquêtes fiscales), vient de lancer le premier traitement de données basé sur la technique de Datamining en matière de fraude fiscale. Baptisé « ciblage de la fraude et valorisation des requêtes » (CFVR), le dispositif devrait s'appuyer sur le regroupement au sein d'un entrepôt de données unique nommé EDEN (2) [11] de onze traitements de données préexistants, combinant données personnelles et données professionnelles. La mission qui en sera chargée dénommée « Requêtes et valorisation » aura 6 mois pour convaincre. Elle devrait s'appuyer au-delà de la consultation du nouveau traitement EDEN (actif depuis 2014), de données issues des résultats de traitement, avec recoupement avec les identifiants SIREN, SIRET, dénomination et critères à risques.
Mais plusieurs facteurs viennent rapidement limiter la « productivité » envisagée du nouveau dispositif :
- La CNIL a imposé une conservation maximale des informations de 4 ans (1 an en ligne et 3 ans en archives) pour les données personnelles, alors que la durée maximale devrait être celle relative aux contrôles fiscaux potentiels (soit 10 ans).
- Il n'y a pas contrairement aux autres pays, d'opération transparence sur les performances attendues du système. Par ailleurs, le ministère ne communique pas sur les savoir-faire employés : le traitement aura-t-il une vocation purement interne, utilisera-t-il des développements sur des logiciels open-source pour des supports apportés par des prestataires privés ayant fait leurs preuves (il ne sert pas toujours de réinventer la roue) ?
- On ne voit pas bien l'existence de connexions avec des fichiers autres que fiscaux. L'exemple italien par exemple a permis de définir des critères (près de 100) basés sur l'interconnexion avec des réseaux bancaires, mais aussi des fichiers sociaux ou clients afin de développer l'efficacité de leur système de contrôle global.
- Plus grave, il ne s'agit pas à proprement parler d'un outil de profilage. L'avis de la CNIL précise « les éléments qui en seront issus n'auront qu'une valeur de signalement parmi d'autres à la disposition des services fiscaux et ne conduiront en aucun cas à une programmation automatique des contrôles ni a fortiori à des décisions de redressement directement opposables aux contribuables. »
Cela veut donc dire que le nouveau traitement ne conduira pas à réorienter la stratégie du contrôle fiscal. Cela peut traduire dans un premier temps l'existence d'une simple phase de test. Mais de façon beaucoup plus substantielle, cela pose le problème bien relevé dans le cas Belge ou dans le cas Italien, du lien entre signalement des aberrations ou des incohérences et déclenchement d'un contrôle fiscal ou refus (cas britannique) du paiement de certains remboursements. Si l'on veut générer des gains supplémentaires en termes de temps de réaction, de montants redressés et de ressources humaines (moins de personnel opérationnel), il faudra qu'au contraire on parvienne :
- À couvrir l'ensemble de la population ciblée en fonction des impôts contrôlés ;
- Parvenir à de vrais gains de temps, passer d'une logique de mois à une logique de semaines voire de jours (exemple du cas belge par exemple) ;
- Aboutir à une véritable orientation des contrôles qui découlent de ces signalements ou bloquer la rétrocession de sommes indues (donc agir dès la réception de la demande de remboursement) ce qui devrait aboutir à une amélioration de la trésorerie de l'État ;
- Intégrer des éléments de train de vie (éléments de situations professionnelles et économiques), recoupement avec la perception de minima ou de transferts sociaux (chômage, famille, etc.) sur une base géographique (ce que ne semble pas prévoir le modèle français, mais que prévoient les dispositifs britannique, belge, italien par exemple)…
- Y ajouter une dimension internationale avec partage d'informations en intégrant le principe au niveau européen de l'échange automatique d'information. Là aussi les signalements et demandes d'éléments complémentaires pourraient se voir intégrer selon une présentation standardisée.
On comprend bien qu'à ce niveau d'agrégation c'est sans doute les autorisations CNIL qui vont parvenir à faire défaut. Le modèle français de contrôle reposant comme l'évoquait récemment le directeur de SAS France sur le « flair des inspecteurs » s'en trouverait alors conforté au mépris du principe d'économie et de performance du contrôle fiscal lui-même.
Les logiciels britanniques et américains s'intéressent aux déclarations rectificatives et aux remboursements fiscaux (TVA/fiscalité directe)Développé à partir de 2009 (et lancé en 2010) par la firme BAE systems [12] pour un coût de 45 millions de livres, le dispositif ‘Connect' a permis de dégager pour 2 milliards de recettes supplémentaires pour l'année fiscale 2011-2012 et devrait générer 22 milliards de livres additionnels à compter de l'exercice 2014-2015 [13]. Dès l'année de son lancement, cet outil a permis de dégager 600 millions de livres de recettes supplémentaires dont 330 millions de gains sur le segment TVA (sommes collectées non décaissées) et 151 millions de non demandes de remboursement frauduleux additionnels, 118 millions de livres étant dégagés sur la fiscalité directe. Les fraudes à la TVA sont ainsi passées de 15,7% en 2002 à 9,5% en 2012, les remboursements d'impôts frauduleux baissant de 9,2% à 4,4% entre 1997 et 2011 et les escroqueries aux indemnités chômage de 13,2% à 4,6% sur la même période. Même mouvement aux États-Unis avec la mise en place par le département du Trésor (dont dépend l'IRS) de la plateforme MeF (Modernized electronic Filing), permettant de vérifier les incohérences dans les déclarations fiscales rectificatives dès 2006. À la clé, une baisse de 20% du montant des fraudes constatées, soit une baisse annuelle moyenne de 6,7%/an permettant de récupérer environ 70 milliards d'euros de recettes supplémentaires pour l'année 2010.
Conclusion :
Face à un univers de ressources rares et de compétition fiscale accrue, le contrôle fiscal se doit de développer les dispositifs massifiant et croisant les bases de données permettant d'optimiser les contrôles, qu'il s'agisse de contentieux TVA, des contribuables personnes physiques ou personnes morales, ou des abus commis par certains tiers déclarants (notamment s'agissant des entreprises externalisant leurs obligations de déclaration dans les systèmes de retenue à la source, question qui peut se poser en Europe en général mais pas en France où le système repose toujours sur l'imposition sur rôles).
Le véritable enjeu pour le fisc réside sur l'automatisation des opérations de vérification élargies à l'ensemble de la population et des contribuables domiciliés sur son territoire, en adéquation avec les nouveaux principes d'échanges automatiques d'information entre pays répondant aux standards européens mais également OCDE. L'exemple Belge montre que la vérification « à l'ancienne » ne tient plus, notamment s'agissant des fraudes à la TVA et des montages de type carrousel. La France en la matière a accumulé un retard certain. Le reproche se reporte mécaniquement s'agissant des fraudes aux impositions directes et aux prestations sociales comme en témoigne l'exemple britannique, mais également américain relative à l'expérience relative aux prestations familiales à Los Angeles, ou en matière de remboursement d'impôts à New York (par l'intermédiaire du traitement IBM Tax Audit and Compliance System) où les refus de remboursement d'impôt ont permis d'économiser près de 200 millions de dollars/an sans dépense de personnel supplémentaire [14]. Le problème réside alors dans l'utilisation adéquate des données provenant des transactions dématérialisées, de l'importance de la durée d'exploitation et de stockage de ces données (afin de rendre les systèmes plus agiles et intelligents [15]) et au caractère plus ou moins invasif des dispositifs choisis, le cas italien représentant pour le moment sans doute une limite. L'ensemble de ces considérations ne doit pas pour autant nous faire oublier les limites posées par la CNIL qui pourraient faire échec à un déploiement optimal du dispositif en France :
- Pas de recoupement programmé en direction des fichiers sociaux, or ce recoupement permettrait seul de définir des cellules de revenus autres que celles déclarées sur le plan fiscal, et permettrait d'affiner les éléments de train de vie dont les revenus sociaux et de transfert font nécessairement partie.
- Une limite dans la conservation de données extrêmement forte (seulement 4 ans dont 1 seul pour la consultation), ce qui limite les possibilités de calibrage de l'outil.
- Une absence de demande automatique d'éclaircissement, qui serait pourtant bienvenue afin de décharger les équipes de vérification et de contrôle, et de développer une action préventive très en amont des contrôles eux-mêmes (permettant notamment de repérer les erreurs les plus grossières et permettant des rectifications dans les meilleurs délais).
- La Fondation iFRAP estime nécessaire qu'au moins un rapport par an sur le suivi de l'outil après sa phase d'expérimentation de 6 mois permette d'obtenir un juste retour sur sa performance et son éventuelle pérennisation. Cette publication permettrait de bien comprendre les enjeux retenus par la mission. Les exemples étrangers montrent que c'est par la TVA que les montants rappelés les plus importants pourraient être encaissés à court terme, les impôts directs suivant dans la foulée.
- Enfin, il faudrait également évaluer en termes d'heures de vérification ou de contrôle évitées, la performance du dispositif lorsqu'il entrera en phase opérationnelle. Il pourrait aboutir ainsi à dégager de substantiels gains de productivité permettant d'ajuster à due concurrence la masse salariale des services et les recentrer sur les fraudes les plus complexes.
[1] BCG, The value of our digital identity, 2013, p.84-85.
[2] Cour des comptes, Les services de l'État et la lutte contre la fraude fiscale en particulier p.12.
[3] On consultera utilement l'interview de Cécile de Barsy, Le Soir, samedi 15 dimanche 16 mars 2014, p.27
[4] Se reporter au site Acteurs Publics
[5] Magazine Le Parisien du vendredi 18 avril 2014, Comment l'État perd 10 milliards d'euros par an.
[6] On se reportera à l'article de The Economist, 8 janvier 2013, Big Government meets big data
[7] Voir en particulier les trois circulaires interprétatives, circolare N.1/E du 15 febbraio 2013, circolare N.24/E du 31 Iuglio 2013 et circolare N.6/E du 11 marzo 2014.
[8] Permettant très rapidement d'élaguer les premières incohérences apparentes et de présélectionner les dossiers méritants des vérifications approfondies.
[9] Il faut dire qu'avec un manque à gagner fiscal de 285 milliards d'euros (soit 18% du PIB), pour 43 millions de contribuables dont 6 millions sont des indépendants, le fisc Italien s'est vu contraint de prendre des mesures radicales.
[10] Mais faisant l'objet d'une délibération de la CNIL n°2014-045 du 30 janvier 2014, à propos d'un projet d'arrêté du 21 mars 2014 NOR : BUDE1405018A « portant création par la direction générale des finances publiques d'un traitement automatisé de lutte contre la fraude dénommé « ciblage de la fraude et valorisation des requêtes ».
[11] Il s'agit en réalité du second dispositif EDEN, le premier ayant été créé en 2005. Les traitements concernés seraient ADELIE, MEDOC, FNDP, Obligation déclarative des domiciliantes, BODACC, REBECA, TSE, SIR, ALPAGE, COMPAS (présence d'un compte bancaire à l'étranger) et SIRIUS-PRO. Les développements sont consultables via la délibération de la CNIL n°2013-302 du 15 octobre 2013 et de l'arrêté subséquent du 4 novembre 2013 NOR : BUDE1329471A
[12] Voir, Financial Times, Lucy Warwick-Ching, Ten Ways HMRC checks if you're cheating, 16 nov 2012.
[13] Se reporter à HMRC, Levelling the tax playing field, Compliance progress report, march 2013, mais aussi, l'étude de Cap Gemini Consulting, Digital –Blue Skies or a Perfect Storm for the Taxman ? Our Take on the Impact of Digital Technologies on Tax and Welfare Fraud, 2013.
[14] Sur le sujet, consulter, New York State saves $889 million by optimizing audit case selection.
[15] C'est tout l'enjeu en particulier du droit à l'oubli, droit qui vient d'être reconnu par la CJUE à l'encontre de Google mardi 13 mai