Utilisation de méthodes d'apprentissage automatique pour prédire la pénétration des véhicules électriques sur le marché automobile
Rapports scientifiques volume 13, Numéro d'article : 8345 (2023) Citer cet article
960 accès
2 Altmétrique
Détails des métriques
Les véhicules électriques (VE) ont été introduits comme alternative aux voitures à essence et diesel pour réduire les émissions de gaz à effet de serre, optimiser l'utilisation des combustibles fossiles et protéger l'environnement. La prévision des ventes de véhicules électriques est capitale pour les parties prenantes, notamment les constructeurs automobiles, les décideurs et les fournisseurs de carburant. Les données utilisées dans le processus de modélisation affectent considérablement la qualité du modèle de prédiction. L'ensemble de données principal de cette recherche contient les ventes mensuelles et les immatriculations de 357 véhicules neufs aux États-Unis d'Amérique de 2014 à 2020. En plus de ces données, plusieurs robots d'indexation Web ont été utilisés pour recueillir les informations requises. Les ventes de véhicules ont été prédites à l'aide des modèles de mémoire longue à court terme (LSTM) et de convolution LSTM (ConvLSTM). Pour améliorer les performances du LSTM, le modèle hybride avec une nouvelle structure appelée « Hybrid LSTM with two-dimensional Attention and Residual network » a été proposé. De plus, les trois modèles sont construits en tant que modèles d'apprentissage automatique automatisé pour améliorer le processus de modélisation. Le modèle hybride proposé fonctionne mieux que les autres modèles basés sur les mêmes unités d'évaluation, y compris l'erreur absolue moyenne en pourcentage, l'erreur quadratique moyenne normalisée, le R-carré, la pente et l'ordonnée à l'origine des régressions linéaires ajustées. Le modèle hybride proposé a été en mesure de prédire la part des véhicules électriques avec une erreur absolue moyenne acceptable de 3,5 %.
Les émissions de gaz à effet de serre augmentent rapidement dans le monde. Selon un rapport de l'Environmental Protection Agency des États-Unis publié en 2020, le secteur des transports produit environ 27 % de l'ensemble des émissions de gaz à effet de serre du pays, qui, par rapport aux autres secteurs, est celui qui émet le plus de gaz à effet de serre1. Les véhicules électriques ont été introduits comme alternative aux voitures à essence et diesel pour réduire la pollution de l'air et les émissions de gaz à effet de serre, optimiser l'utilisation des ressources énergétiques naturelles et protéger l'environnement. L'utilisation de l'électricité produite à partir de sources d'énergie renouvelables telles que le vent, l'eau et la lumière du soleil pour les véhicules électriques peut être l'une des solutions les plus efficaces pour réduire les émissions et le changement climatique2. Bien que beaucoup de temps se soit écoulé depuis l'invention des véhicules électriques, les véhicules à combustion interne sont toujours les plus populaires. Les ventes de véhicules électriques ont augmenté et en janvier 2017, le nombre total de véhicules électriques vendus dans le monde atteignait deux millions3. À l'échelle mondiale, les ventes de véhicules électriques représentaient 9 % du marché automobile en 2021, soit une multiplication par quatre par rapport à 20194.
La conception et la production de véhicules prennent du temps et nécessitent beaucoup d'investissements. Ainsi, en prédisant le nombre de ventes, les constructeurs automobiles peuvent optimiser la production. De plus, en prédisant avec précision la pénétration des véhicules électriques sur le marché, il est possible d'estimer leur impact sur la réduction de la pollution. dans les années à venir, ce qui est très important d'un point de vue environnemental. La prévision de la vente de véhicules électriques et de leur pénétration sur le marché automobile a été un problème important pour les gouvernements, les décideurs et les constructeurs automobiles pour planifier la production de véhicules électriques, définir des politiques appropriées et fournir suffisamment d'énergie et d'infrastructures.
L'objectif principal de cette recherche est d'appliquer des méthodes d'apprentissage automatique (ML) pour construire un modèle de prédiction efficace pour estimer la vente de tous les véhicules dans l'ensemble de données, la part des véhicules électriques dans chaque segment et déterminer les principaux facteurs qui influencent les ventes de chaque VE. L'effet d'un nombre limité de facteurs d'influence sur les ventes de véhicules a été examiné dans des études antérieures utilisant différents modèles. Pour cette étude, un large éventail d'informations a été collecté, y compris tous les facteurs dont les études précédentes ont prouvé qu'ils sont liés aux ventes de voitures, et elles ont été utilisées dans la modélisation. LSTM et ConvLSTM, de puissants modèles de Deep Learning (DL), ont été utilisés pour prédire les ventes de véhicules. En combinant le modèle d'attention bidimensionnel et le réseau résiduel comme modèle hybride proposé, il a été tenté d'améliorer les performances du modèle LSTM. De plus, en utilisant les informations collectées et l'analyse de sensibilité du modèle, il a été tenté de déterminer les facteurs les plus influents sur la vente de chaque VE.
La revue de la littérature de cette étude comprend deux sections générales. La première section examine les méthodes ML utilisées pour prédire les ventes de véhicules, et la deuxième section donne un aperçu des fonctionnalités utilisées dans d'autres méthodes pour prédire les ventes de véhicules électriques.
Plusieurs études ont utilisé des méthodes ML pour prédire les ventes de véhicules électriques sous forme de données de séries chronologiques. Des modèles de régression linéaire multiple et de machine à vecteurs de support (SVM) ont été comparés pour prédire les ventes de véhicules à l'aide de données annuelles, trimestrielles et mensuelles (le nombre de nouvelles immatriculations d'automobiles, le nombre de ventes d'automobiles et des indicateurs économiques tels que le produit intérieur brut (PIB), Revenu personnel disponible, indice des prix à la consommation, taux d'intérêt, taux de chômage, demande d'investissement industriel, redevance pétrolière, consommation privée et demande latente de remplacement) dans une étude de Brühl et al.5 Selon les résultats, le modèle SVM avait de meilleures performances basées sur sur les valeurs d'erreur (erreur absolue moyenne et erreur absolue moyenne en pourcentage), était plus interprétable et a donné de meilleurs résultats sur la base des données trimestrielles. Dans l'étude de Wang et al. Les techniques de ML ont été utilisées pour prédire les ventes de voitures en fonction de la quantité des ventes, des indicateurs économiques, de la population de gros, du taux de chômage, du taux de change, des prix des véhicules, des prix du pétrole et des prix des composants des véhicules. Sur la base d'unités d'évaluation (R-carré et erreur quadratique moyenne), ils ont évalué la qualité de prédiction du système d'inférence floue basé sur un réseau adaptatif (ANFIS), des réseaux de neurones artificiels (ANN) et des modèles de moyenne mobile intégrés autorégressifs ; les résultats ont montré que l'ANFIS était plus performant que les autres modèles6. Dans une autre étude, Hülsmann et al. a comparé les performances de modèles linéaires, tels que les moindres carrés ordinaires et la régression quantile, avec des méthodes de ML telles que SVM, Decision Tree, k–Nearest Neighbor et Random Forest pour prédire les ventes de véhicules. Sur la base des données mensuelles des ventes de véhicules, des immatriculations de voitures neuves et des indicateurs économiques (tels que le PIB, le revenu personnel et le Dow Jones), les méthodes de l'arbre de décision de ML ont obtenu de meilleurs résultats que les autres modèles basés sur l'erreur absolue moyenne en pourcentage (MAPE)7. .
De plus, Kitabci et al. ont analysé l'impact des politiques économiques sur les ventes de véhicules en Turquie en tant que facteur macro-environnemental par des méthodes de régression multiple et de réseaux de neurones. Ils ont évalué des facteurs tels que le taux de prêt automobile présenté par les banques, les revenus des consommateurs, les déductions fiscales faites par le gouvernement pour l'automobile, le taux d'inflation, les prix des automobiles, le taux de change de l'euro, les prix du pétrole et les publicités dépensées par les entreprises. Selon les résultats, les réseaux de neurones étaient plus précis pour prédire les ventes que les modèles de régression ; certains facteurs, dont le taux de change de l'euro, les taux des prêts automobiles offerts par les banques et les déductions fiscales du gouvernement, ont influencé les ventes d'automobiles8. Dans une autre recherche, Bas et al. appliqué des méthodes de classification ML pour prédire l'adoption des véhicules électriques à l'aide de facteurs de sourçage, de données sociodémographiques sous-jacentes et des caractéristiques du véhicule ; ils ont examiné les contributions de différents facteurs pour prédire les résultats à l'aide d'une méthode appelée "Local Interpretable Model-Agnostic Explanations". Sur la base des résultats de l'étude, les modèles ML ont produit des prédictions très précises concernant l'adoption des VE, et l'utilisation fréquente du covoiturage, la connaissance des VE et la sensibilisation à la protection de l'environnement ont été des facteurs importants pour expliquer la tendance à adopter les VE9. De plus, Zhang et al. appliqué l'analyse du spectre singulier en tant que modèle de série chronologique univarié et le modèle vectoriel d'auto-régression (VAR) en tant que modèle multivarié pour prévoir les ventes de véhicules électriques. D'après les résultats, le modèle VAR peut améliorer considérablement la précision des prévisions car il tient compte de l'effet d'indicateurs économiques, tels que les prix à la consommation, la confiance des consommateurs, les prix des producteurs, les prix du carburant et des véhicules, et les données Baidu (un indicateur de l'intérêt des consommateurs et curiosité pour les véhicules électriques)10.
Dans une autre étude, Kaya et al.11 ont utilisé le taux de change, le PIB, l'indice de confiance des consommateurs, les données de l'indice des prix à la consommation et un modèle Deep Neural Network pour prédire les ventes de véhicules ; les résultats ont révélé que ce modèle ML prédisait les ventes avec précision (sur la base de l'erreur quadratique moyenne). Dans une autre recherche, Xia et al. introduit le modèle ForeXGBoost, un système de prévision des ventes de véhicules basé sur des ensembles de données à grande échelle contenant des informations complètes sur les véhicules, y compris l'identification de la marque, le modèle, la puissance du moteur et la cylindrée. Basé sur la racine carrée de la différence logarithmique, MAPE et le temps d'exécution, le modèle XGBoost surpasse les algorithmes de référence tels que la régression linéaire et les arbres de décision d'amplification de gradient12. En utilisant des données d'enquête en ligne et des méthodes ML telles que SVM, ANN, Deep Neural Networks, Gradient Boosting Models et Random Forests, Bas et al. ont comparé différentes méthodes pour classer les acheteurs potentiels de VE et identifier les caractéristiques qui affectent l'adoption des VE. Les résultats ont montré que le modèle SVM surpasse les autres algorithmes ; ne disposer que d'informations partielles (par exemple, uniquement des facteurs socio-économiques) réduit les performances du modèle, tandis que la synergie entre plusieurs variables augmente la précision13. De plus, Saxena et al. présentent une étude qui examine l'utilisation de modèles basés sur l'apprentissage en profondeur, y compris les moyennes mobiles d'intégration autorégressive et les modèles LSTM, pour prédire l'orientation future des ventes de véhicules. Sur la base des résultats de la mise en œuvre, le MAE et l'erreur quadratique moyenne pour les prévisions de séries chronologiques basées sur LSTM ont été réduits, et ce modèle a pu prédire avec précision les ventes de véhicules écologiques14.
L'élaboration de politiques nécessite de comprendre le comportement des utilisateurs et de hiérarchiser leurs choix. Par conséquent, certaines études antérieures ont utilisé des données d'enquête pour prédire la demande de VE. Pour évaluer la demande potentielle de véhicules électriques, Beggs et al.15 ont utilisé des données d'enquête et des spécifications de véhicules, telles que la capacité en sièges, la vitesse maximale, le prix d'achat et les coûts d'exploitation. Dans une étude similaire, la demande de VE a été estimée sur la base des préférences des consommateurs pour les attributs du véhicule par Calfee et al.16 Les résultats de cette recherche ont montré que la faible performance des VE limite leur demande ; cependant, si les véhicules électriques deviennent nettement plus avancés que les autres voitures ou si l'essence devient rare, la demande pour ces véhicules augmentera.
Prédire la demande future de véhicules électriques est une question complexe. Comme la plupart des études sur les nouvelles technologies s'appuient sur des données d'enquête, les prévisions de part de marché refléteront la part dans les données d'enquête, et non la part de marché réelle. Les opinions des consommateurs et les nouvelles publiées sur les véhicules électriques influencent également les ventes de ces véhicules. D'après les recherches de Mau et al.17, les ventes de VE sont influencées par les informations publiées sur le taux de pénétration des VE, connues sous le nom d'"effet voisin". Les spécifications des véhicules électriques sont un autre facteur affectant leurs ventes. Selon l'étude de Balducci et al.18 visant à évaluer les scénarios de pénétration des véhicules électriques hybrides rechargeables sur le marché automobile, l'économie de carburant et la réduction des émissions des véhicules à moteur sont les facteurs les plus importants lors de l'achat de véhicules électriques hybrides, tandis que la puissance insuffisante du moteur, le prix élevé et le manque de fiabilité sont les principales raisons de ne pas acheter ces véhicules. De plus, Hess et al. les spécifications des véhicules d'occasion telles que le prix d'achat, les incitations à l'achat de véhicules, les miles par gallon (MPG) ou l'équivalent, le coût du carburant par an, la disponibilité du carburant, le temps de ravitaillement, l'autonomie, le coût d'entretien par an et l'accélération pour explorer les préférences des consommateurs dans le choix du le type de véhicule et le type de carburant. Les résultats ont montré que les choix des consommateurs sont influencés négativement par des facteurs tels que le prix d'achat, le coût d'exploitation et l'âge du véhicule, alors que leurs choix sont positivement influencés par des facteurs tels qu'une meilleure accélération du véhicule, les incitations à l'achat, l'autonomie et la disponibilité du carburant19.
La vente de véhicules électriques est également affectée par l'amélioration des performances des moteurs des véhicules et la réduction de la consommation de carburant. En utilisant un modèle de choix discret, Bas et al. a étudié la pénétration des véhicules électriques face aux nouvelles technologies de réduction de la consommation de carburant. Les résultats ont démontré qu'un compromis clair entre le coût d'un système à essence et les économies de carburant qu'il procure est perçu par les acheteurs potentiels20. Cependant, les acheteurs potentiels de VE ne font pas partie de cette catégorie car leur analyse coûts-avantages est défavorable en raison du faible coût de l'électricité20. De plus, les parts de marché estimées donnent une part de marché significative aux alternatives qui incluent des technologies pour réduire la consommation, en raison d'une attitude plus favorable envers les technologies respectueuses de l'environnement20. De plus, Shafiei et al. ont analysé l'impact de facteurs tels que les prix du carburant, les caractéristiques des véhicules, les préférences des consommateurs et les influences sociales sur la part de marché des véhicules électriques. Les résultats ont montré que la combinaison des prix élevés de l'essence, de la baisse des prix des VE, de la baisse des taxes sur les VE et de l'élimination des préoccupations des consommateurs concernant la recharge a l'effet le plus significatif sur la part de marché des VE21. Les recherches de Kinski et al.22 montrent que les informations liées à la recherche de véhicules sur Internet (Google Trends) ont une relation positive et significative avec les ventes de voitures.
Sur la base des recherches précédentes, les deux conclusions générales suivantes ont été tirées :
Premièrement, les méthodes ML et DL se sont avérées efficaces pour prédire les ventes de véhicules. Par conséquent, LSTM et ConvLSTM, de puissants modèles DL, ont été utilisés pour prédire les ventes de véhicules dans cette recherche. De plus, un modèle hybride a également été proposé et les trois modèles ont été comparés en termes de performances.
Deuxièmement, les facteurs et les caractéristiques qui affectent les ventes de VE ont été identifiés, et ces caractéristiques ont été collectées et utilisées dans cette recherche.
L'intelligence artificielle (IA) fait référence à la capacité des machines à percevoir, synthétiser et déduire des informations, par opposition aux animaux et aux humains qui font preuve d'intelligence23. L'apprentissage automatique, les réseaux de neurones artificiels et l'apprentissage en profondeur sont des outils importants dans le développement de systèmes d'IA et se sont avérés performants pour prédire des données de séries chronologiques telles que les ventes de véhicules. Les réseaux de neurones récurrents (RNN) sont un type de réseau de neurones qui se souviennent de ce qu'ils ont déjà traité et peuvent apprendre des itérations précédentes24. En d'autres termes, un RNN est une classe d'ANN où les connexions entre les nœuds forment un graphe orienté le long d'une séquence temporelle ; cela lui permet de présenter un comportement dynamique temporel24.
Hochreiter et Schmidhuber ont introduit le réseau LSTM, un RNN capable d'apprendre les dépendances à long terme et de prédire les données séquentielles avec une grande précision25. Un LSTM est une extension d'un RNN, capable d'apprendre des modèles à partir de longues séquences de données source en conservant une mémoire à long terme25. Les LSTM ont amélioré l'oubli des RNN. Un RNN pourrait conserver une mémoire, mais seulement pour son passé immédiat. Un LSTM, en revanche, introduit des boucles pour générer des gradients à long terme. En parcourant ses boucles, il peut découvrir des schémas à long terme25. LSTM est bon pour stocker les informations passées et fonctionne bien face aux problèmes de gradient de fuite. Lors de l'apprentissage ANN, chaque poids du réseau de neurones reçoit une mise à jour proportionnelle à la dérivée partielle de la fonction d'erreur. Les gradients de disparition se produisent lorsque les gradients deviennent extrêmement petits, empêchant efficacement le poids de changer26.
LSTM peut lier trois informations à chaque pas de temps : les données d'entrée actuelles, la mémoire à court terme qu'elle reçoit de la cellule précédente (l'état caché) et la mémoire à long terme des cellules plus éloignées (l'état de la cellule) 27. L'unité LSTM se compose d'une porte d'entrée, d'une porte d'oubli, d'une porte de sortie et d'un état de cellule. La porte d'entrée détermine la quantité d'informations qui doit être transférée de l'état de cellule candidat actuel à l'état de cellule actuel. La porte d'oubli détermine la quantité d'informations historiques à ignorer à partir de l'état de cellule précédent. Le flux de sortie des cellules vers le reste du réseau peut être contrôlé via la porte de sortie. En régulant le flux d'informations à travers les trois portes, des informations importantes sur des intervalles de temps peuvent être mémorisées. Selon les Éqs. 1–6, l'unité LSTM traite les données dans l'état de la cellule et les portes27. Reference27 fournit plus de détails.
Dans les équations ci-dessus, \(f_{t}\), \(i_{t}\) et \(o_{t}\) sont respectivement les portes d'oubli, d'entrée et de sortie ; \(C_{t}\), \(C_{t - 1}\) et \(\tilde{C}_{t}\) sont l'état actuel, précédent et candidat de la cellule ; \(\sigma\) et tanh désignent respectivement les fonctions d'activation tangente sigmoïde et hyperbolique ; les matrices de pondération interconnectées pour chaque état de porte et de cellule sont \(W_{fh}\), \(W_{ih}\), \(W_{oh}\), \(W_{Ch}\), respectivement ; \(W_{fx}\), \(W_{ix}\), \(W_{ox}\), \(W_{Cx}\) représentent les matrices de poids d'entrée dans les trois portes et l'état de la cellule, respectivement ; \(b_{f}\), \(b_{i}\), \(b_{o}\), \(b_{C}\) représentent les termes de biais respectifs ; le produit d'Hadamard (produit élémentaire) d'une matrice est noté \(\odot\)27. Selon la figure 1, la couche d'entrée est une couche LSTM avec le même nombre de neurones que les caractéristiques des données d'entrée. À l'étape suivante, une ou plusieurs couches LSTM sont définies comme couches cachées, et à l'étape finale, une couche Dense avec la fonction d'activation ReLU est définie comme couche de sortie.
Architecture du modèle LSTM.
Le modèle LSTM est puissant pour gérer la corrélation temporelle. De plus, lorsque vous travaillez avec des données de séries chronologiques avec de nombreuses caractéristiques, les performances du modèle LSTM peuvent être améliorées en convertissant les données bidimensionnelles en un tenseur tridimensionnel (Fig. 2 l'illustre), en connectant les états et en appliquant des opérations convolutives ; cette idée a été à l'origine de la création du modèle ConvLSTM28. Le réseau de neurones ConvLSTM est un réseau LSTM entièrement connecté avec une structure convolutive à l'intérieur de la cellule LSTM, qui réussit bien à prédire les données avec une corrélation temporelle. ConvLSTM fournit une extension entièrement connectée pour le transfert de données entre les états et des entrées aux états28. En d'autres termes, ConvLSTM détermine l'état futur de chaque cellule de la grille en fonction de ses entrées et des états passés des voisins ; cela peut être fait en utilisant un opérateur de convolution dans les transitions d'état à état et d'entrée à état28. Dans le modèle ConvLSTM, les données de l'unité d'entrée, les sorties de chaque cellule, les unités cachées et les portes sont disposées sous forme de tenseurs tridimensionnels. ConvLSTM a des paramètres similaires à LSTM, et la différence réside dans la façon dont les données sont transférées et la multiplication convolutive est utilisée dans les calculs, comme exprimé dans les équations. 7-1128. Reference28 fournit plus de détails.
Transformation d'une matrice 2-D en tenseur 3-D.
Dans les équations ConvLSTM, * indique l'opérateur de convolution et \(\odot\) indique le produit Hadamard. Comme le montre la figure 3, la couche d'entrée est une couche ConvLSTM, les couches cachées sont des couches Dense et ConvLSTM, et la couche de sortie est une couche Dense avec la fonction d'activation ReLU.
Architecture du modèle ConvLSTM.
Les données de séries chronologiques ont une relation temporelle significative. Dans cette recherche, les données ont été transformées en tenseurs tridimensionnels avec une fenêtre temporelle de sept mois pour maintenir la relation temporelle ; comment transformer une matrice bidimensionnelle en un tenseur tridimensionnel est illustré à la Fig. 2. En tant qu'innovation, la méthode "Two-Dimensional Attention" a été proposée dans cette recherche pour déterminer l'importance de la caractéristique de chaque voiture dans mois et d'utiliser les données pondérées dans le processus de modélisation. La méthode d'attention bidimensionnelle attribue des poids à chaque fonctionnalité dans la fenêtre temporelle en fonction de son influence sur le modèle, permettant aux fonctionnalités ayant un impact plus significatif de recevoir plus d'attention et de réduire la complexité du modèle. Le modèle d'attention unidimensionnel a été proposé pour la première fois par Bahdanau pour résoudre le problème de l'accès limité du décodeur aux informations d'entrée du modèle lorsque le vecteur codeur a une longueur fixe dans la machine de traduction29.
Dans l'architecture du modèle LSTM, illustrée à la Fig. 1, plusieurs couches LSTM sont placées à l'intérieur de la couche cachée. Lorsque le nombre de couches LSTM dans la couche cachée augmente, les couches primaires (les couches adjacentes à la couche d'entrée) ont un effet moindre sur la sortie. Les couches primaires ont bien traité les données d'entrée et appris la relation entre les données, c'est pourquoi on a essayé d'améliorer ce problème en utilisant le réseau résiduel dans le modèle hybride proposé. À l'aide du réseau résiduel, les données pondérées et les sorties des couches primaires ont été transférées aux couches finales du modèle hybride proposé, comme illustré à la Fig. 4.
Architecture primaire du modèle hybride.
Dans cette étude, chaque entrée \(x\) est représentée par une matrice \(m \times n\), où m correspond aux mois précédents dans la fenêtre (7), et n représente le nombre de caractéristiques du véhicule. Après avoir entré les données dans la première couche LSTM, le traitement est effectué selon les équations. 1–6, et l'unité cachée codée (\(h\)) avec les dimensions exactes (\(m \times n\)) est entrée dans la couche Attention. Après cela, le score d'alignement est calculé selon l'équation. (12).
Dans l'éq. (12), \(e_{i, j}\) représente le score d'alignement, \(W_{a}\) est le poids du modèle d'attention (en tant que variable entraînable), \(h\) est l'unité cachée encodée de la couche LSTM primaire, \(b_{a}\) est le biais du modèle d'attention (en tant que variable entraînable), et le signe "*" désigne le produit Hadamard. Étant donné que les données d'entrée pour la couche d'attention ont été codées par une couche LSTM à l'aide de la fonction d'activation non linéaire tanh, tanh a également été utilisée dans la couche d'attention pour faciliter la lecture des données pendant le décodage. Chaque élément de données d'entrée s'est vu attribuer un degré d'attention à l'aide de l'équation. (13).
La multiplication de la matrice d'attention \(\alpha_{i, j}\) par la matrice de données brutes \(x_{i, j}\) donne une matrice de données pondérée \(W_{i, j}\) basée sur l'équation. (14). Le signe "*" désigne le produit Hadamard.
Les données pondérées \(W_{i, j}\) sont ensuite transmises à travers trois couches de LSTM en tant que réseau résiduel ; la sortie de chaque couche est combinée avec les données pondérées à la fin du réseau résiduel et entrée dans une ou plusieurs couches LSTM. Une couche Dense avec la fonction d'activation ReLU est la couche de sortie. Un aperçu de l'architecture du modèle est illustré à la Fig. 4.
D'autres architectures ont également été essayées dans la structure du modèle hybride, mais elles n'étaient pas plus efficaces, donc seule la meilleure architecture a été mentionnée.
Dans cette étude, les VE sont considérés comme des véhicules qui utilisent des moteurs électriques pour la propulsion et incluent tous les types de VE. Pour prédire la vente de véhicules, le nombre de véhicules dans les entrepôts est un facteur influent, qui n'a pas été utilisé dans cette modélisation en raison d'un manque d'accès. Étant donné que les modèles ML sont basés sur la formation, dans cette étude, les modèles peuvent prédire les ventes de véhicules qui sont sur le marché depuis au moins 24 mois. Les véhicules émergents (véhicules qui sont sur le marché depuis moins de 24 mois) et les voitures qui ne sont pas encore entrées sur le marché n'ont pas été inclus dans la modélisation en raison de données insuffisantes pour entraîner le modèle. Par conséquent, la part des véhicules électriques sur le marché automobile est exprimée en tant que part des segments de véhicules et non en tant que part des véhicules électriques dans leur ensemble.
Un large éventail d'informations liées aux ventes de voitures a été utilisé dans cette recherche. Dans l'ensemble de données principal, toutes les données sont liées aux voitures neuves, et non aux voitures d'occasion. L'ensemble de données principal contient des informations mensuelles sur 357 véhicules, telles que la marque (ou « marque » dans le jargon de l'industrie automobile, par exemple, Benz), le modèle, la segmentation, la catégorie, les acheteurs et les ventes de différents types de voitures aux États-Unis de 2014 à 2020. D'autres informations ont été extraites sur la base des voitures de cet ensemble de données. Les données avant l'apparition de la maladie Covid-19 ont été utilisées car cette maladie a eu des effets néfastes sur l'économie mondiale.
Comme indiqué dans des études précédentes, les spécifications des véhicules sont très efficaces dans les modèles de prédiction des ventes de voitures. Les spécifications des véhicules sont modifiées chaque année. Selon la notation Alexa30 et l'exhaustivité des informations présentées sur le site Internet "Thecarconnection"31, les caractéristiques des véhicules ont été recueillies via ce site Internet. Afin de gagner du temps et d'automatiser la collecte d'informations en raison d'un grand nombre de véhicules et de l'évolution des spécifications des véhicules au fil du temps, plusieurs robots d'exploration Web ont été conçus et utilisés en langage de programmation Python pour collecter des informations sur les véhicules. Plusieurs spécifications de véhicules du segment "CAR-MID/FULL SIZE" sont présentées dans le tableau 1.
Des informations similaires sont collectées pour l'essence et les véhicules électriques ; par exemple, le MPG équivalent en véhicules électriques. Le prix, le MPG, le kilométrage maximum, la puissance du moteur et la garantie sont quelques-unes des principales caractéristiques prises en compte. Les autres spécifications ont été divisées en catégories « spécifications de sécurité » et « autres spécifications ». La catégorie des spécifications de sécurité comprend les serrures de sécurité pour enfants aux portes arrière, les airbags, les freins ABS, les feux de jour, la vision nocturne, les alertes de surveillance du conducteur, le système de freinage anticollision, le contrôle électronique de la stabilité et les faisceaux d'impact latéral. Toutes les autres caractéristiques (antipatinage, phares antibrouillard, surveillance de la pression des pneus, capteurs de stationnement, aide au stationnement et caméras de recul) ont été transférées dans l'autre catégorie de spécifications.
La deuxième série de données collectées fait référence aux avis des utilisateurs et aux actualités publiées sur des sites Web réputés mieux classés sur Alexa30. Quatre sites Web ont été examinés à cette fin : Autoblog32, Auto News33, Motor134 et The Car Connection35. Ces sites Web ont été explorés à l'aide de robots d'exploration Python pour gagner du temps et collecter automatiquement des informations. De 2014 à 2020, les actualités quotidiennes publiées ont été collectées et évaluées pour chaque type de véhicule. La méthode Valence Aware Dictionary and sEntiment Reasoner (VADER) a été utilisée pour l'analyse des sentiments du texte. Basée sur l'analyse du vocabulaire, la méthode d'analyse des sentiments VADER analyse correctement le sentiment exprimé dans les médias sociaux et les textes d'actualité. Dix évaluateurs humains indépendants ont analysé plus de 90 000 notes dans l'évaluation VADER, ce qui a conduit à l'adoption de 7 500 caractéristiques linguistiques qui ont été notées en fonction de leurs scores de valence, qui indiquent l'intensité et la polarité du sentiment36. Pour chaque véhicule, le score mensuel moyen des actualités et opinions a été calculé en fonction de leur publication quotidienne.
Une autre source efficace d'informations sur le marché des véhicules est divers indicateurs économiques. À l'aide d'un robot d'exploration Python, des informations sur plusieurs indicateurs économiques affectant le marché automobile ont été collectées sur le site Web de la Réserve fédérale37. Les indicateurs économiques comprennent le PIB, l'indice des prix à la consommation (IPC), l'indice des prix à la production, l'indice de confiance des consommateurs, le revenu personnel par habitant, les taux d'intérêt sur les prêts à 48 et 60 mois, le SP&500 et les indicateurs du marché boursier Dow Jones.
Selon les recherches de Kinski, l'utilisation des tendances de Google dans les modèles de prédiction est bénéfique et pratique22. Trois mots-clés ont été sélectionnés pour les données de tendance de Google afin d'évaluer le nombre de recherches pour chaque voiture de 2014 à 2020 et pour les États-Unis d'Amérique. Les mots-clés sont :
"Marque" + "Modèle"
"Prix" + "Marque" + "Modèle"
« Concessionnaire » + « Marque »
Toutes les voitures ont les mêmes données collectées, et les caractéristiques collectées sur une base mensuelle pour chaque voiture sont répertoriées dans le tableau 2. Plusieurs versions différentes étaient disponibles sur le marché pour certains véhicules simultanément, et certaines caractéristiques, telles que le prix et le MPG, avaient plusieurs valeurs pour ces véhicules. Pour cette raison, les valeurs collectées pour ces caractéristiques ont été divisées en trois catégories : minimum, moyenne et maximum.
La fonction de vente a été normalisée en fonction des valeurs maximales et minimales de l'ensemble de données d'entraînement. D'autres fonctionnalités sont normalisées en fonction de la moyenne et de l'écart type de chaque fonctionnalité dans l'ensemble d'apprentissage. Les données d'entrée des modèles sont considérées comme des fenêtres de sept mois pour maintenir la corrélation temporelle. Par exemple, dans le mois en cours, les données des sept derniers mois sont entrées (X) et la vente du mois en cours est sortie (Y). Pour ce faire, des matrices de données de sept mois ont été placées consécutivement dans la troisième dimension d'un tenseur tridimensionnel.
Étant donné que les données de la série chronologique de cette étude sont mensuelles, onze colonnes binaires ont été ajoutées à l'ensemble de données pour refléter l'effet de chaque mois (au cours du premier mois de chaque année, la colonne correspondant au premier mois est définie sur 1, et la la colonne des autres mois est mise à 0). Un exemple de ces données binaires est présenté dans le tableau 3.
Pour la plupart des véhicules, les données incluent 79 mois (de janvier 2014 à juillet 2020). Selon la figure 5, les 14 derniers mois sont sélectionnés pour l'ensemble de tests en tant que validation croisée glissante. L'utilisation de la validation croisée sur une base continue est un moyen de valider le modèle de série chronologique. Commencer par un sous-ensemble de données pour la formation, prévoir des points de données ultérieurs, puis vérifier l'exactitude des prévisions. Les mêmes points de données prévus sont inclus dans l'ensemble de données de formation suivant, et d'autres prévisions sont effectuées.
Fractionnement de l'ensemble de données en ensembles d'entraînement, de validation et de test.
Le modèle est validé à l'aide de 12 étapes de prévision, chaque étape prédisant les ventes au cours des trois prochains mois. Lors de chaque étape de prédiction, les mois précédents sont divisés en apprentissage et validation (70% pour l'apprentissage et 30% pour la validation. Ensuite ces données sont transférées au modèle, le modèle prédit les ventes des trois prochains mois, puis la date de prévision est déplacée d'un mois, et ce processus a été répété 12 fois. Les ventes de véhicules au cours des trois prochains mois sont prédites à chaque fois que le modèle est exécuté, en supposant que la plupart des caractéristiques du véhicule restent les mêmes. En raison des fluctuations et des changements dans les conditions économiques, un -horizon temporel mois est utilisé pour prédire l'avenir.
Le surajustement est l'un des principaux problèmes de la formation ANN. Les couches Dropout entre les couches du réseau de neurones sont l'une des meilleures solutions dans l'ANN pour éviter le surajustement. Au cours de la couche de décrochage, le nombre de neurones entraînés dans chaque couche et ceux rejetés est déterminé aléatoirement (plutôt que d'activer tous les neurones à la fois, seule une fraction est activée)38. L'outil d'arrêt précoce de TensorFlow est une autre solution de base pour éviter le surajustement. L'arrêt précoce fonctionne de la manière suivante : lors de la répétition de l'entraînement, les données de validation sont utilisées pour calculer la valeur d'erreur, et chaque fois que la valeur d'erreur de validation augmente sur plusieurs époques, le modèle est prêt à être arrêté et le surajustement est évité. Pour les trois modèles, les deux solutions sont utilisées pour éviter le surajustement. La réduction de la dimensionnalité est un autre moyen d'empêcher le surajustement du modèle. Dans cette étude, l'analyse en composantes principales a été utilisée dans plusieurs modes pour réduire les dimensions, mais cette technique n'a pas été utilisée en raison de la diminution significative des performances du modèle.
Afin d'améliorer le processus de modélisation, les valeurs d'hyperparamètres et les architectures de réseau des trois modèles ont été déterminées par Automated Machine Learning (AutoML). AutoML est le processus d'automatisation des applications de ML. Le nombre de couches cachées, le nombre de neurones dans ces couches et le taux d'abandon ont été déterminés par les Tuners. Plusieurs valeurs sont introduites dans le Tuner pour chaque hyperparamètre. Le tuner forme différentes versions de modèle et sélectionne la meilleure en fonction du meilleur résultat (erreur ou perte la plus faible) sur les données de validation. Cette méthode définit les hyperparamètres sur la valeur optimale, puis le modèle est appliqué à un jeu de données de test.
L'erreur ou la perte du modèle est calculée à l'aide de la fonction de perte de l'erreur absolue moyenne (MAE) dans les trois modèles. La sélection d'un algorithme d'optimisation approprié pour le modèle DL est essentielle pour réduire le temps d'exécution et atteindre le résultat souhaité. L'algorithme d'optimisation d'Adam est utilisé pour ces modèles, qui est une version généralisée de la descente de gradient stochastique. Il réduit l'utilisation de la mémoire, converge plus rapidement et corrige les écarts élevés et les taux d'apprentissage39.
Avec les données de validation, les hyperparamètres sont ajustés et le modèle est construit pour prédire les ventes de véhicules au cours des trois prochains mois (trois mois après la dernière date de validation). La durée d'exécution du modèle pour tous les véhicules était très longue en raison des nombreux types de véhicules (357). Dans un échantillon aléatoire de 15 véhicules, les états de différents modèles ont été comparés à l'aide de données fixes, et les résultats ont été comparés entre les trois modèles.
La vente de chaque véhicule est prévue en 12 étapes ; chaque étape de prédiction comprend la prédiction pour les trois prochains mois, respectivement, le premier mois de la prédiction, le deuxième mois de la prédiction et le troisième mois de la prédiction. Au total, les premières prévisions incluent 12 mois, les deuxièmes prévisions incluent 12 mois et les troisièmes prévisions incluent 12 mois. Les performances du modèle ont été évaluées à l'aide de l'erreur moyenne absolue en pourcentage (MAPE), de l'erreur quadratique moyenne normalisée par la plage de variation (\(NRSME_{plage}\)) et de l'erreur quadratique moyenne normalisée par la valeur moyenne (\(NRSME_ {moyenne}\)) selon les équations. 15–18.
Selon les équations ci-dessus, \(y_{t}\) désigne la valeur réelle au temps t, \(\hat{y}_{t}\) désigne la valeur prédite au temps t, \(y_{max}\ ) désigne la valeur réelle maximale, \(y_{min}\) désigne la valeur réelle minimale, \(y_{mean}\) désigne la valeur réelle moyenne et T est égal au nombre total d'échantillons prédits. Les valeurs d'erreur moyennes de tous les véhicules ont été calculées pour comparer les résultats de divers modèles. Une moyenne pondérée a été calculée en utilisant le nombre total de ventes de chaque voiture par mois comme poids du véhicule selon l'équation. (19) car les nombres de ventes de véhicules ne sont pas à la même échelle, et le taux d'erreur est plus important dans les véhicules dont les ventes sont élevées. Une autre méthode de vérification des performances des modèles consiste à comparer le R-carré, la pente et l'ordonnée à l'origine des régressions linéaires ajustées sur les données prédites et observées pour les trois modèles. Le tableau 4 résume les résultats de l'évaluation des modèles.
Dans le modèle hybride proposé, les valeurs d'erreur sont plus faibles, la précision R-carré est plus élevée, la valeur de la pente est plus proche de 1 et l'ordonnée à l'origine est plus proche de 0. À ce stade, le modèle hybride proposé a été reconnu comme préférable aux deux les modèles LSTM et ConvLSTM.
Pour tous les véhicules, le modèle hybride proposé a été mis en œuvre et 12 points de prédiction ont été utilisés pour déterminer la vente de tous les véhicules. La régression linéaire a été ajustée sur les ventes prévues et les valeurs réelles pour évaluer les performances du modèle, comme indiqué dans le tableau 5.
Les données principales segmentent les véhicules par spécifications selon des segments tels que CAR-SMALL_COMPACT, CAR-MID_FULL SIZE, MINIVAN LARGE et PICKUP LARGE. Chaque segment se compose de véhicules similaires en apparence et en spécifications qui se font concurrence. Les segments qui incluent les véhicules électriques ont été séparés pour déterminer la part des véhicules électriques. Sur la base des ventes réelles et prévues, les parts des véhicules électriques et à essence ont été comparées et évaluées pour chaque mois des données de test. Par exemple, le segment CAR-MID/FULL-SIZE comprend 28 véhicules (23 véhicules à essence et cinq véhicules électriques). La figure 6 montre la part des véhicules électriques dans ce segment sur la base de douze étapes de prédiction (trois mois par étape), séparément pour les premier, deuxième et troisième mois de chaque prédiction.
(a) Part des véhicules électriques dans CAR-MID/FULL-SIZE sur la base du premier mois de chaque prévision. (b). Part des véhicules électriques dans CAR-MID/FULL-SIZE en fonction du deuxième mois de chaque prévision. (c) Part des véhicules électriques dans CAR-MID/FULL-SIZE basée sur le troisième mois de chaque prévision.
Les MAE de tous les segments pour les prévisions de part des véhicules électriques au cours des premier, deuxième et troisième mois de la prévision sont présentées dans le tableau 6. La valeur MAE moyenne de tous les segments a été calculée à 3,2 % pour les premiers mois, 3,8 % pour les deuxièmes mois et 3,5% pour les troisièmes mois. La valeur moyenne pour tous les segments et tous les mois de prévision a été calculée à environ 3,5 %, ce qui montre que le modèle hybride proposé a bien fonctionné.
Dans le cadre de l'analyse du modèle, les segments qui comprenaient les véhicules électriques ont été à nouveau séparés et classés en fonction des ventes au sein de chaque segment. Les classements étaient basés sur les ventes réelles (rang réel) et les ventes prévues (rang prédit); le rang réel et le rang prévu ont été utilisés pour l'évaluation. La corrélation de Kendall-Tau (corrélation de Kendall) est couramment utilisée pour vérifier la concordance de deux listes classées ; cette technique a été utilisée pour examiner les classements réels et prédits dans cette étude. Le taux de corrélation de Kendall pour deux listes de notation \(r_{a}\) et \(r_{b}\) (\(\tau_{{r_{a} , r_{b} }}\)) est représenté par l'équation. (20) 40.
Dans l'éq. (20), \(n_{c}\) représente le nombre de paires concordantes, \(n_{d}\) représente le nombre de paires discordantes et n représente le nombre total de rangs dans chacune des listes de classement40. Le nombre maximum de paires discordantes entre deux classements est égal à \(\frac{1}{2} n\left( {n - 1} \right)\), et la corrélation de Kendall est égale à + 1 si toutes les paires de rangs sont concordantes et -1 si aucun n'est concordant 0,76 pour les premiers mois, 0,742 pour les deuxièmes mois et 0,75 pour les troisièmes mois. La valeur moyenne de corrélation de Kendall pour tous les segments et tous les mois de prévision a été calculée à environ 0,75, ce qui indique la grande performance du modèle hybride proposé pour prédire le classement.
Une analyse de sensibilité a été effectuée pour déterminer quelles caractéristiques avaient un impact significatif sur le modèle formé. Ainsi, pour chaque véhicule, le modèle pré-entraîné qui a été évalué dans les étapes précédentes a de nouveau prédit le nombre de ventes de véhicules avec de nouvelles données d'entrée, et ses sorties ont été évaluées. Toutes les caractéristiques, à l'exception de la caractéristique étudiée, sont évaluées à leur moyenne. Pour la caractéristique étudiée, les cinq valeurs des données d'apprentissage (la valeur minimale, le premier quartile, le deuxième quartile, le troisième quartile et la valeur maximale) sont prises en compte. Cinq prédictions ont été faites sur la base de ces cinq valeurs, et une gamme de changements dans les ventes prévues a été calculée. Les plages de changement pour toutes les caractéristiques ont été mesurées et les quatre caractéristiques avec la plage la plus étendue ont été identifiées. À titre d'exemple, lors de l'analyse de sensibilité de la BMW I3 pour 2020, les quatre caractéristiques suivantes présentaient la plus large gamme de changements : l'indice des prix à la consommation (IPC), le MPG équivalent pour les véhicules électriques, le score de recherche Google pour les prix des voitures (Google Trends ), et le prix de la voiture. Les tracés d'analyse de sensibilité de cet EV sont illustrés à la Fig. 7.
(a) Diagramme d'analyse de sensibilité de la caractéristique influente 1 pour BMW I3. (b) Diagramme d'analyse de sensibilité de la caractéristique influente 2 pour BMW I3. (c) Diagramme d'analyse de sensibilité de la caractéristique influente 3 pour BMW I3. (d) Diagramme d'analyse de sensibilité de la caractéristique influente 4 pour BMW I3.
Basé sur l'éq. (21), les valeurs de pente pour les quatre caractéristiques avec la gamme de changements la plus étendue sont calculées dans différentes parties du graphique, et les résultats sont résumés dans le tableau 8. Par exemple, le nombre de ventes de ce VE a diminué de 8 pour chaque augmentation de prix de mille dollars lorsque le prix se situe dans la fourchette de la valeur minimale jusqu'au premier trimestre. Comme la pente est de zéro pour cent dans les deuxième et troisième parties du graphique, le prix dans les premier, deuxième et troisième quartiles est égal, et lorsque le prix est dans le troisième quartile au prix maximum, le nombre de ventes pour ce EV diminue de 6 pour chaque augmentation de prix de mille dollars.
Il y a eu une baisse des ventes de voitures en raison de l'augmentation de l'IPC. Il est également vrai qu'avec l'augmentation de l'IPC, le prix final de la voiture et le prix des pièces automobiles ont augmenté, ce qui a entraîné une diminution du désir d'acheter cette voiture. La deuxième caractéristique est le MPG équivalent pour les véhicules électriques, un MPG équivalent plus élevé indiquant de meilleures performances et une consommation de carburant moindre sur une distance fixe a entraîné une augmentation des ventes de cette voiture. La troisième caractéristique identifiée est l'augmentation du score de recherche de prix de voiture sur Google (Google Trend), un indicateur que les acheteurs sont plus curieux à propos de cette voiture, contribuant à ses ventes. La quatrième caractéristique spécifiée de la voiture est son prix, et ses ventes ont diminué avec l'augmentation de son prix. À la suite de l'analyse de sensibilité, les constructeurs de cette voiture pourraient utiliser des politiques telles que la baisse du prix de la voiture et de ses pièces (IPC et prix de la voiture), l'amélioration des performances du moteur du véhicule (le MPG équivalent) et le développement de publicités et présenter la voiture au public (score de tendance Google) pour augmenter les ventes.
Une analyse de sensibilité a été effectuée pour chaque véhicule électrique et les résultats montrent une sensibilité différente pour chaque véhicule. Dans chaque segment comprenant des véhicules électriques, un véhicule a été sélectionné comme échantillon et les résultats de son analyse de sensibilité sont présentés dans le tableau 9.
L'analyse de sensibilité de chaque EV identifie les caractéristiques qui diffèrent des autres, comme indiqué dans le tableau 9. Selon les résultats de l'analyse de sensibilité, dix caractéristiques les plus fréquemment trouvées dans l'analyse de sensibilité de tous les EV ont été identifiées comme les caractéristiques les plus influentes : Acheteurs, Prix minimum, IPC, Ventes, Google Trends score 3 (Prix), Score des nouvelles de la marque et du modèle, Revenu personnel par habitant, Score des nouvelles de la marque, Taux d'intérêt sur 60 mois et Score moyen des options, respectivement.
Cette étude aborde un sujet important d'un point de vue commercial. Les constructeurs automobiles peuvent bénéficier de cette recherche en comprenant leur part de marché et l'effet des prix et des spécifications du véhicule sur la part de marché. Ils peuvent utiliser les résultats de cette étude pour analyser à la fois leur marché EV ainsi que leur marché Non-EV. Plus bas dans l'entonnoir, les concessionnaires automobiles qui opèrent dans un environnement hautement concurrentiel peuvent élaborer des stratégies pour leurs événements de vente, leurs campagnes de marketing et leurs remises pour atteindre leurs objectifs commerciaux et cibler leurs ventes. Enfin, le modèle permet au secteur public de comprendre l'effet des politiques fiscales sur la part des véhicules électriques au cas où ils souhaiteraient en faire la promotion.
Cette étude a utilisé des méthodes ML pour développer un modèle de prédiction qui a estimé la vente de toutes les voitures dans l'ensemble de données, la part des véhicules électriques dans chaque segment et identifié les principaux facteurs affectant les ventes de chaque véhicule électrique. Dans cette recherche, plusieurs robots d'indexation Web ont été utilisés pour collecter diverses données, y compris des facteurs que des études antérieures ont prouvé être associés aux ventes de VE. Les ventes de véhicules ont été prédites à l'aide de LSTM, ConvLSTM et du modèle hybride proposé (LSTM hybride avec attention bidimensionnelle et réseau résiduel). Plusieurs outils ML ont été utilisés pour améliorer la formation du modèle et le processus de modélisation, tels que la transformation de données de séries chronologiques bidimensionnelles en tenseurs tridimensionnels, les couches Dropout, les outils d'arrêt précoce et AutoML. En raison de la variété des types de voitures et de la longue durée de vie des modèles, une sélection aléatoire de quinze types de voitures a été effectuée. Les trois modèles sont évalués sur la base des mêmes unités d'évaluation : le MAPE, NRSME_range et NRSME_mean, R-carré, la pente et l'ordonnée à l'origine des régressions linéaires ajustées ont également été évalués. Les valeurs d'erreur moyennes au cours des trois mois de prévision étaient les suivantes :
La valeur MAPE du modèle hybride proposé était de 4,5 % inférieure à celle du modèle LSTM et de 14,4 % inférieure à celle du modèle ConvLSTM.
La valeur NRSME_range du modèle hybride était inférieure de 0,11 à celle du modèle LSTM et de 0,22 inférieure à celle du modèle ConvLSTM.
La valeur NRSME_mean du modèle hybride était de 0,079 inférieure à celle du modèle LSTM et de 0,169 inférieure à celle du modèle ConvLSTM.
À la suite de l'ajustement des régressions linéaires aux valeurs prédites et réelles, pour les trois mois de prévisions, le modèle hybride proposé a une valeur R-carré plus élevée, sa pente est plus proche de un et son interception est plus proche de zéro, ce qui indique que le modèle hybride a mieux performé que les deux autres. En comparant les modèles, il a été constaté que le modèle hybride proposé fonctionnait mieux que les autres modèles et a été sélectionné pour prédire la vente de tous les véhicules dans l'ensemble de données. Sur la base de la régression linéaire ajustée aux ventes prévues et aux ventes réelles de tous les véhicules, les valeurs R-carré pour les premier, deuxième et troisième mois de prévision étaient de 0,912, 0,906 et 0,917.
Les ventes prévues de tous les véhicules ont été utilisées pour calculer la part prévue de véhicules électriques dans chaque segment et les comparer aux valeurs réelles. Dans tous les segments et mois de prévision, la valeur MAE moyenne pour la part des véhicules électriques est d'environ 3,5 %, et le modèle hybride a prédit avec précision la part des véhicules électriques dans tous les segments. Pour analyser plus en détail les résultats du modèle, les voitures ont été classées en fonction du nombre de ventes réelles et prévues dans chaque segment. La valeur moyenne de corrélation de Kendall pour tous les segments et tous les mois de prévision a été calculée à environ 0,75, ce qui indique la haute performance du modèle hybride proposé pour prédire le classement.
L'analyse de sensibilité a été réalisée pour évaluer davantage le modèle et identifier ses caractéristiques les plus influentes. Les résultats ont montré que l'analyse de sensibilité de chaque véhicule électrique identifie des caractéristiques qui diffèrent des autres. Selon l'analyse de sensibilité de la BMW I3 pour 2020, les quatre caractéristiques suivantes ont été les plus touchées : l'indice des prix à la consommation, le MPG équivalent pour les véhicules électriques, le score de recherche Google et le prix de la voiture. À la suite de l'analyse de sensibilité, les constructeurs de cette voiture pourraient utiliser des politiques telles que la baisse du prix de la voiture et de ses pièces, l'amélioration des performances du moteur, le développement de publicités et une meilleure présentation de la voiture pour augmenter les ventes (voir les tableaux annexes A1 à A4.2, figure A1).
Cette recherche a abouti aux réalisations suivantes :
Une grande variété de facteurs ont été collectés et utilisés comme variables pour modéliser la vente de véhicules électriques.
LSTM et ConvLSTM, de puissants modèles DL, ont été utilisés pour prédire les ventes de véhicules. En combinant le modèle d'attention bidimensionnel et le réseau résiduel, les performances du modèle LSTM ont été améliorées et le modèle hybride innovant a obtenu de meilleurs résultats que les deux autres.
Les EV diffèrent en termes de facteurs les plus influents pour les ventes en fonction des résultats de l'analyse de sensibilité. Les dix caractéristiques qui sont apparues le plus dans l'analyse de sensibilité de tous les véhicules électriques ont été identifiées comme les plus influentes, notamment Shoppers, Min price, CPI, Sales, Google Trends score 3 (Price), News score for make and model, Personal income per capita , le score des nouvelles pour la marque, les taux d'intérêt sur 60 mois et le score moyen des options, respectivement.
L'ensemble de données principal a été extrait d'Autometrics et d'autres données ont été collectées à l'aide de robots d'exploration Web. Les données sont disponibles auprès de l'auteur correspondant sur demande raisonnable.
https://www.epa.gov/ghgemissions/inventory-us-greenhouse-gas-emissions-and-sinks (2020).
MacInnis, B. & Krosnick, J. Climate Insights 2020 : Véhicules électriques. (2020).
https://theicct.org/the-rise-of-electric-vehicles-the-second-million/ (2020).
https://www.iea.org/fuels-and-technologies/electric-vehicles (2022).
Brühl, B., Hülsmann, M., Borscheid, D., Friedrich, CM & Reith, D. dans Conférence industrielle sur l'exploration de données. 146–160 (chevaliers).
Wang, F.-K., Chang, K.-K. & Tzeng, C.-W. Utilisation d'un système d'inférence floue basé sur un réseau adaptatif pour prévoir les ventes d'automobiles. Système expert. Appl. 38, 10587–10593 (2011).
Article Google Scholar
Hülsmann, M., Borscheid, D., Friedrich, CM & Reith, D. Modèles généraux de prévision des ventes pour les marchés automobiles et leur analyse. Trans. Mach. Apprendre. Données min. 5, 65–86 (2012).
Google Scholar
Kitapcı, O., Özekicioğlu, H., Kaynar, O. & Taştan, S. L'effet des politiques économiques appliquées en Turquie à la vente d'automobiles : analyse de régression multiple et de réseaux de neurones. Procedia Soc. Comportement Sci. 148, 653–661 (2014).
Article Google Scholar
Bas, J., Zou, Z. & Cirillo, C. Une approche d'apprentissage automatique interprétable pour comprendre les impacts des facteurs d'attitude et de covoiturage sur l'adoption des véhicules électriques. Transp. Lett. 15, 30–41 (2023).
Article Google Scholar
Zhang, Y., Zhong, M., Geng, N. & Jiang, Y. Prévision des ventes de véhicules électriques avec des modèles de séries temporelles univariées et multivariées : le cas de la Chine. PLoS ONE 12, e0176729 (2017).
Article PubMed PubMed Central Google Scholar
Kaya, SK et Yıldırım, Ö. Un modèle de prédiction des ventes d'automobiles en Turquie utilisant des réseaux de neurones profonds. Génie industriel 31, 57–74 (2020).
Google Scholar
Xia, Z. et al. ForeXGBoost : prévision des ventes de voitures particulières basée sur XGBoost. Distrib. Bases de données parallèles 38, 713–738 (2020).
Article Google Scholar
Bas, J., Cirillo, C. & Cherchi, E. Classification des acheteurs potentiels de véhicules électriques : une approche d'apprentissage automatique. Technol. Prévision. Soc. Chang. 168, 120759 (2021).
Article Google Scholar
Saxena, P., Bahad, P. & Kamal, R. Modèle basé sur la mémoire à court terme longue-RNN pour la prévision multivariée des ventes de voitures. Int. J. Adv. Sci. Technol. 29, 4645–4656 (2020).
Google Scholar
Beggs, S., Cardell, S. & Hausman, J. Évaluation de la demande potentielle de voitures électriques. J. Econom. 17, 1–19 (1981).
Article Google Scholar
Calfee, JE Estimation de la demande d'automobiles électriques à l'aide d'une analyse de choix probabiliste entièrement désagrégée. Transp. Rés. Partie B Méthodologie. 19, 287-301 (1985).
Article Google Scholar
Mau, P., Eyzaguirre, J., Jaccard, M., Collins-Dodd, C. & Tiedemann, K. « L'effet voisin » : simulation de la dynamique des préférences des consommateurs pour les nouvelles technologies automobiles. Écol. Écon. 68, 504–516 (2008).
Article Google Scholar
Balducci, Scénarios de pénétration des véhicules électriques hybrides rechargeables PJ. (Pacific Northwest National Lab. (PNNL), Richland, WA (États-Unis) (2008).
Hess, S., Fowler, M., Adler, T. & Bahreinian, A. Un modèle conjoint pour le choix du type de véhicule et du type de carburant : Preuve d'une étude logit croisée. Transport 39, 593–625 (2012).
Article Google Scholar
Bas, J., Zofío, JL, Cirillo, C., Chen, H. & Rakha, HA Implications politiques et industrielles de la pénétration potentielle du marché des véhicules électriques avec régulateur de vitesse adaptatif éco-coopératif. Transp. Rés. Partie A Politique Pratique. 164, 242–256 (2022).
Article Google Scholar
Shafiei, E. et al. Une approche de modélisation à base d'agents pour prédire l'évolution de la part de marché des véhicules électriques : une étude de cas en Islande. Technol. Prévision. Soc. Chang. 79, 1638–1653 (2012).
Article Google Scholar
Kinski, A. Les tendances de Google comme outil complémentaire pour la prévision des ventes de voitures neuves : une comparaison entre pays tout au long du parcours client, Université de Twente, (2016).
https://en.wikipedia.org/wiki/intelligence_artificielle (2023).
https://en.wikipedia.org/wiki/Recurrent_neural_network (2023).
Hochreiter, S. & Schmidhuber, J. Longue mémoire à court terme. Calcul neuronal. 9, 1735–1780 (1997).
Article CAS PubMed Google Scholar
Basodi, S., Ji, C., Zhang, H. & Pan, Y. Amplification de gradient : Un moyen efficace de former des réseaux de neurones profonds. Big Data Min. Anal. 3, 196-207 (2020).
Article Google Scholar
Wei, X., Zhang, L., Yang, H.-Q., Zhang, L. & Yao, Y.-P. Apprentissage automatique pour la prédiction de séries chronologiques de pression interstitielle : application de réseaux de neurones récurrents. Géosci. Devant. 12, 453–467 (2021).
Annonces d'article Google Scholar
Shi, X. et al. Réseau LSTM convolutif : une approche d'apprentissage automatique pour la prévision immédiate des précipitations. Avancées dans les systèmes de traitement de l'information neuronale 28 (2015).
Bahdanau, D., Cho, K. & Bengio, Y. Traduction automatique neurale en apprenant conjointement à aligner et à traduire. prétirage arXiv arXiv:1409.0473 (2014).
https://www.alexa.com/ (2021).
https://www.thecarconnection.com/ (2021).
https://www.autoblog.com/news/ (2021).
https://www.autonews.com/news (2021).
https://www.motor1.com/news/ (2021).
https://www.thecarconnection.com/news (2021).
Hutto, C. & Gilbert, E. dans Actes de la conférence internationale AAAI sur le web et les médias sociaux. 216–225.
https://fred.stlouisfed.org/ (2021).
Baldi, P. & Sadowski, PJ Comprendre le décrochage. Avancées dans les systèmes de traitement de l'information neuronale 26 (2013).
Kingma, DP & Ba, J. Adam. Une méthode d'optimisation stochastique. prétirage arXiv arXiv:1412.6980 (2014).
Bachrach, Y., Herbrich, R. & Porat, E. dans Symposium international sur le traitement des chaînes et la recherche d'informations. 344-352 (Springer).
Télécharger les références
Les auteurs n'ont reçu aucun soutien financier pour la recherche, la paternité et/ou la publication de cet article.
Département des transports, École de génie civil, Université iranienne des sciences et technologies, Téhéran, Iran
Shahriar Afandizadeh & Diyako Sharifi
AECOM, Glen Allen, Virginie, États-Unis
Navid Kalantari
Département de planification des transports civils, Faculté de technique et d'ingénierie, Université internationale Imam Khomeiny, Qazvin, Iran
Hamid Mirzahossein
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Les auteurs confirment leur contribution à l'article comme suit : conception et conception de l'étude : SA, DS, NK, HM ; collecte de données : NK, DS ; analyse et interprétation des résultats : SA, DS, NK ; préparation du manuscrit : DS, HM Tous les auteurs ont examiné les résultats et approuvé la version finale du manuscrit. Les auteurs consentent à la publication de l'article soumis et de toutes les données associées et des images qui l'accompagnent
Correspondance à Shahriar Afandizadeh.
Les auteurs ne déclarent aucun intérêt concurrent.
Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Afandizadeh, S., Sharifi, D., Kalantari, N. et al. Utilisation de méthodes d'apprentissage automatique pour prédire la pénétration des véhicules électriques sur le marché automobile. Sci Rep 13, 8345 (2023). https://doi.org/10.1038/s41598-023-35366-3
Télécharger la citation
Reçu : 13 novembre 2022
Accepté : 17 mai 2023
Publié: 23 mai 2023
DOI : https://doi.org/10.1038/s41598-023-35366-3
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.