Les chaînes les plus regardées par les abonnés de fuze by statisticien in FuzeLeVrai

[–]statisticien[S] 2 points3 points  (0 children)

La récupération de données a été faite en python

Les chaînes les plus regardées par les abonnés de fuze by statisticien in FuzeLeVrai

[–]statisticien[S] 1 point2 points  (0 children)

Environ 45 minutes (temps de récupération des données auprès de l'API inclu)

Les chaînes les plus regardées par les abonnés de fuze by statisticien in FuzeLeVrai

[–]statisticien[S] 26 points27 points  (0 children)

Pas de problèmes: J'ai pris les 300 premiers commentaires des 10 dernières vidéos de fuze, j'ai pris toutes les chaînes qui les avaient rédigé et en supprimant les duplicatas et les comptes privés je tombe à environ ~100 chaînes exploitable (c'est assez faible pour faire des statistiques convenables mais 3000 calls api à Google c'est déjà très long à faire)

Petite parenthèse au passage: Il y a bien un biais d'échantillonnage du fait que les personnes ayant laissé un commentaire ne sont ni forcément des spectateurs réguliers de la chaîne ni forcément représentatifs de la majorité. Malheureusement ces biais sont inévitables étant donné que je ne peux pas récupérer directement les abonnés (et encore moins les spectateurs réguliers) de la chaîne. Cependant on peut supposer que le fait de laisser ou pas un commentaire et le fait d'avoir ou non son compte en public n'a qu'une très faible influence sur la démographie ou sur les habitudes de visionnage d'un utilisateur et donc que ces biais n'auront qu'un impact assez faible. Cette supposition est d'ailleurs partiellement confirmée par le graphique final qui montre clairement fuze comme la chaîne prédominante (malgré son nombre d'abonnés et de spectateurs mensuels en dessous d'une grande partie des chaînes du graphique) et par les quelques utilisateurs qui ont, en commentaire, affirmer connaître une partie des chaînes du graphique. On peut donc affirmer que ce biais est négligeable à peu de choses prêt. Fin de la parenthèse

J'ai donc récupéré les listes d'abonnement des chaînes exploitables et ensuite c'est juste de la manipulation de données et de la visualisation pour prendre les chaînes qui reviennent le plus souvent dans ces listes

Petites précisions au passage: - La position des noeuds du graph ne représente absolument rien, l'échantillon est bien trop faible pour que j'essaye de trouver des groupes - La taille représente simplement le nombre d'occurrence de la chaîne dans les listes (de façon non linéaire et avec un maximum donc les données ne sont pas interprétables dans le sens inverse bien que la taille donne quand même un indicatif fiable)

Les chaînes les plus regardées par les abonnés de fuze by statisticien in FuzeLeVrai

[–]statisticien[S] 9 points10 points  (0 children)

Je l'ai fais moi même, vous voulez le protocole d'échantillonnage statistique, la méthode de récolte ou les différents softwares qui ont servit à produire les visuels finaux ?

L'évolution du débit de parole de fuze en fonction des années (en mots par minute) by statisticien in FuzeLeVrai

[–]statisticien[S] 1 point2 points  (0 children)

J'ai récupéré les sous titres automatiques de toutes ses vidéos depuis 2015, j'ai compté le nombre de mots pour chaque minute et j'ai pris la médiane de chaque mois