Skip to content
Snippets Groups Projects
Commit f273078e authored by daumasj's avatar daumasj
Browse files

fin

parent 2e73f879
No related branches found
No related tags found
No related merge requests found
......@@ -199,3 +199,18 @@ ks <- ks %>% filter(usd_goal_real > 1000 & (usd_pledged_real / usd_goal_real) *
ks <- ks %>% mutate(size=if_else(usd_goal_real <= 10000,'small',if_else(usd_goal_real >= 100000,'large','medium')))
ggplot(ks,aes(x = usd_goal_real)) + geom_histogram(binwidth = 100000) + scale_y_log10()
ggplot(ks,aes(x = state,fill=state)) + geom_bar() + facet_wrap(.~size,scales = 'free_y')
library(readr)
library(tidyverse)
ks <- read_csv("datasets/ks-projects-201801.csv")
ks <- ks %>% filter(usd_goal_real > 1000 & (usd_pledged_real / usd_goal_real) * 100 > 1 & backers > 1) %>% filter(state != 'undefined' & state != 'suspended')
ks <- ks %>% mutate(size=if_else(usd_goal_real <= 10000,'small',if_else(usd_goal_real >= 100000,'large','medium')))
ks <- ks %>% mutate(percentCollected = (usd_pledged_real/usd_goal_real) * 100)
meanPercentColleftPerCateg <- ks %>%
select(main_category,percentCollected)%>%
group_by(main_category) %>%
summarise(percentCollected = mean(percentCollected))
ggplot(ks,aes(x = usd_goal_real)) + geom_histogram(binwidth = 300000) + scale_y_log10()
ggplot(ks,aes(x = state,fill=state)) + geom_bar() + facet_wrap(.~size,scales = 'free_y')
ggplot(ks,aes(x = main_category,fill=main_category)) + geom_bar();
ggplot(ks,aes(x = state,fill=state)) + geom_bar() + facet_wrap(.~main_category,scales = 'free_y');
ggplot(meanPercentColleftPerCateg,aes(x=main_category,y=percentCollected,fill = main_category)) + geom_col();
DAUMAS Jolan
BLAYE Thibault
---
output:
html_document: default
......@@ -82,25 +85,124 @@ argent demandé en usd (fournis par fixer.io qui est une api)
```{r}
ks <- read_csv("datasets/ks-projects-201801.csv")
```
**On filtre les projets dont l'objectif est trop bas, ceux qui ont eue moins de 5% de leur objectif et ceux dont l'état est indéfinie ou suspendu. On peut considérer dans ces deux cas qu'ils n'étaient pas pertinent**
**On filtre les projets dont l'objectif est trop bas, ceux qui ont eue moins de 1% de leur objectif et ceux dont l'état est indéfinie ou suspendu. On peut considérer dans ces deux cas qu'ils n'étaient pas pertinent**
```{r}
ks <- ks %>% filter(usd_goal_real > 1000 & (usd_pledged_real / usd_goal_real) * 100 > 1 & backers > 1) %>% filter(state != 'undefined' & state != 'suspended')
```
** On note une categorie pour chaques KS, petit, moyen et grand en fonction de l'objectif en usd **
** On note une taille pour chaques KS, petit, moyen et grand en fonction de l'objectif en usd **
```{r}
ks <- ks %>% mutate(size=if_else(usd_goal_real <= 10000,'small',if_else(usd_goal_real >= 100000,'large','medium')))
ks <- ks %>% mutate(percentCollected = (usd_pledged_real/usd_goal_real) * 100)
ks <- ks %>% mutate(year = substring(deadline,1,4)) %>%
mutate(duree = as.Date(deadline) - as.Date(launched));
meanPercentColleftPerCateg <- ks %>%
select(main_category,percentCollected)%>%
group_by(main_category) %>%
summarise(percentCollected = mean(percentCollected))
meanPercentColleftPerDuration <- ks %>%
select(duree,percentCollected)%>%
group_by(duree) %>%
summarise(percentCollected = mean(percentCollected))
```
```{r}
ggplot(ks,aes(x = usd_goal_real)) + geom_histogram(binwidth = 100000) + scale_y_log10()
ggplot(ks,aes(x = usd_goal_real)) + geom_histogram(binwidth = 350000) + scale_y_log10() +
xlab("Objectif réel (en dollars américain)")+
ylab("Nombre de projets");
```
** Analyse de l'histogram **
Il nous a été difficile de trouver un histogramme compréhensible et analysable. Ici, on remarque que la majorité des projets demande moins de 700 000 dollars, ce qui semble cohérent.
```{r fig.width=10}
ggplot(ks,aes(x = state,fill=state)) + geom_bar() + facet_wrap(.~size,scales = 'free_y')
ggplot(ks,aes(x = state,fill=state)) + geom_bar() + facet_wrap(.~size,scales = 'free_y') +
xlab("Etat")+
ylab("Nombre de projets");
```
** Analyse du diagramme en bar **
Ce graphique nous montre quelles sont les chances de succès d'un projet en fonction de sa taille, c'est-à-dire de l'objectif à atteindre. Comme on pouvait s'y attendre, les "petits" projets sont ceux qui ont le plus de réussite. Cela correspond à nos attentes car il semble logique que moins la somme demandée est importante, plus les chances de succès sont élevées.
On remarque néanmoins que les projets de taille moyenne (entre 10 000 et 100 000$) ont un bon taux de réussite malgré tout, ce qui n'est pas le cas des gros kick-starters qui ont quasiment deux fois plus de projets échoués que de projets réussis.
```{r}
ggplot(ks,aes(x = main_category,fill=main_category)) + geom_bar() +
xlab("Catégorie")+
ylab("Nombre de projets");
```
** Analyse sur le nombre de projets par rapport à une catégorie donnée**
On remarque que toutes les catégories n'ont pas un nombre de projets équivalent. En effet, certaines catégories sont sur-représentées tandis que d'autres sont sous-représentées. Ainsi, on observe que les catégories "Film & Video" et "Music" sont les catégories qui ont le plus de projets. A contrario "Crafts", "Dance" et "Journalism" ont très peu de projets.
```{r}
ggplot(ks,aes(x = state,fill=state)) + geom_bar() + facet_wrap(.~main_category,scales = 'free_y') +
xlab("Etat")+
ylab("Nombre de projets");
```
** Analyse du graphe sur le taux de succès par rapport à la catégorie **
On remarque que le taux de réussite dépend de la catégorie. En effet, la carégorie "Dance" a un taux de réussite largement supérieur à la grande majorité des autres catégories. Par contre, il n'y a pas de corrélation entre le nombre de projets et le taux de réussite. On pourrait s'attendre à ce que les catégories les plus demandées aient un taux de réussite inférieur, car plus il y a de projets, plus il y a de chance qu'un projet échoue. Pourtant, les catégories "Music" et "Film & Video" ont plus de réussite que d'échec, à l'inerse de la catégorie "Crafts" qui a très peu de succès.
```{r}
ggplot(ks,aes(x = size,fill=size)) +
ylab("Nombre de projets") +
xlab("Taille du projet") +
geom_bar() + facet_wrap(.~main_category,scales = 'free_y');
```
** Analyse de la taille de projet par rapport au theme **
Nous avons comparé ce graphique à celui juste au-dessus. En effet, on souhaitait regarder s'il existe une corrélation entre le taux de réussite et la taille des projets d'une catégorie. Nous avions pour hypothèse que les catégories avec le plus haut taux de succès sont les catégories avec le plus de petits projets. Cependant, ce n'est pas forcément le cas.
La catégorie "Crafts" a beaucoup de petits projets mais un taux de réussite faible. Au contraire, "Design" a plus de projets moyens que de petits projets et pourtant, un meilleur taux de succès. On peut donc en conclure que c'est la catégorie qui influe en grande partie sur la réussite du projet.
```{r}
ggplot(meanPercentColleftPerCateg,aes(x=main_category,y=percentCollected,fill = main_category)) + geom_col() +
xlab("Catégorie")+
ylab("POurcentage d'argent collecté par rapport à l'objectif");
```
** Analyse du taux d'argent collecté par rapport à l'objectif **
Une fois de plus, on s'intéresse aux catégories. On regarde le pourcentage d'argent récolté par rapport à l'objectif. On remarque une certaine homogénéité entre les catégories sauf pour 4 d'entre elles : Les Comics, Le Design, Les jeux, et enfin la Technologie.
On observe alors une corrélation entre le taux de succès et le pourcentage moyen d'argent récolté. En effet, les catégories à taux de réussite faible ont un pourcentage d'argent récolté faible à quelques exceptions près, telles que les catégories "Fashion" et "Games", qui s'explique notamment par des cas extrêmes qui ont récolté d'énormes sommes d'argent.
```{r}
ggplot(ks,aes(x = state,fill=state)) + geom_bar() + facet_wrap(.~year,scales = 'free_y') +
ylab("Nombre de projet") +
xlab("Etat du projet");
```
** Analyse du taux de succèqs en fonction de l'année **
On remarque bien avec ce graphique que le taux de réussite ne dépend pas de l'année de la date limite du projet.
Hormis en 2014-2015, le taux de réussite est globalement similaire d'une année à l'autre.
```{r}
ggplot(meanPercentColleftPerDuration,aes(x = duree,y = percentCollected)) + geom_point() +
ylab("POurcentage d'argent collecté par rapport à l'objectif") +
xlab("Durée (en jour)");
```
** Analyse du nuage de points **
Notre hypothèse est que plus la durée de financement est longue, plus la somme d'argent collectée sera élevée.
Or, étonnamment, ce sont les durées intermédiaires voire courtes qui ont collecté le plus d'argent en pourcentage. En effet, pour une durée de financement comprise entre 10 et 50 jours, plus de 100% de la somme demandée est récoltée en moyenne. En revanche, a-delà d'une durée de 50 jours, la moyenne baisse de manière linéaire.
** Conclusion **
Il est difficile de répondre à la question "Quelles sont les conditions à réunir pour créer un kickstater idéal ?" car beaucoup de paramètres autres que la catégorie ou l'objectif sont à prendre en compte, tels que le nombre de projets similaires en cours en même temps que le nôtre, la durée du kickstarter ou encore la communication qui se fait autour (bouche à oreille, communication sur les réseaux).
On remarque que certains thèmes ont un taux de réussite plus élevé, tels que la "Music", les "Film & Vidéos", ou la "Dance" et cela ne dépend pas uniquement de la somme demandée. Cependant, il est sûr qu'un petit projet a une chance de succès plus élevée.
On peut donc en conclure que la clef du succès pour un kickstarter est un petit projet dont la catégorie est "Dance", "Theater" ou "Music", c'est-à-dire dans le thème de l'art. Il faut aussi que la durée de financement soit de 30 jours environ ou 60 jours car c'est dans ces conditions que le plus d'argent est récolté en pourcentage.
```
\ No newline at end of file
source diff could not be displayed: it is too large. Options to address this: view the blob.
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment