Quels sont les mini-projets en big data que je pourrais réaliser avec une équipe de deux ou trois personnes en un mois ou deux ? Je suis un étudiant en troisième année d’ingénierie informatique de l’Inde.


Les concours Kaggle en classe sont un bon point de départ : Kaggle en classe

Vous pouvez passer à des projets plus difficiles en participant à des concours ici :
1. Kaggle : Compétitions | Kaggle
2. Driven Data : Compétitions
3. crowdanalytix : CrowdANALYTIX:Community
4. InnoCentive : InnoCentive - Navigateur de défis
4. Quora Programming Challennges : http://www.quora.com/challenges


Ces concours ont un objectif et un ensemble de données clairement définis. Vous pouvez également vérifier l'efficacité de votre algorithme par rapport aux autres et surtout, vous apprenez beaucoup des forums de discussion.

Tentez d'autres projets en explorant twitter, facebook etc. API.

Si vous vous sentez dépassé par ces concours, un début plus doux peut être trouvé dans les projets de cours de plusieurs MOOC. En énumérant certains d'entre eux :
1. Stanford Machine Learning sur coursera
2. Mining Massive Datasets sur coursera
3. UIUC data science track sur coursera
4. Hadoop course sur udacity
et ainsi de suite. Beaucoup de bons cours peuvent être trouvés sur coursera, udacity, edx, khanacademy etc. où il y a des projets basés sur le contenu du cours.

Le site web de scikit learn contient beaucoup de grands projets : scikit-learn 0.15.2 documentation

Il y a des livres qui enseignent par la mise en œuvre, vous pouvez les essayer aussi:
1. L'apprentissage automatique en action
2. Introduction à l'apprentissage statistique avec des applications dans R
3. Python pour l'analyse de données
4. Construction de systèmes d'apprentissage automatique avec R
Plusieurs ici : Machine Learning Kit - Get - O'Reilly Media
et ici : Data Science Kit - Get - O'Reilly Media

Qu'est-ce que's next?
Si vous vous sentez plutôt aventureux après tout cela, essayez le Texata World Championship, la KDD cup ou le MIT BIG DATA Challenge 🙂