Les concours Kaggle en classe sont un bon point de départ : Kaggle en classe
Vous pouvez passer à des projets plus difficiles en participant à des concours ici :
1. Kaggle : Compétitions | Kaggle
2. Driven Data : Compétitions
3. crowdanalytix : CrowdANALYTIX:Community
4. InnoCentive : InnoCentive - Navigateur de défis
4. Quora Programming Challennges : http://www.quora.com/challenges
Ces concours ont un objectif et un ensemble de données clairement définis. Vous pouvez également vérifier l'efficacité de votre algorithme par rapport aux autres et surtout, vous apprenez beaucoup des forums de discussion.
Tentez d'autres projets en explorant twitter, facebook etc. API.
Si vous vous sentez dépassé par ces concours, un début plus doux peut être trouvé dans les projets de cours de plusieurs MOOC. En énumérant certains d'entre eux :
1. Stanford Machine Learning sur coursera
2. Mining Massive Datasets sur coursera
3. UIUC data science track sur coursera
4. Hadoop course sur udacity
et ainsi de suite. Beaucoup de bons cours peuvent être trouvés sur coursera, udacity, edx, khanacademy etc. où il y a des projets basés sur le contenu du cours.
Le site web de scikit learn contient beaucoup de grands projets : scikit-learn 0.15.2 documentation
Il y a des livres qui enseignent par la mise en œuvre, vous pouvez les essayer aussi:
1. L'apprentissage automatique en action
2. Introduction à l'apprentissage statistique avec des applications dans R
3. Python pour l'analyse de données
4. Construction de systèmes d'apprentissage automatique avec R
Plusieurs ici : Machine Learning Kit - Get - O'Reilly Media
et ici : Data Science Kit - Get - O'Reilly Media
Qu'est-ce que's next?
Si vous vous sentez plutôt aventureux après tout cela, essayez le Texata World Championship, la KDD cup ou le MIT BIG DATA Challenge 🙂