Les démarches impossibles

  • L'export des données textuelles impossible -> Le module export de l'interface admin ne fonctionne pas (renvoi la moitié des données)
  • Pas de serveur FTP -> c'est une offre blog "gratuite" disponible lors de l'achat d'un nom de domaine.
  • Récupérer les médias liés à vos articles (photos, vidéos, texte, sons...) impossible -> le dossier /public interdit le listing des fichiers (.htacess).

Les solutions possibles

  • Pleurer...
  • Attendre un export opérationnel dans dotclear.
  • Aspirer le site (texte + média image...)
  • Utiliser un script PHP(ou autre) + expression régulière d'après un export textuel complet -> prochain article

Aspirer votre blog

Cette solution n'est pas élégante, demande du temps et risque de surcharger le serveur hébergeant votre blog. C'est peut être, aujourd'hui, la seule solution fonctionnelle, mais cela ne remplacera pas un export, en effet vous obtiendrez des fichiers .html contenant le contenu et la mise en forme pour chaque article.

Commande magique
wget  -p -m -c -U 'Mozilla/5.0 (X11;U; Linuxi686; fr; rv:1.5.1.11) Gecko/20071204' http://votresiteinternet.fr

  • -p   -> Télécharger tous les fichiers liés aux sites (image, sons, vidéos, fichiers textes...)
  • -m  -> Permet une copie conforme (inclu les commandes -r -N -l), récursion au sein de l'arborescence
  • -c   -> Non obligatoire, permet de reprendre une aspiration non terminée
  • -U   -> Permet de renseigner l'user-agent et de simuler le passage d'un navigateur, si vous ne renseignez pas ce paramètre aucun téléchargement se sera possible, GandiBlog semble interdire l'utilisation de Wget