Bon.

Des chercheurs qui à priori ont des considérations éthiques particulières, ont utilisés des robots pour récupérer un nombre conséquent de pouets publics sur plusieurs centaines d'instances.

On est concerné.

En plus de cela, ils publient une archive contenant tous les pouets en question. Ça représente au total plusieurs millions de pouets, et vraisemblablement tous vous pouets publics.

Bref, c'est bien pourri.

Je ne sais pas si c'est très utile, mais dans le doute j'ai désactivé la timeline publique pour les personnes non loguées. Ça ne protège pas vous pouets en tant que tel, puisqu'ils sont toujours accessibles publiquement par l'URL de votre profil, mais je me dis que ça complique peut-être la découverte.

Après un très rapide coup d'œil au contenu de l'archive, à priori il y a plus ou moins tous les pouets publics du début de l'instance au 2018-10-11, ça ne représente "que" 8257 pouets de notre instance, à la condition que j'ai pas foiré mon utilisation de jq, ahem.
Il n'y a pas non plus eu de respect du paramètre de non indexation des pouets publics par les moteurs de recherche, même si vous l'avez coché dans votre profil.

Show thread

Dans l'archive, il n'y a pas directement les médias, par contre il y a un lien vers chaque média contenu dans chaque pouet public.
Les données sont formatées de telle manière que c'est un jeu d'enfant de récupérer les dites URL et de télécharger tous les médias.
Si vous avez posté des médias en public, mais que vous n'êtes pas chaud.e.s à l'idée qu'ils puissent être récupérés très facilement à partir d'une archive qui traîne sur les internets, ça peut être le bon moment de supprimer tout ce avec quoi vous n'êtes pas certain.e d'être à l'aise.

Show thread
Follow

Et puis désolé de pas avoir désactivé le morceau d'API qui permet de récupérer la timeline public sans être logué avant, je dois bien dire que j'avais pas fait attention que c'était possible maintenant, ce n'était pas le cas avant :(

À priori l'archive n'est plus directement disponible (mais comme toujours avec Internet, autant partir du principe que quelqu'un quelque part va la mettre à disposition des personnes les plus nocives).

C'est écrit : "Deaccession Reason: Legal issue or Data Usage Agreement. Many entries in the datasets do not fulfill the law about personal data release since they allow identification of personal information."

Show thread

@Courgette nan mais tkt, c'est pas non plus comme si c'était hyper bien expliqué au moment où c'était sorti, ya plein d'admins qui ont fait comme toi !

Sign in to participate in the conversation
Mastodon Opportun.e

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!