Logiciels libres, Internet, profits et vie privée

Kian · Lundi 08 Août 2005, 21:41:32

Interessant article sur Google et Firefox et un scrapper de Google & Yahoo

Moteur de recherches : http://www.scroogle.org/

En français : http://www.scroogle.org/scrapfr8.html

Article : http://www.scroogle.org/gscrape.html

Khiryu · Lundi 08 Août 2005, 22:05:51

Heu c'est quoi un scrapper svp ?

Amir · Mardi 09 Août 2005, 03:03:56

J'avoue ne pas avoir compris non plus...

Matt · Mardi 09 Août 2005, 10:20:55

c'est tout simple, pourtant...

CitationLes résultats de Google d'éraflure et annonce-dépouillant

Si fait dans l'intérêt public et pas pour le bénéfice, il est légal.
Ce qui est plus, Google ne peut pas vous bloquer si elles ne peuvent pas vous trouver.

Public Information Research, Inc., la charité publique sans but lucratif derrière www.google-watch.org et www.scroogle.org, avait couru une procuration de Google pendant plus de deux années. 3 janvier 2005 nous avons libéré le code source pour notre procuration. Notre examen de la situation légale nous a convaincus que nous sommes couverts par "utilisation juste" sous la Loi de copyright.
Cette mesure que nous avons prise a des implications pour tous les moteurs de recherche. Le rampement de ces moteurs l'enchaînement public sans demander la permission, et la cachette et reproduisent le contenu sans demander la permission, et puis emploient cette information comme porteur pour l'ADS qui produisent du bénéfice privé. Nous sommes convaincus que si les citoyens éraflent Google et dépouillent l'ADS, et rendent les résultats éraflés disponibles comme service public sans but lucratif, que c'est légal. C'est particulièrement le cas s'il y a des soucis d'ordre public derrière l'éraflure.

La montre de Google a été le critique le plus en avant des politiques d'intimité indignes de Google pendant plus de deux années. C'est pourquoi nous avons commencé la procuration, et il est pourquoi nous continuons la procuration. Nous invitons Google pour nous servir avec un cesser et pour renoncer lettre dans un premier temps vers résoudre ce problème. Jusqu'ici, nous avons avoir des nouvelles encore des avocats de Google. En libérant le code source pour notre procuration, nous essayons d'escalader l'issue.

S'il peut établir que ce que nous faisons est légal -- ou au moins suffisamment légal de sorte que Google ne soit pas désireux de nous défier -- alors ceci commencera à reconstituer un équilibre de public-intérêt à l'enchaînement qui avait diminué depuis le grand argent a obtenu derrière le point-coms.

Il y a le problème additionnel de si n'importe qui qui érafle Google peut éviter d'obtenir bloqué par Google. Nous avons éprouvé ceci quand Google a bloqué Scroogle en décembre, 2003. Nous nous sommes déplacés à un serveur différent et avons continué comme avant, parce que Google pourrait plus ne nous trouver. À notre avis, il est légal pour que Google bloque qui que ce soit qu'ils veulent, même tandis qu'il est également légal pour que nous les éraflent si nous pouvons.

Si l'éraflure est faite correctement, elle n'est pas en valeur l'ennui de Google pour vous trouver. Notre code source sépare "cherchent" la partie du programme, qui est fait par la courbure ou le wget, de l'interface de chercheur et de l'analyse des résultats cherchés. Si chercher est fait par un serveur sur une adresse différente de la classe C du site Web qui montre les résultats éraflés, il y a peu que Google peut faire pour trouver le IP address qui est responsable du réel cherchent.

Un bloc de Google exige un serveur de daine de John

Google emploie un couple les douzaine centres de calculs avec des adresses consacrées d'IP. Un certain nombre ceux-ci sont situés en dehors des États-Unis. Une fois que ces adresses sont découvertes (recherche "des centres de calculs de google"), elle est insignifiante pour maintenir la liste. Les adresses changeront le temps fini, mais elles ne changeront pas cela rapidement.
Si un racleur hérite Google d'une adresse qui est en dehors du bloc local d'IP où sa interface publique fonctionne, nous croyons que Google est actuellement mal équipé pour le découvrir. Yahoo, en revanche, semble avoir un système plus centralisé, et peut pour étrangler l'activité excessive d'un IP simple. Nous avons vu seulement deux adresses d'IP pour Yahoo quand notre racleur de Yahoo était en activité. Environ deux pour cent de nos efforts ont été étranglés. Google, avec un système plus réparti, le rend facile pour des racleurs de distribuer leurs efforts à travers la plupart des centres des calculs de Google.

En installant une daine de John cherchez est tout à fait facile. Tous que vous avez besoin sont des privilèges de cgi sur le serveur de M. Doe's. Il est le plus facile de partager juste quelqu'un compte. L'accueil consacré d'IP est le meilleur pour ceci. Il n'y a aucun besoin de service nommé de DNS de M. Doe, et aucune consultation ne retarde.

Quand vous obtenez une demande de recherche, au lieu de bifurquer à une d'adresses de l'IP de Google, vous bifurquez au programme de CGI de M. Doe's. Ce programme sur l'emplacement de M. Doe's est un sous-ensemble du code source déjà disponible. M. Doe fait le chercher de la liste d'adresses d'IP de Google, et puis crache immédiatement hors de ce même dossier de nouveau à vous, et supprime le dossier. Il tout se produit sans laisser tomber le raccordement entre votre racleur et M. Doe. Vous analysez ce dossier sur votre emplacement public comme si il est arrivé directement de Google. Il pourrait facilement y avoir plus d'un les intrus de M. Doe. Evil pourraient même employer un réseau des PCS de zombi.

De que Google aurait-il besoin pour trouver M. Doe ? C'est conjecture, mais il semble que Google aurait besoin de logiciel du tout de leurs centres de calculs qui peuvent être commutés dedans ou dehors en temps réel. Ce logiciel balayerait des limites entrantes de recherche. S'il y a une allumette avec une limite secrète envoyée sur votre procuration par un certain flic de capot interne de Google en utilisant votre interface, alors le logiciel ferait rapport que cette limite a été notée à tel-et-tel centre de calculs, de tel-et-tel IP address. Maintenant Google sait qui pour bloquer. Ils ont un IP bloquer des possibilités à travers tous les centres de calculs, mais nous suspectons qu'ils n'aient pas encore cette sorte d'interception de rechercher-limite et des possibilités de reportage. La raison que le logiciel devrait être permutable est parce que ce balayage est CPU-intensive pour Google, et il doit seulement fonctionner aux occasions rares.

Si Google nous bloque, nous projetons prendre notre racleur de Yahoo hors de la retraite dans un délai de 24 heures comme produit de remplacement pour les résultats de Google, et pensons à ce que nous devrions faire après. L'interface gonflée de Yahoo exige quatre fois où plus de bytes par cherchez que l'interface du www.google.com/ie de Google, et ce serait un jour triste pour nous.

Le scénario des cas les pires que nous pouvons penser à comporterait une attaque deux-two-pronged par Google. La première fourche serait un effort légal par Google de nous arrêter. Nous faisons bon accueil à ceci, et croyons que nous pouvons régner quoique notre chapeau du marché à PIR soit légèrement moins que $50 milliards de Google. La deuxième fourche devrait nous bloquer de nouveau. Actuellement notre procuration fait le Google cherchent de la même classe C que nos domaines sont allumés. C'est une invitation pour un bloc; cela prendrait à Google environ 20 minutes pour identifier le IP address de nos fetcher.

L'issue plus grande ici est que la commercialisation de l'enchaînement est devenue possible seulement parce que les dizaines de milliers d'emplacements non commerciaux ont fait l'enchaînement intéressant en premier lieu. Tous les moteurs de recherche devraient faire une écurie, squelette ambulant, annonce-libre, facile-à-éraflent la version de leurs résultats disponibles pour ceux qui veulent installer les répéteurs sans but lucratif. Même si elle coupe en leurs bénéfices d'annonce légèrement, il n'y a aucune manière plus facile de donner en arrière une partie de ce qu'ils ont volé de nous.

Nous ne recommandons plus Firefox

Nous avons par le passé eu un lien derrière l'image, pour télécharger Firefox.
Mais ils ont vendu leur âme, et nous ne les recommandons plus.

En juin 2005, nous avons lu qu'un blogger de Silicon Valley avec l'information alléguée d'initié signalait que la base de Mozilla ratissait dans $30 millions annuellement de leur raccordement de Google. Pour justifier cette figure, nous avons demandé la base exempte d'impôts une copie de leur forme 990. Ils sont exigés par loi pour fournir des copies. Nous voulons la figure correcte pour leur revenu 2004 de Google, et sommes également curieux environ s'ils ont classé un 990-T pour payer des impôts sur cette somme en tant que "revenu indépendant d'affaires."

La base nous indique que qu'ils n'ont des prolongements de classement qui leur donnent jusqu'à novembre 2005 au dossier cette forme, et aucune information est actuellement disponible. Les divers officiers ont refusé de présenter leurs observations sur leur revenu de Google à l'excédent de journalistes le passé plusieurs mois. Leurs 2003 expositions de forme se montent au revenu de $2.4 millions des donations qui ont aidé Mozilla la base pour obtenir commencé, et qui semble raisonnable. Mais si nous parlons des dizaines de millions de Google en 2004, ceci change le caractère de leur opération considérablement.

3 août 2005, la base a annoncé qu'ils restructurent par la rotation outre de Mozilla Corporation, pour-profitent la filiale. Ceci tend à confirmer les rumeurs au sujet des dizaines de millions de dollars de Google. Nous avons envoyé des email à M. Mitch Kapor et à mme. Mitchell Baker, la chaise et président, demandant les deux articles qui apparaîtront sur la forme 990 en novembre. Il ressemble à la base achète l'heure d'obtenir leurs affaires juridiques dans l'ordre, et nous ne sommes pas susceptibles de n'obtenir aucune réponse.

Apparemment la majeure partie de l'argent de Google est due à l'accord de Mozilla de faire à Google le moteur de défaut dans la boîte de recherche de Firefox. Quand un utilisateur de Firefox clique sur une annonce d'une recherche de Google-boîte, Mozilla obtient une coupe du bénéfice de Google. Deux il y a mois on l'a découvert que que Google prefetching également le résultat supérieur pour toutes les recherches faites de la boîte de recherche de Google. Ceci vous signifie extrémité vers le haut avec des biscuits des emplacements que vous ne visitez jamais, et beaucoup de largeur de bande est gaspillée dans le processus. Heureusement, vous pouvez neutraliser ce "dispositif" en écrivant about:config dans la barre d'adresse et en le faisant défiler alors vers le bas à network.prefetch-next et en le basculant à faux. Vous pouvez également changer la boîte de recherche de défaut en n'importe laquelle de presque 2.000 connexions qui peuvent être téléchargées de Mozilla. (la connexion de Scroogle a été ignorée par Mozilla, quoiqu'elle ait été soumise il y a des mois. Notre connexion est seulement fournie par nous.)

Il y a d'autres raccordements de Google dans Firefox. Si vous écrivez des limites de recherche dans la barre d'endroit au lieu d'une adresse URL D'enchaînement, Firefox va à Google et sélectionne outre du lien supérieur, et vous porte directement à cet emplacement. Un pourcentage étonnant des webnautes ne savent pas la différence entre une barre d'endroit et une boîte de recherche, qui fait ceci est une concession importante à Google. Si vous essayez la même chose dans l'explorateur, vous obtenez une prévision de recherche de MSN, mais vous n'êtes pas envoyé directement au site branché. Le comportement de Microsoft est moins intrusif parce qu'il donne à l'utilisateur plus d'options, et a donc moins d'impact sur des modèles de trafic. Google et Firefox se comportent la manière dont Microsoft se comportait en jours où il a forcé des fabricants à empaqueter certain logiciel. Ce comportement est inacceptable.

Nous ne nous sentons plus bons au sujet de l'enchaînement à Firefox, quoiqu'ils présentent une alternative à l'explorateur qui est ouvrir-source, plus bloquée, et généralement plus configurable. Il nous semble que la base de Mozilla est venue à une fourchette dans la route tout Google-observée, et a choisi le chemin faux.

Amnounet · Mardi 09 Août 2005, 11:18:08

Euh .. je crois pas qu'une traduction robotisée aidera à comprendre .... on voulait juste deux ou trois phrases explicant à quoi ça sert exactement ....

Glazou > t'es presque plus lourd que moi ...

Kian · Mardi 09 Août 2005, 11:37:20

Google collecte une quantité flippante d'informations sur nous tous qui l'employons, et conserve l'historique intégrale des recherches que vous avez effectué grace entre autre au Google Unique ID. Cette historique est à disposition du gouvernement US sur simple demande et permet à Google de cibler ses pubs. Le "scrapper" utilise des systemes de proxy et en gros se connecte pour vous à Google qui n'aura donc pas d'infos sur vous. De plus, l'interface est encore plus epurée que celle de Google.
Faut lire la version anglaise de ce texte, la traduc auto veut rien dire

Matt · Mardi 09 Août 2005, 11:50:07

@Amnounet : je prends ça comme un compliment !

En fait c'était pour dire "regardez comme google traduit mal" !!!

Google renvoie des résultats trop pertinents des fois, c'est pas son pdg qui dira le contraire !!!

http://www.pcinpact.com/actu/news/Google_boycotte_pour_trop_bonne_utilisation_de_Goo.htm

Kian · Mardi 09 Août 2005, 11:56:52

C'est dans les commentaires de cette news plutot interessante que j'ai trouvé le "scrapper'.

Who never googled a friend ?

Amnounet · Mardi 09 Août 2005, 12:05:04

ah ouais ... donc ils ont gardé dans leur historiques mes recherches de "pd à poils" ???

ça fait peur quand même ... Big Brother est partout ....

FinalBahamut · Mardi 30 Août 2005, 17:33:48

Nous sommes sauvés : les méchants pirates n'ont qu'à bien se tenir car avec Vista, astalavista les piwates-vilain-tout-pô-bô-que-même-kil-pique-dans-le-portef'-de-mr-nègre :

http://www.clubic.com/actualite-22116-windows-vista-arme-ultime-contre-le-piratage-.html

Kian · Mardi 30 Août 2005, 17:41:35

Le retour discret de Palladium

Matsya · Lundi 19 Septembre 2005, 19:56:52

Citation de: KiaN le Mardi 09 Août 2005, 11:37:20Google collecte une quantité flippante d'informations sur nous tous qui l'employons, et conserve l'historique intégrale des recherches que vous avez effectué grace entre autre au Google Unique ID. Cette historique est à disposition du gouvernement US sur simple demande et permet à Google de cibler ses pubs. Le "scrapper" utilise des systemes de proxy et en gros se connecte pour vous à Google qui n'aura donc pas d'infos sur vous. De plus, l'interface est encore plus epurée que celle de Google.
Faut lire la version anglaise de ce texte, la traduc auto veut rien dire

Il ne risque pas de savoir ce que je cherche, car je n'utilise JAMAIS Google.

Kian · Lundi 19 Septembre 2005, 23:08:27

T'utilises quoi ? :

Matsya · Lundi 19 Septembre 2005, 23:29:55

Les autres. Vous direz que c'est naze etc... Mais, je ne supporte pas Google... Ne me demandez pas pourquoi, je n'en sais rien, c'est vicérale...

FinalBahamut · Lundi 19 Septembre 2005, 23:42:06

Si en plus tu ne sais même pas pourquoi...

Nouvelles:

Logiciels libres, Internet, profits et vie privée