Das Infolexikon
...und Blog über die Uni FrankfurtInformatik und Kram
Da wir lange nicht wußten, wo wir das für die Uni ausgearbeitete Material unterbringen sollten und auch einen schrecklichen Drang hatten der Welt diverse Sachen aufzudrücken...
| Google Code Search Spielchen |
Wiedereinmal landet Google einen - zwar nicht einmaligen - super Hit und veröffentlicht Google Code Search. Der Name sagt natürlich wieder alles. Es gibt schon so einige Code Search Engines aber Google übertrifft wie üblich wieder alle.
Das alleine ist nicht so der Reißer, aber man kann so einige Spielchen damit machen...
Das alleine ist nicht so der Reißer, aber man kann so einige Spielchen damit machen...
Die folgenden Angaben sind sehr mit Vorsicht zu genießen. Ich traue der Suchergebnisszahl nicht wirklich.
Der Suchquery soll immer eine RegExp sein, was das ganze schon sehr schön macht.
Sucht man also nach "." sollte man alle gelisteten Files bekommen. Bei meinem Test waren dies immerhin 23.800.000 Hits. Schon ein Haufen Code muß man sagen.
Da könnte man ja glatt mal suchen wie oft sich "scheiss/scheiß" in den 24Mio Dateien findet. Das sind grade mal 300Hits, das ist ja erschreckend wenig.
Man könnte jetzt auch diverse "Analysen" machen in welchen Sprachen jetzt am öftesten "fuck" vorkommt oder ähnliches, aber das ist doch alles nix, ausserdem haben wir sowas doch auch schon alles gesehen - inklusive dem "Kernel Swear Count".
Interessanter finde ich viel mehr die Frage wie groß denn die Anteile von bestimmten Sprachen in den 24Mio sind. Natürlich macht sich erstmal C mit 5.290.000 breit, wobei C++ mit nur 980.000
auftaucht. Komischerweise ist Python mit 79.300 stärker vertreten als Perl mit 49.700. PHP behauptet sich mit 150.000 wohingegen ASP grade mal mit 300 auftaucht, aber das könnte ja vielleicht auch einfach daran liegen, dass ASP und Frei nicht so ganz in einen Satz passt. Versucht man das mit Bash/Shell Code so deckt man wohl einige Probleme in der Analyse auf, ich halte nämlich 200 Ergebnisszeilen für ein wenig mager. Die wage mal zu behaupten, dass es mehr als 200 Bash Files in den indexierten Paketen gibt.
Beim fleißigen Suchen fiel mir auch irgendwie auf, dass die Suche ein wenig langsam ist und dann wird auch noch oft eine total falsche Ergebnissmengenschätzung angegeben wird. (Die Zahl läßt sich dann einfach bestimmen indem man zum letzten Ergebniss springt) Dafür läßt sich das ganze auch als RegExp parser mißbrauchen!
Der Suchquery soll immer eine RegExp sein, was das ganze schon sehr schön macht.
Sucht man also nach "." sollte man alle gelisteten Files bekommen. Bei meinem Test waren dies immerhin 23.800.000 Hits. Schon ein Haufen Code muß man sagen.
Da könnte man ja glatt mal suchen wie oft sich "scheiss/scheiß" in den 24Mio Dateien findet. Das sind grade mal 300Hits, das ist ja erschreckend wenig.
Man könnte jetzt auch diverse "Analysen" machen in welchen Sprachen jetzt am öftesten "fuck" vorkommt oder ähnliches, aber das ist doch alles nix, ausserdem haben wir sowas doch auch schon alles gesehen - inklusive dem "Kernel Swear Count".
Interessanter finde ich viel mehr die Frage wie groß denn die Anteile von bestimmten Sprachen in den 24Mio sind. Natürlich macht sich erstmal C mit 5.290.000 breit, wobei C++ mit nur 980.000
auftaucht. Komischerweise ist Python mit 79.300 stärker vertreten als Perl mit 49.700. PHP behauptet sich mit 150.000 wohingegen ASP grade mal mit 300 auftaucht, aber das könnte ja vielleicht auch einfach daran liegen, dass ASP und Frei nicht so ganz in einen Satz passt. Versucht man das mit Bash/Shell Code so deckt man wohl einige Probleme in der Analyse auf, ich halte nämlich 200 Ergebnisszeilen für ein wenig mager. Die wage mal zu behaupten, dass es mehr als 200 Bash Files in den indexierten Paketen gibt.
Beim fleißigen Suchen fiel mir auch irgendwie auf, dass die Suche ein wenig langsam ist und dann wird auch noch oft eine total falsche Ergebnissmengenschätzung angegeben wird. (Die Zahl läßt sich dann einfach bestimmen indem man zum letzten Ergebniss springt) Dafür läßt sich das ganze auch als RegExp parser mißbrauchen!
| Erstellt | 7. Februar 2008 18:55:21 | Geändert | 7. Februar 2008 19:13:24 |
|---|---|---|---|
| Von | Markus Meissner | Kategorien | Sonstiges |
| 0 Kommentar(e) | |||