Tendances linguistiques: Google ngrams

549 views
Skip to first unread message

Jacques Thomas

unread,
Dec 17, 2010, 2:10:21 PM12/17/10
Salut les techos,

Google a lache un outil interessant pour observer les tendances
linguistiques: http://ngrams.googlelabs.com/
NYTimes a un article interessant la dessus:
http://www.nytimes.com/2010/12/17/books/17words.html?ref=technology

Qu'est ce que c'est ? Une base de donnees qu'on peut interroger pour
comparer la frequence d'apparitions de mots dans le language des
livres scannes par Google.

C'est pas du pur techos, mais c'est tres interessant a mon gout.

Voici quelques experiences, vite fait:
- war, peace: http://ngrams.googlelabs.com/graph?content=war,+peace&year_start=1800&year_end=2000&corpus=0&smoothing=3
(on voit bien les deux guerres mondiales)
- war on terror, war on terrorism, war on drugs:
http://ngrams.googlelabs.com/graph?content=war+on+terror,war+on+terrorism,war+on+drugs&year_start=1800&year_end=2010&corpus=0&smoothing=3
(on voit que c'est "war on terror" qui est a la mode)
- WMD,weapons of mass destruction:
http://ngrams.googlelabs.com/graph?content=WMD,+weapons+of+mass+destruction&year_start=1800&year_end=2008&corpus=0&smoothing=3
(la banalisation sous forme d'acronyme est recente)

On peut faire plus drole:
- Eminem,Daft Punk:
http://ngrams.googlelabs.com/graph?content=Eminem,Daft+Punk&year_start=1800&year_end=2008&corpus=0&smoothing=3

Bref, c'est amusant, et ca peut animer des conversations
politiques/culturelles/linguistiques/etc... hivernales.

Oh, ca peut aussi servir pour la cryptanalyse ;-)
(la base de donnees est telechargeable)

Cheers,
Jacques

PS: en ecrivant cet email, plus ca va, plus je recois la jolie "Fail
Whail" de Google (un peu comme celle de Twitter, mais differente).
C'est possible que le service marche moins bien quand vous essaierez.

Dominique Jocal

unread,
Dec 18, 2010, 7:25:45 AM12/18/10
PS: j'ai eu carrément un bon vieux stderr de python, à l'ancienne...
Traceback (most recent call last):
File "/base/python_runtime/python_lib/versions/1/google/appengine/ext/webapp/__init__.py", line 515, in __call__
handler.get(*groups)
File "/base/data/home/apps/glabs20-ngrams/3.347000633686260957/ngrams.py", line 576, in get
timeserie = GetTimeSeries(ngram, year_start, year_end, corpus)
File "/base/data/home/apps/glabs20-ngrams/3.347000633686260957/ngrams.py", line 190, in GetTimeSeries
time_series = GetTimeSeriesFromStubby(term, year_start, year_end, corpus)
File "/base/data/home/apps/glabs20-ngrams/3.347000633686260957/ngrams.py", line 171, in GetTimeSeriesFromStubby
handler.Send("/NgramViewerServer.GetTimeSeries", req, data)
File "/base/data/home/apps/glabs20-ngrams/3.347000633686260957/google3/apphosting/api/stubby/__init__.py", line 346, in Send
self.CheckSuccess()
File "/base/data/home/apps/glabs20-ngrams/3.347000633686260957/google3/apphosting/api/stubby/__init__.py", line 314, in CheckSuccess
self.rpc.CheckSuccess()
File "/base/python_runtime/python_lib/versions/1/google/appengine/api/apiproxy_rpc.py", line 126, in CheckSuccess
raise self.exception
DeadlineExceededError: The API call stubby.Send() took too long to respond and was cancelled.
et ça informe sur leur structure de déploiement (/base/...), sur le cycle de vie de google labs (v2 ?)... mouarf...

.. et même pour les applis internes, le requête est sanctionnée si elle est trop longue... faut encore plus optimiser le code, dur la vie de googler...


--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes techos.
Pour envoyer un message à ce groupe, adressez un e-mail à [email protected].
Pour vous désabonner de ce groupe, envoyez un e-mail à l'adresse [email protected].
Pour plus d'options, consultez la page de ce groupe : http://groups.google.com/group/techos?hl=fr




--
Dominique Jocal
Reply all
Reply to author
Forward
0 new messages