poniedziałek, 17 grudnia 2012

Polski słownik dla androida - lista najpopularniejszych słów języka polskiego

Na początek odświeżania archiwum jeden z najpopularniejszych wpisów w starej wersji serwisu.


Jako, że nie każdy ma na swoim androidzie polski słownik, podaje przepis jak w prosty sposób go uzyskać.

Wymagania



Instrukcja


  1. Ściągamy i rozpakowujemy słownik.
  2. Zmieniamy mu nazwę na przyjemniejszą np. lista.txt
  3. Wywalamy z początku tekstu zbędne linie - opis i licencję.
  4. Sortujemy listę słów po częstotliwości występowania
    sort -nr -k2 -t = lista.txt > lista2.txt
  5. Doprowadzamy listę do wymaganego przez UDM formatu - jedno słowo w linii
    cat lista2.txt |cut -d = -f 1 > lista3.txt
  6. Wycinamy z pliku tyle linii ile chcemy, pamiętając, że zbyt duża liczba powoduje zawieszenie UDM. Dobrą liczbą na początek jest np. 3000 (Patrz pkt. 7.)
    head -n 3000 lista3.txt > lista4.txt
  7. Zgrywamy na kartę i importujemy za pomocą UDM-a.Przy wspomnianych trzech tysiącach słów import trwał długo. Kilkakrotnie trzeba było klikać w czekaj. Lepiej też nie dopuszczać do przejścia telefonu w stan uśpienia.

Uwagi

Gdy chcemy mieć bogatszy słownik tworzymy po prostu kilka kolejnych plików zamiast jednego wielkiego. Czynimy to modyfikując punkt 7 następująco (dla plików po 1000 słów):
sed -n '1,1000 p' lista3.txt > lista4-1.txt
sed -n '1001,2000 p' lista3.txt > lista4-2.txt
itd.

Wersja bez polskich znaków

Dla uzyskania wersji smsowej (bez krzaczków) wykonujemy komendę na pliku końcowym:
iconv -f utf-8 -t ascii//translit -o lista4sms.txt lista4.txt

Możemy też wgrać obie listy i potem w UDM-ie użyć opcji „clear” dla usunięcia duplikatów.

Oczywiście analogicznie możemy zrobić sobie słowniki dla angielskiego, niemieckiego, francuskiego, quenya czy też klingońskiego.

2 komentarze:

  1. Ściągnąć to mogę tylko w pdf i jak zaznaczam wszystko to komputer się zacina. (i7, 6GB RAM). nie rozumiem ptk 4, 5 6, wykorzystywany tu jest jakiś język programowania, czy gdzieś można realizować takie polecenia. Jeżeli ktoś będzie chętny mi pomóc to dzięki z góry

    OdpowiedzUsuń
  2. a może by tak wkleić gotowy plik .txt?

    OdpowiedzUsuń