Jump to content

Witaj!

Zaloguj lub Zarejestruj się aby uzyskać pełny dostęp do forum.

Photo
- - - - -

polski słownik na iphone 1.1.1 (request)


  • Please log in to reply
65 replies to this topic

#51 AxelVax

AxelVax
  • 354 posts

Posted 20 November 2007 - 16:11

hehe mam was skontaktować? :P czy sami sobie poradzicie z przesyłką? ;)

#52 malina

malina
  • 460 posts
  • SkądSzczecin

Posted 20 November 2007 - 22:47

czekam z niecierpliwością na mejla :)

#53 AxelVax

AxelVax
  • 354 posts

Posted 27 November 2007 - 17:50

hmm to jak.. skontaktujecie się? ;) fajnie byłoby już pisać ze słownikiem :)

#54 M4v3R

M4v3R
  • 2043 posts
  • Skąd/usr/pl/Konin

Posted 03 December 2007 - 15:46

Witam,

Myślę, że jestem w stanie skompilować słowniki do wersji 1.1.1. Posiedziałem trochę nad strukturą słowników angielskich i niemieckich i znam już ich strukturę. Potrzebuję tylko listy polskich słów, które wcześniej wysłaliście do twórców iPhoneShop. A resztą już się zajmę. Mój mail to: maciej.trebacz [malpa] gmail.com.

---- Dodano 03-12-2007 o godzinie 23:18 ----
Znalazłem słownik ispell'a, który zawiera dane o frekwencji występowania słów, więc się nada. Wstępnie 60 tyś. słów - powinno wystarczyć. Jak coś sklecę - dam znać.

#55 AxelVax

AxelVax
  • 354 posts

Posted 04 December 2007 - 01:26

czekamy z niecierpliwością a ja zrozumiałem, że chłopaki mieli już jakieś gotowe części..

#56 M4v3R

M4v3R
  • 2043 posts
  • Skąd/usr/pl/Konin

Posted 04 December 2007 - 01:54

Ja też tak myślałem parę godzin temu :). Ogólnie udało mi się stworzyć słownik strukturą przypominający oryginalny, jednak coś nadal jest nie tak. Robię gdzieś błąd, ale nie wiem dokładnie gdzie. Posiedzę nad tym jutro jak będę miał świeższy umysł :).

---- Dodano 04-12-2007 o godzinie 04:18 ----
Jak by kogoś interesowało, albo miał dokładniejsze informacje - poniżej opis struktury plików na tyle na ile udało mi się ją odgadnąć:

*-unigrams.dat: Plik zawiera wszystkie słowa z danego języka, wraz z informacją o frekwencji ich używania. Rozpoczyna się 4 bajtami - liczbą wyrazów w słowniku. Później następuje lista wyrazów, przy czym każdy rekord składa się z 4 lub 8 bajtowego nagłówka i samego wyrazu, zakończonego znakiem 0x00. Nagłówek:
- 2 bajty: wyznacznik ilości liter - wyznacza się go formułą: 0x821 + (0x421 * ilość liter w wyrazie). Nie pytajcie dlaczego :)
- 1 bajt: 'popularność': wyznacznik frekwencji, liczony od 0 do 100, przy czym 100 mają najpopularniejsze słowa
- 1 bajt: typ wyrazu. 02 oznacza 'zwykły wyraz', 03 (czasami 01?) oznacza nazwę własną. Jeśli to nazwa własna, nagłówek zawiera 3 dodatkowe bajty. 2 nieznane (zawsze 00 00?), ostatni zaś to maska bitów pokazująca które litery w wyrazie zapisuje się jako wielkie. Np. dla wyrazu 'iPhone' maska ta wynosi 02, dla skrótu 'DNA': 07

*-unigrams.idx: Zawiera indeks słów prawdopodobnie dla przyśpieszenia wyszukiwania słów. Zawiera odpowiednią liczbę 7 bajtowych rekordów dla każdej trójki liter rozpoczynających wyrazy w słowniku. Dla przykładu, jeśli słownik zawiera wyrazy: abazur, aborygeni, aborcja, adaptacja, to w indeksie znajdą się trójki: aba, abo, ada. Struktura rekordu:
- 3 bajty: trójka liter. Nie jest ona jednak zapisana w ASCII, lecz zakodowana. Aby uzyskać odpowiednią kombinację ASCII, można skorzystać z uproszczonej formuły (nie bierze ona pod uwagę cyfr i znaków specjalnych): 0x28 + ( ( kod ascii - 0x61 ) * 2 ).
- 4 bajty: offset pierwszego wyrazu w słowniku który zaczyna się od tej trójki liter

*-stems.dat: Dzięki temu plikowi iPhone jest w stanie szybko podawać sugestie dla źle zapisanych wyrazów. Znajdują się tutaj również trójki liter (z reguły pokrywające się z tabelą z pliku .idx), przy czym dla każdej trójki są podane wszystkie możliwożliwości 'pomylenia się', a więc dla każdej litery są podane sąsiadujące z nią na ekranie. I tak, dla trójki 'abo' będą podane m.in.: abp, abi, aco, sbi, sbo, i tak dalej. Plik dzieli się na dwie sekcje, przy czym każdą sekcję poprzedza jej długość w bajtach. Pierwsza składa się z 7 bajtowych rekordów, gdzie:
- 3 bajty: trójka analogiczna do tej z pliku .idx
- 4 bajty: offset do tabeli z sekcji drugiej (należy odjąć od niego 0x04 - ponieważ sekcja pierwsza właśnie w tym miejscu się rozpoczyna)

Druga sekcja to po prostu lista wszystkich możliwych kombinacji dla danej trójki. Każda z tych trójek jest oddzielona znakiem 0x00, a każda grupa trójek jest oddzielona dodatkowym 0x00.

I to tyle, ile udało mi się dziś dowiedzieć na temat formatu plików słownikowych. Plików one,two-letter-words nie brałem na razie pod uwagę, jednak z tego co widziałem powinny one stanowić najmniejszy problem z tego wszystkiego. Jeśli ktoś miałby jakieś pomysły lub zauważył błąd w moim rozumowaniu - niech da znać :).

---- Dodano 04-12-2007 o godzinie 04:20 ----
Udało mi się dość do stanu, gdy telefon co prawda nie poprawia moich błędów, ale powiększa odpowiednie pola liter w trakcie pisania polskich wyrazów - a więc jest już jakiś sukces :).

---- Dodano 04-12-2007 o godzinie 11:22 ----
Sukces! Mechanizm działa bez zarzutu. Okazało się jednak, że słownik ispell'a jest niewystarczający. Brakuje w nim wielu słów codziennego użytku, natomiast zawiera wiele słów na tyle abstrakcyjnych, że tylko zaśmiecają słownik. Dlatego potrzebuję waszej pomocy, aby stworzyć lepszy słownik. Jeśli macie jakieś namiary na listy najczęściej używanych słów polskich (niekoniecznie z ich frekwencjami, choć są one mile widziane) - wrzucajcie do nich linki tutaj.
  • ld_ven0m likes this

#57 malina

malina
  • 460 posts
  • SkądSzczecin

Posted 04 December 2007 - 12:10

Ja mam te słowniki od pana trylobit, jednak bez jego wiedzy nie chcę wrzucać plików. Dam mały przykład co on zrobił. Jest plik dictPL.xls w nim 3 tabele (1000 most common words, one letter words i two letter words). Nastepny jest plik location.txt gdzie jest spis wojewodz ale plik wygląda jakby był zaczęty. Ostatni plik to pol.lst i są tam poprostu słowa (chyba,czyz,zas,moje,moja,mojego,moich,moim,nasza,nasi). Nie wiem według czego powstał ten plik. Więc czy pomocne będą te pliki? Pozdrawiam

#58 M4v3R

M4v3R
  • 2043 posts
  • Skąd/usr/pl/Konin

Posted 04 December 2007 - 14:36

Będą będą. Postaram się złączyć to z tym co już mam i zobaczymy co z tego wyjdzie.

#59 malina

malina
  • 460 posts
  • SkądSzczecin

Posted 04 December 2007 - 16:16

no to poczekajmy na reakcje pana trylobit :)

#60 M4v3R

M4v3R
  • 2043 posts
  • Skąd/usr/pl/Konin

Posted 05 December 2007 - 16:20

Jeśli pan trylobit się nie odezwie, będziemy musieli sobie poradzić sami. W słowniku ispell'a są specjalne flagi dzięki którym można wygenerować wszystkie możliwe odmiany słów zawartych w nim. Więc jeśli znajdę chwilę to skompiluję słownik zawierający właśnie te odmiany. To co mam teraz zawiera tylko podstawowe formy. Np. który/XYx oznacza, że dodatkowe formy to: - którego, któremu, którym, których, którymi (flaga X) - którzy (flaga Y) - która, które, której, którą (flaga x)

#61 malina

malina
  • 460 posts
  • SkądSzczecin

Posted 05 December 2007 - 20:03

napisałem mu mejla może częściej sprawdza niż myapple :)

#62 M4v3R

M4v3R
  • 2043 posts
  • Skąd/usr/pl/Konin

Posted 05 December 2007 - 22:57

Będę jednak opracowywał słownik na podstawie ispell'a. Kiedy mi się to uda - trudno powiedzieć. Będę się jednak starał, aby to było jak najszybciej :).

#63 malina

malina
  • 460 posts
  • SkądSzczecin

Posted 06 December 2007 - 11:20

Jakbyś wytłumaczył jak dokładnie to robisz,to może mógłbym Ci jakoś pomóc?

#64 M4v3R

M4v3R
  • 2043 posts
  • Skąd/usr/pl/Konin

Posted 06 December 2007 - 11:49

Ciezko tu cokolwiek wytlumaczyc, bo zadanie polega na napisaniu programu, ktory ten słownik obrobi. Pomoc natomiast przyda się przy korekcie slownika jak już będzie skompletowany. Wrzucę go wtedy tutaj.

---- Dodano 06-12-2007 o godzinie 17:58 ----
Panie i panowie - pierwsza wersja (beta) słownika gotowa!

Jak go zainstalować? Wystarczy dodać do źródeł Installer'a: http://artdstract.pl/iphone, a następnie zainstalować paczkę z kategorii "KeyboardDictionary".

Podkreślam raz jeszcze - jest to wczesna wersja, więc mogą być błędy (słowa dziwnie odmienione, brak niektórych często używanych słów lub inne). Jednak będę się starał go sukcesywnie poprawiać.

#65 PGC

PGC
  • 1023 posts

Posted 06 December 2007 - 17:09

...zainstalować paczkę z kategorii "KeyboardDictionary".


Czy przyszła, nowsza paczka, będzie widoczna w "update" w Installer? Będzie to przebiegać automatycznie czy ręcznie będzie trzeba śledzić wątek i ponownie odinstalowywać i instalować nowszą wersję?

#66 M4v3R

M4v3R
  • 2043 posts
  • Skąd/usr/pl/Konin

Posted 06 December 2007 - 17:12

Update'y będą widocznie w Installerze. Wątek można śledzić swoją drogą :).

PS. Wszystkie moje nowe posty odnośnie słownika będą pisane w nowym wątku, ten jest już trochę przeładowany.
  • PGC likes this




1 user(s) are reading this topic

0 members, 1 guests, 0 anonymous users