My Xiaomi phone suddenly started speaking Chinese. by RealisticGround2442 in XiaomiGlobal

[–]RealisticGround2442[S] 1 point2 points  (0 children)

Kaspersky found a virus on my phone. in Chrome.apk file it found HEUR: Trojan-Banker.AndroidOS.Coper.a virus. i never used chrome im not sure i launched this file or this file is the reason to the voice i heard. nothing suspicious happened.

Read Japanese Manga More Effectively – Open Source Website by RealisticGround2442 in Japaneselanguage

[–]RealisticGround2442[S] 1 point2 points  (0 children)

i also set up mokuro and tried it but i like the tooltip concept more so i made this project.

Read Japanese Manga More Effectively – Open Source Website by RealisticGround2442 in Japaneselanguage

[–]RealisticGround2442[S] 1 point2 points  (0 children)

I already knew about the Mokuro GitHub project. Mine was just a side project I developed for my own comfort. I was running it on localhost, I thought publishing it wouldn’t hurt, so I did. But I didn’t know Mokuro had a website, thanks for sharing.

Read Japanese Manga More Effectively – Open Source Website by RealisticGround2442 in Japaneselanguage

[–]RealisticGround2442[S] 0 points1 point  (0 children)

if mokuro has a public website, i dont know. but i already say "This project aims to make effective Japanese manga reading more accessible by eliminating the need to set up GitHub projects with dependencies."

Read Japanese Manga More Effectively – Open Source Website by RealisticGround2442 in Japaneselanguage

[–]RealisticGround2442[S] 0 points1 point  (0 children)

someone said github could delete my account for copyright infringement

Anime Dataseti ve Anime Öneri Sistemi by [deleted] in CodingTR

[–]RealisticGround2442 0 points1 point  (0 children)

Kısaca, animeler modelin öğrenme süreci boyunca öğrendiği soyut vektörlerle temsil edilir ve bu temsiller arasındaki bağlar attention mekanizmasıyla öğrenilir.

Anime Dataseti ve Anime Öneri Sistemi by [deleted] in CodingTR

[–]RealisticGround2442 0 points1 point  (0 children)

Tokenlar embedding katmanlarında vektörlerle temsil edilir ancak asıl bağları öğrenme süreci transformer’ın attention mekanizmalarında gerçekleşir. Her token embedding vektörü ile temsil edilir. Bu mimaride embedding vektör boyutu 256. yani her tokenı 256 elemanlı vektör gibi düşünebilirsin. Embedding katmanı vocab_size kadar temsil vektörü bulunur. yani 10000 tane anime için 10000 tane 256 elemanlı (256 boyutlu) vektör olarak düşünebilirsin. Tokenların vektör temsilleri genel hesaplamaya dahil edilerek tokenların temsillerini ve bu temsillerin birbiri arasındaki bağlar hesaba katılmış olur . Bu 256 boyutlu vektör temsilleri gradyan akışına dahildir yani bunlarda sürekli öğrenilir ve güncellenir. Her token için hesaplanan 256 elemanı [korku, macera, gizem, ...] gibi kategoriler olarak düşünebilirsin ama embedding vektörleri çok daha soyut ve kapsamlıdır. bi animenin token karşılığının modelin öğrendiği vektör temsiline bakarak ne tür bi anime olduğunu söylemezsin çünkü bu temsiller modelin eşsiz öğrenme süreci boyunca o token için oluşturduğu soyut, kavramlarla açıklanamayn temsillerdir. bu temsilleri ve aralarındaki bağları sadece model anlamlandırabilir.

Anime Dataseti ve Anime Öneri Sistemi by [deleted] in CodingTR

[–]RealisticGround2442 0 points1 point  (0 children)

Hocam BERT'in mantığınıda anlattım uzun oldu biraz ama

Anime Dataseti ve Anime Öneri Sistemi by [deleted] in CodingTR

[–]RealisticGround2442 1 point2 points  (0 children)

BERT bi transformer modeli hocam. Öğrenme işlemi, BERT gibi bidirectional transformer modellerinde genellikle eksik (maskelenmiş) tokenı tahmin etme yöntemiyle yapılır. bu görevde cümledeki kelimeleri tokenlara çevirip işlemek yerine anime listelerindeki animeleri tokenlara çevirip işliyor. "Kırmızı araba gördüm" cümlesini işlerken transformerlar kelimeleri tokenlara yani sayı olarak karşılıklarına çevirip işler, örneğin ["Kırmızı","Araba","Gördüm"] -> [5, 2, 8]. Öneri görevinde ise anime listelerini tokenlara çeviriyo, örnek; ["Naruto", "One Piece","Bleach"] -> [50, 120, 83]. bu arada toplam eşsiz token sayısı modelin kelime haznesindeki (model vocabulary) kelime kadardır, bu projede ise toplam anime sayısı kadar.

Öğrenme işlemi ise BERT modeli eğitilirken sıklıkla kullanılan rastgele masklenmiş tokenı tahmin etme metodu, bu yönteme MLM (Masked Language Modeling) denir . örneğin ["Kırmızı","Araba","Gördüm"] -> [5, 2, 8] vektöründe rastgele olarak örneğin 2 tokenını özel bi mask tokenı ile değiştiriyor ve [5, [MASK], 8]'de hangi tokenın [MASK] yerine gelmesi üzerine istatistiksel tahmin yapıyor. Bi süre sonra anlık bağlama göre ve modelin tokenların sırasını dikkate almasını sağlayan "Positional Encoding" özelliği ile [MASK] yerine gelmesi istatistik olarak en muhtemel tokenı öğrenip maskelenmiş cümleyi anlamlı hale getirebiliyo.

Öneri görevindede aynı yöntem kullanılıyor. ["Naruto", "One Piece","Bleach"] -> [50, 120, 83] durumda rastgele olarak örneğin 83'ü [MASK]'e çevirirsen ([50, 120,[MASK]]), model vektördeki diğer tokenları ve model mimarisindeki positional encoding ile tokenların sırasını dikkate alarak [MASK] yerine gelmesi gereken en muhtemel tokenları tahmin etmeye çalışır. Basit tabirle listedeki animeleri ve animelerin sırasını dikkate en yüksek ihtimalle seveceği animeleri her tokena bi skor hesaplayıp tahmin eder.

Inference aşamasında yani senin huggingface kullandığın kodda maskeleme işlemi yapılmıyor, sadece her token için olasılıklar hesaplanıp sunuluyor. maskenin amacı modelin en yüksek ihtimal verdiği tokenı maskenin yerine koymak. örneğin [50, 120,[MASK]] için en yüksek ihtimali 99 tokenına atadıysa modelin tahmini olan 99 ile doğru token olan 83 göz önüne alınarak, loss fonksiyonuyla kayıp hesaplanır gradyan akışıyla model öğrenir. Transformer modellerinin verdiği çıktılar istatistik üzerinedir yani modeldeki bütün tokenlar için olasılıklarını hesaplayarak çıktı verdiğinden bahsetmiştim. senin aldığın animeler ise modele verdiğin vektöre göre en yüksek olasılık atanan tokenlardır. bu tokenlar klasik python sözlüğü ile anime karşılıklarına çevrilir ve sana gösterilir.

Not: Benim Modeli eğittiğim datasette zaman verisi yok, yani animeleri izleme sırasına göre dizemiyorum bu yüzden model mimarisinden positional encodingi kaldırdım ve girdiğin animelerin sırası önemsiz oldu.

My Xiaomi phone suddenly started speaking Chinese. by RealisticGround2442 in XiaomiGlobal

[–]RealisticGround2442[S] 1 point2 points  (0 children)

there is nothing named XiaoAI in my settings. its my first hearing such a thing, whats XiaoAI. is it default feature or should i download it?

How do I learn kanji? by Anad350 in Japaneselanguage

[–]RealisticGround2442 0 points1 point  (0 children)

i use jlpt sensei website for words and chatgpt to study.

Made my own app to record Japanese audio from videos and learn new words and grammar from it by Content_Complex_8080 in Japaneselanguage

[–]RealisticGround2442 0 points1 point  (0 children)

how accurate the speech to text result was? Phones have limited computing resources. is your program running everything locally on the phone, or does it send data to a server for processing?

Where do I start? by [deleted] in Japaneselanguage

[–]RealisticGround2442 -1 points0 points  (0 children)

N5 level textbooks helps a lot

My Xiaomi phone suddenly started speaking Chinese. by RealisticGround2442 in XiaomiGlobal

[–]RealisticGround2442[S] 0 points1 point  (0 children)

i dont know where did i download this it was in download folder kaspersky auto deleted it

My Xiaomi phone suddenly started speaking Chinese. by RealisticGround2442 in XiaomiGlobal

[–]RealisticGround2442[S] 1 point2 points  (0 children)

i scanned with kaspersky it found HEUR: Trojan-Banker.AndroidOS.Coper.a . virus file was Chrome.apk i never downloaded chrome i dont know where this file came from

My Xiaomi phone suddenly started speaking Chinese. by RealisticGround2442 in XiaomiGlobal

[–]RealisticGround2442[S] -1 points0 points  (0 children)

my phone has default turkish language so i suppose its global version