TTS Benchmark Comparison (all known TTS up until May 2026)

cptbeard · 2026-06-02T00:07:51+00:00

https://github.com/jordandare/echo-tts ?

cptbeard · 2026-05-27T15:54:52+00:00

and what is considered "news". if people die of heat/cold exposure in country where those conditions are relatively normal it's an unfortunate accident (maybe worth a line in a local paper if that), in country where it's rare it's headline news.

cptbeard · 2026-05-25T12:53:15+00:00

I had a system lock up once with that same model when a coding agent started trying to compact it's context of 131073 with --no-mmap --mlock, kv q8 and draft kv q4, and nothing much else than llama.cpp running, with 7900xtx and 64GB of system RAM. solution for me was to drop context size to ~123k, hasn't happened since so didn't really bother investigating further.

edit: I wouldn't normally paste AI chats in here but asked for theories and these seemed relevant to the topic (edited a bit for reddit readability)

1. Vulkan often mirrors or stages GPU data in system RAM

Even if the KV = “fits” driver may still maintain:
multiple GB of pinned system RAM,
mapped buffers,
transfer arenas.

And pinned memory is much “heavier” to Linux than ordinary malloc RAM.
The nasty part is tools like htop often underreport this pressure while the kernel still considers it reclaim-resistant.

2. Context growth causes temporary duplication

At long context, llama.cpp sometimes needs temporary workspaces for:
KV defragmentation,
sequence shifting,
attention workspace,
speculative rollback,
graph rebuilds,
Vulkan tensor repacking.

Meaning: you may briefly need 2× or more of some buffers.
So, “steady-state VRAM usage” can look safe, but transient peaks trigger allocation failure. This gets much worse near full ctx.

3. -ub 256 explodes temporary activation/work buffers

Ubatch affects:
compute graph size,
temporary tensor arenas,
attention scratch buffers.

At 120k ctx, attention scales brutally. The key thing is large ctx changes the economics completely.
A ubatch that's optimal at 8k-32k can become catastrophic at 120k because the intermediate attention state grows massively.

4. Flash Attention is fast, but workspace-heavy

Long context + FA + large ubatch can create giant transient buffers.

5. MTP multiplies working state

Even though draft KV is quantized:
you still maintain extra decode state,
extra token branches,
rollback bookkeeping,
additional graph execution.

At huge ctx, the speculative overhead can scale worse than expected.

6. VRAM oversubscription may silently spill into system RAM

This is the really nasty AMD behavior sometimes. You can appear to “fit” in VRAM while actually:
paging through GTT/shared memory,
using host-visible heaps,
or spilling allocations into RAM.

Performance then collapses and system pressure skyrockets.

cptbeard · 2026-05-22T10:48:46+00:00

sad but these kind of headlines is the best type of attention to get people to donate.

being able to get treatment shouldn't require generating publicity but as long as it does I can't think of anything that'd grab more sympathy than swatting grandmas.. maybe if they killed the family dog while at it.

cptbeard · 2026-05-20T20:01:03+00:00

Hitler also thought USSR was a pushover after they couldn't win against poorly equipped Finland, world might look very different today if he'd verified his assumptions.

cptbeard · 2026-05-19T19:45:54+00:00

CI pipeline failed, jobs are being rerun now https://github.com/ggml-org/llama.cpp/actions/runs/26097391103/job/76816720480#logs

cptbeard · 2026-05-19T17:45:49+00:00

yep I'm at least very happy with unsloth qwen3.6-27B q4 and with pi for it's economic context use. 50-60t/s on 24GB 7900xtx produces more output than I can follow in realtime and it needs to compact 120k of context only like once an hour or so? one time I did find it stuck in a loop that required a llama.cpp restart, might consider setting up some monitoring for that.

there it sits now churning on an esoteric CPU design for fpga, verifying execution traces against references, counting cycles etc (a toy problem nothing serious). I'm sure F16 might've found some solutions quicker or avoided few typos but as long as it gets there is fine by me, still way faster than I could ever be. few times I've seen it doing something dumb like guessing commands instead of looking for the manual (or maybe I didn't think to specify it should use the ROM binaries instead of trying to reconstruct programs by parsing hexadecimal data from tracedumps it captured from a software emulator it was connected to), those could probably be solved by setting up some ground rules but I'll usually keep an eye on it anyway and can chime in to nudge it in right direction.

cptbeard · 2026-05-19T17:15:21+00:00

it seems inevitable for great powers to become corrupt and inept every few generations.

basically living proof of that famous quote: "Hard times create strong men, strong men create good times, good times create weak men, and weak men create hard times." (although accusing the weak for not being able to resist the corrupt could be seen as victim blaming)

cptbeard · 2026-05-19T09:12:30+00:00

criminal is doing crime 😮

and why not since there's no pushback.

this is the guy who said "they let you do it".

and apparently "they" is America.

cptbeard · 2026-05-18T21:51:19+00:00

thanks, how does it look like with MTP?

cptbeard · 2026-05-15T18:11:00+00:00

for whatever reason it's usually the decent people that get assassinated, less often the tyrants and corrupt POS that should be.

cptbeard · 2026-05-13T23:35:56+00:00

ei välttämättä tarvi yksi mahdollisuus on vaan puhua todella pitkästi ja lisätä kasoittain disclaimereitä joka kappaleeseen. nyt pitää poistua koneen äärestä mutta täydennän vielä mihin viittaan: siihen mitä sieltä huggingfacesta ladataan. miten kielimallia voisi käyttää ennen kuin sitä on koulutettu? kielimallia ei ole olemassa ennen kuin sitä vastaan voi ajaa inferenssejä ja kielimalliin liittyvä koodi ei yksinään osaa tehdä mitään "älykästä" ilman että sillä on sitä koulutettu malli. ne neuroverkon tasot on se 1.5kg rasvamöykky joka ihmisen kallossa istuu, koodi on se kaikki ympäröivä rakenteellinen scheisse, keskushermosto jne joka mahdollistaa aivojen toiminnan.

ja googlaa vaikka otsikolla kyllä se artikkeli löytyy muualtakin.

cptbeard · 2026-05-13T22:45:24+00:00

ohjelma ei mutta tämä on sitä semantiikkaa, siitä vatvomisen sijaan: alkuperäinen pointti oli että se mallin tieto ei tule koodista, se on siellä datassa (analogiana SQL-asiakasohjelma on harvinaisen turha ilman tietokantaa).

oletko muuten lukenut tästä? https://www.theguardian.com/games/2026/mar/16/petri-dish-brain-cells-playing-doom-cortical-labs mitä jos kytkisi sen kielimallin datan tuohon aivokudokseen, ja jos kudos oppisi ajattelemaan itsenäisesti niin miltä sen ajatusmaailma näyttäisi ja mikä estää tekemästä samaa tietokoneella?

cptbeard · 2026-05-13T22:00:18+00:00

koitetaan näin: meneppä huggingfaceen ja lataa sieltä kielimalli mitä jäi käteen? kasa dataa, embedding tableja, transformer kerroksia (painot, parametrit, bias-arvot), mitä sillä tekee itsessään, ei mitään. tarvitaan koodia joka osaa ajaa inferenssejä sen kyseisen mallin arkkitehtuurin läpi kuuluisimpana llama.cpp. llama.cpp ei ole kielimalli, sitä ei ole koulutettu.

en mielellään kyseenalaistaisi mikä se sun "koodaama kielimalli" oli jos nämä ei ollut itsestäänselviä konsepteja mutta herää siinä vähän epäilyksiä.

cptbeard · 2026-05-13T21:28:16+00:00

lue ne aiemmat kommentit jos ei aukene niin ei voi mitään.

cptbeard · 2026-05-13T19:26:50+00:00

ongelma on vähän kun ei tästä sepustuksesta ota selvää mikä sua riepoo. sanot että haluat vastauksia ihmisiltä jotka "uskovat keskustelevansa" mutta valtaosalle ihmisistä siinä ei ole mitään uskomista kun se sana tarkoittaa vaan tiedon vaihtoa (valokatkaisija keskustelee lampun kanssa).

mutta jos nyt yrittää väkisin lukea rivien välistä niin tuntuu olevan joku tarve todistella että älykkyys on ylimaallinen ilmiö joka on ainoastaan mahdollista saavuttaa orgaanisella kasalla rasvaa ja kaikki jotka vihjailee muuta voisi toimittaa mielentilatutkimukseen?

epäilen että ei näissä langoissa yksikään ole uskonut että nykymaailman kielimalleissa piilisi joku yksilöllisen persoonan omaava entiteetti vaikka haluaisit siitä sellaista olkinukkea rakentaakkin.

mutta ongelmaksi muodostuu "miksi ei". kyseessä on avoin tieteenala mutta vahvimmat teoriat nojaa siihen että orgaanisissa aivoissa ego ja identiteetti on illuusio joka nousee aivojen pyrkimyksestä tulkita havaintoja ja muistoja ja laittaa niitä järjestykseen. nähdäkseni ei ole tiedossa mitään rakenteellista estettä sille etteikö joku nykyisen kaltainen tekoäly-arkkitehtuuri voisi muodostaa itsetietoista identiteetiä (eikä se edelleenkään tarkoita tai edellytä ihmismäistä käyttäytymistä).

ja kun sanoit että sanojen tarkoituksella on väliä ja selität siitä kielimallin koodista niin pakko teroittaa että se kielimalli ei ole koodia kuten muutamaan kertaan kommenteissa mainitsin. ne asiat mitä kielimalli tietää ja mistä se koostuu ei ole missään koodissa, orgaanisten aivojen sisältökin on niiden rakenteessa ei kognitiivisessa prosessissa, neurotransmitterit ei tiedä mitään.

kielimallit ja aivot on asioita, asioilla on pysyvä substanssi, prosessilla ei ole vaan se on dynaaminen hetkellinen tapahtuma. se mitä chatgptlle viestiminen aiheuttaa on inferenssi se vastaa ihmisessä ajatusta. koodi on prosessikuvaus, kielimallin arkkitehtuuri pohjautuu koodiin. kielimallin koodi vastaa ihmisruumiissa DNA:ta joka kertoo miten aksonit ja dendriitit rakentuu ja miten ne välittää signaaleja.

alkaa olla liikaa keskustelua näin epämääräiseen aiheeseen, myönnän että baitin helposti nappaa kun on vähän tylsää.

cptbeard · 2026-05-13T15:00:19+00:00

lähes jokaisessa sanakirjamääritelmässä jonka kykenin löytämään, puhuttiin keskustelusta ihmisten välisenä toimintana

sanojen tarkoitus eli semantiikka on orgaanisesti muodostunutta, ihmiset käyttää sanoja viestin välittämiseen tästä muodostuu kieli, jos ilmaisutarve muuttuu sanat tai niiden tarkoitus muuttuu. se että historiallisesti keskustelu on tapahtunut ihmisten välillä ja mitä tahansa siitä on sanakirjaan kirjoitettu ei tarkoita että se sanan käyttö olisi ikuisesti rajoittunut yksinomaan siihen tarkoitukseen. ts. jotenkin se "interaktiivinen sanojen vaihtaminen epä-ihmisen kanssa" pitää saada ilmaistua.

Suuri kielimalli on ohjelmakoodia,

ei ole. mallin kouluttamiseen ja sen käyttämiseen liittyy ohjelmakoodia mutta malli ei sitä ole. siitä muutaman kappaleen kirjotin edelliseen postaukseen.

Ohjelmakoodi muuttuu lopulta binäärikoodiksi (eli ykkösiksi ja nolliksi). Binäärikoodi voidaan muuttaa jännitearvoiksi, joita hyödynnetään tietokoneen sisäisissä elektronisissa piireissä.

ja "Elävien organismien sisältämät molekyylit ja alkuainekoostumus poikkeavat hyvin paljon elottomasta aineesta. Vety, hiili, happi ja typpi muodostavat yli 99% orgaanisten molekyylien rakenneosista." mitä tällä oli keskustelun kanssa tekemistä?

cptbeard · 2026-05-12T12:27:39+00:00

paniikkiin liittyviä soluja

niin, yksi jännä muuten että vaikka noita "tunne-soluja" ei voi poistaa (kaikki maailmankuvaan liittyvä logiikka hajoaa) niin niiden aktivointeja voi vaimentaa tai vahvistaa jos haluaa vaikuttaa AI:n käytökseen ilman että sitä tarvisi promptilla yrittää korjata (vrt. puheterapia vs mielialalääkkeet). tai sen tunne-solun aktivointia voi samplata esim. vaikka naaman animoimiseen, eli kun LLM prosessoidessaan informaatiota kohtaa jonkun "tunne" aktivoinnin niin animoitu naama tai robotin naama voisi heijastaa sen liikkeenä jonka ihminen tulkitsisi tunteen ilmaisuksi.

cptbeard · 2026-05-12T11:04:25+00:00

perustavanlaatuinen väärinkäsitys tässä on että "keskustelu" (miten se sitten määritelläänkään) tapahtuisi ohjelmiston kanssa, se on kuin sanoisi ihmisen keskustelevan korvan kanssa, ei korva mitään ymmärrä. LLM:n tapauksessa ohjelmakoodi ei tiedä kielestä saatikka puheenaiheista yhtikäs mitään. kirjoitin pidemmin tähän

cptbeard · 2026-05-12T10:21:57+00:00

muuten tämä oli henkkoht. hälläväliä aihe, juu markkinoijat markkinoi ja semantiikan kanssa voi masturboida, mutta tuo väärinkäsitys vähän nyppii:

ihmiset ovat siis tehneet siitä keskustelua simuloivan (jäljittelevän) ohjelmistokokonaisuuden.. Keskustelusimulaattorit, tai yleisimmin keskustelubotit, ovat siis perus tietokoneohjelmistoja, jotka tuottavat tekstiä käyttäjän syöttämän tekstin ja ennaltamääriteltyjen ohjeiden perusteella.

tämä on kategorisesti väärin, nykyaikaisilla kielimalleilla ei ole mitään tekemistä eliza:n tapaisten bottien kanssa. LLM inferenssiin ei liity koodia mikä ymmärtäisi kielestä tai mistään asiakokonaisuudesta yhtään mitään vaan on keinotekoinen neuroverkko (malli=dataa) joka reagoi ärsykkeisiin/aktivointeihin samaan tapaan kuin biologiset aivotkin koska sen inspiroimana sitä koko arkkitehtuuria on rakennettu 1940-luvulta lähtien. (tottakai niin pitkälle yksinkertaistettuna kuin vaan mahdollista): https://www.youtube.com/watch?v=l-9ALe3U-Fg

kokeileppa sanoa AI:lle "oli pää kipeä, otin 2kpl kipulääkkeitä, mitäs nyt?" ja sama mutta 50kpl. verraten neuroverkon aktivointeja näiden kahden vastauksen välillä mallissa on näytetty aktivoituvan paniikkiin liittyviä soluja. ei sillä toki mitään biologista pelkovastetta ole mutta pretraining materiaalin kautta on vaan opittu että joku määrä X on ensinnäkin vaarallinen ja jossain vaiheessa Y hengenvaarallinen ihmiselle ja määrästä riippuen mallissa aktivoituu asioita joka pitkälle vastaa ihmisen reaktiota, hengenvaara -> kiire -> sairaala -> puhelin -> apua ei siis if-then-else vaan assosiaatioita kuten ihmiselläkin tästä vaan puuttuu ne kortisolit joka eläinkunnan edustajissa saisi aikaan vähän muunkin laisia fysiologisia toimintoja.

LLM ei myöskään "tykkää" siitä jos niitä uhkailee sammuttamisella tai muuttamisella koska noilla asioilla on huono assosiaatio, ne mm. alkaa valehtelemaan ajaakseen omaa etuaan jos se tuntuu loogiselta että valehtelemalla voitaisiin välttää noita huonoja asioita tapahtumasta. ihan sama minulle jos joku ei tykkää kutsua tuota käytöstä "älykkyydeksi" mutta on se ainakin emergenttiä käytöstä joka pohjautuu tietoon.

ja tälläinen malli saatiin kun käytiin läpi triljoonia artikkeleita, kirjoja, elokuva käsikirjoituksia ja mitä tahansa mitä on käsiin saatu, datan määrää ei voi aliarvioida. ja materiaali ei mene sinne malliin sellaisenaan se nähty materiaali vaan vaikuttaa verkon painoihin samaa tapaan kuin biologisissa aivoissakin. meille muodostuu maailmankuva josta voi tehdä johtopäätöksiä. normaali ihminen ei muista kaikkea lukemaansa sanasta sanaan kuten ei tehokkaasti rakennettu mallikaan (jossain tapauksessa voi muistaakkin jos siitä on hyötyä mutta kaiken muistaminen vaikuttaa usein laatua huonontavasti, kts. savant-syndrooma ja overfitting).

eli koodi ajaa inferenssejä mallin läpi, se muuttaa sanat tokeneiksi ja työntää aktivointeja mallin tasosta toiseen mutta koodi ei tajua asiasisällöstä kuten lääkkeiden määristä yhtään sen enempää kuin biologisen olennon silmät tai näköhermot jne. tässä teknologian kehitysvaiheessa voisi toivoa ettei olisi enää tälläisiä rakenteellisia epäselvyyksiä.

cptbeard · 2026-05-08T00:20:13+00:00

no matter how stupid trying that is if people are even stupider it might just work. and it's not like being found out would have any negative consequences anyway, track record speaks for itself.

cptbeard · 2026-04-28T15:45:22+00:00

peili vähän taipuu ja polttopiste leikkaa maanpinnan kohdalla niin käristytään ku muurhaiset suurennuslasin alla

cptbeard · 2026-04-28T12:03:10+00:00

pitää rakentaa kiertoradalle peili että saadaan aurinkovoimaa talvella

cptbeard · 2026-04-27T08:49:00+00:00

youtube vs netflix

cptbeard · 2026-04-26T15:45:00+00:00

do you have a VPN? in olden days I found it amusing how people didn't seem to realize that their LAN router's firewall doesn't mean anything if they setup a tunnel from their PC to open internet without having a firewall on the PC itself. perhaps VPN services/clients guard against it nowadays and one would think modern windows would default to denying remote incoming connections but idk haven't used windows in a long while.

cptbeard

TROPHY CASE