Als je ergens volgende letter ziet: 'word', hoe ga je dat uitspreken en begrijpen? Ik kan het uitspreken als 2 verschillende woorden: word(englisch)woord) en word(nederlands) werkwoord(stam van de inifitief of onbepaalde wijs "worden"). In geen van beide voorbeelden wordt er nergens aangeduid hoe je dat moet lezen en begrijpen. Dat is logisch, omdat de algemene veronderstelling is dat iedereen die in deze maatschappij leeft en woont deze woorden begrijpt. Daarom worden deze woorden ook openbaar getoond. De context geeft een aanduiding. De context die je meent te zien, is geen absolute waarborg dat je juist bent. De context hier de papiermand is voldoende voor iedereen om te begrijpen dat deze dient om paier in te werpen. Het woord "papier" is bijkomstig in dit geval. En voor "word" is het voldoende om te beseffen dat het een engels woord is als de context een Engelse pub is, of je een Engels boek leest, of de verpakking in het Engels is opgesteld. Of je moet een analfabeet of ongeletterde zijn. De context die je meent te zien, is geen absolute waarborg dat je juist bent. Dus dezelfde letters hebben enkel een bepaalde betekenis in een bepaalde context In de voorbeelden word (Engels, boek, Engelse omgeving, en papiermand (vorm en de plaats waar de papiermand staat ) is de context duidelijk genoeg om te begrijpen waarover het gaat. Er is een binaire code en deze binaire code wordt geïnterpreteerd door het gebruik van een codering. Gebruik je een andere codering, kan je andere tekens te zien krijgen Dat is toch logisch. Lees je een Frans boek dan wordt er een Frans schrift gebruikt en lees je een Nederlands boek dan wordt er een Nederlands schrift gebruikt. Als je het Frans alfabet niet kent kun je dat ook niet converteren naar een Engels alfabet. En omgkeerd. De naam hiëroglief is de Griekse vertaling van het Egyptische "Médou-Netjer" = "goddelijke woorden". de ontdekking van de Steen van Rosette (in 1799 door soldaten van Bonaparte)bracht vooruitgang om de betekenis van de hiërogliefen te ontcijferen. Op deze steen was een decreet van de priesters van Memphis gegraveerd in hiërogliefen, demotisch en grieks. In de drie teksten stond de naam van de koning Ptolomeus V, onder wiens regering het decreet werd opgetekend, in een “cartouche”. Door vergelijking van de griekse en de hiërogiefische tekens kon Champollion hun overeenkomst achterhalen Voilà. Hier wordt bevestigd dat de Egyptenaren 3200 jaar voor Christus ook aan conversie deden. Door tekeningen(tekens) en letters en getallen werd een betekenis gevormd. Als je dus de code tabel van Window-1252 of of utf-8 volledig van buiten kent, zoals wij nu ons alfabet, weet je ook of deze kunnen geconverteerd of niet kunnen worden geconverteerd. Als ik geen Frans woord kan schrijven en de Franse characters niet ken, zal ik deze ook niet kunnen omzetten of converteren naar Nederlandse of Engelse letters. Dus vind ik het heel eigenaardig wat er in notepad++ gebeurt als je de cyrillische titelnaam=utf-8 converteert naar Ansi en toch evenveel ansi codering tekens krijgt als de cyrillische tekens van utf-8. Volgens jou zou dat niet mogen gebeuren, want de Windows-1252 bevat geen cyrillische tekens en dus kan er geen conversatie gebeuren met cyrillische tekens als die niet aanwezig zijn in de Ansi code tabel. Waarom komen er dan toch evenveel tekens te staan als je een cyrillische naam met utf-8 codering omzet naar een Ansi codering? Als jij echter de opdracht geeft om te converteren, komt dit neer op vertalen. Dan wordt 'word' uit het eerste voorbeeld 'become' Hier ga je uit de bocht. De code tabellen op het internet staan er niet voor niets. In iedere codetabel staan duidelijk de unicode points, dec en hex en char kolommen aangeduid, zodat je kunt zien met welke waarden er kan worden geconverteerd. Ik weet ook dat wanneer ik de koi8-r wil converteren met de standaard ascii dat dit vodden wordt en op niets uit draait. En dan vraag ik me af als ik in notepad++ koi8-r converteer naar Ansi of er dan ook evenveel tekens komen te staan als er voor de tekst in koi8-r worden gebruikt? Of plaatst koi8-r gewoon evenveel code tekens die totaal niet juist zijn, om de codering op te vullen met een gelijk aantal tekens? Ik begrijp dat je volkomen gelijk hebt dat je een cyrillische tekst met utf-8 tekens niet kunt converteren naar een Ansi codering. Maar nogmaals waarom komt er dan geen fout melding of vraagjes in notepad++? Het is zo als een ASCII teken dat dezelfde betekenis en symbool heeft in UTF-8 (vergelijk dit met 'papier'). Juist omdat alle tekens van ASCII single-byte tekens zijn in UTF-8 en op dezelfde binaire waarde hebben,ASCII een subset (een onderdeel van) UTF- 8 is. ) Dit is een vaststelling. Er wordt telkens duidelijk omschreven dat de eerste 127 ascci tekens die single-byte zijn en een 7 bits +0 code bevatten, overeen komen met de eerste 127 utf-8 tekens om het zogezegd niet moeilijk te maken. Het 0 teken kan worden gewijzigd in 1 zodat het een 8 bits code wordt wat overingens door de utf-8 codering wordt gebruikt. Ik stel allen vast dat de meeste mensen in België geen benul hebben van koi8-r en Windows 1251 cyrillic.En dat is ook begrijpelijk. Ik ken ook nies van de chinese taal, dus ook niets van de codering tabellen die chinese tekens en waarden hebben. En juist daarom is deze draad zolang geworden.Omdat de meeste mensen die een website bouwen niet worden geconfronteerd met cyrillische characters, en dus ook geen problemen daarmee ondervinden. Ofwel moet je utf-8 codering gebruiken of een koi8-r of Windows 1251 cyrillic cedering om cyrillische teksten op jouw webpagina te kunnen plaatsen. En nog veel mensen hebben een Windows-1252 codering op hun pc staan die uitstekend werkt. Als je een map aanmaakt is deze nieuwe map geen root directory. Je slaat iets op volgens een bepaalde codering (windows-1252 of UTF-8) en je decodeert het volgens hetgeen je best past Dat is correct ,in Windows 10 wordt niet om jouw mening gevraagd en staat standaard utf-8 als codering ingesteld. Je kunt die wel veranderen met de optie "codering" in de contextmenu van de rechtse muisknop op jouw lokale webpagina. Zolang je onvoldoende begrepen hebt, hoe het met de coderingen zit, heeft het geen zin om de complexiteit te verhogen met nog andere coderingen. Als je het principe van de coderingen doorhebt, en als je zelf het verschil begrijpt tussen lezen met een (andere) codering en converteren naar een codering, zal je allicht bepaalde vragen niet meer stellen. Dit is correct. Daarom dat mijn vraag complex overkwam en je op allerlei manieren trachtte die op te lossen. Het is inderdaad begonnen met het vergelijken van dezelfde hex waarden van de ene codering met de andere codering. DO en 94 van utf-8 met de Angelsaksische Ð van Windows-1252. Maar het heeft geen zin om met andere coderingen teksten uit te voeren op jouw computer als Windows 10 als standaard staat ingesteld op utf-8. Natuurlijk kun je de optie "codering" gebruiken zodat je ook met andere codeingen kunt werken. Notepad++ heeft alleen de mogelijkheid om Ansi, utf-8,utf-8 BOM, ucs -2 BE BOM en ucs -2LE BOM te converteren. KOI8-R en Windows 51 cyrillic zijn niet aanwezig . We leven in een globale wereld waar nu veel mensen die een oost -europese taal spreken in België verblijven en wonen. De computers en laptops met een Windows 10 besturingssysteem zijn daar op voorbereid en aangepast. Degenen die nog Wndows-1252 als codering gebruiken op hun computer blijven steken en gaan niet mee met de huidige tijd. Bekijk het zo: Telenet heeft vanaf 23 februaru 2021 het signaal voor de ouderwetse tv's verbroken en men is verplicht om een aanpassing bij sommige( niet alle tv's ) te doen om nog te kunnen kijken. De meeste mensen zullen echter een nieuwe tv moeten kopen. Zo staat in vele handleidingen van electronische toestellen de Russische taal ook vermeld. De tijd van de Sovjet -Unie is voorbij gestreefd. Ik ga niet meer in als je andere coderingen gebruikt dan Windows-1252 en UTF-8. Vermits er een grote verwarring is (op het internet en door allerhande programma's en producenten) met Windows-1252 en Ansi en Latin of Latin 1, beschouw ik ze allen als Windows-1252 (in bepaalde gevallen zijn kleine verschillen niet uitgesloten). Als je in Notepad++ een onmogelijke conversie doet, krijg je vraagtekens terug. Je kunt he top twee manier en bekijken : een onmogelijk conversie of een tekortkoming van notepad++ in onze huidige globale computerwereld . En ja ik kijk met een andere blik en kennis wanneer het over cyrillische characters gaat. Jouw bevindingen zijn uitsluitend gebaseerd op het Nederlandse alfabet, waardoor jouw inzicht beperkt is op de cyrillische weergave . Op jouw computer of laptop staat niet Russisch toetsenbord Russisch ingesteld als tweede taal. Als ik op mijn laptop Russisch toetsenbord Russisch instel en ik duw op de toets V dan krijg ik de cyrillische M te zien. Ik schrijf zo al vele jaren brieven naar mij familie in Oekraïene en Rusland. Dat is tenslotte ook codering tussen Nederlandse characters en cyrillische characters. U+00E4 ä c3 a4 LATIN SMALL LETTER A WITH DIAERESIS Dit staat dus in de code tabel utf-8 en ik krijg steeds meer de indruk dat je niet Windows 10 als besturingssysteem gebruikt,en daarom de codering met Windows-1252 ten koste van alle neuwe toepassingen in Windows 10 halsstarrig blijft behouden. Dit is natuurlijk jouw goed recht maar beperkt wel de mogelijkheden om alle talen in de wereld te kunnen converteren. Als je geen index.htm of index.html hebt, dan zal je website getoond worden op een manier vergelijkbaar aan Windows verkenner (dat kan je zien op MijnZandbakje ). Als de F5 niet werkt, doe dan Ctrl+F5. Opgelet indien je een redelijk recent toestel hebt, is het mogelijk dat de F1- tot F12-toetsen ingesteld staan als functietoetsen Neen mijn laptop is reeds van 2013 en het werkt niet als ik op F5 meermaals druk om te vernieuwen. Indien dat zo is moet je de Fn-toets ingedrukt houden als je de F5 indrukt. Ctrl+F5 wordt dan Fn+Ctrl+F5. Ik zal het alleszins uitproberen met de fn ctrl en F5 de volgende keer als een oude index.html webpagina niet kan worden verwijderd. Maar als Netweter weet je beter dan ik dat Telenet eist als je een website bouwt, de eerste webpagina index.htm of index.html moet noemen. Ik heb er echt geen idee van wat de bestanden _VTI_ en _CNF_ ook moge zijn. Ik zie bij mij zulke bestanden niet. Ik zie enkel wat ik er zelf opzet. Het is ook niet nodig om een bestand te wissen. Igvfer heeft die ook op zijn website en zegt dat die helemaal niet nodig zijn en mogen worden verwijderd. Ik weet het niet, maar hij zal wel gelijk hebben met zijn ervaring. Conclusie: U+00E4 ä c3 a4 LATIN SMALL LETTER A WITH DIAERESIS wel aanwezig in de utf-8 tabel niet ind e Ansi tabel U+00D0 Ð c3 90 LATIN CAPITAL LETTER ETH is geen zuivere letter weergave van de D in het alfabet, het bezindt zicht in de diakritische tekenscodering waar ook umlaut U+00E4 ä staat aangeduid. De vergelijking met de D van het russische woord "Добро" ging dus niet op. En ook de daarbij horende dec en hex waarden klopten niet. Maar ja dat kom je pas te weten als je meer kennis krijgt hoe de coderingtabellen eruit zien op het internet. Het is een zeer uitgebreide materie om alles te kunnen weten en begrijpen. Maar het is en blijft wel zeer interes sant om er kennis over op te doen. grtz, gigi
... Meer weergeven