Posts Tagged ‘Internet’

Business intelligens via web mining

Text mining för effektiv business intelligence är vad som redan allt mer de sista fem åren blivit viktigt i alla segment av internet affären relaterad annonsering. Fler aktörer kräver större noggranhet att se värde där det uttrycks energieffektivt.
Detta är ett urdrag och sammanfattning av längre artikelserie planerad till denna vecka i Nyfiken vital – Människans språk som anknyter till det.

En av de mest – personligt – betydelsefulla artiklar jag läst de sista fyra åren är Information, Communication, and Meaning, George A. Miller (jag lämnar som övning till läsaren att försöka hitta på nätet om alls där) där han i sammanfattning föregriper informationsteorin inom de kognitiva psykologin ändå framtill idag (praktiskt ex. rörande image analysis av fmri rörande tester med i hans tidiga arbete närmare informationsanalysen vid mer ”manuella” psykologiska tester). Miller var ju också en av de tidiga stora tänkarna och grundläggarna till den kognitiva psykologin, psykolingvistiken och informationsvetenskapen.

Närmare slutet av artikeln skriver Miller:

”It is resonable to asky why we are so redundant. The answer lies in the fact that redundancy is an unsurrance against mistakes. [Jämför gärna också med risk management förövrigt varande det områden där jag mötte informationsteorin först.]. The only way to catch an error is to repeat. Redundant information is an autoatic mistake-catcher built into all natural languages. Of course, if there is no chance of error, then there is no need for redundancy. The large amount of redundancy that we seem to insist on reflects our basic ineffeiciency as information-handling systems. Compared with the thousands or millions of bits per second that electronic devices can handle […] can chariably be called puny [Miller var förövrigt först med att notera 5 – 7 ”gränsen” för arbetsminne vilket är en bra utgångspunkt för att bättre förstå vad han avser]. By making our languages redundant we are able to decrease the rate, Hx(y), to a point where we can cope with what is being said.”

När vi ska lära oss sekvenser ”utantill” vilket är mycket nära de konkreta försök Millers förklaring avser är detta när det pekats ut med ”enkla” formler klart för oss lätt att uppleva lite självklart.

Vår kunskap, vårt intresse och hur vi tänker och känner styr allt övergripande

Övergripande inte bara för individen över intressen, kunskap, humör, vad han eller hon läser m.m. utan också vänner han möter före eller efter idéer utbyts med.

När kunskapen konkret samverkar för uttrycka de komplexa som går långt utanför varje enskilt dokument eller ens alla av våra största välkända corpus. Är vi inte längre i den givna enkla sekvensen vi upprepar tills vi lärt den.

Ungefärlig förståelse av vad t.ex. Stockholm eller en kemisk reagens gör. Dessutom när meningsfull relevans finns samverkar våra konkreta objekt med vad vi redan är, vet och informationen vi fortsatt tar in.

Denna implicita repetition mer kontinuerlig där delar av relationer mellan många koncept kan förstärkas, skapas eller offras för effektivisering via prouning (lättsam sammanfattning pruning inkl. relaterat med referenser The Brain and Consciousness) går långt utanför de vanliga (men likväl innebär verklig praktisk-utmaning) discourse modeller som analysera data nära enskilda meningar i en text normalt använda för att extrahera förståelse från text. Det är väsensskilt genom att dessa i sig inte går att ta vidare till analys av implicit repetition (även om datat de ger givetvis är användbart) därför att deras algoritmer växer icke-linjär i komplexitet.

Snarare är deras ev. motsvarighet i vår kognition just att tolka informationen vi just nu tar in energieffektivt medan andra annorlunda utmaningar kräver att man tänker ytterst annorlunda för att kunna se utan att dränkas i det vansinne i dimensioner enormt komplexa datamängder skapar. Hela det praktiska området för hur vi i det konkreta extraherar enklare data från enskilda dokument finns utmärkt sammanfattat i Speech and Language Processing, Dan Jurafsky och James H. Martinm resp. kompletterat ex. T. Givón två Syntax I och II, eller någon av ett flertal liknande böcker kan ge lite fördjupat perspektiv från en annan vetenskapstradition kompletterande. Att extrahera data bra är även om det ligger utanför huvudintresset här nog så viktigt för att få in data att behandla och av ett idag mycket omfattande referensbibliotek över hela området menar på det allvarligaste att rekommenderad bok är den viktigaste att ha att slå i upp kring allt praktiskt.

Mitt ex. av Speech and Language Processing klarar att visualisera sitt verkliga värde i hur brutalt sliten den hunnit bli på kanske 1.5 år. Klicka för att förstora bilderna.

Relevans i military och business intelligence: Darpa och FBI

Dessa två perspektiv – implicit resp. närmare sekventieull redundans – kan vi fundera över när vi tittar på ex. Darpa’s senaste projekt relaterat språkanalys eller tidigare FBI’s upphandling för text mining av bloggar, sociala media, forum, instant messaging och allt i övrigt tänkbart över tiden att bli aktuellt i gigantiska internet corpus med ständigt ”nya” tekniker och lösningar (själv sorterar jag fortfarande sociala media som antingen mer nära forum eller eg. ganska likt bloggar men med kortare text).

Tittar på vi text och mening vi hittar på internet: hur mycket värdefull konkret information hittar vi troligt direkt (om vi antar att korrektheten för sådant gör det energieffektivt att följa upp den allmänt)? En del del konkret värde finns: Inte minst bara vilka entiteter (ex. personer, organisationer, företag) som har relationer med varandra. Däremot givetvis ingen faktisk kunskap vi bättre extraherar från utvalda datakällor mer än internet generellt.

Och det explicita är vi när vi uttrycker oss oftare också mer noggranna med. Alternativt slarviga där det egentligen betyder föga. Att du ändå behöver tänka efter och sätta koncentrationskraft eller är i affekt.

Båda polerna kan påverka mottagarens värdering av oss (ex. hans är tråkig och berättar aldrig något intressant och hans skämtteckningar är fyllda med racial slures om tyskar och danskar: ska svenskarna aldrig komma över sin historia när du nu vann och tog hela Skåne. Både arg och uttråkad.)

Människan blir enklare mänsklig när flocken växer (lagom)

Tänker vi oss säkert intressant för de som söker reward i pengar implicita eller explicita läckor om företagsaffärer genom analys av information på nätet publicerat av sotra populationer är det föga normalt adderande något inte redan jämförbara eller bättre metoder finns för (ekonomin för en region eller bransch är en annan sak bl.a. därför att vi kan ta ut indikationer av innovation och hur väl sådana orkar tas emot av kund och allt där emellan vilket konkret når väldigt långt med ex. bara med ryggrad i patentansökningar). Ett till ex. jämförbart med patentansökningarna är dataanalysen som får en allt större viktigare roll inom biomedicin: Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden

Däremot att söka den implicita repetitionen eller de emotionella uttrycken relativt händelser vi objektivt kan beräkna korrelation till (t.ex. förändring av företagsledning) kan vara funktionellt (jag har aldrig prövat det på ett större företag i väsentlig skala men däremot en del 2011 och tidigt 2012 inom det politiska inte utan värde även med då snarast prototyper testande praktiska implementationer) – eller mer vågat (möjligt omoraliskt och ej vad jag själva skulle göra automatiserat) som koncept kanske addera informationskanaler in i populationen för att addera motsvarande priming koncept och mäta reaktionen (”All the people here in Uppsala says Google is afraid of Microsoft and noone really anyway does anything at Google but watching the stock news. How does that make you feel being the new Google CEO and one of the founders? Please anser in a RSS-feed indicated in the meta-data of this page. Thank you, and good luck with your great blog I always read almost daily.”).

Praktiskt värde begränsas dock i mängden vi betraktar. Ju större population vi meningsfullt kan avgränsa desto mindre exaktare blir det men samtidigt mer troligt korrekt i det mindre vi kan se. Analyserar vi den lokala livsmedelsbutikens medarbetares bloggar efter implicita uttryck säger det föga troligt något om en ev. kommande upphetsande rea utan troligare något från familjelivet. För däremot t.ex. samtliga politiker i Sverige ev. inkl. tjänstemän som publiceras är det görligt, eller p.s.s. i mer intressant lämpligt i det engelska språkområdet.

Största utmaningen: Tidens hastighet har lite med klockan att göra – Förändringen av intensiteten för språk och händelser är tiden

Ytterligare en begränsning i analys praktiskt och teoretiskt åtminstone så långt jag klarat att se är görligheten att synkronisera hastigheten på tiden in i framtiden när vi predikterat för en punkt nu eller i historien. Utmaningen är att hastigheten här i den mening av hur vi upplever det är relativt ungefär hastigheten saker sker med rent allmänt och inte bara just vad vi analyserar och följer. Finns motivation runt det senare blir fenomenet av och till väldigt märkbart också utan textanalys över stora populationer när olika entiteter försöker överrösta varandra över den kollektiva gemensamma kommunikationskanalyen media, TV, reklam, dagligt tal, tidningar m.m. representerar.

Vi som är åldrade och närmare oss 40 år minns ju också Sverige före internet och fler än två tevekanaler när en populär teve-serie kunde få landet att tystna i fascination över något annorlunda (innan televisionen blev nedring av upprörda medborgare oroade över amerikansk post-Vietnamkrigs-kultur-imperialism, fördumning av the common man of the street man nu hade monopol för att hjälpa att komma rätt, otäcka rednecks i ständigt återkommande serier säsong på säsong utan att folkförflyttningen från hemmet i byn till staden någonsin blev klart, eller radhusområdenas psykologiska-extrempunkter i dramatiserade trivialiteter koncentrerade till extrem hastighet, eller det vulgära Carola uttryckte musikaliskt och kanske på fler sätt: strunt i brist på bättre förutom kanske Onedin-linjen jag som tio åring tyckte var hade många goda artistiska värden).

Att också prediktera sådant brett d.v.s. gå utanför just vårt intresse över kanske i ”värsta” fall närmare en miljon koncept är dock mycket mer beräkningskrävande samtidigt som det kraftigt ökar risken för att fel ska propagera från områden där vi inte har riktigt lika bra data (vår kapacitet för mining är ju också begränsad). Samtidigt som sådant om vi håller det separerat i varje ny verklig tidpunkt är typ av data att kontrollera vad vi fortlöpande predikterar mot när det ej tillräckligt tydligt kan verifieras upp till den punkten.

När vi begränsar vad vi analyserar finns risk för nasty surprise

P.s.s. kan sådant när vi ej insett att det ska ses överraska oss. Det blev ju fallet ganska nyligen när revolutionen i Syrien bröt ut som tidigt inte alls fanns på min karta. Om något var det där bara lite mur framför Persien (iran men just sett lite flexiblare över gränserna följande kulturhistorien). Tid är klurigt precis som när vi är upptagna fokuserat själva på något. Vi märker inte tydligt att den behöver passera och kanske missar en buss.

Det störde mig oerhört mycket vid tillfället därför att det var en så fin kedja innan från Syd-Sudan och framåt. Libyen var ju också verkligen så lyckat: viktigt för både Arabvärlden och Västerlandet på väldigt många sätt. Det är konkret viktigt att Libyen lyckas bra i år. Att börja rätt är gör allt enklare därefter. Syrien riskerar att inte bli annat än det otäcka exemplet. Worst-case när diktaturens upplevda huvud i vansinne inte klarar att röra sig. En varning för andra diktaturer ej så förtappade att de hellre förstör hela sitt land för att hindra vad alla utom han själv vill kunna göra. Libyen är mycket mer om saker inte går sämre än nu: En viktig möstespunkt med Västerlandet. Ett ex. på att det går att ta ett förtryckt folk till ett stabilt land. I år är Libyen viktigt.

”Hx(y) can be thought of as the additional information we can expect from each new word in the sequence. Thus Hx(y) is closely related to the rate at which informationen is generated by the source: it measures the average number of bits per unit (per word)”.

George A. Miller

Relevans – om vi alls ska förenkla ett begrepp som också måste inkludera vår förmåga att ställa intressanta frågor d.v.s. en kreativ-process där vi ser möjlighet i data att söka djupare utan behov av detektions-baserade regler – behöver därför om det ska vara mer än analys av indata vara vad man kan verifiera ur quality assurance mening på andra sätt än att endast jämföra det med listor av givet korrekta nyckelfakta. Sådana har vi ju redan, och oavsett hur intressant att ta ut bredare, behöver vi för det implicita mäta relevans genom datats förmåga att prediktera världen i konkret mening.

I prediktion är det som för mig verkligen ett privilegium att prestigelöst av och till våg referera det här samtidigt som jag vankligen sedan 2010 påminner om utmaningen synknronisering innebär. Konkret just nu är det ”ett antal” månader sedan jag tappat asiatiska publikationer i någon bredd annat än vad jag själv noterat. En känsla jag har sedan någon månad är dock att jag kanske snarast bedömer tiden som för långsam. Jag upplever det inte som fel att mena att det är en karaktärs-defekt hos mig att jag inte vettigt sett till att jag har bandbredd och några till datorer men det är lätt för mig upplever jag att komma i ineffektivt arbete när jag splittrar upp oavsett hur egentligen trivialt det är att lösa för att sampla parallellt.

Relaterat

En till populärvetenskaplig ej länkad i brödtexteb och mer praktiskt användbar guide utan krav på förkunskaper är CIA:s genomarbetade översikt om hur attityder, bias, faktorer relaterat perception, information m.m. påverkar bedömningar vi gör.

Läsvärd är inte minst Chapter 13 Hindsight Biases in Evaluation of Intelligence Reporting och det är värt också att tänka till om hur detta bias tenderar att påverka bedömningar som görs i populationer och när det får betydelse. Kognitiva bias har den styra att vi kan kvantisera dem för populationer d.v.s. uttrycka hur närmare med vilken sannolikhet populationen är till ett beslut (vilken hastighet de fattar beslutet med). Vill man experimentera lite men inte är över-ambitiös i vilket fall man kan göra väldigt spännande saker räcker det bra att när någonr eagerar på en news event berättar du steg för steg att de redan insett det långt tidigare. Inte allt på en gång. Utan bit för bit med små-steg där de första stämmer näras nog helt med verkligheten. Därefter är ni tillsammans på markov-vandring där det bara handlar om att ingenting ska signalera nytt, fara, oväntat, unknown o.s.v. för då söks nu referenspunkt. När det vandrats ett tag har stabila minnen skapats ganska så. Ta också chansen att addera lite vetskap att de är skickliga på ett område de kan men kanske inte direkt överpresterat i tidigare. Korrekt och utan problematik för experimentet ber du om tillstånd en månad i förväg men utan detaljer relaterat metodik. Utanför det är det möjligen rent av olagligt.

Fler inlägg om analys av internet

I inlägget Prediktera och mäta internet pekade ut några inlägg om tidiga försök med mätning av ”trender” på nätet och berättade att arbetet numera kan följas på Prediktera morgondagen.

Här är några till äldre inlägg jag hittade  inom detta område:

Ett relevant begrepp – RLI

Intressant analys av AOL

Marknadsanalys med spam

Prediktera och mäta internet

I inlägget Att prediktera kommersiell framgång med internet sammanfattade jag kort några experiment jag gjorde under slutet av 2006. Jag skrev bland annat:

”Under slutet av 2006 testader jag en enkel metodik för att prediktera vad som blir en kommersiell framgång. Vad jag gjorde var att mäta hur omtalat Playstation 3 respektive Nintendo Wii var i olika sociala medier.

Nintendo Wii vs Playstation 3 på You tube.

Nintendo Wii vs Playstation 3 i Bloggosfären.

Zelda vs Sonic på Flickr.

Men fler tester gjorde. Slutsatsen blev att Nintendo hade goda förutsättningar att hämta igen kraftigt med Nintendo Wii. Det visade sig stämma. Nintendo Wii har sålt över allt förväntan och mer än Nintendo klarat av att tillverka. Prediktionsmetoden är med andra ord intressant och inte minst genom att kostnaderna är försumbara särskilt jämfört med frågeformulär och liknande.”

Dessa tankar har utvecklats en del genom åren. Händelser runt flera spännande varumärken följs på min Pryltrend. En av dessa är Nintendo och en kortfattad analys av vad som gjorde vi så framgångsrik publicerades 1 juni 2009:

Därför segrade Nintendo Wii i konsolkriget

Även håller jag sakta på att dokumentera den modell jag använder. Det sker separat på nya sajten:

Hedonimeter.org

Där beräknas också ett lyckovärde för Sverige.

Managed IT Services – Övervakning & Säkerhet

Svenska Wikipedia definierar Managed IT Services enligt:

Managed services innebär att företag väljer att lägga ut drift och underhåll av sina nätverk för telefoni och datatrafik på entreprenad, dvs låta en underentrepenör sköta tekniken. Ofta är det fråga om ett entrepenadbolag med många kunder, som då får stordriftsfördelar som t.ex. säkrare drift.

Definitionen är ganska vedertagen men det är tror jag intressant att fundera över den i kontext av IT-säkerhet. Managed IT (d.v.s. inte Managed IT Services) handlar om att hantera många servrar, affärssystem, IT-system, verksamhetssystem & hemsidor som kan vara tydligt olika. Typiskt har detta varit fallet för stora företag där flera generationer och många behov finns.

När vi lägger till Services till Managed IT hanterar en leverantör systemunderhåll åt många kunder. Just att miljöerna kan skilja sig åt blir ganska självklart.

Nytt behov för Managed IT Services
Numera har vi dock en ny situation där aktörer startar & förvaltar många olika sajter på nätet och köper upp sådant från andra. Situationen som leverantören av Managed IT Services har blir likartad för dessa aktörer.

Därmed kanske samma typ av mjukvara för utökad säkerhet och övervakning kan appliceras här?

Ta en sådan sak som att en hemsida blir hackad och underhållet ändras på sådant sätt att en sida med särskilt innehåll visas upp för Google (för att skada sidan eller gynna andra sidor: läs mer)… Övervakning för att upptäcka sådant finns lösningar för utvecklade från början för stora företag och leverantörer av Managed IT Services.

De flesta som bedriver sådan verksamhet driftsätter hos ett eller flera webbhotell. Man ska kunna förvänta sig och kräva att de hanterar dessa frågor. Likväl kan det för ett antal handla om mycket pengar och ett eget system som centralt hos företaget övervakar allt man har driftsatt hos olika leverantörer kan ha ett värde.

Mer om Managed IT Services
Företaget Upstream är agent för den mjukvara för Managed IT Services – Intellipool Network Monitor – jag föredrar och menar är ett mer effektivt alternativ för de flesta miljöer. Och den jag tror (men vet inte att det testats) som kan fungera bra i den här situationen. Tivoli och liknande känns däremot för komplex.

Varning: SEO-hacking nu i Sverige – Bingo först ut

Bingo sidan jag bloggade om nyligen visade sig efter det bli utsätt för s.k. SEO-hacking. Någon tog sig in på sajten och saboterade den för att skada dess ranking på Google. Resultatet av detta kom nästan omedelbart och den gick från medlande mellan position ett och två till att inte synas ens topp 200.

Efter att jag e-postat med webbplatsägaren har fått reda på att han tidigare erbjöds att köpa en tjänst för att skada hans konkurrenter. Givetvis tackade han nej. Han har även tidigare utsatts för annat sabotage från en konkurrent.

Vi är riktigt starka nu
Sådant här är oaccepterat. Vi har sett liknande saker tidigare. Särskilt vill jag säga att ingen drabbad ska känna sig ensam i det och vi har en tråd på forumet där man kan få stöd, råd och hjälp från övriga medlemmar: Drabbade av SEO-hacking. Erfarenhet hur man löser de akuta problemen går att få liksom hur man löser det hela med Google.

Jag stödjer Bingo sidan – Gör det du också!
Bingo sajten har nu åtgärdat sabotageåtgärderna som angriparen gjorde för att skada hans sajt. För att stödja dess återhämtning bloggar jag den här och jag uppmuntrar alla övriga att göra det samma. Nästa gång kan det vara du eller jag som drabbas och den som inte hjälper övriga ska inte räkna med att få någon hjälp alls själv om de drabbas och inte betalar för det.

Just nu är Bingo sidan tillbaka på sin gamla position men min erfarenhet gör mig övertygad att det orsakas av ett DC som har en tidigare version av hans sajt före angreppet. Så det är nog borta i morgon. Se därför till att ge Thomas det stöd du kan!

Min bedömning är att det här kommer bli vanligt 2008 och Cutts delar den:

2008 will be the year that hacking and search engine optimization (SEO) collide in a major way. By the end of the year, a nontrivial fraction of blackhat SEO will involve illegally hacking sites for links or landing pages. One webhost will get a significant black eye as hundreds or thousands of customers’ websites are hacked. The growth of illegal-blackhat SEO will leave traditional blackhats with a difficult choice: risk doing something illegal or sit out.

Citatet kommer från hans bloggpostning: My 2008 predictions.

Vidare kan jag säga att Bingo sajten är den som satsat på material av hög kvalitet medan vissa konkurrenterna istället satsat på ytliga åtgärder och tveksamma metoder. Exempel på mycket material Bingo sajten satsat är deras FAQ om Bingo, en omfattande och bra skriven historia över bingo och massor av fler artiklar av god kvalitet.

Thomas säljer heller inte sökmotorvänliga länkar. De flesta informationssajter om gambling är däremot stödjande sajter bara avsedda för att länka andra. Men det var väl så att blackhat-sajterna inte klarade av en seriös aktör och förföll till ännu värre ondska istället. Och direkta lagbrott och beroende på omständigheter sådant som kan falla under internationell terrorism.

Thomas som driver sajten har också berättat att många fler stora artiklar är planerade. Bland annat ordlistor, reportage med med bingoleverantörer m.m. Det är en sajt som förtjänar en länk oavsett angreppet.

Erfarenhet från Google, Yahoo och Live + Wikipedia
Google reagerade snabbast på angreppet. En sak man såg tidigt var att site sökning inte visade första sidan alls. Yahoo tenderade att visa saboterade sidor högre på site sökning. MSN tog inte upp angreppet lika snabbt.

Mer om webbspam finns att läsa i Wikipedia.

Mer om Bingo
Det här häftiga bingospelet för hemmabruk såg ju riktigt elegant ut. Inget man förstör genom att spela med. Bloggade om det på min prylblogg: Bingo hemma (inte på nätet).

Bingspelet säljs här för den som inte ids besöka min prylblogg.

Vet du inte vad bingo är? Läs i Wikipedia: Bingo.

Uppdatering av möjligheter till länkar om man inte vill betala för dem

Jag gjorde en stor uppdatering av artikeln möjligheter till länkar om man inte vill betala för dem på min nya blogg som är specialiserad på sökmotorer: Att få Seriösa & Kraftfulla Länkar Gratis.

Fler möjligheter till länkar tas upp och liksom:

  1. Naturliga och spontana länkar.
  2. Olika generationer på sökmotoroptimering.
  3. Nulägesanalys av olika länkars värde.

Att prediktera kommersiell framgång med internet

Uner slutet av 2006 testader jag en enkel metodik för att prediktera vad som blir en kommersiell framgång. Vad jag gjorde var att mäta hur omtalat Playstation 3 respektive Nintendo Wii var i olika sociala medier. Några exempel på testerna var:

Nintendo Wii vs Playstation 3 på You tube.

Nintendo Wii vs Playstation 3 i Bloggosfären.

Zelda vs Sonic på Flickr.

Men fler tester gjorde. Slutsatsen blev att Nintendo hade goda förutsättningar att hämta igen kraftigt med Nintendo Wii. Det visade sig stämma. Nintendo Wii har sålt över allt förväntan och mer än Nintendo klarat av att tillverka. Prediktionsmetoden är med andra ord intressant och inte minst genom att kostnaderna är försumbara särskilt jämfört med frågeformulär och liknande.

Vad är Playstation 3 och Nintendo Wii?
De är spelkonsoler som kom ut på marknaden ungefär samtidigt. Playstation 3 hade starkare hårdvara. Nintendo Wii var istället mer nytänkade med en ny typ av styrkontroll som spelkonsolen kan följa positionen av. Den går därför att använda som tennisraket, svärd m.m.

Mer om Playstation 3:

Forum, nyheter m.m. om Playstation 3 (svenska).

Officiell sajt för Playstation 3 (svenska).

Mer om Nintendo Wii:

Officiell sajt för Nintendo Wii (svenska).

Forum om Nintendo Wii (svenska).

Tidigare bloggat:

Wii in Melbourne.

nintendo_wii.

Nintendo Wii Kiosk.

Commodore 64 lever och har massor av användare.

Nintendo Wii mot Playstation 3 i vinter.

Zelda vs Sonic på Flickr.

Nintendo Wii mot Playstation 3 i bloggosfären.

Nintendo Wii vs Playstation 3 på You Tube.