20200220

From

Studying Disability Related Terms with Swe-Clarin ResourcesLars Ahrenberg1, Henrik Danielsson2, Staffan Bengtsson3, Hampus Arv ̊a1,Lotta Holme2, Arne J ̈onsson1

Our primary resource for this study are the Official Reports of the Swedish Government (henceforth:SOU1) from 1922 to 2016 as found at the Swedish Language Bank2, the resource hub of Swe-Clarin3.For the studies on frequencies and word embeddings the texts were lowercased and stop words wereremoved and grouped into decades. It was necessary to use this coarse granularity as reports coveringtopics related to disability are unevenly distributed over years.The SOU-files, especially for the earliest periods, contain many errors due to failing OCR. However,word-based methods are often robust allowing general trends in the data to be captured even in thepresence of noise. As it turned out, also word embeddings could be produced, showing plausible relationsbetween terms.

Initial search

'\(narkoti*\|\bdrog\(miss\|poli\|prob\|påve\|ratt\|rela\|roma\|test\)\)'

Counts:

               %n  %b  %nb       tot n b
---------------------------------------------------------------------
../SOU 192 narkotika brott .0105 .7973 .0105 1.0000 .0132 380 4 303
../SOU 193 narkotika brott .0242 .7611 .0202 .8333 .0265 494 12 376
../SOU 194 narkotika brott .0262 .8606 .0245 .9375 .0285 610 16 525
../SOU 195 narkotika brott .0772 .8130 .0752 .9736 .0925 492 38 400
../SOU 196 narkotika brott .1035 .8253 .1004 .9701 .1217 647 67 534
../SOU 197 narkotika brott .2540 .8707 .2425 .9549 .2785 874 222 761
../SOU 198 narkotika brott .2889 .8852 .2796 .9680 .3159 758 219 671
../SOU 199 narkotika brott .2204 .8366 .2099 .9525 .2509 1243 274 1040
../SOU 200 narkotika brott .2229 .7928 .2137 .9588 .2696 1960 437 1554
../SOU 201 narkotika brott .3111 .8851 .3111 1.0000 .3515 601 187 532
---------------------------------------------------------------------
sum               .1831          8059 1476

Top 10 terms for 21 topics:

+------+--------------+----------------+----------------+-----------------+--------------------+------------------+---------------------+----------------+
| Rank | sounark_01  | sounark_02   | sounark_03   | sounark_04   | sounark_05     | sounark_06    | sounark_07     | sounark_08   |
+------+--------------+----------------+----------------+-----------------+--------------------+------------------+---------------------+----------------+
|  1 | eu      | kvinnor    | barn      | hälso      | äro        | läkemedel    | personuppgifter   | brott     |
|  2 | artikel   | män      | barnet     | vård      | torde       | apoteket     | uppgifter      | fängelse    |
|  3 | eg      | invandrare   | barnets    | patienter    | böra        | apotek      | sekretess      | brottet    |
|  4 | sverige   | sverige    | föräldrarna  | sjukvården   | såsom       | apoteken     | behandling     | brb      |
|  5 | lagen    | våld      | föräldrar   | patienten    | beträffande    | läkemedelsverket | lagen        | straff     |
|  6 | direktivet  | diskriminering | barnen     | vården     | må         | apotekens    | personuppgiftslagen | grovt     |
|  7 | bestämmelser | personer    | barns     | läkare     | sålunda      | läke       | register      | böter     |
|  8 | varor    | kvinnorna   | lvu      | patientens   | medicinalstyrelsen | läkemedlet    | sekretesslagen   | gärningsmannen |
|  9 | kommissionen | barn      | socialtjänsten | sjukvård    | kungl       | receptfria    | direktåtkomst    | gärningen   |
|  10 | regeringen  | svenska    | ungdomar    | socialstyrelsen | synes       | ab        | uppgifterna     | brottslighet  |
+------+--------------+----------------+----------------+-----------------+--------------------+------------------+---------------------+----------------+
+------+---------------------+------------+----------------+--------------------+--------------------+------------------+-----------------+-------------------+
| Rank | sounark_09     | sounark_10 | sounark_11   | sounark_12     | sounark_13     | sounark_14    | sounark_15   | sounark_16    |
+------+---------------------+------------+----------------+--------------------+--------------------+------------------+-----------------+-------------------+
|  1 | alkoholdrycker   | to     | elever     | uppehållstillstånd | polisen      | lvm       | intagna     | ersättning    |
|  2 | alkohol       | and    | skolan     | utlänningen    | polisens      | vård       | kriminalvården | försäkrade    |
|  3 | vin         | that    | eleverna    | utll        | säkerhetspolisen  | tvångsvård    | anstalt     | arbetsgivaren   |
|  4 | sprit        | is     | lärare     | utlänning     | rikspolisstyrelsen | missbruk     | intagne     | rehabilitering  |
|  5 | starköl       | for    | undervisningen | sverige      | brott       | missbrukare   | dömde      | förtidspension  |
|  6 | alkohollagen    | be     | skolans    | utvisning     | polismyndigheten  | socialtjänsten  | anstalten    | sjukpenning    |
|  7 | öl         | or     | utbildning   | avvisning     | polis       | vården      | intagen     | arbete      |
|  8 | servering      | with    | elevernas   | siv        | försvarsmakten   | missbrukarvården | anstalter    | försäkringskassan |
|  9 | drycker       | this    | utbildningen  | utlänningar    | uppgifter     | socialnämnden  | kriminalvårdens | lagen       |
|  10 | serveringstillstånd | by     | undervisning  | utlänningslagen  | polisverksamheten | insatser     | frigivning   | arbetstagare   |
+------+---------------------+------------+----------------+--------------------+--------------------+------------------+-----------------+-------------------+
+------+-------------------+--------------+-----------------+----------------+------------+
| Rank | sounark_17    | sounark_18  | sounark_19   | sounark_20   | sounark_21 |
+------+-------------------+--------------+-----------------+----------------+------------+
|  1 | rb        | statliga   | körkort     | tv       | e11er   |
|  2 | åklagaren     | bidrag    | fordon     | reklam     | ska11   |
|  3 | misstänkte    | kommuner   | förare     | radio     | eniigt   |
|  4 | brott       | nya     | körkortet    | sändningar   | sku11e   |
|  5 | åklagare     | verksamheten | alkolås     | tf       | gä11er   |
|  6 | hemlig      | svenska   | fordonet    | program    | fa11    |
|  7 | rätten      | kommunala  | föraren     | ygl      | me11an   |
|  8 | förundersökning  | utveckling  | kkl       | marknadsföring | o1ika   |
|  9 | åtal       | förslag   | rattfylleri   | reklamen    | oiika   |
|  10 | förundersökningen | kommunerna  | körkortshavaren | radiolagen   | a11a    |
+------+-------------------+--------------+-----------------+----------------+------------+

Some top frequencies:

  7515 narkotika
  1809 brott
  1663 narkotika.
  1513 narkotikabrott
  1455 narkotika,
  1054 lagen
  1019 grovt
  1006 narkotika-
  932 alkohol-
  927 narkotiska
  908 missbruk
  899 alkohol
  882 narkotikamissbruk
  851 narkotikamissbrukare
  748 läkemedel
  668 kontroll
  611 brottslighet
  572 grov
  558 fängelse
  525 narkotikastrafflagen
  514 hälsofarliga
  445 narkotikabrott.
  439 narkotikan
  437 alkohol,
  434 grova
  408 polisen
  406 vård
  397 åtgärder
  392 behandling
  365 förbud
  363 arbete
  350 narkotika.^M
  337 narkotikamissbruket
  335 stöd
  333 straff
  318 narkotikabrott,
  309 dopningsmedel
  309 brottet
  303 barn
  277 narkotikamissbrukare.
  273 missbrukare
  272 ungdomar
  272 domstolen
  269 hälso-
  254 narkotikasmuggling
  251 droger
  250 smuggling